Google AI Studio 學習指南

一、 Google AI Studio 概述

Google AI Studio 是一個基於瀏覽器的整合式開發環境 (IDE)，專為原型設計和測試 Google 的生成式 AI 模型（主要是 Gemini 系列）而設計。它提供了一個「AI 實驗室」般的介面，讓使用者即使不寫程式碼也能直接與 AI 模型互動。相較於一般使用者導向的 Gemini App，AI Studio 提供更細緻的控制功能，並聚焦於開發者和內容創作者的實驗與應用開發需求。

主要目的：

快速原型設計與實驗：讓開發者、學生和研究人員能快速試用不同的 Gemini 模型和測試各種提示詞。

應用開發基礎：提供工具和介面，將實驗成果轉換為可部署的程式碼，並整合到應用程式或網站中。

與 Google Gemini App 的區別：

功能面向Google AI StudioGemini App / Gemini Advanced使用對象開發者、內容創作者、進階用戶、學生、研究人員一般使用者、日常助理用途模型選擇可選多種模型版本 (Gemini Pro, Flash, CodeGemma, LearnLM)系統自動選擇 (依訂閱等級)，模型更新較慢自訂 Prompt可儲存、調整、測試多版本 Prompt，提供系統指令、溫度等細緻控制主要為單一互動，Google 的系統提示詞限制模型的行為和語氣多模態支援圖片 / 聲音 / 影片 / 文件等多種格式輸入與生成部分支援 (取決於應用場景)，視覺分析和即時串流功能較少適合工作任務內容生成、摘要撰寫、影片分析、程式碼測試、應用程式原型開發回覆問題、資料搜尋、日常協助、個人助理、整合 Workspace 功能資料隱私免費版會收集用戶資料用於模型訓練；付費版可關閉此功能免費版會收集用戶資料；付費版可關閉此功能費用UI 介面目前免費，API 根據 Token 計價，有免費額度，但超出後會收費免費版有次數限制，Pro 版需訂閱月費UI 穩定性某些情況下有 Bug，如長對話記錄易遺失、上傳失敗等穩定，Chat 記錄保存良好二、 Google AI Studio 主要功能

Google AI Studio 提供了四大主要功能，讓使用者能全面利用 Gemini 模型的能力：

1. Chat (聊天)

這是 AI Studio 的核心工作區，用於與 AI 模型進行對話式互動，並配置模型的邏輯和行為。

System Instruction (系統指令)：定義模型的「個性」、角色、目標和限制，作為整個對話的永久上下文。

Compare mode (比較模式)：同時在不同模型或同一模型的不同版本上執行相同的提示，並並排比較其回應。

模型參數調整：Model (模型)：選擇基礎語言模型，如 Gemini 2.5 Pro (擅長複雜推理和程式碼)、Gemini 2.5 Flash (速度快、成本效益高)、Gemini 2.5 Flash-Lite (成本最低)。還包括 Gemma 模型 (小型，用於設備端測試) 和 LearnLM 模型 (教學用)。

Temperature (溫度)：控制模型回應的隨機性和創造性。高值產生多樣且意想不到的回應，低值則更保守和可預測。

Media resolution (媒體解析度)：處理輸入媒體 (圖片、影片) 的細節程度。

Thinking mode (思考模式)：讓 AI 在輸出結果前分解任務並進行推理。可設定思考預算 (Thinking Budget) 限制思考時間。

Structured output (結構化輸出)：接收預定義格式的回應，如 JSON。

Grounding with Google Search (透過 Google 搜尋進行基礎查詢)：讓模型即時存取 Google 搜尋，以獲取最新資訊，減少「幻覺」。

URL Context (URL 上下文)：允許使用者指定特定 URL 作為 AI 獲取上下文的來源。

Stop sequences (停止序列)：定義模型應停止生成文本的特定字元序列。

檔案上傳與分析：支援上傳圖片、音檔、影片和文件（如 PDF、CSV）進行摘要、分析或提取資訊。

影片分析：可視覺化分析 YouTube 影片內容，例如識別影片中出現的物體或顏色。

2. Stream (即時串流)

這是一種互動式介面，支援麥克風、網路攝影機和螢幕分享，讓 AI 能「看」和「聽」使用者提供的內容，並即時回應。

Share screen (螢幕分享)： AI 可以即時觀察使用者在螢幕上的操作，並提供逐步指導或解決問題。

Voice (語音互動)：透過麥克風與 AI 對話。

Webcam (網路攝影機)：透過攝影機分析視覺輸入，如辨識物體或文字。

Turn coverage：設定 AI 是持續考慮所有輸入還是僅在語音期間考慮，模擬自然對話。

Affective dialog：讓 AI 辨識語音中的情感並做出相應回應。

Proactive audio： AI 過濾背景噪音和不相關的對話，僅在適當時候回應。

3. Generate Media (生成媒體)

此功能集中了生成語音、圖片、音樂和影片的介面。

Gemini Speech Generator (語音生成器)：將文字轉換為語音，支援多種聲音、語言、情緒和語速調整，可用於旁白、音訊指南等。

Image Generation (圖片生成)：從文字提示 (prompt) 生成圖片，支援 Imagen 4、Imagen 4 Ultra 和 Imagen 3 模型。可調整長寬比和生成數量。

Nano Banana (Gemini 2.5 Flash Image)： Google 最新的圖片生成模型，強調對話式編輯、多圖合成與推理以及深層邏輯推理。

Music Generation (音樂生成)：透過 Lyria RealTime 模型即時生成音樂，可調整樂器、類型和情緒。

Video Generation (影片生成)：根據文字提示或圖片生成影片，支援 Veo 2 和 Veo 3 模型。影片長度最長 8 秒，解析度 720p，影格率 24fps。支援負面提示 (Negative Prompt)。

4. Build (建立應用程式)

此部分讓使用者將高層次概念轉換為可運作的應用程式原型，並提供程式碼。

App Generation (應用程式生成)：描述所需應用程式的功能，AI Studio 將生成基本架構、API 呼叫和資料結構。

Showcase (展示區)：瀏覽其他開發者建立的專案及其程式碼，提供學習和靈感。

部署：支援將建立的應用程式一鍵部署到 Cloud Run，並生成公開 URL。

三、 Google AI Studio 使用技巧

1. 有效的提示詞 (Prompt) 設計：

設定角色和任務目標：明確指出模型應扮演的角色（例如「經驗豐富的程式設計師」）和任務目標。

指定輸出格式和風格：要求模型使用特定的結構（JSON、表格、Markdown）或語氣風格（例如「以 JSON 格式回答，包含欄位：name、description、tags」）。

清晰的語義和聚焦的任務：避免模糊不清或包含過多目標的提示，將任務拆解為清晰的指示。

多模態上下文：若包含圖片、音訊等非文字內容，提供補充說明，例如「這張圖是我拍的早餐，請列出菜名與熱量估算」。

迭代和測試：輸入提示 → 觀察回應 → 修改語句 → 重試 → 儲存成功版本。

2. 資料隱私與費用考量：

免費版與資料收集：預設情況下，免費版會收集您的提示和上傳檔案以改進 AI 模型，資料可能由人工審閱。強烈建議避免分享機密資訊。

付費版與資料隱私：啟用 Google Cloud Billing 後，您的使用會被歸類為付費服務，Google 不會將您的資料用於模型訓練或產品改進。

免費額度與計價： Google AI Studio 提供免費額度（例如 Gemini API 每分鐘 60 次請求，圖像生成有免費次數），但超出後會按 Token 數量或圖像生成次數計費。不同模型費用差異大，例如 Gemini 2.5 Pro 的 Token 費用高於 Gemini 2.5 Flash。

監控用量： AI Studio 介面會顯示當前會話的 Token 數，但需自行前往 Google Cloud 控制台查看帳單記錄或透過 API dashboard 監控每日請求數。建議設定預算上限或每日請求數限制。

四、常見應用情境

Google AI Studio 因其多模態處理能力和高度自訂性，適用於多種個人和商業應用：

內容創作：生成部落格文章初稿、社群媒體貼文、行銷文案、YouTube 影片標題和腳本。

研究與分析：摘要長篇文件（如法律案例、產品說明）、分析 CSV 資料、從圖片中提取資訊、進行市場競爭分析。

教育與學習：建立學習筆記、摘要課程內容、生成複習題目、製作抽認卡、用 AI 輔助理解複雜概念。

個人生活決策：財務分析（保守型 vs. 成長型投資者視角）、重大採購決策（權衡利弊）、職業路徑分析、健康和運動計畫記錄。

技術問題解決：透過螢幕分享指導使用者操作新軟體、解決程式碼問題、頭腦風暴工作流程。

多媒體創作：生成圖片（如室內設計、賀卡、社群媒體圖）、動畫圖片、生成短影片、文本轉語音。

自動化流程：將影片內容轉換為 SOPs (標準作業程序) 或培訓材料、自動生成 FAQs、合規性文件。

應用程式開發：快速原型設計 AI 應用程式，並將模型能力整合到網站或服務中。

測驗：Google AI Studio 深度理解

1. 短答題 (每題 2-3 句話)

Google AI Studio 與 Gemini App 之間最主要的區別是什麼？

「系統指令 (System Instruction)」在 Google AI Studio 中扮演什麼角色？請舉例說明其功用。

說明「比較模式 (Compare mode)」在 Google AI Studio 中的用途，以及它對開發者或內容創作者的價值。

在 Google AI Studio 中調整「溫度 (Temperature)」參數會有什麼效果？

在免費使用 Google AI Studio 時，使用者需要注意哪些資料隱私方面的問題？

「Grounding with Google Search」和「URL Context」這兩個工具在資訊獲取方面有何不同？

Nano Banana (Gemini 2.5 Flash Image) 在圖片生成方面有何獨特之處，使其區別於傳統 AI 繪圖工具？

除了文字生成，Google AI Studio 還支援哪些形式的媒體生成？請列舉至少兩種。

在 Google AI Studio 中，若要將影片內容轉換為標準作業程序 (SOPs)，大致的步驟是什麼？

對於需要開發或部署應用程式的用戶，Google AI Studio 如何協助他們從原型設計階段過渡到實際應用？

2. 申論題 (請勿提供答案)

詳細比較 Google AI Studio 和 OpenAI 平台的 Fine-tuning（微調）功能，包括資料格式要求、成本模型、支援模型以及各自的優缺點。你認為在何種情況下，一個平台會比另一個更具優勢？

分析 Google AI Studio 的多模態輸入與生成功能如何為不同行業的專業人士（例如行銷人員、教育工作者、遊戲開發者）創造價值。請舉例說明每個行業如何利用這些功能。

探討 Google AI Studio 的「Stream (即時串流)」功能，特別是螢幕分享和語音互動，如何提升技術問題解決和教學輔導的效率。它相較於傳統的線上支援或學習方式有何顯著優勢與潛在挑戰？

從使用者體驗和開發者生態系統的角度，評估 Google AI Studio 在 2025 年的「免費」策略。這種策略對 Google 收集數據、吸引用戶和長期商業模式有何影響？其與付費服務的界線應如何平衡以維持競爭力？

討論如何利用 Google AI Studio 的不同功能（例如 Chat 中的多角色設定、Generate Media 的圖片生成、Build 的應用程式原型）來開發一個創新的個人化學習平台。詳細說明各功能如何協同工作，以實現高度客製化和互動式的學習體驗。

3. 關鍵詞彙解釋

Google AI Studio： Google 推出的網頁版整合式開發環境 (IDE)，主要用於原型設計、測試和開發基於 Gemini 模型的 AI 應用程式。

Gemini (模型)： Google 開發的一系列多模態生成式 AI 模型，能夠處理文本、圖像、音訊和影片等多種資料類型。

Gemini App： Google 面向一般使用者推出的 AI 助理產品，相較於 AI Studio 具有較少自訂選項和較多內建限制。

Prompt (提示詞)：輸入給 AI 模型以引導其生成回應的指令或問題。

Fine-tuning (微調)：針對特定需求（如寫作風格、領域知識）對預訓練的大型語言模型進行客製化訓練的過程。

System Instruction (系統指令)：在 AI Studio 的 Chat 模式中，設定模型扮演的角色、語氣、目標和限制，作為整個對話的永久上下文。

Temperature (溫度)：控制 AI 模型生成回應的隨機性和創造性的參數；數值越高，回應越具創意和不可預測性。

Structured Output (結構化輸出)：讓 AI 模型以預定義的格式（如 JSON、表格）而非純文本形式生成回應。

Grounding with Google Search (透過 Google 搜尋進行基礎查詢)：一項功能，允許 AI 模型即時存取 Google 搜尋結果，以提供最新和更精確的資訊，減少「幻覺」。

URL Context (URL 上下文)：允許使用者指定特定 URL，讓 AI 模型從該網頁獲取上下文資訊。

Stream (即時串流)： Google AI Studio 中的一個互動模式，支援語音、網路攝影機和螢幕分享，讓 AI 能即時觀察並回應使用者提供的輸入。

Generate Media (生成媒體)： Google AI Studio 中用於生成圖像、影片、語音和音樂的功能區。

Nano Banana (Gemini 2.5 Flash Image)： Google 最新的圖像生成模型，以其強大的對話式編輯、多圖合成和深層邏輯推理能力聞名。

Veo (模型)： Google 開發的影片生成模型，可用於從文字提示或圖像生成短影片。

Lyria RealTime (模型)： Google 開發的音樂生成模型，用於即時互動式音樂創作。

Build (建立應用程式)： Google AI Studio 中用於將高層次應用概念轉換為可運作的原型應用程式，並提供程式碼的功能區。

Cloud Run： Google Cloud Platform 提供的一項全代管服務，允許使用者部署和執行容器化的應用程式。

Token (權杖)：在大型語言模型中，文本被分解為更小的單元，稱為 Token，用於計費和計算輸入/輸出長度。

測驗答案卷

1. 短答題答案

Google AI Studio 是一個面向開發者和進階用戶的 AI 實驗與原型開發平台，提供更多模型選擇和細緻的控制功能。Gemini App 則是一個面向大眾的消費級 AI 助理，功能更精簡且受 Google 系統提示詞的限制。

「系統指令」用於為 AI 模型設定永久的「個性」、角色、目標和限制，影響其整個對話的風格和行為。例如，可以設定模型為「一位保守的理財顧問」，使其在財務分析時傾向於規避風險的建議。

「比較模式」允許使用者同時在多個 AI 模型或同一模型的不同版本上執行相同的提示，並並排比較它們的回應。這對於快速評估不同模型在特定任務上的表現差異，或比較參數調整對輸出結果的影響非常有價值。

在 Google AI Studio 中，調整「溫度」參數會影響 AI 回應的隨機性和創造性。較高的溫度會使 AI 生成更多樣、意想不到且可能不那麼精確的回應；較低的溫度則會產生更保守、可預測且可能更精確的答案。

在免費使用 Google AI Studio 時，Google 會收集使用者的提示和上傳檔案來改進其 AI 模型，且這些資料可能由人工審閱。因此，使用者應避免分享任何機密、敏感或私人資訊。

「Grounding with Google Search」讓 AI 模型能夠即時存取整個 Google 搜尋結果，以獲取最相關和最新的資訊。而「URL Context」則允許使用者指定一個或多個特定的 URL 連結，引導 AI 模型僅從這些連結中提取上下文和資訊。

Nano Banana (Gemini 2.5 Flash Image) 的獨特之處在於其原生多模態架構，能夠同時理解語言和視覺，並支援「對話式編輯」、「多圖合成與推理」和「深層邏輯推理」。這使得使用者可以像與設計師對話一樣，逐步修正和優化生成的圖像，而不僅僅是輸入關鍵字。

除了文字生成，Google AI Studio 還支援圖片生成（使用 Imagen 模型）、影片生成（使用 Veo 模型）、語音生成（將文字轉換為語音）和音樂生成（使用 Lyria RealTime 模型）。

要將影片內容轉換為 SOPs，使用者需將影片上傳到 Google AI Studio，然後搭配適當的提示詞（例如「將這段影片轉換為高度組織化的逐步流程說明，包括時間戳、常見錯誤和故障排除」），AI 便會處理影片並生成文件。

Google AI Studio 允許使用者在滿意提示原型後，點擊「取得程式碼」按鈕，選擇偏好的程式語言來匯出程式碼。這讓開發者能夠將在 AI Studio 中設計的邏輯和設定，無縫整合到自己的應用程式或網站中，進行大規模部署。

走,私の旅行

搜尋此網誌

Google AI Studio 學習指南

留言

張貼留言