【Google I/O】AI 製片新工具 Flow 登場！Veo 3 進化聲畫俱全

- 廣告 -

生成式 AI 其中最吸引大家目光的就是圖像和影片生成，加上文字轉語音、音樂以至音效生成，為創作人帶來嶄新的創作方式和衝擊。在 Google I/O 上，Google 就一口氣發表了最新影片和圖像生成新模型 Veo 3 和 Imagen 4，並同時發表新的 AI 影片製作工具 Flow。而即使不是藝術工作者，Google 的商務用影像工具 Vids 亦推出 AI 虛擬主播功能，讓大家在工作上也可輕易使用影像來作報告演示、員工培訓和產品介紹。

Veo 3 影片生成模型

Google DeepMind 最新一代的視頻生成模型，相較 Veo 2 提升了畫質，並首次支援生成帶有音效的視頻，例如城市街道的交通噪音、公園的鳥鳴，甚至角色對話。Veo 3 在文字和圖像提示、物理真實性及唇部同步方面表現出色，能將短篇故事提示轉化為生動的視頻片段。

Google 就展示了一段老人在船上獨白的片段，海浪聲和老人的對白都是由 AI 生成，唇部同步亦相當精準。Veo 3 即日開始透過 Gemini App 和 AI 影片製作軟件 Flow 向美國的 Google AI Ultra 訂戶提供，企業用戶也可以透過 Vertex AI 平台使用新模型。

- 廣告 -

Veo 2 更新

至於上一代的 Veo 2 模型亦有多項與創作人和製片人合作開發的功能，包括：

參考驅動視頻：支援輸入角色、場景、物件或風格的圖像，增強創作控制和一致性。
鏡頭控制：提供精確的鏡頭移動設定，如旋轉、推拉和縮放。
外擴畫面：可將視頻從縱向轉為橫向，智能擴展場景。
物件添加與移除：支援在視頻中添加或移除物件，考慮尺寸、交互和陰影，生成自然逼真的場景。

這些功能中，參考驅動視頻和鏡頭控制已可在 Flow 使用，未來數星期內可透過 Vertex AI API 調用，其他 Google 產品就要幾個月後才推出。

製片新工具 Flow

這是一個專為製片人而設計的 AI 影片製作工具，整合 Google DeepMind 的 Veo、Imagen 和 Gemini 模型。用戶可通過自然語言描述場景，管理角色、場地、物件和風格，並將故事編織成精美的電影片段。

Flow 的主要功能包括：

鏡頭控制
場景構建：支援無縫編輯和擴展現有鏡頭，例如揭示更多動作細節或平滑過渡到下一個場景，保持動作連貫性和角色一致性。用戶可基於現有場景圖像開始場面，實現流暢的創作流程。
影像資產管理：提供便捷的影像資產管理系統，讓用戶輕鬆組織和管理創作所需的角色、場景、物件和提示句（prompts）。用戶可上傳自有資產，或利用 Imagen 的文字轉圖像功能生成新素材，確保創作素材的一致性和可重複使用性。
Flow TV：一個不斷更新的展示平台，包含使用 Veo 生成的視頻片段、頻道和內容。用戶可查看喜歡的片段所使用的具體提示句和技術，作為學習和適應新風格的實用工具，激發創作靈感。

Flow 目前已開放給美國的 Google AI Pro 和 Ultra 訂戶使用，並打算在未來擴展至更多國家。Pro 訂戶每月可享用 100 次生成額度，用 Ultra 訂戶除了有更多生成額度外，還可以使用最新的 Veo 3 模型生成影片。

Imagen 4 輸出 2K 圖像

最新的圖像生成模型，具備高清晰度和精細細節處理能力，適用於寫實和抽象風格，支持多種長寬比及最高 2K 解析度輸出，特別擅長字體和排版設計，適合製作賀卡、海報和漫畫。

- 廣告 -

Imagen 4 目前可以透過 Gemini App、Whisk 和 Vertex AI 平台，及 Google Workspace 的 Slides、Vids、Docs 等產品取用，未來將推出比 Imagen 3 快 10 倍的快速版本。

Gemini 2.5 原生音頻輸出

Gemini 2.5 Live API 是 Google 提供的一款多模態實時交互 API，供開發者開發出能處理語音、視頻和文字輸入的實時應用，模擬自然的人機對話體驗。在 Google I/O 中 Live API 宣布推出音視頻輸入及原生音頻對話預覽版，支援更自然、富有表現力的對話體驗，用戶可自定義語氣、口音及說話風格，如要求模型以戲劇性語音講故事。模型還支援使用工具，可代用戶搜尋資料。其他早期功能還包括：

情感對話：模型檢測用戶語音情感並適當回應。
主動音頻：模型忽略背景對話，並能識別何時該作出回應。
Live API 思考：利用 Gemini 的思考能力處理更複雜任務。

Google 亦同時在 Gemini 2.5 Pro 及 2.5 Flash 推出文字轉語音 (TTS) 新預覽版，首創支援多位講者，可透過原生音頻輸出雙語音對話，支援超過 24 種語言並可無縫切換。TTS 功能現已於 Gemini API 中提供。

Google Vids：AI 虛擬主播代言

Google Vids 是個令影片成為工作實用工具的平台，讓用戶毋須專業知識和高預算，即可生成影片作團隊培訓、報告演示、發布公告等工作用途。而最新的 AI 虛擬主播功能，無需拍攝或協調演員，只需編寫腳本並選擇 AI 虛擬主播即可生成專業視頻。這功能將於下個月在 Google Labs 推出。

ZCOPE 最新影片

- 廣告 -

【Google I/O】AI 製片新工具 Flow 登場！Veo 3 進化聲畫俱全

Veo 3 影片生成模型

Veo 2 更新

製片新工具 Flow

Imagen 4 輸出 2K 圖像

Gemini 2.5 原生音頻輸出

Google Vids：AI 虛擬主播代言

ZCOPE 最新影片

Related Articles

Red Hat 新推出 AI Enterprise 主打統一人工智能平台

美國聯邦最高法院定調　純 AI 生成作品不具版權資格

全球首部鍵盤式 AI PC HP EliteBoard G1a 正式上市

網絡安全條例生效關鍵基礎設施要如何準備？

Recent Articles

【場料】3/10 發佈 HONOR Magic V6 輕薄大摺　國行最快「這一天」開賣！港版可能要再等等？

Red Hat 新推出 AI Enterprise 主打統一人工智能平台

【場料】千元內 2K 螢幕有睇頭

【場料】HONOR 閃推三款高性價比新作　X5c Plus、X6d 5G 及 Pad X8b 強攻港澳入門市場！

最新影片