生成式 AI 其中最吸引大家目光的就是圖像和影片生成,加上文字轉語音、音樂以至音效生成,為創作人帶來嶄新的創作方式和衝擊。在 Google I/O 上,Google 就一口氣發表了最新影片和圖像生成新模型 Veo 3 和 Imagen 4,並同時發表新的 AI 影片製作工具 Flow。而即使不是藝術工作者,Google 的商務用影像工具 Vids 亦推出 AI 虛擬主播功能,讓大家在工作上也可輕易使用影像來作報告演示、員工培訓和產品介紹。
Veo 3 影片生成模型
Google DeepMind 最新一代的視頻生成模型,相較 Veo 2 提升了畫質,並首次支援生成帶有音效的視頻,例如城市街道的交通噪音、公園的鳥鳴,甚至角色對話。Veo 3 在文字和圖像提示、物理真實性及唇部同步方面表現出色,能將短篇故事提示轉化為生動的視頻片段。
Google 就展示了一段老人在船上獨白的片段,海浪聲和老人的對白都是由 AI 生成,唇部同步亦相當精準。Veo 3 即日開始透過 Gemini App 和 AI 影片製作軟件 Flow 向美國的 Google AI Ultra 訂戶提供,企業用戶也可以透過 Vertex AI 平台使用新模型。
Veo 2 更新
至於上一代的 Veo 2 模型亦有多項與創作人和製片人合作開發的功能,包括:
- 參考驅動視頻:支援輸入角色、場景、物件或風格的圖像,增強創作控制和一致性。
- 鏡頭控制:提供精確的鏡頭移動設定,如旋轉、推拉和縮放。
- 外擴畫面:可將視頻從縱向轉為橫向,智能擴展場景。
- 物件添加與移除:支援在視頻中添加或移除物件,考慮尺寸、交互和陰影,生成自然逼真的場景。
這些功能中,參考驅動視頻和鏡頭控制已可在 Flow 使用,未來數星期內可透過 Vertex AI API 調用,其他 Google 產品就要幾個月後才推出。
製片新工具 Flow
這是一個專為製片人而設計的 AI 影片製作工具,整合 Google DeepMind 的 Veo、Imagen 和 Gemini 模型。用戶可通過自然語言描述場景,管理角色、場地、物件和風格,並將故事編織成精美的電影片段。
Flow 的主要功能包括:
- 鏡頭控制
- 場景構建:支援無縫編輯和擴展現有鏡頭,例如揭示更多動作細節或平滑過渡到下一個場景,保持動作連貫性和角色一致性。用戶可基於現有場景圖像開始場面,實現流暢的創作流程。
- 影像資產管理:提供便捷的影像資產管理系統,讓用戶輕鬆組織和管理創作所需的角色、場景、物件和提示句(prompts)。用戶可上傳自有資產,或利用 Imagen 的文字轉圖像功能生成新素材,確保創作素材的一致性和可重複使用性。
- Flow TV:一個不斷更新的展示平台,包含使用 Veo 生成的視頻片段、頻道和內容。用戶可查看喜歡的片段所使用的具體提示句和技術,作為學習和適應新風格的實用工具,激發創作靈感。
Flow 目前已開放給美國的 Google AI Pro 和 Ultra 訂戶使用,並打算在未來擴展至更多國家。Pro 訂戶每月可享用 100 次生成額度,用 Ultra 訂戶除了有更多生成額度外,還可以使用最新的 Veo 3 模型生成影片。
Imagen 4 輸出 2K 圖像
最新的圖像生成模型,具備高清晰度和精細細節處理能力,適用於寫實和抽象風格,支持多種長寬比及最高 2K 解析度輸出,特別擅長字體和排版設計,適合製作賀卡、海報和漫畫。
Imagen 4 目前可以透過 Gemini App、Whisk 和 Vertex AI 平台,及 Google Workspace 的 Slides、Vids、Docs 等產品取用,未來將推出比 Imagen 3 快 10 倍的快速版本。
Gemini 2.5 原生音頻輸出
Gemini 2.5 Live API 是 Google 提供的一款多模態實時交互 API,供開發者開發出能處理語音、視頻和文字輸入的實時應用,模擬自然的人機對話體驗。在 Google I/O 中 Live API 宣布推出音視頻輸入及原生音頻對話預覽版,支援更自然、富有表現力的對話體驗,用戶可自定義語氣、口音及說話風格,如要求模型以戲劇性語音講故事。模型還支援使用工具,可代用戶搜尋資料。其他早期功能還包括:
- 情感對話:模型檢測用戶語音情感並適當回應。
- 主動音頻:模型忽略背景對話,並能識別何時該作出回應。
- Live API 思考:利用 Gemini 的思考能力處理更複雜任務。
Google 亦同時在 Gemini 2.5 Pro 及 2.5 Flash 推出文字轉語音 (TTS) 新預覽版,首創支援多位講者,可透過原生音頻輸出雙語音對話,支援超過 24 種語言並可無縫切換。TTS 功能現已於 Gemini API 中提供。
Google Vids:AI 虛擬主播代言
Google Vids 是個令影片成為工作實用工具的平台,讓用戶毋須專業知識和高預算,即可生成影片作團隊培訓、報告演示、發布公告等工作用途。而最新的 AI 虛擬主播功能,無需拍攝或協調演員,只需編寫腳本並選擇 AI 虛擬主播即可生成專業視頻。這功能將於下個月在 Google Labs 推出。