首頁 新聞 人工智能 【Google I/O 24】GPT-4o 只是小兒科?Project Astra 揭示 AGI 未來

【Google I/O 24】GPT-4o 只是小兒科?Project Astra 揭示 AGI 未來

Project Astra 人工智能代理原型
Project Astra 人工智能代理原型

昨日 OpenAI 發表 GPT-4o,其同時處理視像、語音和文字、活像與人對談的能力令人驚嘆。不過 Google 就在 Google I/O 中不但能做得到,而且做得更好。會上 Google 示範人工智能代理 Agents 不單能提前幾步思考,還能在不需使用者介入下完成連串實務工作,甚至可以透過電腦視覺和語音來即時分析周圍狀況,問題只是甚麼時候推出給一般用戶使用。

Google Deepmind CEO Demis Hasssabis 爵士今年首次在 Google I/O 登台,介紹 Google 在開發泛用人工智能 AGI 方面的成果。

今年在 Google I/O 中,Google 示範了未來人工智能代理的應用。Google 行政總裁 Sunder Pichai 表示現時他們處於開發泛用人工智能系統的早期階段,這個系統要具備推理、規劃和記憶能,能提前幾步思考,並能跨軟件和系統工作,更重要是它是使用者監督下工作。

智能助理代勞退貨自動搞掂

Pichai 以買了不合尺寸的波鞋為例子,展示 Gemini 能完成所有退貨手續,用戶只需要在對話框中說一句「因為鞋子太小要退貨」,Gemini 就能自動到 Gmail 找出購物單據,查出訂單編號,填妥退貨單,甚至自動安排速遞去提貨,用戶甚麼事情都不用做。

其他示範還包括自動規劃旅行計劃,這些功能不久就會加入 Gemini 應用中。

只對 Gemini 說一句想退貨,所有實務事情包括填退貨單和約速遞提貨,人類要做的就只是等速遞來吧?

Gemini 1.5 Flash 速度優先

Google Deepmind CEO Demis Hasssabis 爵士今年首次在 Google I/O 登台,介紹 Google 在開發泛用人工智能 AGI 方面的成果,並發表 Gamini 1.5 Flash。這是個較 Gemini 1.5 Pro 輕盈的模型,旨在低時延和具成本效益地工作,而且一樣具備多模態推理能力和特大的上下文窗口。

Gamini 1.5 Flash 以快速回應和效能為先。
Gamini 1.5 Flash 旨在低時延和具成本效益地工作,而且一樣具備多模態推理能力和特大的上下文窗口。

開發者今日就可以透過 Google AI Studio 網上應用和 Vertex AI 平台使用到提供 100 萬 token 的 Gemini 1.5 Flash 和 1.5 Pro,並能申請試用 200 萬 token 上下文窗口,這是現時 GPT-4o 上下文窗口的 7.8 和 15.6 倍,配合 Context Cache 上下文快取,能輸入大量文件、語音和影片作推理,完成複雜任務。

Project Astra 泛用人工智能原型

Project Astra 是個泛用人工智能代理,幫助人們處理日常事務。這人工智能助理需要能像人類一樣,理解和回應複雜而隨時變化的動態世界,並能記憶所見到的事件,好讓它能理解上文下理並採取行動,它還可以訓練來提供個人化並沒有延遲的回應。

Project Astra 能埋理解周圍的複雜環境。
利用手繪箭頭和語音來查詢。
即時分析鏡頭拍到的程式碼。
單憑窗外的景色就知道用戶身在哪裡。
雖然只是驚鴻一瞥,但也記得用戶的智能眼鏡放在哪裡。
單憑手繪的貓和一個紙箱就能聯想到薛丁格的貓。

Google 展示了一段實時無間斷影片,展示 Project Astra 原型的大能。它同時具備視覺和語音輸入,能夠高速自然地以語音回應。用戶可以透過圈出或箭頭來查詢畫面上的特定事物作分析,更神奇的是它能記得鏡頭剛才掃過的枱面上的智能眼鏡,在用戶詢問時能告訴他在哪裡。另外它又能透過窗外的景色了解用戶身處哪裡和鄰近的設施。更重要是它不像 GPT-4o 那麼長氣。

Google 並同時展示 Project Astra 也可以在智能眼鏡使用,真的就像 Iron man 裡的 F.R.I.D.A.Y 智能助理。

Project Astra 將會在今年稍後時間加入 Gemini 手機應用程式中。

Veo 生成高解像長片

除了 Gemini 1.5 Flash 和 Project Astra 之外,Google 在圖像生成、音樂生成和影片生成都有發展。

Imagen 3 能生成更真實、具細節和少數碼雜訊的圖像,它能更好理解用戶輸入內容的要點,圖像更能符合用戶的要求,而在生成有文字的圖像方面也更準確。開發者可即日到 labs.google 註冊試用,並會在稍後在 Vertex AI 平台供付費及企業用戶使用。

音樂方面,Google 開發了 Music AI Sandbox 並與音樂人合作,利用 AI 為音樂人提供靈感。

至於影片生成,Google 更推出影片生成 AI 模型 Veo,它可以生成具真實性 1080p 影片,而且可以自由增加長度。用戶可以透過 Google 的實驗性軟件 VideoFX 來使用 Veo 生成影片,並在生成後加入更多提示來編輯影片。部分 Veo 和 VideoFX 功能已可在 labs.google 申請試用。

最新影片

Exit mobile version