Google 發表 Gemini 3 最快的 AI 模型

Author:

Published:

- 廣告 -

全球 AI 競賽進入白熱化階段。繼 X(前稱 Twitter)日前發布 Grok 4.1 後,Google 昨日(19日)隨即在香港及全球同步推出新的 AI 模型 —— Gemini 3。這款新一代模型不單在推理能力上刷新了多項業界紀錄,更針對開發者推出了名為「Google Antigravity」的全新代理開發平台,試圖將 AI 從單純的「工具」升格為能主動解決複雜難題的「合作夥伴」。

推理能力大躍進:Deep Think 模式展現博士級思維

Google 是次發布的核心亮點,在於 Gemini 3 對「推理能力」的極致追求。根據官方數據,率先推出的 Gemini 3 Pro 預覽版在多項基準測試中表現驚人。在權威的 LMArena 排行榜上,該模型取得了 1501 Elo 的歷史高分,位居榜首。

為了驗證其處理深奧知識的能力,Google 採用了名為「人類的最後考試」(Humanity’s Last Exam)的高難度測試。結果顯示,Gemini 3 Pro 在未經任何工具輔助下取得了 37.5% 的分數。此外,在衡量多模態(即同時處理文字、圖像、影片)能力的 MMMU-Pro 測試中,它亦獲得了 81% 的高分,顯示其能準確捕捉用戶在複雜情境下的意圖。

- 廣告 -
在 WebDev Arena 測試中,Gemini 3 取得 1487 Elo 分數,Google 稱其為迄今最強的「氛圍編碼」(vibe coding)模型,能協助開發者快速構建創意。

除了 Pro 版本,Google 更披露了一款名為 Gemini 3 Deep Think 的升級推理模式。這款模型被視為 Google 的「秘密武器」,其推理效能更進一步,在上述的「人類的最後考試」中得分推高至 41%,而在 GPQA Diamond 測試中更高達 93.8%。目前 Deep Think 模式已開放予安全測試人員,預計數週內將向 Google AI Ultra 的訂閱用戶開放。

Antigravity:AI 不再只是聊天,而是「代理人」

在模型性能之外,Google 是次更著重於 AI 的實際應用形態。伴隨 Gemini 3 面世,Google 正式發布了代理開發平台 Google Antigravity

Google Antigravity 利用 Gemini 3 驅動端到端代理工作流程,以開發這個航班追蹤應用程式。代理獨立地進行規劃、編寫應用程式的程式碼,並透過瀏覽器操作電腦的方式來驗證其執行成果。

這個平台的概念是讓 AI 具備「代理(Agent)」能力。透過結合 Gemini 3 的推理與編碼能力,AI 能夠在 Antigravity 平台上代表用戶「自主規劃」並「執行」複雜的端到端軟件任務,甚至能自行驗證程式碼是否可行。這意味著 AI 助理的角色將由被動的問答機器,轉變為能主動完成工作的搭檔。該平台兼容 MacOS、Windows 及 Linux,並已整合了最新的電腦控制模型(Gemini 2.5 Computer Use)及圖像編輯模型 Nano Banana。

應用場景:從「氛圍編碼」到生活規劃

Gemini 3 的強大推理能力亦被應用於更廣泛的日常與專業場景:

  • 編碼開發: 在 WebDev Arena 測試中,Gemini 3 取得 1487 Elo 分數,Google 稱其為迄今最強的「氛圍編碼」(vibe coding)模型,能協助開發者快速構建創意。
  • 生活規劃: 針對多步驟的繁瑣任務,例如整理 Gmail 郵箱或規劃詳細的旅行行程,Gemini 3 展現了更高的可靠性與一致性。
  • 學習輔助: 憑藉高達 100 萬個詞元的元脈絡長度(context window),用戶可以上載整份學術論文或講座影片,模型便能生成互動式學習卡或視覺化圖表,充當私人補習導師。

搜尋體驗革新:更懂你的「查詢扇出」技術

作為 Google 的核心產品,Google 搜尋亦即時整合了 Gemini 3。新引入的「查詢扇出」(query fan-out)技術,讓搜尋引擎能更智慧地理解用戶背後的真實意圖,從而發掘更多過往可能被忽略的相關網絡內容。此外,搜尋介面也迎來變革,AI 模式能根據查詢內容,動態生成最適合的視覺佈局(例如互動圖表或模擬功能),而非單純列出連結。


兩強對決:Google Gemini 3 vs. X Grok 4.1

就在 Google 發布 Gemini 3 的前一天(11月17日),由 Elon Musk 領導的 xAI 亦推出了其最新模型 Grok 4.1,令這場 AI 大戰充滿火藥味。綜合目前的市場資訊與 Google 官方數據,兩者在定位與強項上有明顯分野:

- 廣告 -

1. 推理能力的頂上對決 這是兩者競爭最激烈的戰場。Grok 4.1 在發布時曾短暫登上 LMArena 排行榜首位(約 1483 Elo),主打大幅提升的邏輯與情感理解。然而,Google 僅隔兩日發布的 Gemini 3 Pro 即以 1501 Elo 的分數實現反超,並透過 Deep Think 模式進一步鞏固其在處理博士級複雜問題上的優勢。在純粹的邏輯推理與學術解題上,Gemini 3 目前似乎略勝一籌。

2. 「高情商」與「理科生」的風格差異 Grok 4.1 的升級重點在於「情感智能(EQ)」與創意寫作,旨在提供更具個性、更像人類的對話體驗,並減少過往模型常見的「幻覺」錯誤。相比之下,Google Gemini 3 則更像一位嚴謹的「全能理科生」,強調作為「思考夥伴(Thought Partner)」的精準度,以及透過 Antigravity 平台執行實際編碼與軟件操作的任務能力。

3. 生態系整合 Gemini 3 的優勢在於與 Google 龐大生態(搜尋引擎、Workspace、Android)的深度結合,能直接在用戶日常使用的工具中發揮作用。而 Grok 4.1 則深度植根於 X 平台,利用即時社交媒體數據進行實時資訊整合,對於追求即時熱話與社交互動的用戶而言,仍具有不可替代的獨特性。

- 廣告 -
Lawrence
Lawrence
《PCM》創刊編輯, 見證電腦由 Monochrome 到 3D,9.6Kbps 撥號到 5G 無線上網年代,DIY、攝影、影音、手機樣樣啱玩。
- 廣告 -

Related Articles

- 廣告 -

Recent Articles

- 廣告 -

最新影片

- 廣告 -