首頁 Biz.IT 雲端 Anthropic 發表最強模型 Claude 3 測試效能完勝 GPT-4

Anthropic 發表最強模型 Claude 3 測試效能完勝 GPT-4

Anthropic Claude 3

OpenAI 的 GPT-4 模型發表快將 1 年,成為其他大型語言模型的競爭對象。 AI 創業公司 Anthropic 新發表大型語言模型 Claude 3,旗下分 3 個版本:低階 Haiku、中階 Sonnet 和最強勁的 Opus。其中 Opus 在多個基準測試均勝過 GPT-4 和 Google Gemini 1.0 Ultra。

Claude 3 測試網頁(需 VPN):按此

根據 Anthropic 公布的數據,Claude 3 Opus 模型接受多個基準測試,如大學生水平的 MMLU、研究生水平的 GPQA、基礎數學的 GSM8K、生成程式碼的 HumanEval 等,所得的分數均高過 GPT-4 和 Gemini 1.0 Ultra。

Claude 3 Opus 在基準測試的結果,均勝過 GPT-4 和 Gemini 1.0 。

Anthropic 稱,Claude 3 模型加強分析、預測、生成更細緻的內容、生成程式碼,甚至擁有更強的非英文語言能力,包括西班牙文、日文與法文等。新模型有更複雜的視覺功能,懂得處理相片、圖表、影像、技術圖等。同時有實時生成結果,做到即時對話、自動完成和擷取數據等工作。

Claude 3 讀取長文的能力,在推出初期 3 個模型都接受 20 萬 Token,而其後會按客戶需要加強至接受輸入超過 100 萬 Token。Claude 3 在評估模型記憶的 NIAH 測試達到 99% 準確度,甚至在個別例子可辦別人為擾亂的內容。

新模型改善理解能力和偏差,如 Claude 2 時常作出不必要的拒絕,因缺乏理解語意。而新 Claude 3 對提示表現出更細緻的理解能力,可辨識真正的傷害,降低了拒絕回答無害提示的機會。Claude 3 的偏差少於前版本,擅長遵循複雜的多步驟指令,或是生成 JSON 等格式的結構化輸出,適用於自然語言分類或情緒分析。

Claude 3 的 3 個版本分別。

Anthropic 發表 Claude 3 時往往針對 GPT-4 作比較,除了是市場上的競爭對手,更大可能是創業團隊來自 OpenAI,與舊東家比併。Anthropic 的幾位創辦人均是前 OpenAI 員工,其中行政總裁 Dario Amodei 曾在 OpenAI 任研究副總裁,其妹 Daniela Amodei 當總裁亦曾是 OpenAI 資深員工。

由於 OpenAI 與微軟的關係密切,以 100 億美元投資取得獨家提供 GPT 模型,使其他雲端服務商爭先向 Anthropic 注資。Google 在 Anthropic 的 2022 年 B 輪融資入股 3 億美元,及後 2023 年 10 月加碼 20 億美元。

Amazon 在去年亦投資 40 億美元,換取 AWS 成為 Anthropic 主要雲端服務供應商。Dario Amodei 甚至去年在 AWS re:Invent 站台,為行政總裁講解雲端平台提供多個 LLM 或基礎模型策略的必要。

Amazon 向 Anthropic 投資 40 億美元,並提供 AWS 雲端服務。
Dario Amodei 在去年的 re:Invent 站台。

AWS 是 Anthropic 投資者之一,Claude 3 模型亦提供給 AWS,企業客戶可經 Amazon Bedrock 取用,以此建立生成式 AI 軟件。目前 Claude 3 Sonnet 已在美國東部(北維珍尼亞州)和美國西部(俄勒岡州)區域推出,而 Opus 和 Haiku 將在數星期後可用。

最新影片

Exit mobile version