商湯科技開源「書生2.5」　具備以文生圖能力

2023-03-16

生成式 AI 工具大戰一觸即發， GPT-4 風靡全球，Google 以 PaLM 並引入至 WorkSpace 迎戰。近在這邊，商湯科技也有「書生（INTERN）2.5」。該公司形容「書生 2.5」為多模態、多任務通用大模型，具備人工智能生成內容（AIGC）、以文生圖能力，可根據用戶提出的文本創作需求，利用擴散模型生成演算法生成需要的圖像。

「書生 2.5」的核心建基於 InternImage-G 通用視覺大模型，擁有 30 億參數。根據商湯科技的資料，其在視覺主流圖像分類數據集 ImageNet 上，單是基於公開數據已達到 90.1% 的準確率；在物體檢測標桿數據集 COCO 中，是唯一超過 65.0 mAP 的模型。目前，「書生 2.5」已在通用視覺開源平台 OpenGVLab 開源。

利用「書生 2.5」可以通過生成各類真實的道路交通情況，如繁忙的城市街道、雨天馬路、馬路上奔跑的狗等，進而訓練自動駕駛系統判斷極端環境。

「書生 2.5」可根據文本內容需求快速搜尋跟語義最相關的圖像，例如可在相庫中找出文本所指定的相關圖像；或是在影片中找出與文本描述最相關的片段，有助提高影片中時間定位任務的效率。同時，系統支援引入物體檢測框，能根據文本找出最相關的物體。甚至可按視覺圖像和任務的提示性語句，給出相應的指令或作答；以及處理複雜的問題，例如圖像描述、視覺問答、視覺推理和文字識別等。

若應用在自動駕駛環境，該系統可輔助處理複雜的任務，包括輔助車輛判斷交通訊號燈狀態、道路標誌等；在自動駕駛技術研發方面，則可通過生成各類真實的道路交通環境，如城市街道、雨天馬路、在馬路奔跑的狗隻等，從而訓練自動駕駛系統判斷極端環境。

Loading…

Here are the results for the search: "{{td_search_query}}"

No results!

{{post_title}}

相關文章

微軟 AI 勢力擴散至阿布札比 15 億美元投資 G42 暗藏交易條件

Google 用 LLM 檢查違規廣告 2023 年移除超過 55 億

生成式 AI 進軍運動界 英文、西班牙語解說大師賽賽事

微軟 AI 勢力擴散至阿布札比　15 億美元投資 G42 暗藏交易條件

Google 用 LLM 檢查違規廣告　2023 年移除超過 55 億

生成式 AI 進軍運動界　英文、西班牙語解說大師賽賽事