結合文字、影像、聲音、景深、熱力、慣性　Meta 開源 ImageBind 實現跨模式應用

2023-05-10

我們這幾個月來一直用到的文字、圖像以至影片生成式 AI，大多是從一種資料生成另一種資料，不過人類的推理結合不同感知能力。Meta 昨日繼 LLaMA、Segment Anything 等模型後，又再開源另一個與 AI 有關的項目 ImageBind，將 6 種模式資料綁定在同一個嵌入空間（Embedding Space），能實現跨模式的新型應用。

ImageBind 為 6 種模式（modality）——文字、聲音、影片及圖像、深度圖、熱力圖和慣性運動（IMU），提供一個單一嵌入空間互相關聯，開發人員不需要對每一種模式組合的資料進行訓練，也可以製作出跨模式的應用。現有的 AI 模型亦可透過 ImageBind 來接受更多種類資料輸入，例如聲音搜尋和跨模式生成等。

例如提供老虎的圖像，可以生成老虎吼叫的聲音，再加上瀑布的聲音的話，可以生成老虎和瀑布旁行過的影片。同時提供流水聲和生果的圖片，可以生成在洗碗盤洗生果的圖像。

Meta 提供了一個示範網站，供大眾了解 ImageBind 的功能。

在 Meta 最近的業績發表會上，CEO 朱克伯格曾表示 Meta 今後都會同時專注於 AI 和元宇宙，並將兩者結合起來。而 ImageBind 就可以將 3D 感測器和 IMU 慣性感測器結合，實現沉浸式虛擬空間，對發展元宇宙有幫助。

{{post_title}}

結合文字、影像、聲音、景深、熱力、慣性　Meta 開源 ImageBind 實現跨模式應用

最新影片

Loading…

Here are the results for the search: "{{td_search_query}}"

No results!

{{post_title}}

最新影片

相關文章

Meta 開放 Meta Horizon OS 與微軟、ASUS ROG、Lenovo 合作開發 MR 頭顯

Facebook、Instagram、Threads 5 月落實 AI 生成圖像標示

空間運算裝置 vs 獨立型 XR Apple Vision Pro vs Meta Quest 3

Meta 開放 Meta Horizon OS　與微軟、ASUS ROG、Lenovo 合作開發 MR 頭顯

空間運算裝置 vs 獨立型 XR　Apple Vision Pro vs Meta Quest 3