首頁 新聞 人工智能 結合文字、影像、聲音、景深、熱力、慣性 Meta 開源 ImageBind 實現跨模式應用

結合文字、影像、聲音、景深、熱力、慣性 Meta 開源 ImageBind 實現跨模式應用

ImageBind

我們這幾個月來一直用到的文字、圖像以至影片生成式 AI,大多是從一種資料生成另一種資料,不過人類的推理結合不同感知能力。Meta 昨日繼 LLaMA、Segment Anything 等模型後,又再開源另一個與 AI 有關的項目 ImageBind,將 6 種模式資料綁定在同一個嵌入空間(Embedding Space),能實現跨模式的新型應用。

ImageBInd 將文字、圖像及影片、聲音、景深、熱力和慣性運動資料結合在單一嵌入空間,有助發展出跨模型應用。

ImageBind 為 6 種模式(modality)——文字、聲音、影片及圖像、深度圖、熱力圖和慣性運動(IMU),提供一個單一嵌入空間互相關聯,開發人員不需要對每一種模式組合的資料進行訓練,也可以製作出跨模式的應用。現有的 AI 模型亦可透過 ImageBind 來接受更多種類資料輸入,例如聲音搜尋和跨模式生成等。

例如提供老虎的圖像,可以生成老虎吼叫的聲音,再加上瀑布的聲音的話,可以生成老虎和瀑布旁行過的影片。同時提供流水聲和生果的圖片,可以生成在洗碗盤洗生果的圖像。

Meta 提供了一個示範網站,供大眾了解 ImageBind 的功能。

在示範網站中,提供汽車引擎聲和海灘照片,即可生成汽車泊在沙灘的照片。

在 Meta 最近的業績發表會上,CEO 朱克伯格曾表示 Meta 今後都會同時專注於 AI 和元宇宙,並將兩者結合起來。而 ImageBind 就可以將 3D 感測器和 IMU 慣性感測器結合,實現沉浸式虛擬空間,對發展元宇宙有幫助。

最新影片

Exit mobile version