更多

    一張相就能生成談話影片 Google Research 發表 VLOGGER AI 生成系統

    Mickey Chan
    Mickey Chan
    愛模擬飛行、希望終有一日回到單車上的宅,眼鏡娘控。座右銘: 1.膽固醇跟美味是成正比的; 2.所有人都可以騙,但絕對不能騙自己; 3.賣掉的貨才是錢,不賣的收藏品不值一文; 4.踩單車,是為了吃更多美食! 5.正義的話語,不一定出自正義之人的口;

    Google Research 日前發表一個名為 VLOGGER 的 AI 影片生成系統,只要提供一張相片,就能生成一段高質素那個人說話的影片,而且不單只有臉或嘴唇在動,甚至可以生成手勢和身體動作,相當像真,令人想到合成人類影片將會愈來愈難以分辨。

    不同人種膚色、不同口音都可以合成出自然的影片。

    研究人員在網站發表一系列不同合成人物對話影片,片中有不同種族膚色的人,拍攝角度和範圍都有不同,不一定是正面對著鏡頭,連口音和語言都不同,大部分看起來都栩栩如生,說話時能以改變姿勢和手勢來表達,除了部分嘴唇周圍長了濃密鬍子的人比較容易看出破綻之外,大部分人都很像真。如果在低頻寬下進行視像通訊,相信不少人也不會知道對手原來是合成出來的。

    VLOGGER 是文字及音頻驅動的人類說話影片生成方法,建基於生成擴散模型,使用的方法包括隨機人體到 3D 動作擴散模型,和基於創新的擴散架搆,透過時間和空間控制來增強文生圖模型。這方法可以生成長度可變的高質素影片,透過高度的人臉和身體表達,能輕易控制影片。而且不需要針對不同人物進行訓練,也不倚靠人臉檢測和裁切,可以生成完整的圖像而不單是臉部或嘴唇,並考慮到對正確合成出溝通對象人物至關重要的各種情況,例如可見到軀幹或不同主體身份。

    整個人的姿勢和手勢都是合成出來的,而不單是生成臉部或嘴唇。
    嘴唇和眼睛都可以控制

    研究人員又開發了一套新的多樣化資料集 MENTOR 來訓練 VLOGGER 模型,當中包含 3D 姿勢和表情標註,與及動態手勢,規模比以前的數資料集大一個數量級,達 80 萬個特徵。

    研究人員期望新的人物合成影片方法能產生全新的應用案例,例如加強網上通訊、教育或個人化虛擬助理,成為「具身體的聊天代理」。不過這也不禁令人擔心 Deepfake 詐騙更容易,因為只要一張相就可以生成影片。

    影片翻譯是未來 VLOGGER 其中一個應用案例。

    最新影片

    您會感興趣的內容

    相關文章