更多

    用 AI 幫影片配廣東話字幕 目標建語言數據庫

    Eric Chong
    Eric Chong
    商業・科技・創業・編輯

    Google 調查:港企人工智能預備程度僅過半

    Google 香港在過去3年舉辦研究發表《智慧數碼城市》白皮書,今年的研究集中在人工智能,發表《智慧數碼城市 - 全城 AI 》白皮書。報告揭示,香港企業的「 AI 準備度指數」僅 56 分,企業有目標,但卻欠缺能力和人才去發展。

    富士通超級電腦 助日本研究武肺傳播方式

    富士通為日本理化學研究所( RIKEN )建立的超級電腦富岳,今年啟用以來,幫助日本政府分析武漢肺炎疫情,為提供制定防疫措施的科學佐證。該公司稱,打算與新加坡政府合作,協助分析疫情。

    雲上數據倉庫 Snowflake

    今年美國科技股當旺,造就了四大科技巨企股價飛升,也帶起如 Zoom 、 DocuSign 等疫情受惠股。不過,投資者眼光最近集中在新上市的數據倉庫公司 Snowflake ,連股神巴菲特也破例 IPO 買入科技股。

    愈來愈多香港人拍片上載 YouTube ,例如近期 BNO 回歸英國熱潮。但剪接影片已夠費神,給影片配上中文字幕更花時間。本地創業公司 Datax 開發網上服務「字幕𠹌 Subanana 」,用自然語言處理( NLP )的人工智能技術,快速給影片配上地道的廣東話字幕。

    「字幕𠹌」採用雲端人工智能服務將語音變成文字,加入時間標籤,自動產生 .srt 字幕檔案,可匯入影片處理軟件,加快後製過程。現時支援 YouTube 、 Google Drive 和用戶上傳影片。

    黃偉俊(右)表示,影片字幕有一定需求,廣東話字幕更傳神,累積數據更有助建立廣東話語言模型。
    黃偉俊(右)表示,影片字幕有一定需求,廣東話字幕更傳神,累積數據更有助建立廣東話語言模型。

    Datax 創辦人兼行政總裁黃偉俊指出,影片加上字幕看起來更能吸引觀眾,例如影片分享平台上,欠奉字幕的影片觀看量可以比有字幕的少近一半。一來,有些觀眾收看時不開啟聲音,其次有字幕的影片被視為高質素製作的象徵。

    但對創作人而言是一大挑戰,有些甚至將製作字幕工序外判。愈來愈多香港人加入創作影片, Vlogger 、製作公司已不計其數,近期連教師也要製作教學影片,可見字幕的需求急增。「用人工智能可以解決,於是開發『字幕𠹌』服務,期望幫助他們配上字幕,並助我們熟悉的廣東話入文更普及。」

    『字幕𠹌』的核心技術整合多個公共雲的 NLP 服務,通過 API 連接。他解釋,這些服務識別廣東話的能力各有特點,但普遍未夠成熟,需要混合使用各取長處,方可為影片的語音變成文字。「字幕𠹌」的技術將廣東話聲音交給合適的人工智能服務處理。現時的識別準確度超過七成,最後需要人手協助修正,不過已經給創作人莫大幫助,節省大量時間做配字幕的枯燥工作。

    該服務設有基本版試用,例如 YouTube 連結的影片只限 15 分鐘,上傳影片設限 500MB 。黃偉俊表示,讓創作人試用過服務,若需要完整功能,可考慮付費購買高級版,每影片分鐘收 13.5 港元,有專業團隊先用「字幕𠹌」識別,並修改人工智能的偏差,提供字幕檔案,甚至直接輸出嵌有字幕的影片。

    然而,黃偉俊稱,「字幕𠹌」僅是非常早期發展,從概念開發至初步可用只有兩個多月,目前技術有一定挑戰。用本刊的 YouTube 頻道影片試用「字幕𠹌」,所產生的字幕準確度未算高。他解釋,正是目前所面對的幾個技術挑戰有待解決。

    他指出,我們日常的廣東話對話都中英夾雜,大部分機械學習模型均未能準確識別。

    其次是說話的句子識別分段。本刊的片段由兩位主持對談,不時出現「疊聲」情況。大部分 YouTube 影片較少有這情況,但 YouTuber 大多會將說話之間的停頓空間剪去,將音訊直接交給人工智能識別,結果得出一大段文字,無法加入時間標籤。「字幕𠹌」其中一個改善功能,建立模型準確地識別段句,好讓雲端服務按時間讀取音訊,分隔成句子。

    影片的收音亦是已知的技術問題,他表示,例如收音不夠清晰或背景雜音太大聲,都會影響人工智能識別的結果。

    Datax 從事數據平台,以群眾力量收集和分類數據,提供不同類型具標籤的數據。黃偉俊稱,「字幕𠹌」可謂 Datax 的副業,從字幕識別訓練廣東話語言模型,提供數據集給業界。「長遠而言要建立開源的語言模型,讓人工智能可聽、講廣東話。」

    您會感興趣的內容

    相關文章