更多

    用 AI 幫影片配廣東話字幕 目標建語言數據庫

    Eric Chong
    Eric Chong
    商業・科技・創業・編輯

    換帥股價急升

    一間公司的行政總裁離職,公司股價立即彈起,可謂投資者對管理層最實際的評價。英特爾日前公布行政總裁Bob Swan會在2月15日離職,還選定繼任人Pat Gelsinger回巢擔大旗。消息一出,公司股價即時急升超過10%。

    香港電訊用低程式碼開發 助富邦銀行推出遙距開戶 app

    銀行面臨金融科技挑戰,尤其虛擬銀行湧現,傳統銀行亦要數碼轉型。富邦銀行即將推出專為開戶和申請服務而設的流動程式 Fubon GO 。此程式由合作夥伴香港電訊開發,首度採用低程式碼開發平台,加快過程和降低成本。

    大欖隧道用 SmarTone 5G 配 4K 鏡頭 監察交通安全

    大欖隧道穿越大欖郊野公園,不時有遊人和單車誤闖隧道區。為保障各人安全,負責營運大欖隧道的三號幹線(郊野公園段)有限公司安裝 4K 鏡頭和機械學習監察,配合 SmarTone 的 5G 網絡傳送影像和警告訊號至控制室。

    愈來愈多香港人拍片上載 YouTube ,例如近期 BNO 回歸英國熱潮。但剪接影片已夠費神,給影片配上中文字幕更花時間。本地創業公司 Datax 開發網上服務「字幕𠹌 Subanana 」,用自然語言處理( NLP )的人工智能技術,快速給影片配上地道的廣東話字幕。

    「字幕𠹌」採用雲端人工智能服務將語音變成文字,加入時間標籤,自動產生 .srt 字幕檔案,可匯入影片處理軟件,加快後製過程。現時支援 YouTube 、 Google Drive 和用戶上傳影片。

    黃偉俊(右)表示,影片字幕有一定需求,廣東話字幕更傳神,累積數據更有助建立廣東話語言模型。
    黃偉俊(右)表示,影片字幕有一定需求,廣東話字幕更傳神,累積數據更有助建立廣東話語言模型。

    Datax 創辦人兼行政總裁黃偉俊指出,影片加上字幕看起來更能吸引觀眾,例如影片分享平台上,欠奉字幕的影片觀看量可以比有字幕的少近一半。一來,有些觀眾收看時不開啟聲音,其次有字幕的影片被視為高質素製作的象徵。

    但對創作人而言是一大挑戰,有些甚至將製作字幕工序外判。愈來愈多香港人加入創作影片, Vlogger 、製作公司已不計其數,近期連教師也要製作教學影片,可見字幕的需求急增。「用人工智能可以解決,於是開發『字幕𠹌』服務,期望幫助他們配上字幕,並助我們熟悉的廣東話入文更普及。」

    『字幕𠹌』的核心技術整合多個公共雲的 NLP 服務,通過 API 連接。他解釋,這些服務識別廣東話的能力各有特點,但普遍未夠成熟,需要混合使用各取長處,方可為影片的語音變成文字。「字幕𠹌」的技術將廣東話聲音交給合適的人工智能服務處理。現時的識別準確度超過七成,最後需要人手協助修正,不過已經給創作人莫大幫助,節省大量時間做配字幕的枯燥工作。

    該服務設有基本版試用,例如 YouTube 連結的影片只限 15 分鐘,上傳影片設限 500MB 。黃偉俊表示,讓創作人試用過服務,若需要完整功能,可考慮付費購買高級版,每影片分鐘收 13.5 港元,有專業團隊先用「字幕𠹌」識別,並修改人工智能的偏差,提供字幕檔案,甚至直接輸出嵌有字幕的影片。

    然而,黃偉俊稱,「字幕𠹌」僅是非常早期發展,從概念開發至初步可用只有兩個多月,目前技術有一定挑戰。用本刊的 YouTube 頻道影片試用「字幕𠹌」,所產生的字幕準確度未算高。他解釋,正是目前所面對的幾個技術挑戰有待解決。

    他指出,我們日常的廣東話對話都中英夾雜,大部分機械學習模型均未能準確識別。

    其次是說話的句子識別分段。本刊的片段由兩位主持對談,不時出現「疊聲」情況。大部分 YouTube 影片較少有這情況,但 YouTuber 大多會將說話之間的停頓空間剪去,將音訊直接交給人工智能識別,結果得出一大段文字,無法加入時間標籤。「字幕𠹌」其中一個改善功能,建立模型準確地識別段句,好讓雲端服務按時間讀取音訊,分隔成句子。

    影片的收音亦是已知的技術問題,他表示,例如收音不夠清晰或背景雜音太大聲,都會影響人工智能識別的結果。

    Datax 從事數據平台,以群眾力量收集和分類數據,提供不同類型具標籤的數據。黃偉俊稱,「字幕𠹌」可謂 Datax 的副業,從字幕識別訓練廣東話語言模型,提供數據集給業界。「長遠而言要建立開源的語言模型,讓人工智能可聽、講廣東話。」

    您會感興趣的內容

    相關文章