Adobe Scan App 拍照即轉 PDF OCR 技術自動辨識文字

Adobe Scan App 拍照即轉 PDF OCR 技術自動辨識文字

上文提到 Adobe Sign 電子簽署方案所帶來的便利性,不過進行簽名之前,首先要有份 PDF 檔。其實 Adobe 與 Microsoft 緊密合作後,要建立 PDF 檔也變得非常簡單,可在 Microsoft Word 軟件中把文件轉成 PDF,或者直接在 OneDrive / SharePoint / Office 365 轉檔。不過有時一些收貨單據、其他公司發出來的文件都仍是使用紙本,而將紙本變成電子 PDF 檔,就可用《 Adobe Scan 》手機 App 去做,轉檔後便可編輯和簽名了。

可用 Adobe Scan App 來將紙本文件、收據、卡片等轉成 PDF 檔。

可用 Adobe Scan App 來將紙本文件、收據、卡片等轉成 PDF 檔。

拍照即轉 PDF 檔

《 Adobe Scan 》App 提供 iOS 和 Android 兩個版本,兩者均是免費。使用方法很簡單,不論是收據、筆記、文件、相片、名片、白板字等等,任何內容都可用 App 內的相機拍攝。相機預設用自動擷取模式,當鏡頭一照到文件,毋需按下快門,它就會辨識文件的邊框,自動擷圖,然後你就可以翻去另一頁。不過筆者覺得它的自動擷取模式並不太準確,有時會將旁邊的環境納入文件邊框範圍內,或者顯示的邊框比實際文件小,遺漏部分面積。因此建議大家還是關掉自動擷圖模式,自行按快門拍攝會比較易控制。

自動擷取模式,邊框位置不太準確。

自動擷取模式,文件部分面積並不納入於邊框中。

關掉自動擷取模式的效果也相若,不過起碼能自己按快門控制。不用煩惱拍錯而要删除圖片的問題。

關掉自動擷取模式的效果也相若,不過起碼能自己按快門控制,不用煩惱拍錯而要删除圖片的問題。

拍完整份文件後,它就會自動裁走邊框以外的部分,如桌子、雜物、陰影之類,再將圖片修正成類似 A4 的大小比例,文字也變得清晰,效果尤如直接把文件放進掃描器一樣。之後你可以裁切邊框、調較光暗對比度、轉成灰階、調換頁面次序。再按「儲存 PDF 」,就可分享給其他人,或者在《 Adobe Acrobat Reader 》App 中開啟。如果是掃描英文字名片的話,它更可將名字、電郵地址、電話號碼等資訊自動填入聯絡人欄目,只需按儲存聯絡人便可,毋需自行輸入資料那麼麻煩。

拍完照就會變成這樣,可以旋轉頁面。

拍完照就會變成這樣,可以旋轉頁面。

覺得拍攝時裁邊裁得不夠準確,可以自行再調整。

覺得拍攝時裁邊裁得不夠準確,可以自行再調整。

重新排序頁面。

重新排序頁面

轉換顏色效果。

轉換顏色效果

OCR 自動辨識文字

不過 Scanner App 也並非甚麼新鮮事,幾年前都已有很多開發者推出這類 App,而《 Adobe Scan 》App 僅面世一年,即使它最近新增了從其他程式匯入相片至現有 PDF 掃描的功能,都不見得很特別吧?其實它的優勢在於支援 OCR( Optical Character Recognition / 光學字符識別),可以自動辨識到相片中的文字,當你在《 Adobe Acrobat Reader 》App 或電腦軟件開啟 PDF 時,便可把文字複製,亦方便搜尋內容。

轉檔過程中,會自動透過 OCR 技術辨識文字。

轉檔過程中,會自動透過 OCR 技術辨識文字。

筆者實測掃描 Adobe 新聞稿,繁體中文和英文都能透過 OCR 辨識得到(簡體也可以),不過當我在 Acrobat 複製文字,再在 Google Keep 貼上時,就發現準繩度大概為 80%,有些中文字會誤認成同部首的其他字,或者將繁體認錯成簡體,但英文字就不會認錯。至於手寫字,因為我的字跡實在是太不敢恭維,所以《 Adobe Scan 》的 OCR 能認到那些是字,而不是圖案,已超出我預期,我也不要求它辨識到是甚麼字,因為即使給其他人看,都不會看懂我寫甚麼⋯⋯除了 OCR 外, Adobe 亦表示它在 Scan App 中採用 AI 和 Photoshop 的影像處理技術,令 PDF 質素較其他 App 好,即使在陰暗環境拍攝文件,都依能保持清晰。筆者實試在桌下掃描文件,效果確實與正常燈光下拍的不相伯仲。

具備 OCR 功能,可自動辨識文字,方便複製及搜尋內容。筆者就複製了「Dynamics 365 進行更深度整合,用戶可直接從」。

具備 OCR 功能,可自動辨識文字,方便複製及搜尋內容。筆者就複製了「 Dynamics 365 進行更深度整合,用戶可直接從」。

也辨識到手寫字,不過我的字跡太醜,所以只能認到部分。

也辨識到手寫字,不過我的字跡太醜,所以只能認到部分。

把剛才兩句貼上 Google Keep,英文字沒有認錯,但繁體中文字就不太準確。

把剛才兩句貼上 Google Keep,英文字沒有認錯,但繁體中文字就不太準確,當然也辨識不到我的手寫字,全部變亂碼。

於桌下拍攝,都有不錯的效果。(大家可按下方的連結下載。 )

於桌下拍攝,都有不錯的效果。(大家可按下方的連結下載。)

下載《 Adobe Scan 》App 示範檔

正常燈光環境:從 Google Drive 下載 PDF 檔

桌下陰暗環境:從 Google Drive 下載 PDF 檔

Conclusion

雖然《 Adobe Scan 》 App 辨認文件邊框位置不太準確, OCR 認繁體字的技術亦有改善空間,不過具備 OCR 功能已比不少同類型程式優勝得多,個人也認為這是選擇 Scanner App 最重要的考慮因素。

《Adobe Scan》App

iOS 下載連結
Android 下載連結