更多

    政府開放肺炎數據不足 民間數據科學家補足

    Eric Chong
    Eric Chong
    商業・科技・創業・編輯

    Google 調查:港企人工智能預備程度僅過半

    Google 香港在過去3年舉辦研究發表《智慧數碼城市》白皮書,今年的研究集中在人工智能,發表《智慧數碼城市 - 全城 AI 》白皮書。報告揭示,香港企業的「 AI 準備度指數」僅 56 分,企業有目標,但卻欠缺能力和人才去發展。

    富士通超級電腦 助日本研究武肺傳播方式

    富士通為日本理化學研究所( RIKEN )建立的超級電腦富岳,今年啟用以來,幫助日本政府分析武漢肺炎疫情,為提供制定防疫措施的科學佐證。該公司稱,打算與新加坡政府合作,協助分析疫情。

    雲上數據倉庫 Snowflake

    今年美國科技股當旺,造就了四大科技巨企股價飛升,也帶起如 Zoom 、 DocuSign 等疫情受惠股。不過,投資者眼光最近集中在新上市的數據倉庫公司 Snowflake ,連股神巴菲特也破例 IPO 買入科技股。

    公開數據是對抗武漢肺炎的有效方法之一,特區政府雖然早已開放多項相關數據,但無論形式和格式仍有不足。數據科學家為方便民間使用數據,重新整理數據再發布。他用 AWS 無伺服器架構 Lambda 開設網站,單在 2 月錄得逾 78 萬瀏覽量。
    自從中國在 1 月才承認武漢肺炎爆發,疫情迅速在區內蔓延,現已禍及全球。特區政府衞生署在 2 月初經資料一線通網站推出相關公開數據,初期有 10 個數據集,實際是 5 個不同的數據集,分正體中文和英文版本。

    武漢肺炎實時資料庫整理特區政府的開放數據格式,讓程式員更易取用。
    武漢肺炎實時資料庫整理特區政府的開放數據格式,讓程式員更易取用。

    不過,Oneshop 數據科學家陳家雋看過後發現嚴重不足,不夠方便開發人員利用數據製作圖表和應用程式,於是動手改善,方便自己也方便別人,隨即在 AWS Lambda 直接開設網站「武漢肺炎實時資料庫」,還開放 API 供人下載數據。
    網站提供的數據包括個案資料、入境數字、患者曾出現地區、家居檢疫大廈等。除了入境處提供的入境數字,其餘都在資料一線通可取得。但陳家雋稱,特區政府以 PDF 和 CSV 格式開放數據,甚至後期加入的 API,但未有為每一項數據加上標籤,只用一整列字串載著數據,開發人員需要用程式拆解。若其中有欄目增刪,甚至調動位置,便要更改程式。「這樣的開放數據並不友善。」
    為每項數據加設標籤,方便使用。
    為每項數據加設標籤,方便使用。

    出入境人數問題更嚴重,現時只在入境處網站發放每日更新數據,卻是 HTML 網頁,屬人讀格式。他又編寫程式,自動每日從入境處網站發放的 HTML 網頁抽出每個口岸的數據,製成 API。「武漢肺炎實時資料庫」也統計過去 14 日入境從中國大陸入境本港的人數,發現超過 13 萬!
    入境處只在網站公布每日出入境數字,不在資料一線通以機讀格式發放,並不程式友善。
    入境處只在網站公布每日出入境數字,不在資料一線通以機讀格式發放,並不程式友善。

    經陳家雋整理後,以API發放入境數字的格式。
    經陳家雋整理後,以 API 發放入境數字的格式。

    網站亦設有新聞消息,為杜絕假新聞,他利用人工智能篩選。他在 AWS SageMaker 上建立自然語言處理 NLP 的機械學習模型,分析在網上找到的每一則武漢肺炎相關新聞,只要可靠度夠高,都會將新聞連結加入,方便用戶查看。
    陳家雋稱,建立該平台僅用一個周末,有賴 AWS Lambda 簡化工作。AWS Lambda 為無伺服器架構,按事件驅動,例如網站或 API 查詢。他表示,若用傳統架構建設這網站,可能花去大部分時間處理基本架構,如網頁伺服器、負載平衡等,不可能兩日內完成。「現在則專注編寫程式,而且 AWS Lambda 不限程式語言,『武漢肺炎實時資料庫』網站的每一個模組,用最合適的語言編成。」
    由於伺服器架構,AWS 按需要自動擴充容量,毋須由管理員處理,亦不擔心系統不足無法應付查詢。陳家雋表示,2 月中有傳媒報道過網站之後,突然 1 日內湧入逾 10 萬瀏覽量,系統亦能應付自如,上月瀏覽量超過 78 萬,而 API 查詢至今錄得逾 150 萬次,當中更有外國程式員查詢香港的數據。
    至於成本,AWS Lambda 按用量計算,即使流量如此龐大,陳家雋透露,至今僅用數十美元,亦因毋須開設虛擬伺服器的傳統架構,成本估計減了一半。
    Oneshop技術主管鄭植元表示,本地有數據人才和開發人員,亦有隨手可用的雲端技術,利用數據推動抗疫,甚至推動本地 IT 產業發展。
    [2020 年 3 月 18 日 16:30 更新]

    特區政府資訊科技辦公室回應

    資科辦已由 3 月 10 日起,為每一項以 JSON 輸出的數據加上標籤,提升應用程式介面(API)的輸出形式,務求更方便開發者使用。
    另外,就出入境人數數據方面,入境事務處一向在「節日期間出入境旅客人次的統計數字」數據集內發放相關數據。因應現時疫情,入境事務處會持續發放相關數字,而資科辦亦已為這個數據集提供應用程式介面。

    相關報道

    https://www.pcmarket.com.hk/2020/02/12/%e6%8a%97%e7%96%ab%e8%b3%87%e8%a8%8a%e5%a5%bd%e9%87%8d%e8%a6%81-ogcio%e9%96%8b%e6%94%be%e6%95%b8%e6%93%9a%e5%8a%a0%e6%8e%a8api/

    您會感興趣的內容

    相關文章