【Market Trend】大規模數據分析 選軟件五大妙法

【Market Trend】大規模數據分析 選軟件五大妙法

作者:Elastic 技術傳道師曾勇

數據現時對企業來說可說是前所未有的重要,由偵測欺詐以降低財務風險到建設推薦系統及完善客戶體驗,數據都能為企業解決日益複雜的問題。

既然數據已成為企業的重要元素,那麼這幾年在數據這領域學懂了甚麼?市場上有多種不同的軟件模式,包括專屬、雲端和開源,因此現時進行大規模數據分析項目時,開發者、架構師及資訊科技專才要在眾多軟件中作出選擇,某些軟件可能涉及昂貴的前期投資或需要投入龐大資源,但總有些工具恰到好處,既容易部署又為原型(prototype)提供廣泛的功能。

尋找合適的工具對增加項目成功率及免於墮入常見陷阱致關重要。以下為五個在大規模數據分析項目揀選合適產品的建議:

1. 以細型及簡單起步

企業於採用數據分析項目,常見的錯誤為開始得太大型及太快速。特別是項目是由上而下推動,執行隊伍很大機會被要求構建一套沒有明確成效但又十分複雜的解決方案,令項目變得很昂貴且費時。

企業應以規模較小的項目先試牛刀,讓決策者很快看到成效,提升他們的信心。利用現代化開源技術,企業不但毋須作大量前期投資,更可讓開發者迅速投入工作,於數日或數周內構建所需的應用程式或原型。

2. 及早考慮可擴充性

即使只是構建一個框架,務應盡早測試可擴充性。很多項目之所以失敗,全因應用程式在構建時沒有測試擴充性,亦可能因為所揀選的技術不是為處理大量數據而設計。

確保效能測試不是事後之事。先預計在這段時間內將獲取多少數據,並進行測試和參考,確立合適的架構,以保證數據量增加並需要橫向擴展時,沒有絲毫影響表現。

3. 擁有實時數據的重要

我們都經歷過應用程式或網站無反應或緩慢,今時今日,任何不是實時的事都不能接受。如果有一個詢問沒有即時處理,用者很快就會缺乏耐性並離開該網站或程式,導致客戶流失及盈利下跌。

企業需確保所用的軟件不但能處理大量數據,亦有能力處理並實時回應即時查詢。建議使用擁有如聚合及座標功能,以及即時搜索結合的內置數據分析軟件。

4. 採用靈活的數據模式

現今的系統包括非結構性及結構性數據。但不要被那些為結構化圖表及數據而設的關聯式資料庫所規限。這類資料庫很難加上索引、解析、搜尋及分析其日積月慮的大量數據。

企業應採用擁有通用數據結構的軟件。很多用作數據分析項目均使用JSON,以支持文字、數字、字串、布爾值、數組和雜亂信號等結構性及非結構性數據類型。

5. 揀選開發者易於使用的工具

現今數據流量之多讓企業或開發者在應付大規模數據分析項目時,很難使用不開放的應用程式介面的軟件。應用程式介面用作輸入、索引及分析一般來自不同來源或系統的數據。

企業應給予開發者一套擁有豐富、開放及資料齊備的應用程式介面,讓他們更快速有效地解決問題。久而久之,當項目擴充時,開發者亦能不斷創新及改進這套應用程式。

根據上述五大元素為大規模數據分析項目中揀選最適合的工具,將有助改善項目的時間價值,並確保企業已為長遠的成功作好準備。很多如 BBC、高盛集團、英國衛報等大企業均已採用這方式,揀選開源軟件以解決其關鍵項目。只要方法正確,企業所需的數據分析其實可以很迅速、簡單及划算。