資料勘探是一種能讓企業利用一些技巧和工具來從長期蒐集的資料中截取有用資訊的方法,這些資訊包括對資料的分析敘述,或是對未來的預測。
目錄
資料勘探是在數據集內尋找資料的程序,亦被稱為數據庫知識探索(KDD)。透過資料勘探,用戶可得到兩種數據,包括敘述式數據或可用於預測未來的數據。
資料勘探的第一步,也是最困難的一步,就是要設定業務目標,這亦是最關鍵的。若您不知道自己在尋找什麼,那就很難選擇正確的機器學習類型、演算法和模型來取得所需的資訊。
資料勘探可用於營銷及市務推廣,讓商業機構更了解其客戶及市場情況。學校及大學可以用它來更好了解學生,包括分析他們在虛擬課室所花的時間、打鍵盤次數、學生同時參與的課堂或取得最佳測驗分數的班別等。
機構也可以利用資料勘探來優化運作,例如更好了解製造流程、部件要求、故障情況、系統失靈及其他等。在偵測詐騙上也可應用此技術,銀行界可以利用資料勘探來尋找詐騙模式及找出那個機構被入侵。
第二步就是要準備您的數據。假如您了解自己的目標,您的數據科學家就可以決定採用合適的數據集,從而產生對業務有用的資訊。在這步驟中,數據科學家必須先清理數據,消除重複及異常值,並補充欠缺的資料,以預防資料勘探演算法及工具未能提供所需結果。
第三步就是要建立模型及進行勘探,而以下技術及工具亦在此時加入運作。資料勘探使用的深層學習演算法,可以是受監督或不受監督的學習方式。
第四步亦是最後一步,就是評估數據挖掘產生的結果,與及以此為據採取行動令機構獲益。
資料探勘技巧可讓資料科學家和企業更妥善發揮大數據的效益,以下是一些常用的技巧:部份常用的技巧包括:
資料勘探工具是改善資料勘探效率必不可少的一環,現今主要的工具包括:
MonkeyLearn 是一個文本分析工具,可以用來偵測負面的網上評論或自動化籌號排序及分發程序。
RapidMiner Studio 是一個開放源碼平台,提供拖放式介面,讓非程式設計人員自訂使用情境。它可用作偵測詐騙及客戶變動。程式設計師可以利用 R 及 Python 副檔名來客製化資料勘探內容,並可透過用戶社群取得支援。
Sisense for Cloud Data Teams 讓團隊能彼此合作,從資料中擷取情報,無論團隊成員的技術程度為何。
Alteryx Designer 可讓資料分析師透過單一工具來準備、混合及分析資料。
Qlik Sense 是一個視覺化軟件工具,內含「令人驚豔的圖表和圖形」。它可以利用拖放功能來分析多重來源的數據。
Fernando Cardoso
產品管理副總裁
Fernando Cardoso 是趨勢科技產品管理副總裁,專長於不斷演進的人工智能與雲端世界。他的職業生涯由擔任網路與銷售工程師開始,並在數據中心、雲端、DevOps 及網絡資訊保安領域都具備優異技能,而他對這些領域依然煥發了無比熱情。
Fernando 在網絡資訊保安產業擁有超過 13 年經驗,曾帶領過多項雲端防護、DevSecOps 及人工智能防護計劃,並與全球客戶及策略合作夥伴密切合作,如 AWS、NVIDIA 和 Microsoft。此外,他還是全球知名意見領袖,經常擔任演講嘉賓,包括 AWS re:Invent 到 NVIDIA GTC 以及 Black Hat 的人工智能高峰會。
Fernando 帶領全球產品經理團隊,推動上市策略、進行市場研究,並提供創新技術來持續塑造安全、智慧雲端環境的未來。