第二十二屆國家講座主持人—臺大電機系陳銘憲教授
圖片來源:教育部
何謂資料探勘?一如英文字中使用“Mining”,恰如其分地說明這項技術的本質。就如同在礦藏中挖出金子一般,資料探勘就是要在大量資料中找出有用的知識及資訊。
撥開迷霧找解答
陳銘憲是早鳥族,每天早上4 點起床,在整個城市尚未甦醒前,他在紙上寫下一天的待辦事項,然後,帶著這張紙條,走近有大量資訊的忙碌世界。這張紙條幫他釐清每一天的輕重緩急,並用他最擅長的資料探勘研究,幫助大家在數據迷霧中,找出解答。
在數位化的發展下,不管政府、企業乃至小到個人經營的社群,都能即刻掌握各種大大小小的數據,「如果無法發現數據背後隱藏的意義,2 萬筆和20 萬筆數據都一樣是無用的資料,」陳銘憲一語道出資料探勘的重要性。
然而,在各種社群媒體、應用服務崛起後,數據產生的速度便愈來愈快,內容也相當龐大,要如何在浩瀚的數據之海中,找到有用的資訊?
「相關性」(Association)探勘是陳銘憲所研究的探勘方式,他也是全球最早投入的學者之一。所謂「相關性」分析,舉例來說,就是找出購買牛奶和麵包、鐵鎚和釘子的相關性。在過去,靠著經驗累積,柑仔店老闆不用看大數據,就知道哪些商品該擺在同一個貨架上。因此,隨著雲端服務與各種智慧載具興起,累積的龐大數據,在分析上已進入一個必須仰賴機器學習的時代。
將觸角延伸至其他資料探勘方式
除了相關性之外,陳銘憲也研究其他資料探勘方式,包括分類性(classification)、順序性(sequential patterns)、移動模式(traversal patterns),例如,網頁瀏覽路徑及行動裝置之移動模式,以及具隱私保護的探勘技術(privacy preserving data mining)等,不僅引領領域發展,也獲得了學會最佳論文獎。透過這些探資料探勘方式的最佳組合,提升決策效益。
對於資料探勘科學家而言,除了「精確性」外,「即時性」是另一項重大挑戰。無人機飛行時拍攝的影像、太空梭升空後拍攝地球的照片,都需要進行即時分析以修正路線及決策,此外,監控的影像也必須在當下找出相關性。例如,看出張三和李四總是一起出現,這有可能就是破案的線索,如果遲遲無法找出事物相關性,也許就錯過破案機會了。