資料探勘大師,鑑往知來
工程及應用科學類科/第二十二屆國家講座主持人
Engineering and Applied Science
國立臺灣大學電機工程學系特聘教授
陳銘憲
陳銘憲於30年前投身「資料探勘」(DataMining)研究,在那時這是突破傳統資料庫(Database)領域的一條新路,他是全球少數拓荒者之一。數十年累積下,他的論文受到全球學術界頻繁地引用,在資料探勘及數據科學領域中,早已是全球公認的權威人物。
何謂資料探勘? 一如英文字中使用“Mining”,恰如其分地說明這項技術的本質。就如同在礦藏中挖出金子一般,資料探勘就是要在大量資料中找出有用的知識及資訊。
撥開迷霧找解答
陳銘憲是早鳥族,每天早上4 點起床,在整個城市尚未甦醒前,他在紙上寫下一天的待辦事項,然後,帶著這張紙條,走進一個充斥大量資訊的忙碌世界。這張紙條幫他釐清每一天的輕重緩急,並用他最擅長的資料探勘研究,幫助大家在數據迷霧中,找出解答。
在數位化的發展下,不管政府、企業乃至小到個人經營的社群,都能即刻掌握各種大大小小的數據,「如果無法發現數據背後隱藏的意義,2 萬筆和20 萬筆數據都一樣是無用的資料,」陳銘憲一語道出資料探勘的重要性。
然而,在各種社群媒體、應用服務崛起後,數據產生的速度便愈來愈快,內容也相當龐大,要如何在浩瀚的數據之海中,找到有用的資訊?
「相關性」(Association)探勘是陳銘憲所研究的探勘方式,他也是全球最早投入的學者之一。所謂「相關性」分析,舉例來說,就是找出購買牛奶和麵包、鐵鎚和釘子的相關性。在過去,靠著經驗累積,柑仔店老闆不用看大數據,就知道哪些商品該擺在同一個貨架上。因此,隨著雲端服務與各種智慧載具興起,累積的龐大數據,在分析上已進入一個必須仰賴機器學習的時代。
由於人類已經無法憑僅有的經驗,找出數據的相關性,所以必須仰賴機器,以更快的速度、更精準的方式,整理數據之間的關聯性及有效資訊,也讓機器學習(Machine Learning)在2011 年左右暴紅,成為一門顯學。