翻轉5觀念,你也能讓大數據這頭大象跳舞!
圖片來源:本刊資料照片
我在修大數據學程時,有5個印度同學,他們的電腦專業很強,但下課後總抓著我問統計概念,因為我過去除了商業實務外,讀博士班時也用過統計。所以,若想從事大數據相關工作,第一就是不要怕統計。
大數據分析不是要你證明統計公式,而是得具備統計學的基本概念。例如,只要知道統計學中迴歸分析的目的,在於找出X變數對Y變數的相關性就夠了。
以商業上的實務為例,價格(X變數)改變後,對銷售(Y變數)有何影響?不用證明價格為何會影響銷售,而是找出價格改變對銷售的效果,當價格調降5元或10元時,何者最能提高銷售額?或是當我們將各地區的銷售數字輸入軟體,從跑出來的數字發現,南部對價格調降的敏感度比北部高很多時,這時南部市場就可主打價格行銷,北部市場就要利用其他手段來刺激銷量。
如何解讀大數據分析後的資料,有賴於是否具備產業知識和實務經驗。至於統計公式都已經內建在軟體內的下拉式選單中,連指令都不用寫。但如何解讀跑出來的數字,才是大數據最重要的價值。
Q2:如何正確理解大數據是什麼?
A:先從「6V特性」下手,LKK也能懂
專家認為,大數據的特性,可以用「6個V」來說明。
1.Volume(大量)
不論是非數位或已數位化,全世界已經累積無比龐大數量的資料,所以大數據的第一個特性,就是如天文數字般的龐大資料量。
2.Variety(多樣性)
大數據中的資料形式非常多樣化,包括網頁、電子郵件、社群互動訊息、圖片、視訊、音樂、線上交易、搜尋行為等,都會留下各種數據資料,當然,這也提升了資料在儲存、發掘和分析上的難度。
3.Velocity(產生和傳輸速度快)
隨著愈來愈多設備連網,以及愈來愈多使用者隨時都在產生各種資料,各種需要處理的資料不是批次的,而是像水龍頭一般流進資料庫。因此,快速接收、處理、回應大量資料進而產生價值,變成大數據在應用上最大的挑戰。
4.Validity(正確性)
並非每筆資料都有用。就像Facebook上的一個「讚」,究竟是表示對方真的支持你,還是禮貌性地只表示看到了?換言之,定義何謂正確和有意義的資料,遠比只是追逐資料的數量更重要。