為提供您更多優質的內容,本網站使用cookies分析技術。若繼續閱覽本網站內容,即表示您同意我們使用 cookies,關於更多cookies資訊請閱讀我們的隱私權政策。
我知道了
切換隱藏選單

180名員工平均年齡28歲,這樣打出50億業績

大數據分析,從資料清理開始

愈來愈多企業會透過大數據來作分析應用,但統整資料前,必須先清理資料,在過程中,你可能會面對6個挑戰,來看看該如何一一解決。

愈來愈多企業開始利用大數據做分析應用,我也常被問到兩個問題:第一個問題是:「我的公司沒有資料,怎麼做大數據分析?」第二個問題則是:「我的公司資料很多,但不知道從何開始?」

第一個問題,我的答案很簡單:「沒有資料,也就沒有包袱,現在就可以開始蒐集有用的資料!」

第二個問題就比較複雜了,也反映許多企業正面臨的難題。根據媒體報導,全家便利商店歷年來蒐集了190萬筆資料,要導入大數據應用時,卻發現這些資料都不能用,只好重新建立。

這可能是比較極端的例子,但事實上,企業的資料的確散見各處,有的在業務端、有的在行銷端,甚至客服端也有,相當欠缺清理與整合。

整合資料前,要先清理資料,在這個步驟,你很快就會發現很多問題。我歸納,至少會面臨下面這6個挑戰,而這些問題也是我過去碰過的。

挑戰1:沒有資料(No Data)

由於過去沒有設定目標,所以沒有保存。比如剛開始沒想到日後會回饋顧客生日禮,所以建立資料時,沒有詢問顧客的生日,日後就少了一項可以應用的資料。

挑戰2:過時的資料(Out-of-date Data)

有的企業雖然有保存資料,但資料的保鮮期已過,用途不大。例如,5年前蒐集的客戶email,有些網路服務可能已經終止,客戶已不再使用,或是客戶早已換了工作,email就得重新蒐集才行。

挑戰3:不完整的資料(Uncompleted Data)

雖然有資料,但資料欄位不完整,導致只有部分資料可以應用,或者必須補齊才有應用價值。例如姓名、電話、地址、交易資料都有,但是沒有記錄交易時間、金額,以至於無法做進一步分析。

挑戰4:遺失的資料(Missing Data)

這個狀況是,有資料,資料欄位也很完整,但是某些筆數的資料欄位卻是空白的。

譬如1年12個月的資料,某些地區的交易資料是空白的,這是代表沒有交易呢?或者交易金額是零?這些欄位必須處理。若確認是沒有交易,就要填入「零」或「平均數」,以減低對總體資料的影響。

挑戰5:稀少的資料(Sparse Data)

該有的欄位都有,也有紀錄,但是記錄到交易行為發生的資料數量非常少。例如,請消費者來為某部電影評價,但是大部分人都沒有看過這部電影,造成有評價的資料過少,缺乏分析的價值。

挑戰6:不精確的資料(Inaccurate Data)

最常發生的狀況,就是用不同的衡量方法,提供不一樣的資料。有位企業經營者問我:「整理完後的資料,剩下兩千筆不到,怎麼辦?」不用灰心,兩千筆有效的資料,總比20萬筆沒有經過清理的資料來得可靠!

最後切記,大數據並非「數大就是美」,應該是「不怕少,怕不好」。

這就是為什麼做大數據分析前,我們要先清理資料的原因了!

雜誌全文

全文完,覺得不過癮嗎?您可以:

徐重仁

勇敢世代的未來必修課 Cheers x 重仁塾 5周年

王俊人

前奧美社群副總經理,現任SoWork創辦人。帶你從FB後台數據分析鐵粉經營之道。

生涯顧問

陳薇雅

ICA國際教練學院亞太區策略長,優勢立基藝術引導教練

權自強

讚點子數位行銷執行長,帶你從LINE@看見鐵粉經營之術

潮課名師

最新評論

你是哪種族群?

提醒

本網頁已閒置超過三分鐘,請點擊 關閉 或任一空白處,即可回到網頁。

關閉廣告