書名:大數據

作者:庫基耶(Kenneth Cukier)

麥爾荀伯格(Viktor Mayer-Schonberger)

出版社:天下


什麼是大數據?

我想大家對於這個名詞應該都不會太過陌生吧?例如我們常常會在網路上做的性向測驗、星座分析,這些就都算是大數據運用的一環,是巨量資料分析過後的產物。

但如果真要嚴格說起來的話,那這些東西就只不過是冰山一角而已,如此說來,大數據究竟是個怎麼樣的概念呢?

在這本書《大數據》裡作者告訴我們,大數據思維的重點,在於看見各個資訊片段的關係,並加以分析以及理解。

什麼意思?在這舉個例子!

相信各位都有過傳訊息拼錯字的經驗吧,有時有可能就在輸入時,因為一個不小心而拼成了另一個字,例如要拼「醫生」卻成了「一生」。

對一般人來說「拼錯字」的這個「資訊」可說是一點用處都沒有,畢竟重要的是要拼對嘛。

但是如果今天用大數據的思維來看,「拼錯字」這個「資訊」就可說是價值連城,電腦可以記錄下大部分人「拼錯字的資訊」,藉此算出人們在拼哪個字的時候會很容易拼錯,並能因此提醒或是修正使用者正要拼的字(請問你是要拼醫生這個字嗎?)

原本一個拼錯字的「資訊」可能一點用都沒有,但你想想,全世界的手機、電腦使用者每分每秒都在拼錯字,這數量集合起來並加以分析,就能從中獲得不得了的發現,而這也是如本書作者的看見以及呼籲,我們必須改變對於資料使用的舊項思維與習慣

在這本書裡作者就提到了三個大數據對於現今資料分析思維上的改變,在這分享給各位。

▊應該放棄的抽樣資訊思維▊

首先我們先來想像一個場景,你看過貨船嗎?就是上面放著滿滿貨櫃的那種大船,假設今天有一艘滿載1000個大貨櫃的貨船開進了一個港口,而你剛好就是要負責查驗這艘船的海關,請問你會如何搜查這些貨櫃呢?

1.一個個打開檢查

2.隨機抽查

我想大部分的人都會選擇選項2吧,因為這樣快速、不馬虎、CP又超高,與其一個個打開來累死人,不如隨機取樣還比較經濟實惠。

而這種從龐大的數據中挑出一小部分,以便於檢驗的方法,便是我們人類長久以來檢驗資訊的方式,我們統計學也正是在這脈絡下應運而生。

但作者首先認為,在這大數據的時代理,我們為何還要這樣畫地自限呢?

在以往要處理資料的確有難度,所以我們就一心覺得這是不可逆的現實,卻沒發現,這其實只是當時科技能力所造成的人為限制

在如今的數位時代,資料處理已經變得更快、更容易,在以前可能要10幾年才能完成的人口普查,現在可能就只要1天就能完成。

科技的日新月異,使我們能收集更多的資料,處理更多的資訊,而這也是大數據的一個特點,重要的不是資料的容量大小,而是資料的「完整性」。

例如我們的健康報告檢查,如果只測身高體重,那要怎麼能切確的知道自己的身體健康狀況呢?如果能有較為完整的檢查項目,我們便能知道自己的身體有哪裡出現了狀況,並且能為此作出更多的因應方案,而這正是抽樣資訊做不到的地方。

有很長一段時間,抽樣資訊的確是一個很好的捷徑,就算沒有良好的科技,也能分析大量的資料,解決問題,然而就像健康檢查一樣,只抽樣檢查幾個地方必然會有所遺漏。

資料的完整性使我們有了更多的發揮空間,而這也是作者認為我們不該再用抽樣資訊的思維,繼續畫地自限的地方。

 

▊擁抱雜亂與不完美▊

各位應該都有做過問卷分析的經驗吧,一般來說,問卷的分析者都會希望這些填寫者的資料精確無比 。

但其實就算再怎麼小心,終究還是會發生資訊有所錯誤的時候(可能是填寫者亂填)。

在以往資訊抽樣的思維下,我們會直接放棄這些有問題的問卷,絕不可能覺得「算了吧,這也沒辦法」,因為只在分析少量數據的情況下,資料的錯誤可能會被放大,因而影響最後的成果。

然而這種態度,在小量資料轉變成巨量數據的時候,就必然會有根本上的改變。

而這也是大數據思維所帶來得第二個改變「接受雜亂的資料以及不完美」。

作者在這就提到了一個接受資料混亂、不完美的例子。

Flickr是一家專門提供免費線上儲存照片的公司,這間公司的特別之處,就在於他們開創了一個很特別的照片分類方式「讓使用者自己分類」。

Flickr並不是事先訂出分類項目,而是讓使用者在上傳照片到Flickr時,可以使用「#」的方式,為自己的照片作標籤,這標籤分類方式沒有任何規定標準,任何人都能加上新的標籤。

當然,人非聖賢嘛,有些人可能在標籤的時候不小心拼錯了字,造成了不精確的資料產生,在以往抽樣資訊的思維裡,這種資料有誤的狀況是絕對不被允許的。

然而這樣混亂的照片組織方式,反倒使我們有了更豐富的分類方式,讓我們有了更多篩選照片的管道,雖然混亂,但又能讓使用者用比較靈活的方式,來適應這個不斷變化發展的世界,這種方法如今也廣泛運用在許多的社群平台上,例如Instagram、推特、臉書。

在今天這個大數據的局面裡,接受各種不精確、雜亂,也許不是缺點,反而可能是件好事,因為大數據強調的不單是資料的「完整性」也同時強調資料的「雜亂」,比起過去那些規模很小但精確的資料更能接近現實。

放寬了誤差值接納雜亂,反而能使我們手中擁有更多的資料,能使我們去發現更多的可能。

 

▊不再拘泥因果關係▊

你知道在美國每逢颱風前,商場賣的最暢銷的是什麼嗎?

電池?手電筒?泡麵?都不是!其實是一種小餅乾!?

這個聽起來超奇怪的案例,是來自美國的知名連鎖零售百貨沃爾瑪(Walmart Inc)的發現。

他們曾與一間叫天睿(Teradata)的數據分析公司合作,請他們幫忙分析他們過去龐大的歷史交易紀錄,希望能從中找出相關性的商機。

這龐大的資料包含了,每個顧客究竟買了什麼?總消費多少?還另外買了什麼?幾點上門?甚至包含當時的天氣如何。

靠著這樣的分析,沃爾瑪發現,每次颱風來之前,銷量大增的不只是手電筒,還包括種特別的小餅Pop-Tarts(為了讓大家有畫面,請看下圖)

靠著這個相關性,每逢颱風來臨的前夕,沃爾瑪就會把一盒又一盒的Pop-Tarts堆在各種風災必需品旁邊,而他們的營業額也真的因此增加了不少,就某種層面來看這也能算是種災難財呢(哈哈)

但話說回來,為何資料會顯示這個小餅乾與颱風的來臨會正比呢?關於這答案可能永遠都很難有個定論,但唯一能確定的就是「數據就是這樣說」。

而這也是第三個大數據分析思維上的轉變「不拘泥因果關係」。

這種看事視角上的差異,就好比人與水澠的視角上的不同。

對我們人來說「地心引力」很重要吧,我們的生活起居,時時刻刻都受著地心引力的制約。

但對水澠可就不一定了,對它來說反而是「表面張力」比較重要,不然它們就不能浮在水上了。

小量資料與巨量思維的視角差異就像以上這個「地心引力」與「表面張力」的差別。

隨著資料完整性上的提升、樣本雜亂而豐富,我們所能發現的細節與相關性就越來越多,而每個事件的之間的因果關係就會越來越模糊,例如上述沃爾瑪的故事裡,我們只能知道颱風與餅乾的關係「就是如此」而沒辦法知道「為何如此」。

而這也是我們要有的改變,在大數據的世代裡因果關係已不在是重點,相關性才是。

 

後記:在數據講話的時代,做個有溫度的人▊

在電影《關鍵報告》(Minority Report)裡,描述著一個沒有謀殺犯罪的未來世界,在這的未來世界的政府機關裡,有著一群能預見未來的先知,而政府則能藉由這些先知的預言,「提早」的去逮捕「未來可能會犯罪」的你。

而這也不禁讓我開始思考一個問題:在不久以後的未來,我們是否也會如這電影裡的人們一樣,始終相信著這些先知(數據)的預言呢?

在大數據的世代裡,資料分析的確是項很棒的資源以及好用的工具,他能讓我們預測機票的價錢、控制流感、分析個性,知道颱風來時要放什麼小餅乾,知道自己發生疾病的風險,我們可以不用在拘泥因果關係,只要知道事情「就是如此」就好。

但回過頭來看,大數據終究只是協助我們的一種工具,而不是一種我們選擇的絕對圭臬。

《未來在等待的人才》裡,我覺得有段話說得相當的貼切

『在未來,知識不再是力量,感性才是』

所謂的感性,並不是指多愁善感的個性,而是一種善於溝通的溫度。

未來需要的人才,並不是能力超強、高高在上的強者,而是那些善於連結眾人,把不同的人連結在一起的人。

同樣的,在大數據說話的時代裡,我們要的不是冷冰冰的演算工具,而是那些能夠尊重自由意識、接納不完美的「人」。

大數據的確能使我們的試的更快、探索的更多,但進步的火花卻從來都不是資料分析所能預期的,就好像如果亨利.福特想靠著大數據演算法,知道客戶的需求,那他得到得答案一定會是『一匹更快的馬,而不是汽車』。

人類社會進步的源頭,從來都不只是靠著數據的分析與解釋,而是那些回歸人性裡,有關直覺、創造力、同理心的寶貴特質。

大數據使我們的生活可以過的更加的舒適,但人與之間的溫情,卻是我們能持續進步、成為更好的動力源頭。

《大數據》推薦給每個想在大數據的時代裡,做個有溫情的人。

 


by~疾恩

    Jaby疾恩 發表在 痞客邦 留言(0) 人氣()