數據、謊言與真相:人會說謊,大數據不會
我們的直覺,常常是錯的。
數據不只是揭發已然發生的狀況,更能夠作為一種預測工具,透過數據分析,可以得到我們真正想要知道的事情。
這本書,希望透過大數據的分析,能知道,人們實際做了什麼 而不是他說了什麼,從而了解真實需求,探究更多的可能。
作者也期待這種分析,能讓原本的社會科學,漸漸成為真正的科學,並改善我們的生活。
這本書主要的數據分析方式之一,是以搜尋引擎所帶出來的大量數據,來探討可以怎麼樣的運用,怎麼去辯知真偽。
人會說謊,大數據不會
透過搜尋引擎這種匿名的行為,是真實的需求,不會有人去找本身並不需要的需求,也沒有說謊的理由。
有些問題是永遠也問不出真相,像是政治立場,性隱私,仇恨言論,同志傾向,種族歧視傾向,甚至顧客要的是什麼,喜好,不安,而透過匿名,且尋求答案為基礎上的搜尋數據,就有意義的多。
相對於,臉書等社群網路上的行為所傳達的,往往是想要給別人怎麼看待自己,其數據的真實性反而有待商榷。
問對問題,探究更多的可能
要從數據中獲得寶貴資訊,最關鍵的一點是:你必須問對問題。而大數據有四大關鍵力量可以協助:
⒈大數據能讓你將數據切割分解,讓你見微知著及獲得具體的見解。
⒉新的資料來源通常包括新類型的變數,比現存變數更能幫助我們了解複雜關係,並充分利用。
⒊新的數位資訊能提供我們生活的真實樣貌 (誠實),而非我們希望自己呈現給外人的形象 (摻雜謊言)。
⒋大數據易於與實驗結合,使我們能測試因果關係,而非僅是相關性。(A/B test)
挖掘真實需求,破解錯誤認知
顧客告訴你的想法,不一定是真實需求
對企業來說,真正有用的數據,是藏在顧客的消費行為、模式當中。
很多的事實是和我們一般來說的認知有差距,書中很詳細的說明一些例子,像是
- 血統越純正的賽馬,越容易拿到冠軍?
- 歐巴馬當選是代表不再有種族歧視嗎,
- 川普的當選代表了什麼
- NBA選手都出生於貧困之家,因為那是少數可以賺大錢的路
- 為什麼有些地區的人民會想辦法不繳稅
- 哪裡是養育小孩的最佳地點
- 因為分數差一點而上到不同學校的學生,是否影響會很大?
- 同性戀者的數量、民眾對恐怖份子的強烈仇恨、新聞標題的吸引程度
關於資料搜集,越多越好嗎?
要做出正確的決策,倚賴的並非是「大量」的數據, 而是更具關聯性的數據。
數據量不是最重要的,必須要知道他的因果關係,數據之間彼此的關係
想用大數據去突破,在傳統方法效率很差的地方,導入大數據的搜尋分析,才會最有效果
關於數據預測與測試
若從我們的生活經驗就能判斷答案,那麼測試就不會有價值。
更有效率且風險及成本更低的方式進行 A/B 測試
知道「為什麼」重要嗎? 數據讓我們更了解人性,但是做預測,只需要知道怎樣做有效,不需要知道「為什麼」有效。
統計學能夠繞過未知的原理,先得到結果。然後再用結果去找原理。
透過A/B 測試,能夠運用大量的小型測試,去知道哪些調整能夠達成更佳的效果,這種方式,往往是很難事先去預估得到的。而這種方式,也是新型數位大數據的超大優勢。
找分身的預測法來進行預測
找尋有多個因素相同的分身,來做預測的實驗。
隱私和監管會是個問題
隱私和增進效果上面平衡,會是個重要議題。
追蹤流感發生,事件發生,對於政府該怎麼介入,怎麼樣才不會如同電影,預知防罪或是獨裁政府,以意圖行使某些行為而拘捕某人。
預測和隱私怎麼平衡,哪些東西不該用預測監管,是一個隱含很多重要問題的議題。
大數據有道德風險
書中也提到了一個大數據衍生出來的議題 – 道德危險。
例如某企業要雇用某一人,會去搜尋他的臉書 社群訊息,以及所有網路上的代表性資訊,或按讚次數。
當某人說了某公司的壞話 ,以不錄取他,這沒有道德危險。
但假如發現了一項非關重要性的數據,因而不去錄用他,這就是道德危險。
因為人不知道自己的言論在大數據上呈現的歸類在哪一類 ? 是什麼原因、而不能得到他也許可以得到的工作 ?
數據的不可靠性
數據是機率、傾向,卻不是每一個人的選擇。在使用上只能參考。
最好的方式是用數據分析,搭配著傳統的知識。
作者認為,要協助大數據發揮最大作用,通常需要一種特定秘方,也就是小數據 – 人類的判斷和小型調查。
結論
若想以數據來革新一個領域,最好進入一個傳統方法效率極差的領域
整體而言,除了有些部分比較繁瑣外,這本書應該可以增加對於數據分析和大數據的一些想法。
有興趣的人可以看看。
數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目 (博客來連結)