[閱讀筆記] 數據、謊言與真相,透過數據分析揭露人們的真面目

文章推薦指數: 80 %
投票人數:10人

當你面對Google 的時候,你會說謊嗎? ... 透過不斷的電擊,想要看看狗狗是不是會因為幾次逃離失敗之後,覺得自己無法控制不被電擊這件事,於是產生 ... 跳至主要內容說謊的人,要吞一千根針喔…看完這本書,想起林宥嘉《說謊》這首歌,就如同歌詞裡寫的「人生已經如此的艱難,有些事情就不要拆穿」。

總是有許多說不出口的理由,讓我們說謊,也總是要等到那些夢幻泡泡破滅的時候,才願意坦承面對…當你面對Google的時候,你會說謊嗎?我們都希望能透過搜尋引擎找到想要資料,所以願意說出秘密以換取答案。

而在搜尋的過程中,我們所處的環境、使用的裝置類型、在甚麼時間所下的關鍵字等資訊,都將成為珍貴的搜尋紀錄,收進Google的檔案櫃裡,成為大數據的一份子人會說謊,但大數據不會我很喜歡這本書的副標,作者大量的利用Google所提供的工具GoogleTrend搜尋趨勢,從Google這個超級無敵大的檔案櫃裡翻找線索,分析人們的搜尋紀錄,釐清事情之間的因果關係。

同時也結合許多數據集來做實驗,比如成人網站Pornhub的搜尋紀錄、維基百科的名人錄,或者是Facebook粉絲專頁的按讚數據。

這些資料都是傳統科學家無法觸及的,也讓我想起心理學中許多的殘忍實驗,其中一個就是著名的電狗狗「習得無助」實驗。

透過不斷的電擊,想要看看狗狗是不是會因為幾次逃離失敗之後,覺得自己無法控制不被電擊這件事,於是產生消極的行為,就此放棄「狗」生…如果當時有辦法收集自然數據,是不是就可以避免這些可憐的實驗狗被電擊、或是白老鼠被開腸破肚呢?有了這些新時代的數據,我們都像是吃了誠實豆沙包,很積極的提供各種資訊給搜尋引擎,這當然要歸功於現代科技帶來的良善環境:提供一個具有隱匿性、不會被追蹤的網路介面,讓使用者為了尋求答案而不說謊。

這些大企業才有辦法透過這些資料發掘出商機,找到更多賺錢的機會,社會科學、心理學、經濟學等等專家才有辦法利用這些資料,直接窺探人們的內心,更進一步的了解世界如何運轉這本書從數據面來找答案,但光從GoogleTrend拿到的資料還是有限,或許有些重要的資訊被我們忽略了。

作者也坦言這樣的分析方式有所限制,不過我們可以看出事情的大方向,從中翻轉一些我們僵化的認知。

當然,我自己也對於一些分析結果抱持懷疑的態度,比如GoogleTrend沒有性別資訊(作者是依照不同關鍵字來做區隔)、要觀察那些關鍵字、關鍵字的同義問題,比如Apple可以是蘋果或是蘋果電腦,雖然可以透過類別設定避免這個狀況發生,但感覺還是不穩呀。

我簡單的在GoogleTrend比較養寵物關鍵字的搜尋聲浪。

像最近養青蛙很紅,出現了一個高峰,而養貓養狗的比例,遠高於養老鼠。

但我觀察了關鍵字們的相關搜尋,養狗這個關鍵字居然出現「男友要自己從狗養起」?原來,這是一本漫畫書名。

接著,我就書中幾個重要的議題與大家分享。

大數據提供的四種力量說到大數據,每個人劈頭要問的問題肯定是多大的數據才叫大數據,而這個問題也是多方爭論不休,我自己則是覺得有價值的數據就可以稱之為大數據,拿著一堆無用的垃圾資料,總比資料量少但看得出意義的抽樣統計來的好吧。

所以這本書也沒提大數據的定義,反倒直接從好處起頭,向大家說明大數據帶來的四種力量,分別有:提供新類型的數據提供誠實的數據允許我們把焦點放在人口中的小子集允許我們進行很多因果關係的實驗同時,作者也說數據分析應該用在傳統預測成果很差的領域,能夠更容易找到被忽略的要素,創造出驚人的預測效果我想這部分還滿直觀的,想起以前教授常說「機器學習只是一個工具,重點是我們怎麼使用他」、「很多科學突破往往都是在生活中獲得靈感,找到機會就要應用」,隨著深度學習的大肆崛起,很多研究都開始了跨領域的嘗試,像是Google使用機器學習節省電費、協助人類發現行星。

當然,我們知道要找出數據分析可以戰勝傳統做法的領域很重要,但在數據蒐集上會遇到許多困難。

比如以前的醫學診斷紀錄都是手寫文件,要將這些資料數位化會是個漫長的挑戰。

而另一方面,那些科技巨頭所掌握的海量資料也不容易分享出來,普通人無從取得,更別說分析了,沒辦法像作者身為Google資料分析師那樣,有那麼多資源呀!我們面臨的是一場資訊不對等的戰爭,需要善用眼前的工具,找出一些突破口。

這裡,我先列出書中提到的有用工具以及資料集,有興趣的朋友可以繼續專研:GoogleTrend (搜尋趨勢分析工具)PornhubDataset (GitHub上關於Pornhub的資料集)PornhubInsight (美國最大色情網的數據分析網站)TwitterAPI (可以抓取Twitter上的公開資料)AOLsearchlogs (AOL於2006年洩漏出來的搜尋紀錄)作者在紐約時報的專欄雖然我們拿不到Pronhub的資料,但可以逛逛網站呀XDDD下圖取自於PronhubInsight的報告。

可以看出今年冬季奧運舉辦在韓國,所以大家搜尋韓片的比例明顯提升。

我哪有說謊?但數據就是可以拆穿人性以前我總以為GoogleTrend只是個好玩的工具,沒想到有許多研究都是基於這樣的搜尋資料進行分析,觀察些社會議題,或是針對未來事件做預測。

書中除了舉出有趣的例子,也提供相關論文佐證,雖然我已經脫離菸酒生的生活,但不免也翻了幾篇長長知識(雖然也沒看懂甚麼XDD)美國同性戀的比例、美國大選得得票分布、暴力電影上映後凶殺案的發生比率等等,滿多問題看起來並不那麼直接相關,但從搜尋紀錄卻可以看出某些線索。

比如從AOL洩漏出來了去識別化搜尋紀錄中,可以發現一個人如果頻繁的搜尋「同志測驗」、「同志情色影片」等等關鍵字,那麼我們可以推測他很有可能是同性戀。

又比如從搜尋「黑鬼」這個關鍵字來推測美國哪些地區的人們帶有種族歧視的比率較高,進一步推測出總統大選的選情,最後作者也說明了預測結果跟後來川普的得票分布呈現高度相關。

讓我感到意外的則是暴力電影上映後,犯罪案居然會下降?照裡說看完應該熱血沸騰,想要模仿劇中的角色才是,可是根據分析,暴力電影會吸引那些潛在的危險份子前往電影院,而不是去酒吧喝酒鬧事,數據也顯示,暴力電影上映的周末,酒精犯罪事件變得異常的少。

另一個有趣的研究則是深深地打動我心,就跟美國影集《黑鏡》第三季第一集《急轉直下》所描繪的世界如出一轍,現實中也是如此吧我們盡力的在社群網站中包裝自己,讓一切看起來是如此美好作者以美國兩間規模、訂閱數差不多的雜誌進行比較,分是《大西洋雜誌》以及《國家詢問周刊》,前者走的是知性路線,後者則是以八卦新聞著名。

根據他的調查,《大西洋雜誌》粉專的按讚數居然是《國家詢問周刊》的27倍阿,想想看你是不是也會去某些專頁按讚,以顯現出自己的格調呢?如果你點了某某正妹美女粉絲頁,就好像給人輕浮的感覺。

其實還有很多有趣的例子值得細細品味,就等著大家去翻翻書吧!這裡只是想強調,從大數據中可以看出人的醜陋面,畢竟很多事情都不是我們會輕易透漏的,就算是電話民調、路邊的問卷調查,我們也會因為避免談論敏感議題、或是因為自己的面子而隱藏內心的想法,這些東西不外乎就是性、政治、犯罪呀。

A/B測試以及自然實驗我們都想要知道產品或廣告有沒有深得人心,所以會透過一些方法進行測試,撇除傳統的問卷調查外,我們可以透過數據進行A/B測試或是利用大自然給予的機會進行自然實驗。

對於A/B測試大家應該都不陌生,他原先稱作隨機對照實驗(RandomizedControlledTrial),就是以前我們理化課常用的手法,隨機將待測物分為實驗組與對照組。

接著我們控制操縱變因,觀察兩者之間會不會產生不同結果,最後推論出他們的因果關係。

這樣的實驗方式,在數位化時代特別好用,以前傳統實驗做不到的,現在只要按一個按鍵就能立即取得結果。

而這也大量的被應用在網站設計、數位廣告投放之中。

比如GoogleAdsense裡面就提供了廣告實驗的功能,系統會自動測試並選出合適的廣告型態,提升訪客的點擊率。

例如下圖這個例子,我們針對「Learnmore」按鈕的樣式進行A/B測試,最後發現使用者更喜歡點選有箭頭的綠色組合。

比較有趣的反倒是自然實驗,比如說超級盃足球賽。

那些電視廣告的時段都是預先買好的,廣告商並不會知道他買下的這個時段是哪兩國的球隊進行比賽,但卻形成天然的A/B測試環境,可以根據賽後的銷售量進行分析。

此外也可以看出超級盃廣告到底有沒有效果,數據當然是表明效果超級好,所以儘管廣告費高昂,大家也是爭著搶。

大數據做不到的事情與道德問題大數據真的是萬靈丹嗎?作者點出了大數據做不到的事情,那就是股市預測。

想要從股市獲利,最快的當然就是內部消息拉,但如果你想要從GoogleTrend、新聞事件看出線索,我認為是慢了半拍,畢竟這些都是人們事後寫出來的,就算想要搶快也不會比華爾街的那些光纖線路還要快XDD而這之中又牽扯到一件事情,那就是維度的詛咒(CurseofDimensionality)或者說維度災難。

當你要解決的問題太過於複雜(維度太高),但你現有的觀察數據又不足的時候,你可能以為你找到了答案,卻發現那只不過是機率分布下的自然現象。

就好像我們想要用二維空間的眼光去理解三維世界,那就是不可能的事情嘛,你以為一顆球固定在X-Y平面的一個位置,卻不知道他其實正沿著Z軸不斷的上下移動。

另一個部分就是大數據延伸出來的道德問題了。

書中也提到2002年由湯姆克魯斯主演的電影《關鍵報告》,劇中的犯罪防治局建立起一套預知系統,可以讓警察搶在犯罪發生前制伏嫌犯,到底該說這是神預測呢?還是侵犯人思考的權利呢?畢竟嫌犯還沒有真正要下手呀。

以後執法機關是不是可以分析搜尋紀錄,防止犯罪發生?或者政府可以根據的你搜尋紀錄,替你貼上標籤,藉此提供不同的福利政策?好比芝麻信用,他分析了你在網路上的所有行為,幫你做出一個信用評等,你如果不配合就會喪失很多權力與好處,這時候該怎麼辦?網路是把雙面刃,我們透過他獲取知識,同時也靠他取得無窮盡私密性的數據。

在這個數位時代,隱私已經不是甚麼祕密,但我們還是應該持續關注相關消息,就算在網路上充斥著無數謊言,我們也該保護自己,勇於捍衛自己的隱私權。

比如開啟無法追蹤的無痕模式、盡量使用訪客身分不綁定自己的帳號、多多使用無法被追蹤的網路…哈哈,講起來越來越像是一個秘密駭客囉,不過說真的,便利與隱私只能選一個的時候,你想回去過原始人的生活嗎?還是將就一下呢?不如善用現有的資源,也加入數據分析的行列吧!現在就去GoogleTrend一下!好書推薦書名:數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目原名:EverybodyLies:BigData,NewData,andWhattheInternetCanTellUsAboutWhoWeReallyAre作者:賽斯‧史蒂芬斯–大衛德維茲原文作者:SethStephens-Davidowitz譯者:陳琇玲出版社:商周出版出版日期:2017/12/07現在就到博客來網路書店逛逛吧Jerry樂於分享的軟體工程師,曾在新創與大型科技公司實習,獲得黑客松競賽冠軍,擔任資安研討會講者。

長期熱衷於資訊安全、雲端服務、網路行銷等領域,希望將科技知識分享給更多人。

內容轉載請來信:[email protected]發表回應取消回覆粉絲專頁粉絲專頁近期文章檔案誤刪救星!資料救援軟體EaseUSDataRecoveryWizard13.3安裝與實測台北內湖|碧山巖步道、白石湖吊橋、同心池、夫妻樹建立自己的COVID-19儀表板,透過GoogleCloud搞定整條資料管線分析Google與Apple的移動趨勢報告:COVID-19CommunityMobilityReports看懂Coursera的收費方式,如何免費旁聽課程?如何申請助學金?贊助科技Google大小事Security網路安全教學Cloud雲端服務Resource資源分享WordPress架站密技Windows疑難雜症筆記Program程式筆記Reading閱讀筆記Activity活動紀錄Talk經驗雜談玩樂Travel旅遊札記Food美食推薦Event活動體驗Movie影集心得關於



請為這篇文章評分?