決策是由人類做出的。這意味著要成為一名優(yōu)秀的數(shù)據(jù)科學(xué)家要同時理解人和數(shù)據(jù)。在本文中,我將重點介紹5本非技術(shù)書籍——從某種意義上說,它們沒有深入研究數(shù)學(xué)和算法,但對于數(shù)據(jù)科學(xué)家來說卻是非常重要的讀物。對于任何想要通過數(shù)據(jù)做出更好決策的人來說,這些書都是必要的。
《信號與噪聲》
在本書中,作者解釋了問什么人們往往不善于作出預(yù)測,并研究了少數(shù)幾個在多個不同領(lǐng)域成功作出預(yù)測的人。事實證明,并沒有什么神奇的規(guī)則可以準(zhǔn)確地預(yù)測未來,那些偉大的預(yù)測者所運(yùn)用的往往也只是一些基本的規(guī)則。
這本書給了許多簡單的建議,比如:
像狐貍一樣思考(而不是刺猬):有很多小想法(狐貍)而非抱著一個大想法不放(刺猬)。如果你只有一個想法,你會傾向于尋找確鑿的證據(jù),而忽略任何與你觀點相矛盾的東西。但如果你有很多小想法,你就會更加關(guān)心哪些想法是正確的,當(dāng)證據(jù)不再支持某些想法時,你可以輕易放棄它們。這兩種不同的思維方式也解釋了為什么對自己預(yù)測更有信心的人往往更容易出錯。(比如各種反轉(zhuǎn)新聞,就是因為報導(dǎo)者過于堅信自己想法是正確的,缺乏足夠的證據(jù)支撐導(dǎo)致的)
盡可能多地利用不同來源:每個數(shù)據(jù)的提供者都有自己的偏見,但通過匯總不同的看法,你就可以平衡誤差。由Silver創(chuàng)辦的著名民調(diào)網(wǎng)站FiveThirtyEight網(wǎng)站就很好地證明了這一點。(2008年成功預(yù)測奧巴馬將贏得美國總統(tǒng)大選)
結(jié)論中一定要包括不確定性區(qū)間,當(dāng)證據(jù)發(fā)生變化時,要勇于更新你的觀點:人們在預(yù)測時犯的最大錯誤就是提供一個確切的數(shù)字或者“是與非”。雖然一個確切的答案可能是公眾想聽到的,但世界從來就不是嚴(yán)格的非黑即白,而是存在著不同程度的灰色。我們有責(zé)任把灰色的結(jié)論展現(xiàn)出來。
《算法霸權(quán):數(shù)學(xué)殺傷性武器的威脅與不公》
對于攻讀統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)或數(shù)據(jù)科學(xué)學(xué)位的學(xué)生,以及任何必須決定是否部署模型的人來說,本書都應(yīng)該是必讀書目。“數(shù)學(xué)殺傷性武器”是指任何難以解釋的不透明算法;它們有時會影響數(shù)百萬甚至數(shù)億人,并且會造成巨大的破壞?!?016年Facebook的傳播算法就影響了總統(tǒng)大選。
此外,我們的模型只取決于輸入的數(shù)據(jù),當(dāng)數(shù)據(jù)有偏差的時候,模型的輸出結(jié)果也會有偏差。比如一個“量刑”模型會將某人第一次被執(zhí)法的時間點考慮在內(nèi)。而由于不公正的警務(wù)策略,比如攔截搜身(黑人更容易成為對象),黑人男子與警察第一次發(fā)生沖突的年齡可能比白人男子小得多。這將導(dǎo)致該模型延長黑人的刑期,在此期間,這些人將失去經(jīng)濟(jì)機(jī)會,并被社會排斥。這些人更有可能再次犯罪,導(dǎo)致監(jiān)禁的惡性循環(huán),這一切都是因為不公正的警務(wù)策略產(chǎn)生的錯誤數(shù)據(jù),然后被輸入了一個黑匣子。
算法只是一種工具,和任何工具一樣,它們可以被用于好的方面,也可以被用于壞的方面。幸運(yùn)的是,我們還處于早期階段,這意味著我們可以規(guī)范模型的使用,以確保它們朝著客觀決策和有利于大多數(shù)人的方向發(fā)展。
《算法之美》
計算機(jī)科學(xué)和統(tǒng)計學(xué)在學(xué)習(xí)過程中會因為抽象而顯得無聊。只有當(dāng)它們應(yīng)用于現(xiàn)實問題時,它們才會變得足夠有趣,讓我們想要去理解。這兩本書都做了一件不可思議的工作——將枯燥無味的主題換成有趣的、內(nèi)容豐富的敘述,講訴如何在日常生活中使用算法、統(tǒng)計數(shù)據(jù)和數(shù)學(xué)。
在《算法之美》中,作者展示了如果使用“探索與利用的權(quán)衡”的思想(探索與利用的權(quán)衡:你應(yīng)該花費(fèi)精力去探索新的信息,還是專注于利用已有的信息獲得收益)來找出我們應(yīng)該花多長的時間來尋找配偶(或者工作,或者吃飯的地點等等)。同樣,我們可以使用排序算法來有效整理擺放我們的物品,以便下次快速能找到所需的物品。了解這些思想對于優(yōu)化我們的生活非常有幫助。
《魔鬼數(shù)學(xué)》
在《魔鬼數(shù)學(xué)》中,作者通過故事向我們展示了統(tǒng)計概念的使用和誤用,如線性回歸、推理、貝葉斯推理和概率。應(yīng)用概率定律告訴我們,買彩票總是賠錢的,除非在極少數(shù)情況下,回報實際上是正的(麻省理工學(xué)院的一些學(xué)生利用數(shù)學(xué)成功解密部分種類的彩票)。
《魔鬼數(shù)學(xué)》可以使你借助數(shù)學(xué)工具把問題看得更透徹,而非僅僅依靠常識。在原始社會,直覺可以很好地幫助我們,比如躲避天敵。但在現(xiàn)代社會,很多情況下我們最初的反應(yīng)是錯誤的,在這種情況下,我們不能光依靠直覺,而是要利用概率和統(tǒng)計來做出最好的決定。
這本書融合了一些方程式和大量的故事,在嚴(yán)謹(jǐn)程度上恰到好處,讀起來也很有趣。通過這些書,我發(fā)現(xiàn)了許多在課堂上從未掌握的數(shù)據(jù)科學(xué)概念,總是會有突然頓悟“原來是這樣”的喜悅。數(shù)學(xué)、統(tǒng)計學(xué)和計算機(jī)科學(xué)只有在讓你的生活變得更美好的時候才有用,如果你想將數(shù)學(xué)工具應(yīng)用于日常生活中,這本書是很好的起點。
《思考,快與慢》
大部分人還沒有意識到這一點:人類是非理性的,我們在生活的各個方面都經(jīng)常做出糟糕的決定。但是,當(dāng)我們意識到這一點,明白了為什么自己的行為不是最優(yōu)的,我們就可以開始改變自己的行為,以便獲得更好的結(jié)果。這是本書的核心前提。
Kahneman(2002年諾貝爾經(jīng)濟(jì)學(xué)獎得主)和他的研究伙伴Amos Tversky(以及RichardThaler等人),共同創(chuàng)立了極具影響力的行為經(jīng)濟(jì)學(xué)。該學(xué)說不把人視為理性的效用最大化者,而是把人視為非理性的決策者(事實上也確實如此)。這不僅在經(jīng)濟(jì)領(lǐng)域,而且在生活的各個領(lǐng)域,如醫(yī)學(xué)、體育、商業(yè)實踐、節(jié)能和退休基金等方面,都產(chǎn)生了巨大的影響。
在這本嚴(yán)謹(jǐn)且有趣的著作中,Kahneman概述了所有我們不按邏輯行事的方式,包括錨定效應(yīng)、經(jīng)驗法則,以及沉沒成本謬誤等等。書中還描述了一種重要的結(jié)論——人的大腦有快與慢兩種作決定的方式(書中稱為“系統(tǒng)”):
系統(tǒng)1——快速而直觀:這種模式是由進(jìn)化決定的,即可以在不考慮證據(jù)的情況下快速做出決定。雖然這在過去狩獵時代對我們很有幫助,但如今我們身處信息繁雜的時代,如果不花時間去看數(shù)據(jù),常常會給我們帶來麻煩。
系統(tǒng)2——緩慢而理性:我們需要通過調(diào)動注意力來分析和解決問題并作出決定,往往需要考慮許多選項和不同證據(jù)來源。
使用系統(tǒng)1是自然的、非自覺的,我們必須克服數(shù)百萬年的進(jìn)化才能熟練使用系統(tǒng)2。盡管這很困難,但在我們這個數(shù)據(jù)豐富的世界里,我們必須花時間磨煉系統(tǒng)2的思維方式。當(dāng)然,我們有時可能會遇到思考過度的問題,但是思考不足——使用系統(tǒng)1而非系統(tǒng)2,是一個嚴(yán)重得多的問題。
這本書對于理解人們?nèi)绾巫鰶Q策以及我們作為數(shù)據(jù)科學(xué)家應(yīng)該如何幫助人們更好地決策都起著至關(guān)重要的作用。