看來你已經(jīng)決定要進入數(shù)據(jù)科學這個領域了。數(shù)據(jù)正在驅(qū)動越來越多的業(yè)務,世界的聯(lián)系正在變得越來越緊密,似乎每個業(yè)務都需要數(shù)據(jù)科學實踐。因此,對數(shù)據(jù)科學家的需求是巨大的。更好的是,所有人都承認這個行業(yè)的人才短缺。
然而成為一名數(shù)據(jù)科學家并不容易。需要擁有解決問題的能力、結構化思維、編碼和各種技術技能才能真正獲得成功。如果您并非技術或數(shù)學背景,那么通過書籍和視頻課程來學習是很好的方式。但是大多數(shù)這類資源不會教你行業(yè)內(nèi)需要什么樣的數(shù)據(jù)科學家。
這就是胸懷抱負的數(shù)據(jù)科學家努力縮小自我教育與實際工作之間差距的原因之一。
本文將討論數(shù)據(jù)科學愛好者常犯的一些錯誤(包括我自己都曾經(jīng)犯過),我也會提供一些資源幫助你避開數(shù)據(jù)科學之旅上的陷阱。
圖片來源:cognitive class-YouTube
就像我之前提到過的一樣,掌握機器學習技術背后的理論是非常好的,但是如果你不去應用它們,它們就僅僅是理論概念。當我開始學習數(shù)據(jù)科學的時候犯了同樣的錯誤,我學習書本知識和在線課程,但卻沒有應用它們?nèi)ソ鉀Q問題。
所以當我有機會應用我所學的知識去解決挑戰(zhàn)或問題時,幾乎一大半我都不記得了!要學的東西太多了,算法、推導、研究論文等等等等。你有很高的幾率失去動力然后半途放棄。我本人見證過許許多多想進入這個領域的人都是這樣。
學習過程中保持理論和實踐之間健康的平衡是非常必要的。只要學習了一個概念,請立即Google一下找到可以應用它的數(shù)據(jù)集或問題。你會發(fā)現(xiàn)你比以前更好地吸收了這種概念。
你必須承認所有東西是不可能一次性學完的。一邊練習一邊填補空白,將會學到更多東西!
大部分想成為數(shù)據(jù)科學家的人是看到了機器學習的相關視頻,或一個超級棒的預測模型,抑或是高薪的吸引,然而,想要成為你看到的樣子,還需要走很長的路。
在將技術應用到問題之前,你應該先了解它的工作原理。這將有助于了解算法的工作原理,以及做些什么可以對其進行微調(diào),還可以幫助你構建現(xiàn)有技術。數(shù)學在這里發(fā)揮著重要作用,因此了解某些概念總是有幫助的。在日常的企業(yè)數(shù)據(jù)科學家角色中,您可能不需要了解高級微積分,但有高級的整體認識肯定是有幫助的。
如果您有一個好奇的想法,或想要進入研究角色,在開始進行核心機器學習之前,您需要了解的四個關鍵概念是:
- 線性代數(shù)
- 微積分
- 統(tǒng)計
- 概率
正如房子是一磚一瓦建造的,數(shù)據(jù)科學家也是所有單個部件的總和。有大量的資源可以幫助學習這些主題。下面列出一些資源,可以幫助您入門:
- 數(shù)據(jù)科學家線性代數(shù)綜合入門指南
https://www.khanacademy.org/math/calculus-home
- 通過實例解釋數(shù)據(jù)科學概率的基礎知識
這也是招聘人員的煩惱。自從數(shù)據(jù)科學變得非常受歡迎以來,到處都有認證和學位。我在LinkedIn上看了一下,至少展示了5張認證的圖片。雖然獲得認證并不容易,但只依賴認證是一種災難。
許許多多的胸懷抱負的數(shù)據(jù)科學家被大多數(shù)在線課程傾倒并且完成學習。如果他們?yōu)槟愕臄?shù)據(jù)科學簡歷添加了一個獨特的價值,那就沒問題了。但是招聘人員并不關心這些考試 – 他們更看重你的知識,以及你如何在實際工作中應用。
這是因為與客戶打交道,處理截止日期,了解數(shù)據(jù)科學項目生命周期如何工作,如何設計模型以適應現(xiàn)有業(yè)務框架等等,這些都是作為數(shù)據(jù)科學家所需要了解的事項。只是認證或?qū)W位無法認證你這方面的能力。
不要誤解我的意思。認證是很有價值的,但只有當你將這些知識應用到課堂之外并將其公之于眾的時候才有價值。使用真實世界的數(shù)據(jù)集和做任何分析,都把它們寫下來。比如創(chuàng)建自己的博客,在LinkedIn上發(fā)布,并征求社區(qū)的反饋意見。這表明您愿意學習并且足夠靈活,可以征求建議并將其用于您的項目。
應該對實習的想法持開放態(tài)度。實習中你將了解數(shù)據(jù)科學團隊如何工作,這將使您在參加另一次面試時受益。
如果您正在尋找項目,我們有一個很棒的,按照難度劃分的項目列表
這是有胸懷抱負的數(shù)據(jù)科學家進來最大的誤解之一。比賽和黑客松為我們提供了干凈規(guī)整的數(shù)據(jù)集。你下載它們并處理這些問題。即使那些具有缺失值列的數(shù)據(jù)集也不需要花費腦細胞 – 只需要查找補充缺失值即可。
不幸的是,現(xiàn)實世界的項目并不是這樣的。會有一個端到端的數(shù)據(jù)管道,涉及與一群人合作。你幾乎總是要處理混亂的臟數(shù)據(jù)。關于花費70-80%的時間來整理和清洗數(shù)據(jù)的傳說是真的。這是一個令人精疲力竭的工作,你很大可能不喜歡,但它最終會成為例行公事。
此外,我們將在下一點更詳細地介紹,更簡單的模型將優(yōu)先于任何復雜的堆疊集合模型。準確性并不總是最終目標,這是您在工作中將學到的最具對比性的事情之一。
諷刺的是,消除誤解的關鍵因素之一是經(jīng)驗。你獲得的經(jīng)驗越多(實習在這種情況下有很多幫助),你就能越好地區(qū)分兩者。這就是社交媒體派上用場的地方 – 與數(shù)據(jù)科學家聯(lián)系并詢問他們的經(jīng)驗。
另外,我建議這個Quora問題(鏈接在下方),來自世界各地的數(shù)據(jù)科學家就這個確切的問題提供他們的意見。在競賽排行榜上取得好成績非常適合衡量你的學習過程,但是面試官想知道的是你如何優(yōu)化算法達到效果,而不是提高準確性。了解數(shù)據(jù)科學項目的工作原理,團隊所擁有的不同類型的角色都是什么(從數(shù)據(jù)工程師到數(shù)據(jù)架構師),以及在這種意義下的答案。
Quora
https://www.quora.com/How-similar-are-Kaggle-competitions-to-what-data-scientists-do
LinkedIn文章,解釋了分析模型的標準方法
https://www.linkedin.com/pulse/standard-methodology-analytical-models-olav-laudy/?trk=prof-post
如上所述,準確性并非總是業(yè)務的目標。當然,一個能夠以95%的準確度預測貸款違約的模型是非常好的,但是如果你無法解釋模型是如何實現(xiàn)的,哪些特征實現(xiàn)了它,以及你在構建模型時的思路,你的客戶會拒絕這個模型。
你很少會發(fā)現(xiàn)在商業(yè)應用中使用的深度神經(jīng)網(wǎng)絡。向客戶解釋清楚神經(jīng)網(wǎng)絡(更不用說深層)如何與隱藏層,卷積層等一起工作是不可能的。首要偏好,并且通常情況下,是永遠確保我們能夠理解模型背后正在發(fā)生的事情。如果您無法判斷年齡,家庭成員數(shù)量或之前的信用記錄是否涉及拒絕貸款申請,該業(yè)務將如何運作?
另一個關鍵是你的模型是否適合企業(yè)現(xiàn)有框架。如果生產(chǎn)環(huán)境無法支持,使用10種不同類型的工具和庫都會失敗。您將不得不采用更簡單的方法從頭開始重新設計和重新訓練模型。
避免自己犯這個錯誤的最佳方法是與業(yè)內(nèi)人士交流。沒有比經(jīng)驗更好的老師。選擇一個領域(財務,人力資源,營銷,銷售,運營等),與人溝通了解他們的項目如何運作。
除此之外,練習制作更簡單的模型,然后向非技術人員解釋。接著增加模型的復雜性并繼續(xù)想非技術人員解釋,直到你不知道接下來發(fā)生了什么為止。這將指點你何時該停止,以及為什么在實際應用中,簡單的模型總是被優(yōu)先考慮。
在簡歷中使用了太多的數(shù)據(jù)科學術語
如果你曾經(jīng)這樣做過,你會知道我在說什么。如果你的簡歷現(xiàn)在有這個問題,快去修正!您可能知道很多技術和工具,但只是簡單地列出它們會讓潛在的招聘經(jīng)理遠離你。
你的簡歷是介紹你已經(jīng)完成的事情以及你是如何做到的 – 而不是簡單羅列的事項清單。當招聘人員查看您的簡歷時,他/她希望以簡潔和總括的方式了解您的背景以及您所取得的成就。如果頁面的一半充滿了了模糊的數(shù)據(jù)科學術語,如線性回歸,XGBoost,LightGBM,沒有任何解釋,您的簡歷可能無法通過篩選。
消除簡歷混亂最簡單的方法是使用項目符號。僅列出你會用到去完成某些事情的技術(可能是項目或競賽)。寫一篇關于你如何使用它的文章會更有助于招聘人員理解你的想法。
當您申請入門級的工作時,你的簡歷需要反映你潛在可以為業(yè)務增加的影響。簡歷將被應用于不同領域中的角色,因此準備一個模板會有所幫助 – 只需更改您對該特定行業(yè)的興趣即可
Kunal Jain撰寫的這篇文章是為數(shù)據(jù)科學角色準備優(yōu)秀簡歷的絕佳資源。
給予工具和庫比業(yè)務問題更高的優(yōu)先級
讓我們舉個例子來理解為什么這是一個錯誤。想象一下,你拿到了一個房價數(shù)據(jù)集,你需要預測房地產(chǎn)的價值。有包括建筑物數(shù)量,房間數(shù)量,租戶數(shù)量,家庭規(guī)模,庭院大小,是否有水龍頭等等200多個變量。您很可能不知道某個變量的含義。但您還是構建具有良好準確性的模型,但您不知道的是為什么剔除了這個變量。
事實證明,該變量是現(xiàn)實場景中的一個關鍵因素。這是一個災難性的錯誤。
擁有扎實的工具和庫知識是非常好的,但它只能到此為止。將這些知識與領域內(nèi)的業(yè)務問題相結合,才是數(shù)據(jù)科學家真正介入的地方。您應該至少了解您感興趣(或正在申請)的行業(yè)中的基本挑戰(zhàn)。
在探索和可視化數(shù)據(jù)上花的時間不夠
數(shù)據(jù)可視化是數(shù)據(jù)科學的一個很美妙的方面,但許多有胸懷抱負的數(shù)據(jù)科學家更喜歡略過它直接進入模型構建階段。這種方法可能會在比賽中有用,但在實際工作中必然會失敗。了解你擁有的數(shù)據(jù)是最重要的事情,你的模型結果會反映出這一點。
通過花時間了解數(shù)據(jù)集并嘗試用不同的圖表展示,您將更深入的了解您要解決的挑戰(zhàn)或問題,你會驚訝地發(fā)現(xiàn)你可以獲得這么多洞察!可以看到模式和趨勢,以及隱藏的規(guī)律??梢暬窍蚩蛻粽故径床斓淖罴逊绞健?作為一名數(shù)據(jù)科學家,你需要天生好奇。這是數(shù)據(jù)科學最棒的事情之一 – 你越是好奇,你會問的問題就越多。這樣可以更好地理解你的數(shù)據(jù),并有助于解決您一開始不知道的問題!
實踐!下次處理數(shù)據(jù)集時,請花更多時間在此步驟上。您會驚訝于它為您產(chǎn)生的洞察。提問!詢問您的經(jīng)理,詢問領域?qū)<?,在互?lián)網(wǎng)上搜索解決方案,如果您沒有找到,請在社交媒體上詢問。你有如此多的選擇!
為了幫助您入門,我在下面提到了一些可供參考的資源:
R中數(shù)據(jù)可視化綜合指南
數(shù)據(jù)探索綜合指南(強烈推薦)
18個免費的探索性數(shù)據(jù)分析工具適用于編碼不好的人
結構化思維在許多方面都可以幫助到數(shù)據(jù)科學家:
- 它可以幫助拆解問題的邏輯結構
- 它可以幫助您可視化問題的持續(xù)方式以及如何設計
- 它幫助最終用戶或客戶以邏輯和易懂的方式理解框架的順序
擁有結構化思維的好處還有很多。可以想象一下,不使用結構化思維的話會不直觀。你的工作和解決問題的方法都是隨意雜亂的,當遇到復雜的問題時你會忘記自己的步驟等等。
當您參加數(shù)據(jù)科學面試時,您將不可避免地需要分析案例,測算、估計等。由于面試時充滿壓力的氣氛和時間限制,面試官會考察你的思維結構如何,以達到最終評估。大多數(shù)情況下,對是否獲得這份工作來說,這可能是一錘定音的因素。
您可以通過簡單的訓練和規(guī)范的方法獲得結構化的思維方式。我在下面列出了一些文章,它們將對你有所幫助:
- 必須為數(shù)據(jù)科學家和分析師:分析思維的大腦訓練
我見過太多次這個問題了。由于每個工具提供的獨特功能和局限性不同,人們傾向于一次性的學習所有工具。這是個壞主意 – 你最終無法掌握它們中任何一個。工具是執(zhí)行數(shù)據(jù)科學的一種手段,但是它們不是最終目標。
選擇一個工具并堅持學習直到你掌握它為止。如果你已經(jīng)開始學習R,那么不要被Python所誘惑。堅持端到端的學習R的使用,然后再嘗試將另一種工具融入您的技能組合中。您將通過這種方法了解更多信息。
每個工具都有一個很好的用戶社區(qū),在遇到困難時可以在社區(qū)提問。使用我們的論壇(下方鏈接)來提問和在線搜索,不要放棄。目的是通過該工具學習數(shù)據(jù)科學,而不是通過數(shù)據(jù)科學學習工具。
如果您仍未確定應該使用哪種工具,請查看這篇精彩的文章,其中列出了每個工具的優(yōu)點和缺點(如果您對此感興趣,還包括SAS)。
https://discuss.analyticsvidhya.com/
資料來源:布魯克斯集團
這適用于所有數(shù)據(jù)科學家,而不僅僅是新人。我們?nèi)菀追中?。在研究了一段時間(比如一個月)之后,然后我們在接下來的兩個月休息。在那之后試圖回到事物的正規(guī)上簡直是一場噩夢。大多數(shù)早期的概念都被遺忘了,筆記丟失了,感覺就像我們最近幾個月都浪費了一樣。
我也經(jīng)歷過這一點。由于我們在處理各種各樣的事情,我們找借口和理由不再學習。但這最終是我們的損失 – 如果數(shù)據(jù)科學就像打開教科書并且塞滿一切一樣容易,那么每個人都是數(shù)據(jù)科學家。它需要一致的努力和學習,人們直到為時已晚才會意識到這一點
為自己設定目標。繪制出時間表貼在墻上。計劃你的學習方式和內(nèi)容,并設定截止日期。例如,當我想學習神經(jīng)網(wǎng)絡時,我給了自己幾個星期,然后通過黑客松比賽測試我學到的東西。
既然你已經(jīng)決定成為一名數(shù)據(jù)科學家,所以你應該準備好投入時間。如果你不斷尋找不去學習的借口,這可能不適合你。
這是前面一些問題的組合。有胸懷抱負的數(shù)據(jù)科學家會害羞在線發(fā)布他們的分析,因為他們害怕受到批評。但是,如果你從沒有收到過社區(qū)的反饋意見,那你將不會成長為數(shù)據(jù)科學家。
數(shù)據(jù)科學是一個重視討論,思想和頭腦風暴的領域。你不能坐在孤島中工作 – 你需要合作并理解其他數(shù)據(jù)科學家的觀點。同樣,人們不參加比賽是因為他們覺得自己不會獲勝。這是一種錯誤的心態(tài)!你參加這些比賽是為了學習而不是贏。獲勝是獎勵,學習是目標。
相當簡單 – 開始參與討論和比賽!不進入前5%也無所謂。如果你從整個事物中學到一種新技術,對你來說也是一種勝利。
溝通技巧是數(shù)據(jù)科學家絕對必須擁有的技能之一,但是關于它的評價和談論都最少。我至今還沒有遇到一個強調(diào)溝通技巧的課程。您可以學習所有最新技術,掌握多種工具并制作優(yōu)秀的圖表,但如果您無法向客戶解釋你的成功,您將會是失敗的數(shù)據(jù)科學家。
不僅僅是客戶,您有可能與不熟悉數(shù)據(jù)科學的團隊成員合作 – IT,人力資源,財務,運營等。可以肯定的是面試官也會特別注意這一點。
假設您使用邏輯回歸構建了信用風險模型。作為一個思考練習,花一點時間思考如何向非技術人員解釋你是如何得出最終結論的。如果你使用過任何術語,你需要盡快開展這項工作!
如今大多數(shù)數(shù)據(jù)科學家都來自計算機科學背景,所以我理解這可能是一項令人生畏的技能。但要成為一名成功的數(shù)據(jù)科學家并爬上階梯,你別無選擇,只能磨練自己個性的這一部分。
我覺得最有用的一件事就是向非技術人員解釋數(shù)據(jù)科學術語。它可以幫助我衡量我認識問題的清晰度。如果您在中小型公司工作,請在營銷或銷售部門找一個人并與他們一起做這個練習。從長遠來看,它將極大地幫助你提升。
互聯(lián)網(wǎng)上有大量的免費資源可以幫助您入門,但請記住,練習是提升技能的關鍵。從今天就開始吧!
這絕對不是一個詳盡的清單 – 胸懷抱負的數(shù)據(jù)科學家還可能犯許多其他錯誤。但以上這些是最常見的,如前所述,我的目標是幫助大家盡可能的避免這些問題。