技術的不斷進步使得數(shù)據(jù)和信息的產(chǎn)生速度今非昔比,并且呈現(xiàn)出繼續(xù)增長的趨勢。此外,目前對解釋、分析和使用這些數(shù)據(jù)的技術人員需求也很高,這在未來幾年內(nèi)會呈指數(shù)增長。這些新角色涵蓋了從戰(zhàn)略、運營到管理的所有方面。因此,當前和未來的需求將需要更多的數(shù)據(jù)科學家、數(shù)據(jù)工程師、數(shù)據(jù)戰(zhàn)略家和首席數(shù)據(jù)官這樣類似的角色。
本文將著眼于不同類型的面試問題。如果您計劃向數(shù)據(jù)科學領域轉(zhuǎn)行,這些問題一定會有所幫助。
統(tǒng)計學及數(shù)據(jù)科學面試題答案
在統(tǒng)計學研究中,統(tǒng)計學中最常見的三個“平均值”是均值,中位數(shù)和眾數(shù):
算術平均值:它是統(tǒng)計學中的一個重要概念。算術平均值也可稱為平均值,它是通過將兩個或多個數(shù)字/變量相加,然后將總和除以數(shù)字/變量的總數(shù)而獲得的數(shù)量或變量。
中位數(shù):中位數(shù)也是觀察一組數(shù)據(jù)平均情況的一種方法。它是一組數(shù)字的中間數(shù)字。結果有兩種可能性,因為數(shù)據(jù)總數(shù)可能是奇數(shù),也可能是偶數(shù)。如果總數(shù)是奇數(shù),則將組中的數(shù)字從最小到最大排列。中位數(shù)恰好是位于中間的數(shù),兩側(cè)的數(shù)量相等。如果總數(shù)是偶數(shù),則按順序排列數(shù)字并選擇兩個中間數(shù)字并加上它們?nèi)缓蟪?,它將是該組的中位數(shù)。
眾數(shù):眾數(shù)也是觀察平均情況的方法之一。眾數(shù)是一個數(shù)字,指在一組數(shù)字中出現(xiàn)最多的數(shù)字。有些數(shù)列可能沒有任何眾數(shù);有些可能有兩個眾數(shù),稱為雙峰數(shù)列。
標準差(Sigma):標準差用于衡量數(shù)據(jù)在統(tǒng)計數(shù)據(jù)中的離散程度。
回歸:回歸是統(tǒng)計建模中的一種分析方法。這是衡量變量間關系的統(tǒng)計過程;它決定了一個變量和一系列其他自變量之間關系的強度。
線性回歸:是預測分析中使用的統(tǒng)計技術之一,該技術將確定自變量對因變量的影響強度。
統(tǒng)計學的兩個主要分支:
描述性統(tǒng)計:描述性統(tǒng)計使用類似均值或標準差的指數(shù)來總結樣本數(shù)據(jù)。描述性統(tǒng)計方法包括展示、組織和描述數(shù)據(jù)。
推斷性統(tǒng)計:推斷統(tǒng)計得出的結論來自隨機變化的數(shù)據(jù),如觀察誤差和樣本變異。
相關性:相關性被認為是測量和估計兩個變量間定量關系的最佳技術。相關性可以衡量兩個變量相關程度的強弱。
協(xié)方差:協(xié)方差對應的兩個變量一同變化,它用于度量兩個隨機變量在周期中的變化程度。這是一個統(tǒng)計術語;它解釋了一對隨機變量之間的關系,其中一個變量的變化時,另一個變量如何變化。
協(xié)方差和相關性是兩個數(shù)學概念;這兩種方法在統(tǒng)計學中被廣泛使用。相關性和協(xié)方差都可以構建關系,并且還可測量兩個隨機變量之間的依賴關系。雖然這兩者在數(shù)學上有相似之處,但它們含義并不同。
結合數(shù)據(jù)分析,統(tǒng)計可以用于分析數(shù)據(jù),并幫助企業(yè)做出正確的決策。預測性“分析”和“統(tǒng)計”對于分析當前數(shù)據(jù)和歷史數(shù)據(jù)以預測未來事件非常有用。
統(tǒng)計數(shù)據(jù)可用于許多研究領域。以下列舉了統(tǒng)計的應用領域:
科學
技術
商業(yè)
生物學
計算機科學
化學
支持決策
提供比較
解釋已經(jīng)發(fā)生的行為
預測未來
估計未知數(shù)量
在統(tǒng)計研究中,通過結構化和統(tǒng)一處理,樣本是從統(tǒng)計總體中收集或處理的一組或部分數(shù)據(jù),并且樣本中的元素被稱為樣本點。
以下是4種抽樣方法:
聚類抽樣:在聚類抽樣方法中,總體將被分為群組或群集。
簡單隨機抽樣:這種抽樣方法僅僅遵循隨機分配。
分層抽樣:在分層抽樣中,數(shù)據(jù)將分為組或分層。
系統(tǒng)抽樣:根據(jù)系統(tǒng)抽樣方法,每隔k個成員,從總體中抽取一個。
當我們在統(tǒng)計中進行假設檢驗時,p值有助于我們確定結果的顯著性。這些假設檢驗僅僅是為了檢驗關于總體假設的有效性。零假設是指假設和樣本沒有顯著性差異,這種差異指抽樣或?qū)嶒灡旧碓斐傻牟町悺?/p>
數(shù)據(jù)科學是數(shù)據(jù)驅(qū)動的科學,它還涉及自動化科學方法、算法、系統(tǒng)和過程的跨學科領域,以任何形式(結構化或非結構化)從數(shù)據(jù)中提取信息和知識。此外,它與數(shù)據(jù)挖掘有相似之處,它們都從數(shù)據(jù)中抽象出有用的信息。
數(shù)據(jù)科學包括數(shù)理統(tǒng)計以及計算機科學和應用。此外,結合了統(tǒng)計學、可視化、應用數(shù)學、計算機科學等各個領域,數(shù)據(jù)科學將海量數(shù)據(jù)轉(zhuǎn)化為洞見。
同樣,統(tǒng)計學是數(shù)據(jù)科學的主要組成部分之一。統(tǒng)計學是數(shù)學商業(yè)的一個分支,它包括數(shù)據(jù)的收集、分析、解釋、組織和展示。
R語言類面試題答案
R是數(shù)據(jù)分析軟件,主要的服務對象是分析師、量化分析人員、統(tǒng)計學家、數(shù)據(jù)科學家等。
R提供的函數(shù)是:
均值
中位數(shù)
分布
協(xié)方差
回歸
非線性模型
混合效果
廣義線性模型(GLM)
廣義加性模型(GAM)等等
在R控制臺中輸入命令(“Rcmdr”)將啟動R Commander GUI。
使用R commander導入R中的數(shù)據(jù),有三種方法可以輸入數(shù)據(jù)。
你可以通過Data<- New Data Set 直接輸入數(shù)據(jù)
從純文本(ASCII)或其他文件(SPSS,Minitab等)導入數(shù)據(jù)
通過鍵入數(shù)據(jù)集的名稱或在對話框中選擇數(shù)據(jù)集來讀取數(shù)據(jù)集
雖然R可以輕松連接到DBMS,但不是數(shù)據(jù)庫
R不包含任何圖形用戶界面
雖然它可以連接到Excel / Microsoft Office,但R語言不提供任何數(shù)據(jù)的電子表格視圖
在R中,在程序的任何地方,你必須在#sign前面加上代碼行,例如:
減法
除法
注意運算順序
要在R中保存數(shù)據(jù),有很多方法,但最簡單的方法是:
Data > Active Data Set > Export Active dataset,將出現(xiàn)一個對話框,當單擊確定時,對話框?qū)⒏鶕?jù)常用的方式保存數(shù)據(jù)。
你可以通過cor函數(shù)返回相關系數(shù),cov函數(shù)返回協(xié)方差。
在R中,t.test函數(shù)用于進行各種t檢驗。 t檢驗是統(tǒng)計學中最常見的檢驗,用于確定兩組的均值是否相等。
With函數(shù)類似于SAS中的DATA,它將表達式應用于數(shù)據(jù)集。
BY函數(shù)將函數(shù)應用于因子的每個水平。它類似于SAS中的BY。
R 有如下這些數(shù)據(jù)結構:
向量
矩陣
數(shù)組
數(shù)據(jù)框
通用的形式是:
Mymatrix< - matrix (vector, nrow=r, ncol=c , byrow=FALSE, dimnames = list ( char_vector_ rowname, char_vector_colnames)
在R中,缺失值由NA(Not Available)表示,不可能的值由符號NaN(not a number)表示。
為了重新整理數(shù)據(jù),R提供了各種方法,轉(zhuǎn)置是重塑數(shù)據(jù)集的最簡單的方法。為了轉(zhuǎn)置矩陣或數(shù)據(jù)框,可以使用t函數(shù)。
通過一個或多個BY變量,使得折疊R中的數(shù)據(jù)變得容易。使用aggregate函數(shù)時,BY變量應該在列表中。
機器學習類面試題答案
機器學習是人工智能的一種應用,它為系統(tǒng)提供了自動學習和改進經(jīng)驗的能力,而無需明確的編程。此外,機器學習側(cè)重于開發(fā)可以訪問數(shù)據(jù)并自主學習的程序。
在很多領域,機器人正在取代人類。這是因為編程使得機器人可以基于從傳感器收集的數(shù)據(jù)來執(zhí)行任務。他們從數(shù)據(jù)中學習并智能地運作。
機器學習中不同類型的算法技術如下:
強化學習
監(jiān)督學習
無監(jiān)督學習
半監(jiān)督學習
轉(zhuǎn)導
元學習
監(jiān)督學習是一個需要標記訓練集數(shù)據(jù)的過程,而無監(jiān)督學習則不需要數(shù)據(jù)標記。
無監(jiān)督學習包括如下:
數(shù)據(jù)聚類
數(shù)據(jù)的降維表示
探索數(shù)據(jù)
探索坐標和相關性
識別異常觀測
監(jiān)督學習包括如下:
分類
語音識別
回歸
預測時間序列
注釋字符串
樸素貝葉斯的優(yōu)點:
分類器比判別模型更快收斂
它可以忽略特征之間的相互作用
樸素貝葉斯的缺點是:
不適用連續(xù)性特征
它對數(shù)據(jù)分布做出了非常強的假設
在數(shù)據(jù)稀缺的情況下不能很好地工作
樸素貝葉斯是如此的不成熟,因為它假設數(shù)據(jù)集中所有特征同等重要且獨立。
過擬合:統(tǒng)計模型側(cè)重于隨機誤差或噪聲而不是探索關系,或模型過于復雜。
回答:
過擬合的一個重要原因和可能性是用于訓練模型的標準與用于判斷模型功效的標準不同。
大量數(shù)據(jù)
交叉驗證
欺詐檢測
人臉識別
自然語言處理
市場細分
文本分類
生物信息學
參數(shù)模型是指參數(shù)有限且用于預測新數(shù)據(jù)的模型,你只需知道模型的參數(shù)即可。
非參數(shù)模型是指參數(shù)數(shù)量無限的模型,允許更大的靈活性且用于預測新數(shù)據(jù),你需要了解模型的參數(shù)并熟悉已收集的觀測數(shù)據(jù)。
在機器學習中構建假設或模型的三個階段是:
模型構建
模型測試
模型應用
歸納邏輯編程(ILP):是機器學習的一個子領域,它使用代表背景知識和案例的邏輯程序。
分類和回歸之間的區(qū)別如下:
分類是關于識別類別的組成,而回歸涉及預測因變量。
這兩種技術都與預測相關。
分類預測類別的歸屬,而回歸預測來自連續(xù)集的值。
當模型需要返回數(shù)據(jù)集中的數(shù)據(jù)點的歸屬類別時,回歸不是首選。
歸納機器學習和演繹機器學習的區(qū)別:機器學習模型通過從一組觀察實例中學習,得出一個廣義結論;演繹學習要基于一些已知結論,得出結果。
決策樹的優(yōu)點是:
決策樹易于理解
非參數(shù)
調(diào)整的參數(shù)相對較少
機器學習領域?qū)W⒂谏钍艽竽X啟發(fā)的深度人工神經(jīng)網(wǎng)絡。Alexey Grigorevich Ivakhnenko將深度學習網(wǎng)絡帶入大眾視野。如今它已應用于各種領域,如計算機視覺、語音識別和自然語言處理。
有研究表明,淺網(wǎng)和深網(wǎng)都可以適應任何功能,但由于深度網(wǎng)絡有幾個不同類型的隱藏層,因此相比于參數(shù)更少的淺模型,它們能夠構建或提取更好的特征。
代價函數(shù):神經(jīng)網(wǎng)絡對于給定訓練樣本和預期輸出的準確度的度量。它是一個值,而非向量,因為它支撐了整個神經(jīng)網(wǎng)絡的性能。它可以計算如下平均誤差函數(shù):
其中和期望值Y是我們想要最小化的。梯度下降:一種基本的優(yōu)化算法,用于學習最小化代價函數(shù)的參數(shù)值。此外,它是一種迭代算法,它在最陡下降的方向上移動,由梯度的負值定義。我們計算給定參數(shù)的成本函數(shù)的梯度下降,并通過以下公式更新參數(shù):
其中是參數(shù)向量,α 是學習率,J()是成本函數(shù)。反向傳播:一種用于多層神經(jīng)網(wǎng)絡的訓練算法。在此方法中,我們將誤差從網(wǎng)絡末端移動到網(wǎng)絡內(nèi)的所有權重,從而進行梯度的高效計算。它包括以下幾個步驟:
訓練的前向傳播以產(chǎn)生輸出。
然后可以使用目標值和輸出值誤差導數(shù)來計算輸出激活。
然后我們返回傳播以計算前一個輸出激活的誤差導數(shù),并對所有隱藏層繼續(xù)此操作。
使用之前計算的輸出和所有隱藏層的導數(shù),我們計算關于權重的誤差導數(shù)。
然后更新權重。
隨機梯度下降:我們僅使用單個訓練樣本來計算梯度和更新參數(shù)。
批量梯度下降:我們計算整個數(shù)據(jù)集的梯度,并在每次迭代時進行更新。
小批量梯度下降:它是最流行的優(yōu)化算法之一。它是隨機梯度下降的變體,但不是單個訓練示例,使用小批量樣本。
小批量梯度下降的好處
與隨機梯度下降相比,這更有效。
通過找到平面最小值來提高泛化性。
小批量有助于估計整個訓練集的梯度,這有助于我們避免局部最小值。
在反向傳播期間要使用數(shù)據(jù)標準化。數(shù)據(jù)規(guī)范化背后的主要動機是減少或消除數(shù)據(jù)冗余。在這里,我們重新調(diào)整值以適應特定范圍,以實現(xiàn)更好的收斂。
權重初始化:非常重要的步驟之一。糟糕的權重初始化可能會阻止網(wǎng)絡學習,但良好的權重初始化有助于更快的收斂和整體誤差優(yōu)化。偏差通常可以初始化為零。設置權重的規(guī)則應接近于零,而不是太小。
自編碼:一種使用反向傳播原理的自主機器學習算法,其中目標值設置為等于所提供的輸入。在內(nèi)部有一個隱藏層,用于描述用于表示輸入的代碼。自編碼的一些重要特征:
它是一種類似于主成分分析(PCA)的無監(jiān)督機器學習算法
最小化與主成分分析相同的目標函數(shù)
它是一個神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡的目標輸出是其輸入
玻爾茲曼機(Boltzmann Machine):一種問題解決方案的優(yōu)化方法。玻爾茲曼機的工作基本是為了優(yōu)化給定問題的權重和數(shù)量。關于玻爾茲曼機的一些要點如下:
它使用循環(huán)結構。
由隨機神經(jīng)元組成,其中包括兩種可能的狀態(tài)之一,1或0。
其中的神經(jīng)元處于連通狀態(tài)(自由狀態(tài))或斷開狀態(tài)(凍結狀態(tài))。
如果我們在離散Hopfield網(wǎng)絡上應用模擬退火,那么它將成為玻爾茲曼機。
激活函數(shù):一種將非線性引入神經(jīng)網(wǎng)絡的方法,它有助于學習更復雜的函數(shù)。沒有它,神經(jīng)網(wǎng)絡只能學習線性函數(shù)。線性函數(shù)是輸入數(shù)據(jù)的線性組合。
參考鏈接:
本文經(jīng)授權轉(zhuǎn)載自數(shù)據(jù)派,ID: datapi。
新智元春季招聘開啟,一起弄潮AI之巔!
【2019新智元 AI 技術峰會倒計時8天】
2019年的3月27日,新智元再匯AI之力,在北京泰富酒店舉辦AI開年盛典——2019新智元AI技術峰會。峰會以“智能云·芯世界“為主題,聚焦智能云和AI芯片的發(fā)展,重塑未來AI世界格局。
同時,新智元將在峰會現(xiàn)場權威發(fā)布若干AI白皮書,聚焦產(chǎn)業(yè)鏈的創(chuàng)新活躍,評述華人AI學者的影響力,助力中國在世界級的AI競爭中實現(xiàn)超越。