免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
常用的統(tǒng)計學原理及案例


公眾號后臺回復“圖書“,了解更多號主新書內(nèi)容

     作者:冬至

     來源:首席數(shù)據(jù)科學家

 統(tǒng)計學相關(guān)的知識,是數(shù)據(jù)科學的重要基礎(chǔ)之一。

之前咱們分享過很多數(shù)據(jù)應(yīng)用相關(guān)的內(nèi)容,從《用戶畫像》《數(shù)據(jù)采集》、《BI系統(tǒng)》等等。今天開始系統(tǒng)分享一些和基礎(chǔ)理論相關(guān)的內(nèi)容,包括統(tǒng)計學、概率論等學科。

01

總體、樣本與抽樣

統(tǒng)計學,其實本質(zhì)就是研究樣本與總體的學科。

(1)關(guān)于總體

首先,什么是總體呢?

總體,就是我們想研究的對象的全體。比如,我們要研究淘寶的所有用戶,那淘寶的所有7億用戶就是總體。總體用戶中的每一個人,就是一個個體

如果總體是有限個,就是有限總體,無限個就是無限總體。

對于總體,我們給出一個隨機變量X,隨機變量的分布就是總體分布。

(2)關(guān)于樣本

研究總體的過程中,我們就發(fā)現(xiàn)一個問題,總體的數(shù)量往往過多。比如針對淘寶網(wǎng)所有用戶,想研究所有用戶的滿意度,咋辦?要一個一個人全部調(diào)查一遍嘛?顯然不現(xiàn)實。這時就有了抽樣以及樣本的價值。

什么是抽樣?

簡單來說,抽樣就是將總體中取一部分。比如全部淘寶用戶抽1000人,這1000人就是樣本,抽取的過程就是抽樣。1000人就是樣本大小,也叫樣本容量

對于抽了n個樣本X1,X2,……Xn,我們通常用以下表示樣本變量

如果發(fā)生了抽樣,那每個樣本都有一個具體的值,比如樣本X1的取值是x1,那我們就把x1叫觀測值,全部樣本的觀測值則用以下表示:

總結(jié)而言,大寫表示的是變量,小寫表示的是確定的數(shù)值(因為已經(jīng)抽取出來并測量了)。

(3)關(guān)于抽樣

關(guān)于抽樣,我們要求的是簡單隨機抽樣。有以下幾個要求:

  • 同分布。要求每個樣本被抽到的機會都是均等的

  • 相互獨立。抽到某個個體對其他個體被抽到是沒有影響的。

當然了,簡單隨機抽樣是比較理想的情況,實際操作中比較困難。

(4)樣本的分布

由于樣本的抽取是獨立的,所以樣本的概率函數(shù)就等于每個樣本的聯(lián)合概率分布。

02


統(tǒng)計量

了解了總體和樣本,我們再看看看統(tǒng)計量。

(1)統(tǒng)計量的定義

首先看一下定義:不含任何未知參數(shù)的樣本的函數(shù),就叫統(tǒng)計量。

說白了,統(tǒng)計量就是由我們?nèi)〉臉颖尽?gòu)造的一個不含未知參數(shù)的函數(shù)。函數(shù)可以是任意的,隨意構(gòu)造,只要保證不含未知參數(shù)即可(可以含已知參數(shù))。

比如,我們求樣本的和,求樣本平方之后的和,這些都是統(tǒng)計量。

(2)常見統(tǒng)計量

這里介紹一下常見的統(tǒng)計量。

樣本均值:

樣本方差(修正過的):

注意,這里的樣本方差是修正過的。細心的朋友應(yīng)該也已經(jīng)發(fā)現(xiàn)了,這里的系數(shù)分母是n-1(未修正的樣本方差的分母是n,也是我們初中高中一直用的方差的定義)。修正的主要目的是為了使得樣本方差是總體方差的無偏估計。關(guān)于無偏估計,后續(xù)再闡述。

樣本標準差:

樣本K階原點矩:

當這里的k=1的時候,一階原點矩就是均值。

樣本K階中心矩:


當這里的k=2的時候,就是未修正的樣本方差。

03


樣本均值和方差的性質(zhì)

上面講到了很多統(tǒng)計量,用的比較多的,其實依舊是樣本均值和方差。因此,針對樣本均值和方差的一些性質(zhì),進行詳細闡述。

(1)樣本均值的期望是總體均值

啥意思呢,舉例說明。

假設(shè)全體7億淘寶用戶對網(wǎng)站的平均滿意度是80分(這個是未知的),抽樣了1000個淘寶用戶,統(tǒng)計了這1000個用戶每個人的滿意度,并求均值。那這個樣本均值的期望就應(yīng)該等于80分。

(2)樣本均值的方差是總體方差的n分之一

從這里,我們可以看出來。樣本均值的方差比總體方差變小了。而且樣本數(shù)量越大,均值的方差越小。為啥呢?

其實是這樣。方差反映的是數(shù)據(jù)的波動程度。當我們選樣本的數(shù)量越多的時候,那么越接近總體的數(shù)量,人數(shù)越多數(shù)據(jù)的波動性越小。這個道理也是比較容易理解的。

(3)樣本方差的期望等于總體方差

這里具體證明過程就不展開了。

關(guān)于總體、樣本、統(tǒng)計量相關(guān)的內(nèi)容,就先介紹到這。下回繼續(xù)分享抽樣分布相關(guān)的內(nèi)容,歡迎繼續(xù)關(guān)注。

◆ ◆ ◆  ◆ 

麟哥新書已經(jīng)在當當上架了,我寫了本書:《拿下Offer-數(shù)據(jù)分析師求職面試指南》,目前當當正在舉行活動,大家可以用相當于原價5折的預購價格購買,還是非常劃算的:



本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
統(tǒng)計學基礎(chǔ)之總體與樣本
數(shù)據(jù)分析師必須掌握的統(tǒng)計學知識!
T分布:一個被啤酒廠發(fā)現(xiàn)的關(guān)鍵統(tǒng)計概念
第六章 數(shù)理統(tǒng)計的基本概念1
干貨分享--統(tǒng)計學知識大梳理(第三部分-最終篇)
[數(shù)學/統(tǒng)計基礎(chǔ)] 簡明實用的統(tǒng)計學基礎(chǔ)問答
更多類似文章 >>
生活服務(wù)
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服