免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
Python學習教程:正態(tài)你還不會嗎?這期的Python教程你肯定能學會

這段時間跟大家出的很多文章都是偏娛樂型的,很多伙伴私信說之前講過的正態(tài)有些不懂,哈哈哈,也能理解,畢竟正態(tài)學起來不是一篇教程就能完全掌握的!為什么正態(tài)分布如此特殊?為什么大量數據科學和機器學習的文章都圍繞正態(tài)分布進行討論?今天再跟大家出了這篇Python學習教程文章,用一種簡單易懂的方式來介紹正態(tài)分布。

在機器學習的世界中,以概率分布為核心的研究大都聚焦于正態(tài)分布。本文將闡述正態(tài)分布的概率,并解釋它的應用為何如此的廣泛,尤其是在數據科學和機器學習領域,它幾乎無處不在。

我將會從基礎概念出發(fā),解釋有關正態(tài)分布的一切,并揭示它為何如此重要

文章結構

本文的主要內容如下:

  1. 概率分布是什么

  2. 正態(tài)分布意味著什么

  3. 正態(tài)分布的變量有哪些

  4. 如何使用 Python 來檢驗數據的分布

  5. 如何使用 Python 參數化生產一個正態(tài)分布

  6. 正態(tài)分布的問題

簡短的背景介紹

  1. 首先,正態(tài)分布又名高斯分布

  2. 它以數學天才 Carl Friedrich Gauss 命名

正態(tài)分布又名高斯分布

3 . 越簡單的模型越是常用,因為它們能夠被很好的解釋和理解。正態(tài)分布非常簡單,這就是它是如此的常用的原因。

因此,理解正態(tài)分布非常有必要。

什么是概率分布?

首先介紹一下相關概念。

考慮一個預測模型,該模型可以是我們的數據科學研究中的一個組件。

  • 如果我們想精確預測一個變量的值,那么我們首先要做的就是理解該變量的潛在特性。

  • 首先我們要知道該變量的可能取值,還要知道這些值是連續(xù)的還是離散的。簡單來講,如果我們要預測一個骰子的取值,那么第一步就是明白它的取值是1 到 6(離散)。

  • 第二步就是確定每個可能取值(事件)發(fā)生的概率。如果某個取值永遠都不會出現,那么該值的概率就是 0 。

事件的概率越大,該事件越容易出現。
  • 在實際操作中,我們可以大量重復進行某個實驗,并記錄該實驗對應的輸出變量的結果。

  • 我們可以將這些取值分為不同的集合類,在每一類中,我們記錄屬于該類結果的次數。例如,我們可以投10000次骰子,每次都有6種可能的取值,我們可以將類別數設為6,然后我們就可以開始對每一類出現的次數進行計數了。

  • 我們可以畫出上述結果的曲線,該曲線就是概率分布曲線。目標變量每個取值的可能性就由其概率分布決定。

  • 一旦我們知道了變量的概率分布,我們就可以開始估計事件出現的概率了,我們甚至可以使用一些概率公式。至此,我們就可更好的理解變量的特性了。概率分布取決于樣本的一些特征,例如平均值,標準偏差,偏度和峰度。

  • 如果將所有概率值求和,那么求和結果將會是100%

世界上存在著很多不同的概率分布,而最廣泛使用的就是正態(tài)分布了。

初遇正態(tài)分布

我們可以畫出正態(tài)分布的概率分布曲線,可以看到該曲線是一個鐘型的曲線。如果變量的均值,模和中值相等,那么該變量就呈現正態(tài)分布。

如下圖所示,為正態(tài)分布的概率分布曲線:

理解和估計變量的概率分布非常重要。

下面列出的變量的分布都比較接近正態(tài)分布:

  1. 人群的身高

  2. 成年人的血壓

  3. 傳播中的粒子的位置

  4. 測量誤差

  5. 回歸中的殘差

  6. 人群的鞋碼

  7. 一天中雇員回家的總耗時

  8. 教育指標

此外,生活中有大量的變量都是具有 x % 置信度的正態(tài)變量,其中,x<100。

什么是正態(tài)分布?

正態(tài)分布只依賴于數據集的兩個特征:樣本的均值和方差。

均值——樣本所有取值的平均

方差——該指標衡量了樣本總體偏離均值的程度

正態(tài)分布的這種統(tǒng)計特性使得問題變得異常簡單,任何具有正態(tài)分布的變量,都可以進行高精度分預測。

值得注意的是,大自然中發(fā)現的變量,大多近似服從正態(tài)分布。

正態(tài)分布很容易解釋,這是因為:

  1. 正態(tài)分布的均值,模和中位數是相等的。

  2. 我們只需要用均值和標準差就能解釋整個分布。

正態(tài)分布是我們熟悉的正常行為

為何如此多的變量都大致服從正態(tài)分布?

這個現象可以由如下定理理解釋:當在大量隨機變量上重復很多次實驗時,它們的分布總和將非常接近正態(tài)分布。

由于人的身高是一個隨機變量,并且基于其他隨機變量,例如一個人消耗的營養(yǎng)量,他們所處的環(huán)境,他們的遺傳等等,這些變量的分布總和最終是非常接近正態(tài)的。

這就是中心極限定理。

本文的核心:

我們從上文的分析得出,正態(tài)分布是許多隨機分布的總和。 如果我們繪制正態(tài)分布密度函數,那么它的曲線將具有以下特征:

如上圖所示,該鐘形曲線有均值為 100,標準差為1:

  • 均值是曲線的中心。 這是曲線的最高點,因為大多數點都是均值。

  • 曲線兩側的點數相等。 曲線的中心具有最多的點數。

  • 曲線下的總面積是變量所有取值的總概率。

  • 因此總曲線面積為 100%

更進一步,如上圖所示:

  • 約 68.2% 的點在 -1 到 1 個標準偏差范圍內。

  • 約 95.5% 的點在 -2 到 2 個標準偏差范圍內。

  • 約 99.7% 的點在 -3 至 3 個標準偏差范圍內。

這使我們可以輕松估計變量的變化性,并給出相應置信水平,它的可能取值是多少。例如,在上面的灰色鐘形曲線中,變量值在 99-101 之間的可能性為 68.2%。

正態(tài)概率分布函數

概率密度函數的形式如下:

概率密度函數基本上可以看作是連續(xù)隨機變量取值的概率。

正態(tài)分布是鐘形曲線,其中mean = mode = median。
  • 如果使用概率密度函數繪制變量的概率分布曲線,則給定范圍的曲線下的面積,表示目標變量在該范圍內取值的概率。

  • 概率分布曲線基于概率分布函數,而概率分布函數本身是根據諸如平均值或標準差等多個參數計算的。

  • 我們可以使用概率分布函數來查找隨機變量取值范圍內的值的相對概率。 例如,我們可以記錄股票的每日收益,將它們分組到適當的集合類中,然后計算股票在未來獲得20-40%收益的概率。

標準差越大,樣品中的變化性越大。

如何使用 Python 探索變量的概率分布

最簡單的方法是加載 data frame 中的所有特征,然后運行以下腳本(使用pandas 庫):


DataFrame.hist(bins=10)
#Make a histogram of the DataFrame.

該函數向我們展示了所有變量的概率分布。

變量服從正態(tài)分布意味著什么?

如果我們將大量具有不同分布的隨機變量加起來,所得到的新變量將最終具有正態(tài)分布。這就是前文所述的中心極限定理。

服從正態(tài)分布的變量總是服從正態(tài)分布。 例如,假設 A 和 B 是兩個具有正態(tài)分布的變量,那么:

· A x B 是正態(tài)分布

· A + B 是正態(tài)分布

因此,使用正態(tài)分布,預測變量并在一定范圍內找到它的概率會變得非常簡單。

樣本不服從正態(tài)分布怎么辦?

我們可以將變量的分布轉換為正態(tài)分布。

我們有多種方法將非正態(tài)分布轉化為正態(tài)分布:

1.線性變換

一旦我們收集到變量的樣本數據,我們就可以對樣本進行線性變化,并計算Z得分:

  1. 計算平均值

  2. 計算標準偏差

  3. 對于每個 x,使用以下方法計算 Z:

2.使用 Boxcox 變換

我們可以使用 SciPy 包將數據轉換為正態(tài)分布:

scipy.stats.boxcox(x, lmbda=None, alpha=None)

3.使用 Yeo-Johnson 變換

另外,我們可以使用 yeo-johnson 變換。 Python 的 sci-kit learn 庫提供了相應的功能:

sklearn.preprocessing.PowerTransformer(method=’yeojohnson’,standardize=True, copy=True)

正態(tài)分布的問題

由于正態(tài)分布簡單且易于理解,因此它也在預測研究中被過度使用。 假設變量服從正態(tài)分布會有一些顯而易見的缺陷。 例如,我們不能假設股票價格服從正態(tài)分布,因為價格不能為負。 因此,我們可以假設股票價格服從對數正態(tài)分布,以確保它永遠不會低于零。

我們知道股票收益可能是負數,因此收益可以假設服從正態(tài)分布。

假設變量服從正態(tài)分布而不進行任何分析是愚蠢的。

變量可以服從Poisson,Student-t 或 Binomial 分布,盲目地假設變量服從正態(tài)分布可能導致不準確的結果。

總結

本文闡述了正態(tài)分布的概念和性質,以及它如此重要的原因。希望能幫助到正在學習Python教程的你。

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
為什么正態(tài)分布在AI中如此重要?
從貝葉斯定理到概率分布:綜述概率論基本定義
正態(tài)分布的前世今生(4)
數學天才必學的12大概率分布
正態(tài)分布:從一條曼妙的曲線說起
§117 三大分布--正態(tài)分布
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服