頻數統(tǒng)計:
單純對各個分類計數。count
百分比。
統(tǒng)計度量:
平均數
中位數median(比平均數更真實反應情況)。如果平均數<>中位數,代表數值分布有傾斜,更多數值靠近中位數。
眾數, 出現頻率最高的數值。
分位數
標準差
圖形
分位數(英語:Quantile),亦稱分位點,是指用分割點(cut point)將一個隨機變量的概率分布范圍分為幾個具有相同概率的連續(xù)區(qū)間。
分割點的數量比劃分出的區(qū)間少1,例如3個分割點能分出4個區(qū)間。
常用的有中位數(即二分位數)、四分位數(quartile)、十分位數(decile )、百分位數等。q-quantile是指將有限值集分為q個接近相同尺寸的子集。
分位數指的就是連續(xù)分布函數中的一個點,這個點對應概率p。
是統(tǒng)計學中分位數的一種,即把所有數值由小到大排列,然后按照總數量分成四等份,即每份中的數值的數量相同,處于三個分割點位置的數值就是四分位數。
這3個數叫做:
第一四分位數,又稱較小四分位數,等于該樣本中所有數值由小到大排列后第25%的數字。
第二四分位數,又稱中位數,等于該樣本中所有數值由小到大排列后第50%的數字。
第三四分位數,又稱較大四分位數,等于該樣本中所有數值由小到大排列后第75%的數字。
pandas.DataFrame.quantile()和numpy.percentile()計算結果一樣。
pandas中有describe方法顯示四分位數。
例子:
>>> ps = pd.DataFrame([1,2,3,4,5,6,7,8,9,10,11,12])>>> ps.describe() 0count 12.000000mean 6.500000std 3.605551min 1.00000025% 3.750000 #分割點50% 6.50000075% 9.250000max 12.000000
>>> ps.quantile(0.25)0 3.75 >>> ps.quantile(0.5)0 6.5
>>> np.percentile(ps, 50)6.5
分析方法中的二八法則,結合分位數來使用。
描述數據離散程度。數據的波動性。
方差:統(tǒng)計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。
標準差:對方差開跟號。因為方差會消除數據的單位,比如:元,缺少了業(yè)務的含義,所以引入標準差。
例子:
a=[10,10,10,11,12,12,12]
b=[3,5,7,11,15,17,19]
a和b的中位數和平均數都11,但他們的方差不一樣,a的方差<b的方差。a數據集的離散程度小于b數據集。
均值 /-標準差,這個范圍的數據占了整個數據集的大部分,可以說數值大部分在這個范圍內波動。
闡述:數據集的平均值是m, 大部分在m /-方差的范圍內波動。
例子:
#還是??的數據>>> ps.std()0 3.605551