各位客官姥爺好,歡迎回來。我們之前的內(nèi)容一直圍繞著正則表達(dá)式展開,這次我們就講點(diǎn)別的。既然我的公眾號名稱叫做轉(zhuǎn)行學(xué)數(shù)據(jù)分析,那么我們今天就來講講數(shù)據(jù)分析有關(guān)的,一個常見的Python的數(shù)據(jù)分析庫--Pandas庫
1. Pandas的介紹
Pandas是python中的一個數(shù)據(jù)分析包,Pandas的名稱來源于面板數(shù)據(jù)(Panel Aata)和python數(shù)據(jù)分析(Data Analysis)。支持?jǐn)?shù)據(jù)的增、 刪、查、改,并且?guī)в胸S富的數(shù)據(jù)處理函數(shù),支持靈活處理缺失數(shù)據(jù)等。目前是python下最強(qiáng)大的數(shù)據(jù)分析工具。
這里有兩個關(guān)鍵詞:面板數(shù)據(jù)和數(shù)據(jù)分析。
2. 面板數(shù)據(jù)
什么是面板數(shù)據(jù)呢?
面板數(shù)據(jù)具有時間序列和截面兩個維度, 當(dāng)這類數(shù)據(jù)按照這兩個維度排列時, 整個表格像是一個面板, 所以稱作"面板數(shù)據(jù)". 也就是說. 它是將時間序列數(shù)據(jù)和截面數(shù)據(jù)綜合化的一種數(shù)據(jù)形式.
1)時間序列數(shù)據(jù): 是某一事物在不同時間上收集的數(shù)據(jù), 根據(jù)觀察時間的不同, 時間序列數(shù)據(jù)中的時間可以是年份、季度、月份或其他任何時間形式.
比如XXXX有限公司A廠區(qū)的銷售額就是時間序列數(shù)據(jù):
2)截面數(shù)據(jù): 不同主體在同一時間點(diǎn)或同一時間段的數(shù)據(jù), 也稱為靜態(tài)數(shù)據(jù).
比如XXXX有限公司四個廠區(qū)在第一季度的銷售額就是截面數(shù)據(jù):
3)面板數(shù)據(jù): 將XXXX有限公司銷售額按照時間序列和截面兩個維度排列:
可以把面板數(shù)據(jù)看成是m*n的矩陣, 即m個時間序列上,取n個截面對象的某項(xiàng)數(shù)據(jù)指標(biāo).
3. 數(shù)據(jù)分析
數(shù)據(jù)分析是一個過程,根據(jù)實(shí)際需求收集相應(yīng)的數(shù)據(jù),隨后將收集到的原始數(shù)據(jù)經(jīng)過處理、轉(zhuǎn)換、分析成對決策有用的信息。
主要包括:明確目的、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析與展現(xiàn)、撰寫報告這五大步驟。而我們的Pandas庫主要負(fù)責(zé)數(shù)據(jù)的處理、數(shù)據(jù)分析與展現(xiàn)這兩大環(huán)節(jié)。
到目前為止,我們了解了Pandas庫的介紹,下面我們進(jìn)入Pandas庫的安裝環(huán)節(jié)。
4. Pandas庫的安裝
1)安裝環(huán)境
需先安裝好Python并配置好環(huán)境變量等。
2)pip安裝命令
在CMD命令行窗口執(zhí)行以下命令:
pip install pandas
安裝成功,到這里pandas的介紹與安裝就介紹完畢了,后續(xù)會講Pandas的用法。
以上就是本次的分享,歡迎各位客官姥爺關(guān)注我,方便您第一次時間收到【干貨】!