如果你已經(jīng)決定把Python作為你的編程語言,那么,你腦海中的下一個(gè)問題會(huì)是:'進(jìn)行數(shù)據(jù)分析有哪些Python庫可用?'
對(duì)于科學(xué)計(jì)算,它是Python創(chuàng)建的所有更高層工具的基礎(chǔ)。以下是它提供的一些功能:
1. N維數(shù)組,一種快速、高效使用內(nèi)存的多維數(shù)組,它提供矢量化數(shù)學(xué)運(yùn)算 。
2. 你可以不需要使用循環(huán),就對(duì)整個(gè)數(shù)組內(nèi)的數(shù)據(jù)行標(biāo)準(zhǔn)數(shù)學(xué)運(yùn)算。
3. 非常便于傳送數(shù)據(jù)到用低級(jí)語言(如C或C++)編寫的外部庫,也便于外部庫以Numpy數(shù)組形式返回?cái)?shù)據(jù)。
NumPy不提供高級(jí)數(shù)據(jù)分析功能,但有了對(duì)NumPy數(shù)組和面向數(shù)組的計(jì)算的理解,能幫助你更有效地使用像Pandas之類的工具。
Scipy庫依賴于NumPy,它提供便捷和快速的N維向量數(shù)組操作。SciPy庫的建立就是和NumPy數(shù)組一起工作,并提供許多對(duì)用戶友好的和有效的數(shù)值例程,如:數(shù)值積分和優(yōu)化。SciPy提供模塊用于優(yōu)化、線性代數(shù)、積分以及其它數(shù)據(jù)科學(xué)中的通用任務(wù)。
Pandas包含高級(jí)數(shù)據(jù)結(jié)構(gòu),以及和讓數(shù)據(jù)分析變得快速、簡(jiǎn)單的工具。它建立在NumPy之上,使以NumPy為中心的應(yīng)用變得簡(jiǎn)單。
1. 帶有坐標(biāo)軸的數(shù)據(jù)結(jié)構(gòu),支持自動(dòng)或明確的數(shù)據(jù)對(duì)齊。這能防止由于數(shù)據(jù)沒有對(duì)齊,以及處理不同來源的、采用不同索引的數(shù)據(jù)而產(chǎn)生的常見錯(cuò)誤。
2. 使用Pandas更容易處理缺失數(shù)據(jù)。
3. 合并流行數(shù)據(jù)庫(如:基于SQL的數(shù)據(jù)庫)中能找到 的關(guān)系操作。
Pandas是進(jìn)行數(shù)據(jù)清洗/整理(data munging)的最好工具。
Matlplotlib是Python的一個(gè)可視化模塊。它讓你方便地制作線條圖、餅圖、柱狀圖以及其它專業(yè)圖形。使用Matplotlib,你可以定制所做圖表的任一方面。在IPython中使用時(shí),Matplotlib有一些互動(dòng)功能,如:縮放和平移。它支持所有的操作系統(tǒng)下不同的GUI后端(back ends),并且可以將圖形輸出為常見地矢量圖和圖形格式,如:PDF、SVG、JPG、PNG、BMP和GIF等。
Scikit-learn是一個(gè)用于機(jī)器學(xué)習(xí)的Python模塊。它建立在Scipy之上,提供了一套常用機(jī)器學(xué)習(xí)算法,讓使用者通過一個(gè)統(tǒng)一的接口來使用。Scikit-learn有助于你迅速地在你的數(shù)據(jù)集上實(shí)現(xiàn)流行的算法。
關(guān)注后私信【數(shù)據(jù)分析】領(lǐng)取《利用Python進(jìn)行數(shù)據(jù)分析》PDF書籍
聯(lián)系客服