R是統(tǒng)計(jì)領(lǐng)域廣泛使用的工具,屬于GNU系統(tǒng)的一個自由、免費(fèi)、源代碼開放的軟件,是用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)繪圖的優(yōu)秀工具。
下面我們將分享《R語言實(shí)戰(zhàn)》中的第1-16章的學(xué)習(xí)筆記匯總,由淺入深學(xué)習(xí)R的基本安裝中最重要的函數(shù),以及一些重要擴(kuò)展包中的函數(shù),從而用各種技術(shù)實(shí)現(xiàn)數(shù)據(jù)的可視化,解決各種難度的數(shù)據(jù)分析問題。
R語言實(shí)戰(zhàn)(1)——R語言介紹(學(xué)習(xí)分享)
R語言實(shí)戰(zhàn)(2)——創(chuàng)建數(shù)據(jù)集(學(xué)習(xí)分享)
R語言實(shí)戰(zhàn)(4)——數(shù)據(jù)管理
R語言實(shí)戰(zhàn)(5)——高級數(shù)據(jù)管理
R語言實(shí)戰(zhàn)(7)——基本統(tǒng)計(jì)分析
首先介紹了如何獲取和安裝R,通過簡單的示例熟悉R的用戶界面,運(yùn)行R程序,學(xué)習(xí)了如何從在線免費(fèi)下載擴(kuò)展(稱為用戶貢獻(xiàn)包)來增強(qiáng)基本安裝的功能。
R語言實(shí)戰(zhàn)(1)——R語言介紹(學(xué)習(xí)分享)
介紹了R中用于存儲數(shù)據(jù)的多種數(shù)據(jù)結(jié)構(gòu),以及從鍵盤和外部來源導(dǎo)入數(shù)據(jù)的許多可能方式,為實(shí)現(xiàn)R的數(shù)據(jù)處理功能做準(zhǔn)備。
R語言實(shí)戰(zhàn)(2)——創(chuàng)建數(shù)據(jù)集(學(xué)習(xí)分享)
介紹了R中處理圖形的一般方法,包括圖形的創(chuàng)建和保存、修改圖形的特征(標(biāo)題、坐標(biāo)軸、標(biāo)簽、顏色、線條、符號和文本標(biāo)注)以及組合多幅圖形為單幅圖形的各種方法。
介紹了R中基本的數(shù)據(jù)集處理方法,將數(shù)據(jù)轉(zhuǎn)換或修改為更有助于分析的形式。
R語言實(shí)戰(zhàn)(4)——數(shù)據(jù)管理
介紹了R中用于創(chuàng)建和轉(zhuǎn)換變量的算術(shù)函數(shù)、字符處理函數(shù)和統(tǒng)計(jì)函數(shù),學(xué)習(xí)了使用控制流來完成數(shù)據(jù)處理和分析任務(wù),以及折疊、整合以及重構(gòu)數(shù)據(jù)的多種方法。
R語言實(shí)戰(zhàn)(5)——高級數(shù)據(jù)管理
介紹了可視化單個類別型或連續(xù)性變量分布的方法,探索條形圖、餅圖、扇形圖、直方圖、核密度圖、箱線圖、小提 琴圖和點(diǎn)圖的用法。
介紹了R中用于生成統(tǒng)計(jì)概要和進(jìn)行假設(shè)檢驗(yàn)的函數(shù)。包括樣本統(tǒng)計(jì)量和頻數(shù)表、獨(dú)立性檢驗(yàn)和類別型變量的相關(guān)性度量、定量變量的相關(guān)系數(shù)(和連帶的顯著性檢驗(yàn))以及兩組或更多組定量結(jié)果變量的比較。
R語言實(shí)戰(zhàn)(7)——基本統(tǒng)計(jì)分析
表7-1 用于創(chuàng)建和處理列聯(lián)表的函數(shù)
介紹了R中實(shí)現(xiàn)回歸分析的各個步驟,包括擬合模型、檢驗(yàn)統(tǒng)計(jì)假設(shè)、修正數(shù)據(jù)和模型,以及為達(dá)到最終結(jié)果的再擬合等過程。
通過組內(nèi)和組間設(shè)計(jì)的示例介紹了如何對類別型預(yù)測變量進(jìn)行方差分析以及假設(shè)檢驗(yàn)。
學(xué)習(xí)了使用pwr包中的函數(shù)對常見的統(tǒng)計(jì)方法(包括t檢驗(yàn)、卡方檢驗(yàn)、比例檢驗(yàn)、ANOVA和回歸)進(jìn)行功效和樣本量的計(jì)算。
介紹了用于展示雙變量間關(guān)系(二元關(guān)系)和多變量間關(guān)系(多元關(guān)系)的繪圖方法,包括二維和三維散點(diǎn)圖、散點(diǎn)圖矩陣、氣泡圖、折線圖、相關(guān)系數(shù)圖和馬賽克圖。
介紹了當(dāng)數(shù)據(jù)抽樣于未知或混合分布、樣本量過小等等情況時,常用的兩種應(yīng)用廣泛的依據(jù)隨機(jī)化思想的統(tǒng)計(jì)方法:置換檢驗(yàn)和自助法。
介紹了如何使用glm()函數(shù)來進(jìn)行估計(jì)廣義線性模型,重點(diǎn)關(guān)注該框架中兩種流行的模型:Logistic回歸(因變量為類別型)和泊松回歸(因變量為 計(jì)數(shù)型)。
介紹了兩種用來探索和簡化多變量復(fù)雜關(guān)系的常用方法,主成分分析(PCA)和探索性因子分析(EFA)兩種方法的模型和分析步驟。
R語言實(shí)戰(zhàn)(14)——主成分分析和因子分析
介紹了如何在R中生成時間序列、判斷序列中是否存在某種趨勢或季節(jié)性因素,并探討了最常用的兩種預(yù)測手段,即指數(shù)模型和ARIMA模型。
介紹了常見聚類分析的一般步驟,描述了層次聚類和劃分聚類的常見方法,以及驗(yàn)證不存在的類。