23. 統(tǒng)計(jì)與統(tǒng)計(jì)數(shù)據(jù)。
23.1統(tǒng)計(jì)學(xué)
23.1.1統(tǒng)計(jì)學(xué)的定義及兩大分支
一、統(tǒng)計(jì)學(xué)的定義
統(tǒng)計(jì)學(xué)是一門(mén)關(guān)數(shù)據(jù)的學(xué)科,概括來(lái)講,統(tǒng)計(jì)學(xué)是關(guān)于收集、整理分析數(shù)據(jù)和從數(shù)據(jù)中得出結(jié)論的科學(xué)。
二、統(tǒng)計(jì)學(xué)的兩大分支
統(tǒng)計(jì)學(xué)的兩大分支是描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)。
【描述統(tǒng)計(jì)】研究數(shù)據(jù)收集、整理和描述的統(tǒng)計(jì)方法。
其內(nèi)容包括:
(1)如何取得所需要的數(shù)據(jù)。
(2)如何用圖表或數(shù)學(xué)方法對(duì)數(shù)據(jù)進(jìn)行整理和展示。
(3)如何描述數(shù)據(jù)的一般特征。
【推斷統(tǒng)計(jì)】
研究如何利用樣本數(shù)據(jù)推斷總體特征的統(tǒng)計(jì)方法。其內(nèi)容包括
(1)參數(shù)估計(jì):利用樣本信息推斷總體特征
(2)假設(shè)檢驗(yàn):利用樣本信息判斷對(duì)總體假設(shè)是否成立
23.2變量和數(shù)據(jù)
23.2.1變量和數(shù)據(jù)的分類(lèi)
一、變量
變量是研究對(duì)象的屬性或特征,它是相對(duì)于常數(shù)而言的。
常數(shù)只有一個(gè)固定取值,變量可以有兩個(gè)或更多個(gè)可能的取值。
二、數(shù)據(jù)
數(shù)據(jù)是對(duì)變量進(jìn)行測(cè)量、觀測(cè)的結(jié)果。
數(shù)據(jù)可以是數(shù)值、文字或者圖像等形式。
數(shù)據(jù)的類(lèi)別如下:
定量數(shù)據(jù)(數(shù)值型數(shù)據(jù))是對(duì)定量變量的觀測(cè)結(jié)果,其取值表現(xiàn)為具體的數(shù)值。
【如】企業(yè)的銷(xiāo)售額是1000萬(wàn)元
分類(lèi)數(shù)據(jù):
分類(lèi)變量的觀測(cè)結(jié)果,表現(xiàn)為類(lèi)別,一般用文字來(lái)表述,也可用數(shù)字描述。
【如】用1表示“男性”,2表示“女性”
順序數(shù)據(jù):
順序變量的觀測(cè)結(jié)果,表現(xiàn)為類(lèi)別,一般用文字描述,也可用數(shù)字描述。
【如】用1表示“"碩士及以上”,2表示“本科”,3表示“大專(zhuān)及以下”
23.3數(shù)據(jù)的來(lái)源
23.3.1數(shù)據(jù)來(lái)源的分類(lèi)
一、按收集方法
【觀測(cè)數(shù)據(jù)】
通過(guò)直接調(diào)查或測(cè)量而收集的數(shù)據(jù)。
幾乎所有與社會(huì)經(jīng)濟(jì)現(xiàn)象有關(guān)的統(tǒng)計(jì)數(shù)據(jù)都是觀測(cè)數(shù)據(jù)?!救纭縂DP、CPI、房?jī)r(jià)等
【實(shí)驗(yàn)數(shù)據(jù)】
通過(guò)在實(shí)驗(yàn)中控制實(shí)驗(yàn)對(duì)象以及其所處的實(shí)驗(yàn)環(huán)境收集到的數(shù)據(jù)。
【如】。一種新產(chǎn)品使用壽命的數(shù)據(jù),一種新藥療效的數(shù)據(jù)。自然科學(xué)領(lǐng)域的數(shù)據(jù)大多都是實(shí)驗(yàn)數(shù)據(jù)
二、從使用者的角度
【一手?jǐn)?shù)據(jù)】
來(lái)源于直接的調(diào)查和科學(xué)實(shí)驗(yàn)的數(shù)據(jù),對(duì)使用者來(lái)說(shuō)這是數(shù)據(jù)的直接來(lái)源。其來(lái)源主要有:調(diào)查或觀察、實(shí)驗(yàn)
【提示】在社會(huì)經(jīng)濟(jì)領(lǐng)域,統(tǒng)計(jì)調(diào)查是獲得數(shù)據(jù)的主要方法,也是獲得一手?jǐn)?shù)據(jù)的重要方式。
【二手?jǐn)?shù)據(jù)】來(lái)源于別人的調(diào)查或?qū)嶒?yàn)的數(shù)據(jù)。對(duì)使用者來(lái)說(shuō)這是數(shù)據(jù)的間接來(lái)源
23.4統(tǒng)計(jì)調(diào)查
23.4.1統(tǒng)計(jì)調(diào)查的種類(lèi)和方式
一、統(tǒng)計(jì)調(diào)查的種類(lèi)
統(tǒng)計(jì)調(diào)查過(guò)程有兩個(gè)重要特征:
【一是】調(diào)查是一種有計(jì)劃、有方法、有程序的活動(dòng);
【二是】調(diào)查的結(jié)果表現(xiàn)為搜集到的數(shù)據(jù)。
(二)按調(diào)查對(duì)象的范圍不同
全面調(diào)查
對(duì)構(gòu)成調(diào)查對(duì)像的所有單位進(jìn)行逐一的、無(wú)一遺漏的調(diào)查,包括:
1.全面統(tǒng)計(jì)報(bào)表
2.普查
(1)人口普查:對(duì)全國(guó)人口無(wú)一例外進(jìn)行登記調(diào)查
(2)經(jīng)濟(jì)普查:對(duì)像是中華人民共和國(guó)境內(nèi)從事第二、第三產(chǎn)業(yè)活動(dòng)的全部法人單位、產(chǎn)業(yè)活動(dòng)單位和個(gè)體經(jīng)營(yíng)戶(hù)
非全面調(diào)查
對(duì)調(diào)查對(duì)象中的一部分單位進(jìn)行調(diào)查。
包括:非全面統(tǒng)計(jì)報(bào)表、抽樣調(diào)查、重點(diǎn)調(diào)查和典型調(diào)查
(三)按調(diào)查登記的時(shí)間是否連續(xù)
連續(xù)調(diào)查
觀察總體現(xiàn)象在一定時(shí)期內(nèi)的數(shù)量變化,說(shuō)明現(xiàn)象的發(fā)展過(guò)程,目的是為了解社會(huì)現(xiàn)象在一段時(shí)期的總量。
【如】工廠的產(chǎn)品生產(chǎn)、原材料的投入、能源的消耗、人口的出生、死亡等
不連續(xù)調(diào)查
間隔相當(dāng)長(zhǎng)的時(shí)間(通常一年以上)所作的調(diào)查,為了對(duì)總體現(xiàn)象在一定時(shí)點(diǎn)上的狀態(tài)進(jìn)行研究。
【如】生產(chǎn)設(shè)備擁有量、耕地面積等
二、統(tǒng)計(jì)調(diào)查方式
(一)統(tǒng)計(jì)報(bào)表
按照國(guó)家有關(guān)法規(guī)的規(guī)定,自上而下地統(tǒng)一布置,自下而上地逐級(jí)提供基本統(tǒng)計(jì)數(shù)據(jù)的一種調(diào)查方式。
統(tǒng)計(jì)報(bào)表要以一定的原始數(shù)據(jù)為基礎(chǔ),按照統(tǒng)一的表式、統(tǒng)一的指標(biāo)、統(tǒng)一的報(bào)送時(shí)間和報(bào)送程序進(jìn)行填報(bào)。
1按調(diào)查對(duì)象范圍的不同分為全面統(tǒng)計(jì)報(bào)表和非全面統(tǒng)計(jì)報(bào)表。目前的大多數(shù)統(tǒng)計(jì)報(bào)表都是全面報(bào)表,
2按報(bào)送周期長(zhǎng)不同可分為日?qǐng)?bào),月報(bào),季報(bào)年報(bào),
3按報(bào)表內(nèi)容和實(shí)施范圍不同可分為國(guó)家的、部門(mén)的、地方的統(tǒng)計(jì)報(bào)表。
(二)普查
為某一特定目的而專(zhuān)門(mén)組織的一次性全面調(diào)查,主要用于收集處于某一時(shí)點(diǎn)狀態(tài)上的社會(huì)經(jīng)濟(jì)現(xiàn)象的基本全貌。
(1)普查通常是一次性的或者周期性的
經(jīng)濟(jì)普查每10年進(jìn)行2次,逢年份末尾數(shù)字為3、8的年份實(shí)施
人口普查每10年進(jìn)行1次,逢“0”年份實(shí)施;
農(nóng)業(yè)普查每10年進(jìn)行1次,逢“6”年份實(shí)施
(2)普查一般要規(guī)定統(tǒng)一的標(biāo)準(zhǔn)調(diào)查時(shí)間,以避免調(diào)查數(shù)據(jù)的重復(fù)或遺漏,保證普查結(jié)果的準(zhǔn)確性,
第五、六、七次人口普查的標(biāo)準(zhǔn)時(shí)間為普查年份的11月1日0時(shí)。
農(nóng)業(yè)普查和經(jīng)濟(jì)普查的標(biāo)準(zhǔn)時(shí)間為普查年份的1月1日0時(shí)。
標(biāo)準(zhǔn)時(shí)間一般定為調(diào)查對(duì)象比較集中、相對(duì)變動(dòng)較小的時(shí)間。
(3)普查數(shù)據(jù)一般比較準(zhǔn)確,規(guī)范化程度較高
(4)使用范圍比較窄,只能調(diào)查基本及特定的現(xiàn)象
(三)抽樣調(diào)查
從調(diào)查對(duì)象的總體中抽取部分單位作為樣本進(jìn)行調(diào)查,并根據(jù)樣本調(diào)查結(jié)果來(lái)推斷總體數(shù)量特征的一種非全面調(diào)查。
(1)經(jīng)濟(jì)性:最顯著的優(yōu)點(diǎn)
(2)時(shí)效性強(qiáng)
(3)適應(yīng)面廣
(4)準(zhǔn)確性高:工作量小,各環(huán)節(jié)可以做的更細(xì)致,登記性誤差往往較小
(四)重點(diǎn)調(diào)查
從調(diào)查對(duì)像的總體中選擇少數(shù)重點(diǎn)單位進(jìn)行調(diào)查。所選擇的重點(diǎn)單位就調(diào)查的標(biāo)志值來(lái)說(shuō)在總體中占絕大比重。重點(diǎn)調(diào)查的適用范圍很廣,以較少的投入、較快的速度取得某些現(xiàn)象主要標(biāo)志的基本情況或變動(dòng)趨勢(shì)。
【目的】只要求了解基本狀況和發(fā)展趨勢(shì),不要求掌握全面的數(shù)據(jù)。
舉例
(1)為了及時(shí)了解全國(guó)城市零售物價(jià)的變動(dòng)趨勢(shì),就可以對(duì)全國(guó)的35個(gè)大中型城市的零售物價(jià)的變化進(jìn)行調(diào)查,這就是重點(diǎn)調(diào)查
(2)要及時(shí)了解全國(guó)工業(yè)企業(yè)的增加值和資產(chǎn)總額情況,只需對(duì)全國(guó)大中型工業(yè)企業(yè)進(jìn)行重點(diǎn)調(diào)查即可。
(3)重點(diǎn)調(diào)查能以較少的投入、較快的速度取得某些現(xiàn)象主要標(biāo)志的基本情況或變動(dòng)趨勢(shì),例如國(guó)家統(tǒng)計(jì)局的全國(guó)5000家工業(yè)企業(yè)聯(lián)網(wǎng)直報(bào)制度就屬于重點(diǎn)調(diào)查。
(五)典型調(diào)查
根據(jù)調(diào)查的目的與要求,在對(duì)被調(diào)查對(duì)象進(jìn)行全面分析的基礎(chǔ)上,有意識(shí)地選擇若干具有典型意義的或有代表性的單位進(jìn)行的調(diào)查。
作用:
(1)彌補(bǔ)全面調(diào)查的不足
(2)在一定條件下可以驗(yàn)證全面調(diào)查數(shù)據(jù)的真實(shí)性
優(yōu)點(diǎn):靈活機(jī)動(dòng)、通過(guò)少數(shù)典型單位即可取得深入翔實(shí)的統(tǒng)計(jì)資料。典型調(diào)查不是統(tǒng)計(jì)活動(dòng)所特有的方法,但從統(tǒng)計(jì)過(guò)程來(lái)說(shuō),是一種必不可少的方法。運(yùn)用典型調(diào)查主要在于了解與統(tǒng)計(jì)數(shù)字有關(guān)的生動(dòng)的具體情況,【即】與現(xiàn)象數(shù)量有關(guān)的社會(huì)條件及其相互聯(lián)系,以便進(jìn)行深入的統(tǒng)計(jì)分析。
23.5數(shù)據(jù)科學(xué)與大數(shù)據(jù)
23.5.1數(shù)據(jù)科學(xué)
1提出者
數(shù)據(jù)科學(xué)這個(gè)詞最早由丹麥的計(jì)算機(jī)科學(xué)領(lǐng)域先驅(qū)彼得?諾爾提出。
2含義
是一門(mén)通過(guò)系統(tǒng)性研究獲取與數(shù)據(jù)相關(guān)的知識(shí)體系的學(xué)科。
3研究對(duì)象
【數(shù)據(jù)】即從“數(shù)據(jù)”整合成“信息”進(jìn)而組織成“知識(shí)“的整個(gè)過(guò)程,包含對(duì)數(shù)據(jù)進(jìn)行采集、儲(chǔ)存、處理、分析、表現(xiàn)等一系列活動(dòng)。
一方面研究數(shù)據(jù)本身的特性和變化規(guī)律,另一方面通過(guò)對(duì)數(shù)據(jù)的研究為自然科學(xué)和社會(huì)科學(xué)提供一種新的方法,從而揭示自然界和人類(lèi)行為的現(xiàn)象和規(guī)律。
4研究目標(biāo)
獲得洞察力和理解力,通過(guò)對(duì)數(shù)據(jù)的分析、來(lái)解釋、預(yù)測(cè)、洞見(jiàn)和決策,為現(xiàn)實(shí)世界服務(wù)
5涉及領(lǐng)域
統(tǒng)計(jì)學(xué)、機(jī)器科學(xué)、計(jì)算機(jī)科學(xué)、可視化、人工智能、領(lǐng)域知識(shí)等
23.5.2大數(shù)據(jù)
一、大數(shù)據(jù)的含義
大數(shù)據(jù)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
二、大數(shù)據(jù)的特性--4V
1,數(shù)據(jù)量大Volume
大數(shù)據(jù)的起始計(jì)量單位是PB(1024TB,大約50多萬(wàn)部電影)、EB(約100萬(wàn)TB)或ZB未來(lái)甚至?xí)_(dá)到Y(jié)B或BB。
【補(bǔ)充知識(shí):數(shù)據(jù)的計(jì)量單位由小到大是B、KB、MB、GB(大概一部普通電影2GB)、TB(1024GB,大約存儲(chǔ)500部電影)、PB、EB等】
2,數(shù)據(jù)多樣性Variety
類(lèi)型繁多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置等各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。
(1)結(jié)構(gòu)化數(shù)據(jù):是指存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)實(shí)現(xiàn)表達(dá)數(shù)據(jù)
(2)非結(jié)構(gòu)化數(shù)據(jù):是指數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)。
包括所有格式的辦公文檔、文本、圖片、報(bào)表、圖像、音頻信息、視頻信息等
(3)半結(jié)構(gòu)化數(shù)據(jù):是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù),具有一定的結(jié)構(gòu)性。
【例如】員工簡(jiǎn)歷,有的簡(jiǎn)歷只有教育情況,有的簡(jiǎn)歷包括教育、婚姻、戶(hù)籍、出入境等很多信息。
3.價(jià)值密度低Value
大數(shù)據(jù)價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。例如視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一兩秒。
4,數(shù)據(jù)的產(chǎn)生和處理速度快Velocity
數(shù)據(jù)的處理要符合“1秒定律”。大數(shù)據(jù)的智能化和實(shí)時(shí)性要求越來(lái)越高,一般要在秒級(jí)時(shí)間范圍內(nèi)給出分析結(jié)果,超出這個(gè)時(shí)間數(shù)據(jù)就可能失去價(jià)值。
23.5.3數(shù)據(jù)挖掘
一、含義
從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱藏在其中但又有潛在價(jià)值的信息和知識(shí)的過(guò)程。包含以下幾層含義:
1數(shù)據(jù)源必須是真實(shí)的、大量的、有噪聲的
2發(fā)現(xiàn)的是用戶(hù)感興趣的知識(shí)
3發(fā)現(xiàn)的知識(shí)是可接受的、可理解、可運(yùn)用的
4并不要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的知識(shí),只支持特定的發(fā)現(xiàn)問(wèn)題。
二、出發(fā)點(diǎn)和核心任務(wù)
數(shù)據(jù)挖掘以解決實(shí)際問(wèn)題為出發(fā)點(diǎn);核心任務(wù)是對(duì)數(shù)據(jù)關(guān)系和特征進(jìn)行探索。
三、類(lèi)型
1指導(dǎo)學(xué)習(xí)或監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是對(duì)目標(biāo)需求的概念進(jìn)行學(xué)習(xí)和建模,通過(guò)探索數(shù)據(jù)和建立模型來(lái)實(shí)現(xiàn)從觀察變量到目標(biāo)需求的有效解釋。
2無(wú)指導(dǎo)學(xué)習(xí)或非監(jiān)督學(xué)習(xí)
無(wú)監(jiān)督學(xué)習(xí)沒(méi)有明確的標(biāo)識(shí)變量來(lái)表達(dá)目標(biāo)概念,主要任務(wù)是探索數(shù)據(jù)之間的內(nèi)在聯(lián)系和結(jié)構(gòu)
四、常用的算法
1.分類(lèi)
(1)【含義】確定目標(biāo)對(duì)象屬于哪個(gè)預(yù)定類(lèi)別,以實(shí)現(xiàn)對(duì)未來(lái)潛在的預(yù)測(cè)需求。分類(lèi)技術(shù)屬于一種監(jiān)督學(xué)習(xí),即使用已知類(lèi)別的訓(xùn)川練數(shù)據(jù)建立分類(lèi)模型的方法。
(2)【實(shí)際應(yīng)用】在郵件系統(tǒng)中區(qū)分出垃圾郵件,在貸款客戶(hù)中判斷出有風(fēng)險(xiǎn)客戶(hù)等。
(3)【常用方法】決策樹(shù)分類(lèi)法、貝葉斯分類(lèi)法、關(guān)聯(lián)分類(lèi)法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。
2聚類(lèi)分析
(1)【含義】把一組數(shù)據(jù)按照差異性和相似性分為幾個(gè)類(lèi)別,使得同類(lèi)的數(shù)據(jù)相似性盡量大,不同類(lèi)的數(shù)據(jù)相似性盡可能小,跨類(lèi)的數(shù)據(jù)關(guān)聯(lián)性盡可能低。聚類(lèi)是一種無(wú)監(jiān)督學(xué)習(xí)。其要?jiǎng)澐值念?lèi)是未知的,聚類(lèi)分析是根據(jù)觀察學(xué)習(xí)來(lái)確定數(shù)據(jù)之間的關(guān)系。
(2)【實(shí)際應(yīng)用】用于客戶(hù)細(xì)分、文本歸類(lèi)、結(jié)構(gòu)分組、行為跟蹤等問(wèn)題
(3)【方法】基于劃分的方法、基于分層的方法基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。
3關(guān)聯(lián)分析
(1)【含義】是對(duì)數(shù)據(jù)集中反復(fù)出現(xiàn)的相關(guān)關(guān)系和關(guān)聯(lián)性進(jìn)行挖掘提取,從而可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)預(yù)測(cè)其他數(shù)據(jù)項(xiàng)的出現(xiàn)。
(2)【實(shí)際應(yīng)用】啤酒尿布案例,數(shù)據(jù)挖掘發(fā)現(xiàn)大型超市中購(gòu)買(mǎi)啤酒的男士經(jīng)常同時(shí)購(gòu)買(mǎi)小孩紙尿褲,基于這一發(fā)現(xiàn),超市把啤酒和紙尿褲擺放在一起,結(jié)果兩種商品的銷(xiāo)售量明顯提升。
(3)【方法】購(gòu)物籃分析,目的是發(fā)現(xiàn)交易數(shù)據(jù)中不同商品之間的聯(lián)系規(guī)則,讓營(yíng)銷(xiāo)商制定更好的營(yíng)銷(xiāo)策略。
4.趨勢(shì)與演化分析
包括數(shù)據(jù)變化趨勢(shì)、序列模式分析、周期性分析以及相似程度分析等內(nèi)容。統(tǒng)計(jì)學(xué)的回歸分析方法經(jīng)常用于這類(lèi)問(wèn)題的分析。
5其他分析方法
特征分析、異常分析等。
23.5.4數(shù)據(jù)可視化
含義
借助圖形手段清賊有效地傳達(dá)與溝通信息。
【優(yōu)勢(shì)】在于簡(jiǎn)單,表現(xiàn)清晰。利用人對(duì)形狀、顏色、運(yùn)動(dòng)的敏感,有效傳遞信息,幫助用戶(hù)從數(shù)據(jù)中發(fā)現(xiàn)關(guān)系、規(guī)律和趨勢(shì)。
科學(xué)可視化:面向科學(xué)與工程領(lǐng)域的數(shù)據(jù)?!救纭堪臻g坐標(biāo)和幾何信息的三維空間測(cè)量數(shù)據(jù)、計(jì)算機(jī)模擬數(shù)據(jù)和醫(yī)學(xué)影像數(shù)據(jù)。重點(diǎn)探索以幾何、拓?fù)浜托螤钐卣鱽?lái)呈現(xiàn)數(shù)據(jù)中蘊(yùn)含的規(guī)律。
信息可視化:處理對(duì)象是非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù),【如】金融交易社交網(wǎng)絡(luò)和文本數(shù)據(jù)。大數(shù)據(jù)時(shí)代,信息可視化面臨的挑戰(zhàn)是要在海量、動(dòng)態(tài)變化的信息空間中輔助人類(lèi)理解進(jìn)而挖掘信息、發(fā)現(xiàn)知識(shí)
24. 描述統(tǒng)計(jì)。
對(duì)數(shù)據(jù)分布特征的測(cè)度
分布的集中趨勢(shì),反映數(shù)據(jù)向其中心值靠攏或聚集的程度
分布的離散程度,反映各數(shù)據(jù)之間的差異程度,也能友映中心值對(duì)數(shù)據(jù)的代表程度
分布的偏態(tài)反映數(shù)據(jù)分布的不對(duì)稱(chēng)性
對(duì)于兩個(gè)變量之間的相關(guān)分析,經(jīng)常采用的描述方法是散點(diǎn)圖和相關(guān)系數(shù)統(tǒng)計(jì)量。
24.1集中趨勢(shì)的測(cè)度
24.1.1集中趨勢(shì)的含義及測(cè)度指標(biāo)
一、集中趨勢(shì)的含義
集中趨勢(shì)是指一組數(shù)據(jù)向某一仲心值靠攏的程度,集中趨勢(shì)的測(cè)度就是尋找數(shù)據(jù)一般水平的代表值或中心值。
二、集中趨勢(shì)的測(cè)度指標(biāo)
(一)均值
均值也就是平均數(shù),就是數(shù)據(jù)組中所有數(shù)值的總和除以該組數(shù)值的個(gè)數(shù)。
1均值是集中趨勢(shì)中最主要的測(cè)度值,是一組數(shù)據(jù)的重心所在,解釋了一組數(shù)據(jù)的平均水平。
2均值主要適用于數(shù)值型數(shù)據(jù),但不適用于分類(lèi)數(shù)據(jù)和順序數(shù)據(jù)。
3均值易受極端值的影響,極端值會(huì)使得均值向極大值或極小值方向傾斜,使得均值對(duì)數(shù)據(jù)組的代表性減弱。
(二)中位數(shù)
1.含義
把一組數(shù)據(jù)按從小到大或從大到小的順序進(jìn)行排列,位置居中的數(shù)值叫做中位數(shù)。中位數(shù)將數(shù)據(jù)分為兩部分,其中一半的數(shù)據(jù)小于中位數(shù),另一半數(shù)據(jù)大于中位數(shù)。
2.計(jì)算
根據(jù)未分組數(shù)據(jù)計(jì)算中位數(shù)時(shí),要先對(duì)數(shù)據(jù)進(jìn)行排序,然后確定中位數(shù)的位置
3.適用
中位數(shù)是一個(gè)位置代表值
主要適用于:順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)
不適用于:分類(lèi)數(shù)據(jù)
中位數(shù)不受極端值的影響,抗干擾性強(qiáng),尤其適用于收入這類(lèi)偏斜分布的數(shù)值型數(shù)據(jù)。
(三)眾數(shù)
1.含義
眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)(頻數(shù))最多的變量值。
2.適用
眾數(shù)適于描述分類(lèi)數(shù)據(jù)和順序數(shù)據(jù)的集中趨勢(shì)。尤其是分布明顯呈偏態(tài)時(shí),眾數(shù)的代表性更好。而定量數(shù)據(jù)中,可能出現(xiàn)多眾數(shù)和無(wú)眾數(shù)的情況,因此眾數(shù)不適用于描述定量數(shù)據(jù)的集中位置。有些情況下可能出現(xiàn)雙眾數(shù)、多眾數(shù)或者沒(méi)有眾數(shù),難以描述數(shù)據(jù)的集中趨勢(shì)
24.2離散程度的測(cè)度
24.2.1離散程度的含義及測(cè)度指標(biāo)
一、離散程度的含義
離散程度反映的是數(shù)據(jù)之間的差異程度。
集中趨勢(shì)的測(cè)度值是對(duì)數(shù)據(jù)水平的一個(gè)概括性的度量,它對(duì)一組數(shù)據(jù)的代表程度,取決于該組數(shù)據(jù)的離散水平。數(shù)據(jù)的離散程度越大,集中趨勢(shì)的測(cè)度值對(duì)該組數(shù)據(jù)的代表性就越差,離散程度越小,其代表性就越好。
二、離散程度的測(cè)度指標(biāo)
衡量離散程度的指標(biāo)包括方差、標(biāo)準(zhǔn)差、離散系數(shù)
標(biāo)準(zhǔn)差:方差的平方根
【例如】身高的方差是100(cm2),則身高的標(biāo)準(zhǔn)差就是10cm
(1)不僅能度量數(shù)值與均值的平均距離,還與原始數(shù)值具有相同的計(jì)量單位
(2)標(biāo)準(zhǔn)差越小,說(shuō)明數(shù)據(jù)值與均值的平均距離越小,均值的代表性越好
(3)標(biāo)準(zhǔn)差的大小不僅與數(shù)據(jù)的計(jì)量單位有關(guān),也與觀測(cè)值的均值大小有關(guān)
(4)不能直接用標(biāo)準(zhǔn)差比較不同變量的離散程度
離散系數(shù):
離散系數(shù)(變異系數(shù),標(biāo)準(zhǔn)差系數(shù))
標(biāo)準(zhǔn)差與均值的比值
【例如】平均身高是170cm,標(biāo)準(zhǔn)差是10cm則離散系數(shù)=10cm/170cm
(1)離散系數(shù)主要用于才同類(lèi)別數(shù)據(jù)離散程度的比較。
(2)離散系數(shù)消除了測(cè)度單位和觀測(cè)值水平不同的影響,因而可以直接用來(lái)比較變量的離散程度。
24.3分布形態(tài)的測(cè)度
24.3.1偏態(tài)系數(shù)
偏度:數(shù)據(jù)分布的偏斜方向和程度,描述的是數(shù)據(jù)分布對(duì)稱(chēng)程度。
偏態(tài)系數(shù):測(cè)度數(shù)據(jù)分布偏度的統(tǒng)計(jì)量,取決于離差三次方的平均數(shù)與標(biāo)準(zhǔn)差三次方的比值。
標(biāo)準(zhǔn)分?jǐn)?shù)(也稱(chēng)為“Z”分?jǐn)?shù))
一、標(biāo)準(zhǔn)分?jǐn)?shù)適用及計(jì)算
在統(tǒng)計(jì)上,均值和標(biāo)準(zhǔn)差不同時(shí),不同變量的數(shù)值是不能比較的,來(lái)自不同分布的變量值不可比,但是每個(gè)數(shù)值在變量分布中相對(duì)于均值的相對(duì)位置是可比的,因此可以通過(guò)計(jì)算標(biāo)準(zhǔn)分?jǐn)?shù)來(lái)比較不同變量的取值。標(biāo)準(zhǔn)分?jǐn)?shù)可以給出數(shù)值距離均值的相對(duì)位置,
二、標(biāo)準(zhǔn)分?jǐn)?shù)的實(shí)際應(yīng)用
在實(shí)際應(yīng)用中,當(dāng)數(shù)據(jù)服從對(duì)稱(chēng)的鐘形分布時(shí),可以運(yùn)用經(jīng)驗(yàn)法則來(lái)判斷與均值的距離在特定倍數(shù)標(biāo)準(zhǔn)差之內(nèi)的數(shù)據(jù)項(xiàng)所占比例。
24.4變量間的相關(guān)分析
24.4.1變量間的相關(guān)關(guān)系
【完全相關(guān)】一個(gè)變量的取值變化完全由另一個(gè)變量的取值變化所確定,稱(chēng)這兩個(gè)變量完全相關(guān)?!救纭?jī)r(jià)格不變的條件下,某種商品的銷(xiāo)售總額由其銷(xiāo)售量決定
【不完全相關(guān)】介于完全相關(guān)和不相關(guān)之間,一般的相關(guān)現(xiàn)象都屬于不完全相關(guān)。大部分相關(guān)現(xiàn)象均屬于不完全相關(guān)
【不相關(guān)】兩個(gè)變量的取值變化彼此互不影響【如】股票的價(jià)格與氣溫的高低
正相關(guān):一個(gè)變量的取值由小變大,另一個(gè)變量的取值也相應(yīng)的由小變大即兩個(gè)變量同方向變化(兩個(gè)變量同方向變化)
負(fù)相關(guān):一個(gè)變量的取值由小變大,另一個(gè)變量的取值由大變小,即兩個(gè)變量反方向變化(兩個(gè)變量反方向變化)
相關(guān)的形式:
【線性相關(guān)】?jī)蓚€(gè)相關(guān)變量之間的關(guān)系大致呈現(xiàn)為線性關(guān)系
【非線性相關(guān)】?jī)蓚€(gè)相關(guān)變量之間的關(guān)系近似于某種曲線方程的關(guān)系
【提示】相關(guān)關(guān)系并不等于因果關(guān)系。比如夏天雪糕和遮陽(yáng)傘的銷(xiāo)售量。
24.4.2相關(guān)系數(shù)的度量
相關(guān)關(guān)系的度量(散點(diǎn)圖和相關(guān)系數(shù))
一、散點(diǎn)圖
兩變量之間的關(guān)系可以用散點(diǎn)圖來(lái)展示
二、相關(guān)系數(shù)
相關(guān)系數(shù)是度量?jī)蓚€(gè)變量之間相關(guān)關(guān)系的統(tǒng)計(jì)量。最常用的相關(guān)系數(shù)是Pearson(皮爾遜)相關(guān)系數(shù)。
相關(guān)系數(shù)的取值范圍在[-1,1]之間。
散點(diǎn)圖和相關(guān)系數(shù)通常會(huì)結(jié)擊在起考核,給出散點(diǎn)圖需要知道相關(guān)系數(shù)的大致取值范圍。給相關(guān)系數(shù)的范圍也應(yīng)能大致判斷散點(diǎn)圖的形狀。重點(diǎn)考核正線性相關(guān)和負(fù)線性相關(guān),
25. 抽樣調(diào)查。
25.1.抽樣調(diào)查的基本概念
25.1.1.抽樣調(diào)查的基本概念
抽樣調(diào)查是使用頻率最高的一種調(diào)查方式
抽樣調(diào)查是指按照某種原則和程序,從總體中抽取一部分單位,通過(guò)對(duì)這一部分單位進(jìn)行調(diào)查得到信息,以達(dá)到對(duì)總體情況的了解,或者對(duì)總體的有關(guān)參數(shù)進(jìn)行估計(jì)
1.總體→調(diào)查對(duì)象的全體
2.樣本→樣本是總體的一部分,由從總體中按一定原則或程序抽出的部分個(gè)體所組成。樣本也是一個(gè)集合。抽樣調(diào)查中調(diào)查的具體實(shí)施是針對(duì)樣本而言的
3.總體參數(shù)→總體指標(biāo)值,它是未知的常數(shù),是根據(jù)總體中所有單位的數(shù)值計(jì)算的,是通過(guò)調(diào)查想要了解的,不受樣本的抽選結(jié)果影響。常用的總體參數(shù)包括總體總量、總體均值、總體比例、總體方差等
4.樣本統(tǒng)計(jì)量或估計(jì)量→是根據(jù)樣本中各單位的數(shù)值計(jì)算的,是對(duì)總體參數(shù)的估計(jì),也稱(chēng)估計(jì)量。它是一個(gè)隨機(jī)變量,取決于樣本設(shè)計(jì)和正好被選入樣本的單元特定組合。常用的樣本統(tǒng)計(jì)量有樣本均值、樣本比例、樣本方差
5.抽樣框→供抽樣所用的所有抽樣單元的名單,是抽樣總體的具體表現(xiàn)?!救纭科髽I(yè)名錄、電話簿、人員名冊(cè)等。樣框中的單位必須是有序的,便于編號(hào)
25.1.2.概率抽樣與非概率抽樣
1概率抽樣(隨機(jī)抽樣)
(1)按一定概率以隨機(jī)原則抽取樣本
(2)總體中每個(gè)單元被抽中的概率是已知的或者是可以計(jì)算出來(lái)的
(3)當(dāng)采用樣本對(duì)總體參數(shù)進(jìn)行估計(jì)時(shí),要考慮到每個(gè)樣本單元被抽中的概率
【提示】若每個(gè)單位被抽中的概率相等,稱(chēng)為等概率抽樣;若每個(gè)單位被抽入樣本的概率不同則稱(chēng)為不等概率抽樣。無(wú)論等概率或不等概率抽樣,抽取時(shí)都要通過(guò)一定的隨機(jī)化程序來(lái)實(shí)現(xiàn)
【抽樣方法】
簡(jiǎn)單隨機(jī)抽樣;分層抽樣;系統(tǒng)抽樣;整群抽樣;多階段抽樣
2非概率抽樣:
抽取樣本時(shí)并不是依據(jù)隨機(jī)原則,調(diào)查者根據(jù)自己的方便或注觀判斷抽取樣本
【抽樣方法】
(1)判斷抽樣:調(diào)查人員依據(jù)調(diào)查目的和對(duì)調(diào)查對(duì)象情況的了解,人為確定樣本單元。例如選平均型單元作為樣本。
(2)方便抽樣:依據(jù)方便原則,以達(dá)到最大限度降低調(diào)查成本的目的,比如攔截式調(diào)查,在街邊或居民小區(qū)攔住行人進(jìn)行調(diào)查。
(3)自愿樣本:不是經(jīng)過(guò)抽取,而是自愿接受調(diào)查的單元所組成的樣本,典型的是網(wǎng)上調(diào)查,
(4)配額抽樣:將總體中各單元按一定標(biāo)準(zhǔn)劃分為若干類(lèi)型,將樣本數(shù)額分配到各類(lèi)型中,從各類(lèi)型中抽取樣本的方法則沒(méi)有嚴(yán)格限制。一般采用方便抽樣的方法抽取樣本單元。
25.1.3.抽樣調(diào)查的一般步驟
25.1.4.抽樣誤差與非抽樣誤差
樣本估計(jì)值和總體參數(shù)值之間的差異稱(chēng)為誤差。
抽樣誤差:由抽樣的隨機(jī)性造成的用樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)時(shí)出現(xiàn)的誤差。
非抽樣誤差:除抽樣誤差外,由其他原因引起的樣本統(tǒng)計(jì)量與總體真值之間的差異。
非抽樣誤差
(1)抽樣框誤差:樣本框不完善造成的
(2)無(wú)回答誤差:調(diào)查人員沒(méi)能夠從被調(diào)查者那里得到所需要的數(shù)據(jù)。無(wú)回答誤差分為:
隨機(jī)因素造成的,如被調(diào)查者恰巧不在家;
非隨機(jī)因素造成的,如被調(diào)查者不愿告訴實(shí)情而拒絕回答。
(3)計(jì)量誤差:由于調(diào)查所獲得的數(shù)據(jù)污其真值之間不一致造成的誤差。這種誤差可能是由調(diào)查人員、問(wèn)卷設(shè)計(jì)、受訪者等原因造成的。
【例如】調(diào)查員在調(diào)查中有意無(wú)意誘導(dǎo)被調(diào)查者:
調(diào)查中的提問(wèn)錯(cuò)誤或記錄答案錯(cuò)誤;
調(diào)查人員有意作弊;
由于問(wèn)卷的原因受訪者對(duì)調(diào)查問(wèn)題的理解有偏誤;受訪者記憶不清、受訪者提供虛假數(shù)字等。
25.2幾種基本概率抽樣方法
25.2.1五種基本概率抽樣方法
一、簡(jiǎn)單隨機(jī)抽樣
1.分類(lèi)
(1)有放回簡(jiǎn)單隨機(jī)抽樣:從總體中隨機(jī)抽出一個(gè)樣本單位,記錄觀測(cè)結(jié)果后,將其放回總體中去再抽取第二個(gè),以此類(lèi)推,直到抽滿(mǎn)n個(gè)單位為主。該方法容易造成信息重疊而影響估計(jì)效率,較少采用。
(2)不放回簡(jiǎn)單隨機(jī)抽樣:從包含N個(gè)單元的總體中逐個(gè)隨機(jī)地抽取單元并不放回,每次都在所有尚未被抽入樣本的單元中等概率地抽取下一個(gè)單元直到抽取n個(gè)單元為止。該法每個(gè)單位最多只能被抽中一次,比有放回抽樣的抽樣誤差低。
2.特點(diǎn)
最基本的隨機(jī)抽樣方法,每個(gè)單位的入樣概率相同樣本估計(jì)量形式比較簡(jiǎn)單。但該抽樣方法沒(méi)有利用抽樣框中更多的輔助信息,樣本分布分散時(shí),會(huì)增加調(diào)查的時(shí)間和費(fèi)用
3.適用條件
抽樣框中沒(méi)有更多可以利用的輔助信息;調(diào)查對(duì)象分布的范圍不廣闊;個(gè)體之間的差異不是很大
4.應(yīng)用舉例
在調(diào)查某部門(mén)平均工資時(shí),從該部門(mén)10人中隨機(jī)抽取5人進(jìn)行調(diào)查,這種抽樣方法屬于簡(jiǎn)單隨機(jī)抽樣
二、分層抽樣
1.概念
先按照某種規(guī)則把總體分為不同的層,然后在不同的層內(nèi)獨(dú)立、隨機(jī)地抽取樣本。
【提示】如果每一層都是簡(jiǎn)單隨機(jī)抽樣,則稱(chēng)為分層隨機(jī)抽樣。為了組織調(diào)查的方便,各層還可以采用不同的抽樣方法。由于每層都要抽取一定的樣本單位,這樣樣本在總體中分布比較均勻,可以降低抽樣誤差
2,應(yīng)用舉例
在調(diào)查某部門(mén)(共10人)的平均工資時(shí),先將該部門(mén)員工分為經(jīng)理(4人)和普通職員(6人)兩類(lèi),再采用隨機(jī)原則分別在經(jīng)理和普通職員中抽取樣本,這種抽樣方法屬于分層抽樣
【提示】分層抽樣中,樣本量在各層中分配的方法有等比例分配和不等比例分配兩類(lèi)。
(1)等比例分配下,層的樣本單位比例與該層中的總體單位比例一致,等比例分配操作簡(jiǎn)單,易于理解
(2)不等比例分配
各層單位數(shù)相差懸殊時(shí),可在總體單位少的層適當(dāng)增大樣本量或有些層內(nèi)方差過(guò)大,為了降低抽樣誤差,在方差大的層中多抽,在方差小的層中少抽。
【提示】在條件具備時(shí),如果各層的總體方差已知,不等比例抽樣的抽樣誤差可能比等比例抽樣更小。
3,適用條件
抽樣框中有足夠的輔助信息,能夠?qū)⒖傮w單位按某種標(biāo)準(zhǔn)劃分到各層之中,實(shí)現(xiàn)在同一層內(nèi),各單位之間的差異盡可能小,不同層之間各單位的差異盡可能大。(層內(nèi)差異小,層間差異大)
三、系統(tǒng)抽樣
1.概念
將總體中的所有單元按一定順序排列,在規(guī)定范圍內(nèi)隨機(jī)抽取一個(gè)初始單元,然后按事先規(guī)定的規(guī)則抽取其他樣本單元。
最簡(jiǎn)單的系統(tǒng)抽樣是等距抽樣【即】將總體N個(gè)單位按直線排列,根據(jù)樣本量確定抽樣間隔,抽樣間隔=N/n≈k,k為最接近N/n的一個(gè)整數(shù),在1~k范圍內(nèi)隨機(jī)抽取一個(gè)整數(shù),令位于位置上的單位為起始單位,往后每隔k抽取一個(gè)單位,直至抽滿(mǎn)n)
2.應(yīng)用舉例
調(diào)查一個(gè)居委會(huì)4000戶(hù)家庭人均收入,編號(hào)1~4000,要抽取40戶(hù),在1~100號(hào)中隨機(jī)確走15號(hào),抽取的樣本為15:15+100;15+200;15+300;..15+3900,這種抽樣方法屬于系統(tǒng)抽樣中的等距抽樣
3.優(yōu)點(diǎn)
對(duì)抽樣框的要求比較簡(jiǎn)單,它只要求總體單位按一定順序排列,系統(tǒng)抽樣的估計(jì)效果與總體排列順序有關(guān)
四、整群抽樣
1.概念
將總體中所有的基本單位按照一定規(guī)則劃分為互不重疊的群,抽樣時(shí)直接抽取群,對(duì)抽中的群調(diào)查其全部的基本單位,對(duì)沒(méi)有抽中的群則不進(jìn)行調(diào)查。與簡(jiǎn)單隨機(jī)抽樣相比,整群抽樣的優(yōu)點(diǎn)是:
(1)實(shí)施調(diào)查方便,可以節(jié)省費(fèi)用和時(shí)間,調(diào)查效率較高;
(2)抽樣框編制得以簡(jiǎn)化,抽樣時(shí)只需要群的抽樣框而不要求全部基本單位的抽樣框
2.應(yīng)用舉例
(1)調(diào)查某城市在職的房地產(chǎn)從業(yè)人員工資水平,將房地產(chǎn)行業(yè)所有在職人員按照所屬企業(yè)分群,直接抽取企業(yè)單
位,入樣企業(yè)單位內(nèi)所有職工均接受調(diào)查,沒(méi)有入樣的企業(yè)單位員工都不調(diào)查;
(2)以家庭為群,采用整群抽樣估計(jì)某地區(qū)的男女比例
3.適用
如果群內(nèi)各單位之間存在較大差導(dǎo),群與群的結(jié)構(gòu)相似,整群抽樣會(huì)降低估計(jì)誤差
五、多階段抽樣
1.概念
經(jīng)過(guò)兩個(gè)或兩個(gè)以上抽樣階段才能抽到最終樣本單位,這就是多階段抽樣。
如果經(jīng)過(guò)兩個(gè)階段抽樣,抽取到接受調(diào)查的最終單位,稱(chēng)為二階段抽樣;以此類(lèi)推。
在大范圍的抽樣調(diào)查中,采用多階段抽樣是必要的
2,應(yīng)用舉例
某城市為調(diào)查居民對(duì)市政建設(shè)的滿(mǎn)意度,先從該市所有居委會(huì)中隨機(jī)抽取20個(gè)居委會(huì),再?gòu)拿總€(gè)被抽中的居委會(huì)中隨機(jī)抽取30個(gè)居民家庭進(jìn)行入戶(hù)調(diào)查,該項(xiàng)調(diào)查采用的抽樣方式是多階段抽樣,第一階段采用整群抽樣,第二階段采用了簡(jiǎn)單隨機(jī)抽樣
25.3估計(jì)量和樣本量
25.3.1估計(jì)量的性質(zhì)
不同的抽樣方法下:同一估計(jì)量也會(huì)有不同的估計(jì)效果
同一抽樣方法下:也會(huì)有不同的估計(jì)量可供選擇
估計(jì)量的選擇標(biāo)準(zhǔn),即估計(jì)量的性質(zhì)如下:
一致性/無(wú)偏性/有效性
【一致性】
隨著樣本量的增大,估計(jì)量的值如果穩(wěn)定于總體參數(shù)的真值,這個(gè)估計(jì)量就有一致性,也稱(chēng)為一致估計(jì)量
【無(wú)偏性】
對(duì)于不放回簡(jiǎn)單隨機(jī)抽樣,所有可能的樣本均值取值的平均值總等于總體均值
【有效性】
估計(jì)量的性質(zhì)考核方式有兩種:
3個(gè)性質(zhì)都是什么。記憶方法是一首歌曲名即”一無(wú)所有”,”一”是指一致性;"無(wú)”是指無(wú)偏性;"“有”是指有效性。
2每一個(gè)性質(zhì)都是什么含義。一致性對(duì)應(yīng)的關(guān)鍵詞是“穩(wěn)定”;無(wú)偏性對(duì)應(yīng)的關(guān)鍵詞是“等于”;有效性對(duì)應(yīng)的關(guān)鍵詞是“密集”
25.3.2抽樣誤差的估計(jì)
一、抽樣誤差無(wú)法避免,但可以計(jì)算
在不放回簡(jiǎn)單隨機(jī)抽樣方法中,將樣本均值作為總體均值的估計(jì)量。則估計(jì)量的方差為:
【提示】實(shí)踐中,總體方差是未知的,通常用樣本方差替代。
二、影響抽樣誤差的因素
1抽樣誤差與總體分布有關(guān),總體單位值之間差異越大,即總體方差越大,抽樣誤差越大。
2抽樣誤差與樣本量n有關(guān),其他條件相同,樣本量越大抽樣誤差越小。
3抽樣誤差與抽樣方式和估計(jì)量的選擇也有關(guān)。例如分層抽樣的估計(jì)量方差一般小于簡(jiǎn)單隨機(jī)抽樣。
4利用有效輔助信息的估計(jì)量也可以有效的減小抽樣誤差。
25.3.3樣本量的影響因素
確定樣本量需要對(duì)影響樣本量的因素進(jìn)行分析,影響樣本量的因素如下:
1.調(diào)查的精度:調(diào)查的精度是指用樣本數(shù)據(jù)對(duì)總體進(jìn)行估計(jì)時(shí)以接受的誤差水平,要求的調(diào)查精度越高,所需要的樣本量就越大
2.總體的離散程度:在其他條件相同情況下,總體方差越大,所需要的樣本量也越大
3.總體的規(guī)模:對(duì)于大規(guī)模的總體,總體規(guī)模對(duì)樣本量的需求幾乎沒(méi)有影響但對(duì)于小規(guī)模的總體,總體規(guī)模越大,為保證相同估計(jì)精度樣本量也要隨之增大
4.無(wú)回答情況:無(wú)回答減少了有效樣本量,在無(wú)回答率較高的調(diào)查項(xiàng)目中,樣本量要大一些,以減少無(wú)回答帶來(lái)的影響
5.經(jīng)費(fèi)的制約:樣本量是調(diào)查經(jīng)費(fèi)與調(diào)查精度之間的某種折中和平衡
6.其他因素:調(diào)查的限定時(shí)間、實(shí)施調(diào)查的人力資源等
26. 回歸分析。
26.1回歸模型
26.1.1回歸分析的概念
回歸分析就是根據(jù)相關(guān)關(guān)系的具體形態(tài),選擇一個(gè)合適的數(shù)學(xué)模型來(lái)近似的表達(dá)變量間的依賴(lài)關(guān)系。
進(jìn)行回歸分析時(shí),首先需要確定因變量和自變量。
回歸分析中,被預(yù)測(cè)或被解釋的變量稱(chēng)為因變量,用Y表示;用來(lái)預(yù)測(cè)或解釋因變量的變量稱(chēng)為自變量,一般用X表示。【例如】在研究邊際消費(fèi)傾向時(shí),目的是預(yù)測(cè)一定人均收入條件下的平均人均消費(fèi)金額,因此人均消費(fèi)金額是因變量,而人均收入為自變量。
26.1.2回歸分析與相關(guān)分析的關(guān)系
1聯(lián)系
(1)它們具有共同的研究對(duì)像。
(2)在具體應(yīng)用時(shí),常常必須互相補(bǔ)充。
相關(guān)分析需要依靠回歸分析來(lái)表明現(xiàn)象數(shù)量相關(guān)的具體形式;而回歸分析則需要依靠相關(guān)分析來(lái)表明現(xiàn)象數(shù)量變化的相關(guān)程度。只有高度相關(guān)時(shí),進(jìn)行回歸分析尋求其相關(guān)的具體形式才有意義。
2區(qū)別
相關(guān)分析與回歸分析在研究自的動(dòng)仿法上具有明顯的區(qū)別:
(1)相關(guān)分析研究變量之間相關(guān)的貞響和相送的程度。
(2)回歸分析是研究變量之間相送關(guān)系的俱體形式,它對(duì)具有相關(guān)關(guān)系的變量之間的數(shù)量聯(lián)系進(jìn)行測(cè)定,確定相關(guān)的數(shù)學(xué)方程或,根據(jù)這個(gè)數(shù)學(xué)方程式可以叢已知量來(lái)推測(cè)未知量,從而為估算和預(yù)測(cè)提供了一個(gè)重要方法
26.1.2回歸模型
一、回歸模型分類(lèi)
描述因變量如何依賴(lài)自變量和誤差項(xiàng)的方程稱(chēng)為回歸模型回歸模型的類(lèi)別如下:
1.根據(jù)自變量的多少,回歸模型可以分為一元回歸模型和多元回歸模型
2.根據(jù)回歸模型是否線性,回歸模型分為線性回歸模型和非線性回歸模型。
二、一元線性回歸模型
一元線性回歸模型是研究?jī)蓚€(gè)變量之間相關(guān)關(guān)系的最簡(jiǎn)單的回歸模型,只涉及一個(gè)自變量。
回歸分析的一個(gè)重要應(yīng)用就是預(yù)測(cè),即利用估計(jì)的回歸模型預(yù)估因變量數(shù)值。
26.2最小二乘法
在現(xiàn)實(shí)中,模型的參數(shù)β0和β1都是未知的,需要利用樣本數(shù)據(jù)去估計(jì),采用的估計(jì)方法是最小二乘法。
26.3模型的檢驗(yàn)及預(yù)測(cè)
26.3.1回歸模型的擬合效果分析
一、回歸模型檢驗(yàn)的內(nèi)容
一般情況下,使用估計(jì)的回歸方程之前,需要對(duì)摸型進(jìn)行檢驗(yàn)。
其內(nèi)容包括:
(1)結(jié)合經(jīng)濟(jì)理論和經(jīng)驗(yàn)分析回歸系數(shù)的經(jīng)濟(jì)含義是否合理
(2)對(duì)模型進(jìn)行假設(shè)檢驗(yàn)
(3)分析估計(jì)的模型對(duì)數(shù)據(jù)的擬合效果如何
二、決定系數(shù)
一元線性回歸模型擬合效果的一種測(cè)度方法是決定系數(shù)。
1.決定系數(shù),也稱(chēng)為R2,可以測(cè)度回歸直線對(duì)樣本數(shù)據(jù)的擬合程度。
2,決定系數(shù)的取值:在0到1之間,大體說(shuō)明了回歸模型所能解釋的因變量變化占因變量總變化的比例。
決定系數(shù)越接近1,回歸直線的擬合效果越好。
R2=1,說(shuō)明回歸直線可以解釋因變量的所有變化。
R2=0,說(shuō)明回歸直線無(wú)法解釋因變量的變化,因變量的變化與自變量無(wú)關(guān)。
三、回歸系數(shù)的顯著性檢驗(yàn)
在大樣本假定的條件下,回歸系數(shù)的最小二乘估計(jì)量β0,β1漸進(jìn)服從正態(tài)分布,可以用t檢驗(yàn)法驗(yàn)證自變量X對(duì)因變量Y是否有顯著影響。
t檢驗(yàn)的原理是反證法。
四、模型預(yù)測(cè)
回歸分析的一個(gè)重要應(yīng)用就是預(yù)測(cè),【即】利用估計(jì)的回歸模型預(yù)估因變量數(shù)值。
五、多元回歸模型
多元回歸模型在實(shí)際應(yīng)用中,隨著自變量個(gè)數(shù)的增加,即使在有些自變量與因變量完全不相關(guān)的情況下,決定系數(shù)R2也會(huì)增大。為避免因增加自變量個(gè)數(shù)而高估擬合效果的情況,多元回歸模型一般使用修正了自由度的調(diào)整后R2。調(diào)整后R2考慮了自變量個(gè)數(shù)增加帶來(lái)的影響,在數(shù)值上小于R2。
27. 時(shí)間序列分析。
27.1時(shí)間序列的含義、分類(lèi)
1.時(shí)間序列的含義及分類(lèi)
一、時(shí)間序列的含義
1時(shí)間序列的含義
時(shí)間序列也稱(chēng)動(dòng)態(tài)數(shù)列,是將某一統(tǒng)計(jì)指標(biāo)在各個(gè)不同時(shí)間上的數(shù)值按時(shí)間先后順序編制形成的序列,
2時(shí)間序列的構(gòu)成要素
(1)被研究現(xiàn)象所屬時(shí)間
(2)反映該現(xiàn)象一定時(shí)間條件下數(shù)量特征的指標(biāo)值
同一時(shí)間序列中,各指標(biāo)值的時(shí)間單位一般要求相等,可以是年、季、月、日。
二、時(shí)間序列的分類(lèi)
按統(tǒng)計(jì)指標(biāo)值的表現(xiàn)形式
絕對(duì)數(shù)時(shí)間序列:統(tǒng)計(jì)指標(biāo)值是總量
時(shí)期序列:反映現(xiàn)象在一定付期內(nèi)發(fā)展的結(jié)果,是過(guò)程總量?!救纭繃?guó)內(nèi)生產(chǎn)總值時(shí)間序列
時(shí)點(diǎn)序列:反映現(xiàn)象在一定時(shí)點(diǎn)上的瞬間水平。【如】年末總?cè)丝跁r(shí)間序列
相對(duì)數(shù)時(shí)間序列:統(tǒng)計(jì)指標(biāo)值是相對(duì)數(shù)【如】城鎮(zhèn)人口比重時(shí)間序列
平均數(shù)時(shí)間序列:統(tǒng)計(jì)指標(biāo)值是平均數(shù)【如】人均國(guó)內(nèi)生產(chǎn)總值序列
27.2平均發(fā)展水平
1.平均發(fā)展水平的計(jì)算
一、發(fā)展水平的有關(guān)概念
1.發(fā)展水平
發(fā)展水平是時(shí)間序列中對(duì)應(yīng)于具體時(shí)間的指標(biāo)數(shù)值
2.最初水平、最末水平、中間水平
時(shí)間序列中第一項(xiàng)的指標(biāo)值稱(chēng)為最初水平,最末項(xiàng)的指標(biāo)值稱(chēng)為最末水平,處于二者之間的各期指標(biāo)值則稱(chēng)為中間水平
3.基期水平和報(bào)告期水平
基期水平:是作為對(duì)比的基礎(chǔ)時(shí)期的水平;
報(bào)告期水平:是所要反映與研究的那一時(shí)期的水平。
4.平均發(fā)展水平
也稱(chēng)序時(shí)平均數(shù)或動(dòng)態(tài)平均數(shù),是對(duì)時(shí)間序列中各時(shí)期發(fā)展水平計(jì)算的平均數(shù),它可以概括性描述現(xiàn)象在一段時(shí)期內(nèi)所達(dá)到的一般水平。
二、平均發(fā)展水平的計(jì)算
(一)絕對(duì)數(shù)時(shí)間序列序時(shí)平均數(shù)的計(jì)算
1.由時(shí)期序列計(jì)算序時(shí)平均數(shù):就是簡(jiǎn)單算術(shù)平均數(shù)。
2,由時(shí)點(diǎn)序列計(jì)算序時(shí)平均數(shù):
(1)連續(xù)時(shí)點(diǎn)序列
①資料逐日排列且每天登記。即已掌握了整段考察時(shí)期內(nèi)連續(xù)性的時(shí)點(diǎn)數(shù)據(jù),可采用簡(jiǎn)單算術(shù)平均數(shù)的方法計(jì)算。
②指標(biāo)值變動(dòng)才登記:采用加權(quán)算術(shù)平均數(shù)的方法計(jì)算序時(shí)平均數(shù),權(quán)重是每一指標(biāo)值的持續(xù)天數(shù)占總天數(shù)的比例
(2)間斷時(shí)點(diǎn)序列
①間隔時(shí)間相等的間斷時(shí)點(diǎn)序列
計(jì)算思想是“兩次平均”:先求各個(gè)時(shí)間間隔內(nèi)的平均數(shù),再對(duì)這些平均數(shù)進(jìn)行簡(jiǎn)單算術(shù)平均。
②間隔時(shí)間不相等的問(wèn)斷時(shí)點(diǎn)序列。
計(jì)算思路“兩次平均”第一次的平均計(jì)算與間隔相等的間斷序列相同;進(jìn)行第二次平均時(shí),由于各間隔不相等所以應(yīng)當(dāng)用間隔長(zhǎng)度作為權(quán)數(shù),計(jì)算加權(quán)算術(shù)平均數(shù)。
(二)相對(duì)數(shù)或平均數(shù)時(shí)間序列序時(shí)平均數(shù)的計(jì)算
相對(duì)數(shù)或平均數(shù)時(shí)間序列是派生數(shù)列,相對(duì)數(shù)或平均數(shù)通常是由兩個(gè)絕對(duì)數(shù)對(duì)比形成的
【計(jì)算思路】分別求出分子指標(biāo)和分母指標(biāo)時(shí)間序列的序時(shí)平均數(shù),然后再進(jìn)行對(duì)比,用公式表示如下
27.2.2.增長(zhǎng)量與平均增長(zhǎng)量
增長(zhǎng)量:
報(bào)告期水平-基期水平
反映報(bào)告期比基期增加(或減少)的絕對(duì)數(shù)量
根據(jù)基期的不同確定方法
1)逐期增長(zhǎng)量:報(bào)貨期水平-報(bào)告期前一期水平
2)累計(jì)增長(zhǎng)量:報(bào)告期水平-最初水平
同一時(shí)間序列中,累增長(zhǎng)量等于相應(yīng)時(shí)期逐期增長(zhǎng)量之和
平均增長(zhǎng)量:時(shí)間序列中逐期增長(zhǎng)量的序時(shí)平均數(shù)
27.3時(shí)間序列速度分析
1.發(fā)展速度與增長(zhǎng)速度
發(fā)展速度:以相對(duì)數(shù)形式表示的兩個(gè)不同時(shí)期發(fā)展水平的比值--報(bào)告期水平基期水平
根據(jù)基期的選擇不同
1)環(huán)比發(fā)展速度:報(bào)告期水平除以報(bào)告期前一期水平
2)定基發(fā)展速度:報(bào)告期水平除以最初水平
定基發(fā)展速度與環(huán)比發(fā)展速度的關(guān)系
二、增長(zhǎng)速度
報(bào)告期增長(zhǎng)量與基期水平的比值表明報(bào)告期比基期增長(zhǎng)(或降低)了百分之幾或若干倍
2.平均發(fā)展速度與平均增長(zhǎng)速度
平均發(fā)展速度:是一定時(shí)期內(nèi)各期環(huán)比發(fā)展速度的序時(shí)平均數(shù),目前計(jì)算平均發(fā)展速度通常采用幾何平均法
平均增長(zhǎng)速度:一定時(shí)期內(nèi)逐期增長(zhǎng)(降低)變化的般程度,平均增長(zhǎng)速度=平均發(fā)展速度-1
3.速度分析應(yīng)注意的問(wèn)題
速度的分析與應(yīng)用
一、當(dāng)時(shí)間序列中的指標(biāo)值出現(xiàn)0或負(fù)數(shù)時(shí),不宜計(jì)算速度
二、速度指標(biāo)的數(shù)值與基數(shù)的大小有密切關(guān)系。
三、在環(huán)比增長(zhǎng)速度時(shí)間序列中,各期的基數(shù)不同,因此運(yùn)用這一指標(biāo)反映現(xiàn)象增長(zhǎng)的快慢時(shí),往往要結(jié)合“增長(zhǎng)1%的絕對(duì)值”分析,這一指標(biāo)反映同樣的增長(zhǎng)速度,在不同時(shí)間條件下所包含的絕對(duì)水平。
27.4平滑預(yù)測(cè)法
1.平滑預(yù)測(cè)法的含義及方法
平滑法的目的是“消除”時(shí)間序列的不規(guī)則成分所引起的隨機(jī)波動(dòng);平滑法適用于平穩(wěn)時(shí)間序列的預(yù)測(cè),即沒(méi)有明顯的趨勢(shì)、循環(huán)和季節(jié)波動(dòng)的時(shí)間序列:平滑預(yù)測(cè)法包括移動(dòng)平均法和指數(shù)平滑法等。
移動(dòng)平均法:使用時(shí)間序列中離預(yù)測(cè)期最近K期數(shù)據(jù)值的平均數(shù)作為下一期的預(yù)測(cè)值
指數(shù)平滑法的特點(diǎn)是,觀測(cè)值離預(yù)測(cè)時(shí)期越久遠(yuǎn),其權(quán)重也變得越小,呈現(xiàn)出指數(shù)下降
聯(lián)系客服