版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第九章 列聯(lián)分析,第九章 列聯(lián)分析,第一節(jié) 列聯(lián)表 第二節(jié) ?? 分布與 ?? 檢驗第三節(jié) 列聯(lián)表中的相關(guān)測量,學習目標,1.解釋列聯(lián)表進行 c2 檢驗一致性檢驗獨立性檢驗3.測度列聯(lián)表中的相關(guān)性,數(shù)據(jù)的類型與列聯(lián)分析,品質(zhì)數(shù)據(jù),品質(zhì)隨機變量的結(jié)果表現(xiàn)為類別例如:性別 (男, 女)各類別用符號或數(shù)字代碼來測度使用定類或定序尺度你吸煙嗎? 1.是;2.否你贊成還是反對這一改革方案?1.贊成
2、;2.反對對品質(zhì)數(shù)據(jù)的描述和分析通常使用列聯(lián)表可使用???檢驗,,第一節(jié) 列聯(lián)表,一. 列聯(lián)表的構(gòu)造二. 列聯(lián)表的分布,列聯(lián)表的構(gòu)造,列聯(lián)表(概念要點),由兩個以上的變量進行交叉分類的頻數(shù)分布表行變量的類別用 r 表示, ri 表示第 i 個類別列變量的類別用 c 表示, cj 表示第 j 個類別每種組合的觀察頻數(shù)用 fij 表示表中列出了行變量和列變量的所有可能的組合,所以稱為列聯(lián)表一個 r 行 c 列的列聯(lián)
3、表稱為 r ? c 列聯(lián)表,列聯(lián)表的結(jié)構(gòu)(2 ? ? 列聯(lián)表),,列(cj),行 (ri),一個2 ? ? 列聯(lián)表,列聯(lián)表的結(jié)構(gòu)(r ? c 列聯(lián)表的一般表示),,列(cj),行(ri),r 行 c 列的列聯(lián)表,fij 表示第 i 行第 j 列的觀察頻數(shù),列聯(lián)表(一個實際例子),【例】一個集團公司在四個不同的地區(qū)設有分公司,現(xiàn)該集團公司欲進行一項改革,此項改革可能涉及到各分公司的利益,故采用抽樣調(diào)查方式,從四個分公司共抽取42
4、0個樣本單位(人),了解職工對此項改革的看法,調(diào)查結(jié)果如下表,列聯(lián)表的分布,觀察值的分布(概念要點),邊緣分布行邊緣分布行觀察值的合計數(shù)的分布例如,贊成改革方案的共有279人,反對改革方案的141人列邊緣分布列觀察值的合計數(shù)的分布例如,四個分公司接受調(diào)查的人數(shù)分別為100人,120人,90人,110人條件分布與條件頻數(shù)變量 X 條件下變量 Y 的分布,或在變量 Y 條件下變量 X 的分布每個具體的觀察值稱為條件頻
5、數(shù),觀察值的分布(圖示),行邊緣分布,列邊緣分布,條件頻數(shù),百分比分布(概念要點),條件頻數(shù)反映了數(shù)據(jù)的分布,但不適合進行對比為在相同的基數(shù)上進行比較,可以計算相應的百分比,稱為百分比分布行百分比:行的每一個觀察頻數(shù)除以相應的行合計數(shù)(fij / ri)列百分比:列的每一個觀察頻數(shù)除以相應的列合計數(shù)( fij / cj )總百分比:每一個觀察值除以觀察值的總個數(shù)( fij / n ),百分比分布(圖示),總百分比,列百分比
6、,行百分比,行百分比分布(圖示),列百分比分布(圖示),總百分比,期望頻數(shù)的分布(概念要點 一致檢驗),在全部420個樣本中,贊成改革方案的有279 個,占到總數(shù)的 r_1/n=279/420=66.4%, 即從總體上看,約有2/3的調(diào)查對象對這項改革方案表示贊同。在全部420個樣本中,反對改革方案的有141個,占到總數(shù)的 r_2/n=141/420=
7、33.6%,,期望頻數(shù)的分布(概念要點 一致檢驗),如果我們希望進一步了解各分公司對這項改革方案的是否存在差異,。。。我們可以先假設各分公司對這項改革方案的看法相同,也就是說,各分公司贊成該項改革方案的人數(shù)的比例相同,i.e. P1 = P2 = P2 = P4 這個比例可用 279/420=66.4%(= P1 = P2 = P2 = P4 ) 來估計。,期望頻數(shù)的分布(概念要點 一致檢
8、驗),因此, (如果看法一致)第一分公司贊成這項改革方案的期望人數(shù)為第一份公司被調(diào)查的總?cè)藬?shù)*贊成的比例=100* P1=100*66.4%=66=C_1* (R_1/n )=C_1*R_1/n,期望頻數(shù)的分布(概念要點 一致檢驗),因此, (如果看法一致)第一分公司反對這項改革方案的期望人數(shù)為第一份公司被調(diào)查的總?cè)藬?shù)*反對的比例=100* (1-P1 )=100*33.6%=34=C_1* (R_2/n )=
9、C_1*R_2/n,期望頻數(shù)的分布(概念要點 一致檢驗),因此, (如果看法一致)第二分公司贊成這項改革方案的期望人數(shù)為第二分公司被調(diào)查的總?cè)藬?shù)*贊成的比例=120* P1=120*66.4%=34=C_2* (R_1/n )=C_2*R_1/n,期望頻數(shù)的分布(概念要點 一致檢驗),第i行j列的期望頻數(shù),期望頻數(shù)的分布(算例),?根據(jù)上述公式計算的前例的期望頻數(shù),第二節(jié) ?? 分布與 ?? 檢驗,一.
10、 ?? 統(tǒng)計量 ?? 檢驗,?? 統(tǒng)計量,?? 統(tǒng)計量(要點),用于檢驗列聯(lián)表中變量之間是否存在顯著性差異,或者用于檢驗變量之間是否獨立計算公式為,?? 統(tǒng)計量(算例),,合計:3.0319,?? 檢驗,品質(zhì)數(shù)據(jù)的假設檢驗,一致性檢驗(要點),檢驗列聯(lián)表中目標變量之間是否存在顯著性差異檢驗的步驟為提出假設H0:P1 = P2 = … = Pj (目標變量的各個比例一致)H1:P1 , P2 , … ,
11、Pj 不全相等 (各個比例不一致)計算檢驗的統(tǒng)計量,進行決策根據(jù)顯著性水平?和自由度(r-1)(c-1)查出臨界值??2若?2???2,拒絕H0;若?2<??2,接受H0,自由度計算說明表,一致性檢驗(實例),提出假設H0:P1 = P2 = P2 = P4 (贊成比例一致)H1:P1 , P2 , P3 , P4不全相等 (贊成比例不一致)計算檢驗的統(tǒng)計量,【例】續(xù)前例,檢
12、驗職工的態(tài)度是否與所在單位有關(guān)?(? ?0.1),根據(jù)顯著性水平?=0.1和自由度(2-1)(4-1)=3查出相應的臨界值??2=6.251。由于?2=3.0319<??2=6.251,接受H0,獨立性檢驗(要點),檢驗列聯(lián)表中的行變量與列變量之間是否獨立檢驗的步驟為提出假設H0:行變量與列變量獨立H1:行變量與列變量不獨立計算檢驗的統(tǒng)計量,進行決策根據(jù)顯著性水平?和自由度(r-1)(c-1)查出臨界值??2若?2
13、???2,拒絕H0;若?2<??2,接受H0,獨立性檢驗(實例),【例】一種原料來自三個不同的地區(qū),原料質(zhì)量被分成三個不同等級。從這批原料中隨機抽取500件進行檢驗,結(jié)果如下表。檢驗各地區(qū)與原料之間是否存在依賴關(guān)系(? ?0.05),獨立性檢驗(實例),提出假設H0:地區(qū)與原料等級之間獨立H1:地區(qū)與原料等級之間不獨立計算檢驗的統(tǒng)計量,根據(jù)顯著性水平?=0.05和自由度(3-1)(3-1)=4查出相應的臨界值??2=9.
14、488。由于?2=19.82>??2=9.448,拒絕H0,期望頻數(shù)的分布(概念要點),假定行變量和列變量是獨立的一個實際頻數(shù) fij 的期望頻數(shù) eij ,是總頻數(shù)的個數(shù) n 乘以該實際頻數(shù) fij 落入第 i 行 和第j列的概率,即,期望頻數(shù)的分布(算例),例如,第1行和第1列的實際頻數(shù)為 f11 ,它落在第1行的概率估計值為該行的頻數(shù)之和r1除以總頻數(shù)的個數(shù) n ,即:r1/n;它落在第1列的概率的估計值為該列的頻數(shù)之
15、和c1除以總頻數(shù)的個數(shù) n ,即:c1/n 。根據(jù)概率的乘法公式,該頻數(shù)落在第1行和第1列的概率應為,由于觀察頻數(shù)的總數(shù)為n ,所以f11 的期望頻數(shù) e11 應為,,第三節(jié) 列聯(lián)表中的相關(guān)測量,一. ? 相關(guān)系數(shù) 列聯(lián)相關(guān)系數(shù) V 相關(guān)系數(shù),列聯(lián)表中的相關(guān)測量(一般問題),品質(zhì)相關(guān)對品質(zhì)數(shù)據(jù)(定類和定序數(shù)據(jù))之間相關(guān)程度的測度列聯(lián)表變量的相關(guān)屬于品質(zhì)相關(guān)列聯(lián)表相關(guān)測量的指標主要有? 相關(guān)系數(shù)列聯(lián)相關(guān)系數(shù)V
16、 相關(guān)系數(shù),? 相關(guān)系數(shù)(要點),測度 2?2列聯(lián)表中數(shù)據(jù)相關(guān)程度的一個量對于2?2 列聯(lián)表,? 系數(shù)的值在0~1之間 ? 相關(guān)系數(shù)計算公式為,? 相關(guān)系數(shù)(原理分析),一個簡化的 2?2 列聯(lián)表,? 相關(guān)系數(shù)(原理分析),列聯(lián)表中每個單元格的期望頻數(shù)分別為,將各期望頻數(shù)代入 ?? 的計算公式得,? 相關(guān)系數(shù)(原理分析),將??入? 相關(guān)系數(shù)的計算公式得,ad 等于 bc , ? = 0,表明變量X 與 Y 之間獨立
17、若 b=0 ,c=0,或a=0 ,d=0,意味著各觀察頻數(shù)全部落在對角線上,此時|?| =1,表明變量X 與 Y 之間完全相關(guān),列聯(lián)表中變量的位置可以互換,?的符號沒有實際意義,故取絕對值即可,列完全相關(guān)的兩種情形,列完全相關(guān)的兩種情形,列聯(lián)相關(guān)系數(shù)(要點),用于測度大于2?2列聯(lián)表中數(shù)據(jù)的相關(guān)程度計算公式為,C 的取值范圍是 0?C<1C = 0表明列聯(lián)表中的兩個變量獨立C 的數(shù)值大小取決于列聯(lián)表的行數(shù)和列數(shù),并隨行數(shù)
18、和列數(shù)的增大而增大根據(jù)不同行和列的列聯(lián)表計算的列聯(lián)系數(shù)不便于比較,V 相關(guān)系數(shù)(要點),計算公式為,V 的取值范圍是 0?V?1 V = 0表明列聯(lián)表中的兩個變量獨立 V=1表明列聯(lián)表中的兩個變量完全相關(guān)不同行和列的列聯(lián)表計算的列聯(lián)系數(shù)不便于比較當列聯(lián)表中有一維為2,min[(r-1),(c-1)]=1,此時V=?,?、C、V 的比較,同一個列聯(lián)表,?、C、V 的結(jié)果會不同不同的列聯(lián)表,?、C、V 的結(jié)果也不同在對不同列
19、聯(lián)表變量之間的相關(guān)程度進行比較時,不同列聯(lián)表中的行與行、列與列的個數(shù)要相同,并且采用同一種系數(shù),列聯(lián)表中的相關(guān)測量(一個實例),【例】一種原料來自三個不同地區(qū),原料質(zhì)量被分成三個不同等級。從這批原料中隨機抽取500件進行檢驗,結(jié)果如下表。分別計算?系數(shù)、C系數(shù)和V系數(shù),并分析相關(guān)程度,列聯(lián)表中的相關(guān)測量(一個實例),解:已知n=500,根據(jù)前面的計算??=19.82,列聯(lián)表為3?3,結(jié)論:三個系數(shù)均不高,表明產(chǎn)地和原料等級之
20、 間的相關(guān)程度不高,,第四節(jié) 列聯(lián)分析中應注意的問題,一. 條件百分表的方向 c2 分布的期望值準則,條件百分表的方向,一般,列聯(lián)表中變量的位置是任意的。即變量X既可放在列的位置,也可放在行的位置。如果變量X與變量Y存在因果關(guān)系,令X為自變量(原因),Y為因變量(結(jié)果),那么一般的做法是把自變量X放在列的位置,條件百分表也多按自變量的方向計算,因為這樣便于更好地表現(xiàn)原因?qū)Y(jié)果的影響。如下例:,職業(yè)背景
21、與工作價值觀取向,例外情形,如果因變量在樣本內(nèi)的分布不能代表其在總體內(nèi)的分布,例如,為了分析的需要,抽樣時擴大了因變量的某項內(nèi)容的樣本容量, 這時如果仍以自變量的方向計算百分比就會歪曲實際情況。,實例,社會學家欲研究家庭狀況(自變量)對青少年犯罪(因變量)的影響。該地區(qū)有未犯罪的紀錄的青少年10 000名,有犯罪記錄的青少年150名。如果從未犯罪青少年中抽取1%,即100名進行研究,則用相同比例從犯罪青少年中抽取的樣本量僅為1.5人
22、。顯然這樣少的數(shù)量無法滿足對比研究的需要。因此,對犯罪青少年的抽樣必要擴大,譬如擴大到1/2,即抽取75人。數(shù)據(jù)如下:,家庭狀況與青少年犯罪,家庭狀況與青少年犯罪(條件百分表),歪曲的比例:完整家庭中,犯罪青少年占的比例 是29%,原因時抽樣事擴大了對犯罪青少年抽取的數(shù)量,家庭狀況與青少年犯罪(按因變量方向計算條件百分表),從上表可見:完整家庭中,未犯罪青少年占的比例是92%,而在離異家庭中這個比例進為8%,c2 分布的期
23、望值準則,用c2 分布進行獨立性檢驗,要求樣本容量必須足夠大,特別使每個單元中的期望頻數(shù)(理論頻數(shù))不能過小,否則應用c2 檢驗可能會得出錯誤的結(jié)論。關(guān)于小單元次數(shù)通常有兩個準則:,如果只有兩個單元,每個單元的期望頻數(shù)必須是5或5以上。如果有兩個以上的單元,如果20%的單元期望頻數(shù)f_e小于5,則不能應用c2 檢驗。,c2 檢驗 只有兩個單元的情形,每個單元的期望頻數(shù)必須是5或5以上可以使用c2 檢驗,c2 檢驗 兩個以上
24、的單元情形,如果20%的單元期望頻數(shù)f_e小于5,則不能應用c2 檢驗,可以應用c2 檢驗,,6個單元中只有1個單元的期望頻數(shù)<51/6<20%,不可以應用c2 檢驗,,7個單元中有3個單元的期望頻數(shù)20%如果應用c2 檢驗 : c2 =14.01> 12.592=c2 _0.05(6) ,拒絕原假設。但實際上,期望值與觀察值擬合得很好,上例的修改,將這個例子中的某些類合并,使得f_e>=5,麻煩就會。將E
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論