統(tǒng)計數(shù)據(jù)的描述_第1頁
已閱讀1頁,還剩146頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、統(tǒng)計學,第2章 統(tǒng)計數(shù)據(jù)的描述,第1章 回顧,知識點統(tǒng)計學內(nèi)涵統(tǒng)計學概念及含義要求掌握統(tǒng)計學的涵義了解統(tǒng)計學產(chǎn)生與發(fā)展掌握統(tǒng)計學幾個概念,是一門收集、整理、顯示和分析統(tǒng)計數(shù)據(jù)的科學,其目的是探索數(shù)據(jù)內(nèi)在的規(guī)律性。,總體變量樣本參數(shù)統(tǒng)計量,第2章 統(tǒng)計數(shù)據(jù)的描述,2.1數(shù)據(jù)的計量尺度2.2統(tǒng)計數(shù)據(jù)的來源2.3統(tǒng)計數(shù)據(jù)的質量2.4統(tǒng)計數(shù)據(jù)的整理2.5分布集中趨勢的測度2.6分布離散程度的測度2.7分布

2、偏態(tài)與峰度的測度2.8莖葉圖與箱線圖2.9統(tǒng)計表與統(tǒng)計圖,,2.1 數(shù)據(jù)的計量尺度,一、列名尺度二、順序尺度三、間隔尺度四、比率尺度,2.1 數(shù)據(jù)的計量尺度,分類方法(4種計量尺度):列名尺度、順序尺度、間隔尺度和比例(率)尺度。,列名尺度,,順序尺度,間隔尺度,比例尺度,,精確程度,良好,,,,1980,134公斤,休斯頓火箭,俱樂部:,健康狀況:,出生年份:,體重:,1、列名尺度(Nominal Scale

3、),例如:性別、民族、職業(yè)數(shù)據(jù)表現(xiàn)為“類別” 各類之間無等級次序 各類別可以用數(shù)字代碼表示根據(jù)列名尺度得到的數(shù)據(jù)為分類數(shù)據(jù)。,2、順序尺度(Ordinal Scale),例如健康狀況、質量等級數(shù)據(jù)表現(xiàn)為“類別”可對等級、大小等排序未測量出類別之間的準確差值根據(jù)順序尺度得到的數(shù)據(jù)為順序數(shù)據(jù)。,3、間隔尺度 Interval Scale,例如年份、攝氏溫度數(shù)據(jù)表現(xiàn)為“數(shù)值”可以進行加減運算“0”是只是尺度上的一個點

4、,不代表“不存在”根據(jù)間隔尺度得到的數(shù)據(jù)為間隔數(shù)據(jù)。,4、比例尺度 Ratio Scale,例如體重、身高數(shù)據(jù)表現(xiàn)為“數(shù)值”可以進行加減、乘除運算“0”表示“沒有”或“不存在”根據(jù)比例尺度得到的數(shù)據(jù)為比例數(shù)據(jù)。,間隔尺度與比例尺度的區(qū)別,間隔尺度中“0”表示一個具體數(shù)值,不表示“沒有”或“不存在”,比例尺度中“0”表示“沒有”或“不存在” 。間隔尺度

5、 - 273.15℃ -123.15 ℃ 0 ℃ 26.85℃比例尺度 0KM 150KM 300KM,課堂練習,下列數(shù)據(jù)中哪些采用了間隔尺度?海拔8848米 960萬平方公里 100元 北緯38度,四種計量尺度的比較,1、四種尺度所包含的信息量是依次遞增的

6、。2、根據(jù)較高層次的計量尺度可以獲得較低層次的計量尺度。,四種計量尺度的比較:數(shù)學性質,“√”表示該尺度所具有的特性,數(shù)據(jù)和變量類型,數(shù)據(jù)的類型,變量類型,變量的類型,變量是用來描述現(xiàn)象某種令人感興趣的特征的概念。品質變量是描述現(xiàn)象有關屬性特征的變量,本質上不能用數(shù)字來表示。例如性別。數(shù)量變量是描述現(xiàn)象有關數(shù)量特征的變量,都是用數(shù)字來表示的。例如人數(shù),年齡等。離散型變量指的是有限個數(shù)值或諸如0,1,2……之類無限可列值的變量。

7、 如果某一變量可以取某一區(qū)間或多個區(qū)間中任意數(shù)值,則該變量稱為連續(xù)型變量。,2.1 例子,請判斷下列數(shù)據(jù)分別屬于什么類型?燈炮使用壽命將產(chǎn)業(yè)劃分為三類廣州市8月份各天的氣溫記錄將服務質量分為五個等級:好、較好、一般、差、較差。,分類數(shù)據(jù),順序數(shù)據(jù),比例數(shù)據(jù),間隔數(shù)據(jù),,2.2 統(tǒng)計數(shù)據(jù)的來源,一、間接獲取的數(shù)據(jù) 二、直接獲取的數(shù)據(jù),間接取得的數(shù)據(jù),間接取得的數(shù)據(jù),統(tǒng)計部門和政府部門公布的有關資料,如各類統(tǒng)計年鑒各類經(jīng)濟信

8、息中心、信息咨詢機構、專業(yè)調查機構等提供的數(shù)據(jù)各類專業(yè)期刊、報紙、書籍所提供的資料各種會議,如博覽會、展銷會、交易會及專業(yè)性、學術性研討會上交流的有關資料從互聯(lián)網(wǎng)或圖書館查閱到的相關資料,提供統(tǒng)計數(shù)據(jù)的部分政府網(wǎng)站,提供統(tǒng)計數(shù)據(jù)的部分政府網(wǎng)站,直接取得的數(shù)據(jù),普查(census),為特定目的專門組織的非經(jīng)常性全面調查2.通常是一次性或周期性的3.一般需要規(guī)定統(tǒng)一的標準調查時間4.數(shù)據(jù)的規(guī)范化程度較高5.應用范圍比

9、較狹窄,抽樣調查(sampling survey),1.從總體中隨機抽取一部分單位作為樣本進行調查,并根據(jù)樣本調查結果來推斷總體特征的數(shù)據(jù)收集方法,2. 具有經(jīng)濟性、時 效性強、適應面廣、準確性高等特點,,2.3數(shù)據(jù)的質量,非抽樣誤差:由于調查過程中各有關環(huán)節(jié)工作失誤造成的。調查方案有關規(guī)定或解釋不明確導致填報錯誤、抄錄錯誤、匯總錯誤、不完整抽樣框導致的誤差,調查中不回答產(chǎn)生的誤差。人為干擾:隱瞞、虛報。從理論上看,這類誤

10、差可以避免。加強培訓掌握獲取完整抽樣框的方法,科學抽樣的方法與技術。抽樣誤差:利用樣本推斷總體時產(chǎn)生的誤差。不可避免可以計量、可以控制,抽樣框全部總體單元或范圍。,,2.3 統(tǒng)計數(shù)據(jù)的質量,,數(shù)據(jù)的誤差,抽樣誤差(sampling error),由于抽樣的隨機性所帶來的誤差 所有樣本可能的結果與總體真值之間的平均性差異 影響抽樣誤差大小的因素樣本容量的大小總體的變異性,非抽樣誤差(non-sampling err

11、or),相對于抽樣誤差而言除抽樣誤差之外的,由于其他原因造成的樣本觀察結果與總體真值之間的差異存在于所有的調查之中有抽樣框誤差、回答誤差、無回答誤差、調查員誤差、測量誤差,數(shù)據(jù)來源與數(shù)據(jù)質量,1936年,羅斯福和蘭登競選總統(tǒng)。《文學摘要》調查了240萬人,預測蘭登以57%對43%獲勝;Gallup(蓋洛普)調查了50000人,結論是羅斯福以56%獲勝。實際結果是羅斯福以62%獲勝。1952年至1988年,Gallup公司在每次調

12、查中只抽取3439至8144人,實際預測誤差在0.2至4.4 個百分點之間。,數(shù)據(jù)來源與數(shù)據(jù)質量,第二次世界大戰(zhàn)期間,美國國家民意調查中心(The National Opinion Research Center)派兩組調查人員對一個南方城市的500名黑人進行提問,一組調查人員由白人組成,另一組由黑人組成。 3個問題:問題一:“如果日本占領美國,你認為黑人的境況會得到改善還是變得更糟?”黑人調查組中,9%的被調查者回答“變好” ,2

13、5%回答“變壞”;白人調查組中, 2%回答“變好”,45%回答變壞。問題二:用“納粹分子”代替“日本”,兩組的結果大體相同。問題三: “你認為目前致力于打敗軸心國比在本國內(nèi)進一步推進民主更重要嗎?”黑人調查組中,選擇“打敗軸心國”的比例是39%,而白人調查組則是62%。是什么原因造成了調查結果的差異呢?,誤差的控制,抽樣誤差可計算和控制非抽樣誤差的控制調查員的挑選調查員的培訓督導員的調查專業(yè)水平調查過程控制調查結

14、果進行檢驗、評估現(xiàn)場調查人員進行獎懲的制度,,2.4 統(tǒng)計數(shù)據(jù)的整理,一、統(tǒng)計數(shù)據(jù)的分組 二、次數(shù)分配三、次數(shù)分配直方圖 四、洛倫茨曲線,統(tǒng)計數(shù)據(jù)的分組,2.4數(shù)據(jù)的整理——統(tǒng)計數(shù)據(jù)的分組,按照統(tǒng)計研究目的,將數(shù)據(jù)分別列入不同的組內(nèi)。按品質標志分組:列名尺度和順序尺度。按數(shù)量標志分組:間隔尺度和比例尺度。,2.4 數(shù)據(jù)的整理——次數(shù)分配,

15、次數(shù)分配是觀察值按其分組標志分配在各組內(nèi)的次數(shù)。分組目的:找出數(shù)據(jù)分布的規(guī)律。步驟:分多少組?確定組數(shù)每一組的范圍?確定組距=(Max.-Min.)/組數(shù)等組距分組、不等組距分組開口組經(jīng)驗:組數(shù)不少于5組,也不應多于15組原則:“不重不漏”、上組限(一個組的最大值)不在內(nèi)累積次數(shù)分配向下累積:由表的上方向表的下方累加向上累積:由表的下方向表的上方累加,組距分組 (步驟),1. 確定組數(shù):組數(shù)的確定應以能夠顯示數(shù)據(jù)的

16、分布特征和規(guī)律為目的2. 確定組距:組距(class width)是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即組距=( 最大值 - 最小值)÷ 組數(shù)3.統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表 頻數(shù)(frequency) :每個組中的數(shù)據(jù)個數(shù),也稱次數(shù)。 頻率(relative frequency) :頻數(shù)/總數(shù)據(jù)個數(shù)。,補充,Sturges 提出的經(jīng)驗公式:分組組數(shù)K應

17、滿足,其中n 為數(shù)據(jù)的個數(shù)(總體單位數(shù)或樣本數(shù)),一般對結果取整數(shù)。,組距分組 (幾個概念),1. 下限(low limit) :一個組的最小值2. 上限(upper limit) :一個組的最大值3. 組距(class width) :上限與下限之差4. 組中值(class midpoint) :下限與上限之間的中點值,次數(shù)分配表的編制(例題分析),【例】某車間30名工人每周加工某種零件件數(shù)如右表試對數(shù)據(jù)進行分組。,

18、Max=128Min=84,頻數(shù)分布表,Max=128Min=84,(Max-Min)/5=(128-84)/5=8.8≈10,上組限(一個組的最大值)不在內(nèi)。,90、100、110、120這幾個數(shù)究竟屬于哪一組?,課堂練習:某月啤酒公司60個銷售點的銷量,48 71 52 53 36 41 69 58 47 60 53 29 41 72 81 37 43 58 68 42 73 62 59 4451 53 47 66 59 5

19、2 34 49 73 29 47 1639 58 43 29 46 52 38 46 80 58 51 67 54 57 58 63 49 40 54 61 58 66 47 50 單位:桶,Max=81Min=16,(Max-Min)/8=(81-16)/8=8.125≈9,啤酒銷售量的頻數(shù)分布,銷售桶數(shù) 銷售點數(shù) 頻

20、率(%)10—19 1 1.720—29 3 5.030—39 5 8.340—49 16 26.750—59

21、 20 33.360—69 9 15.070—79 4 6.780—89 2 3.3 合計 60 100.0,

22、,,,頻數(shù)/次數(shù),,次數(shù)分配直方圖,直方圖 (histogram),在直角坐標中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應的頻數(shù)就形成了一個矩形,即直方圖用矩形的寬度和高度來表示頻數(shù)分布的圖形,實際上是用矩形的面積來表示各組的頻數(shù)分布,分組數(shù)據(jù)的圖示(直方圖的繪制),某車間工人周加工零件直方圖,,我一眼就看出來了,周加工零件在100~110之間的人數(shù)最多!,折線圖 (frequency polygon),折線圖也稱次數(shù)

23、多邊形圖折線圖是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數(shù)一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸S直方圖=S折線圖,二者所表示的頻數(shù)分布是一致的,分組數(shù)據(jù)的圖示(折線圖的繪制),S直方圖=S折線圖,某車間工人周加工零件折線圖,,,,,,,,次數(shù)分布曲線,次數(shù)分布曲線:當觀察次

24、數(shù)越多,組距越小且組數(shù)越多,所給出的折線圖就會越光滑,然后直方圖抹掉,就只剩一條光滑的曲線,用于反映數(shù)據(jù)或統(tǒng)計量的分布規(guī)律。正態(tài)分布曲線偏態(tài)曲線J形曲線U形曲線,次數(shù)分配的類型,幾種常見的頻數(shù)分布,洛倫茨曲線與基尼系數(shù),洛倫茨曲線,20世紀初美國經(jīng)濟學家、統(tǒng)計學家洛倫茨(M.E. Lorentz)根據(jù)意大利經(jīng)濟學家帕累托(V. Pareto)提出的收入分配公式繪制而成。描述了收入和財富分配性質的,這條曲線用于分析某國家或地區(qū)收

25、入分配的公平程度。,基尼系數(shù),20世紀初意大利經(jīng)濟學家基尼(G. Gini)根據(jù)洛倫茨曲線計算出一個數(shù)值,用這個統(tǒng)計指標可以衡量收入分配的平等程度。A表示實際收入曲線與絕對平均線之間的面積B表示實際收入曲線與絕對不平均線之間的面積如果A=0,則基尼系數(shù)=0,表示收入絕對平均如果B=0,則基尼系數(shù)=1,表示收入絕對不平均基尼系數(shù)在0 和1之間取值,0.4,分配不公,洛倫茨曲線與基尼系數(shù)計算步驟:,假設一個國家有100個人,計算這

26、個國家的基尼系數(shù)分為下面四步: 1.將這100人按收入從低往高排列,第一名是收入最低的,第一百名是收入最高的; 2.畫一個邊長為一的正方形,并將左下角與右上角的對角線相連; 3.依次計算前十名,前二十名,前三十名……一直到前九十名所擁有的收入占整個100人的收入的比值; 4.以正方形的左下角為原點,用水平邊標記累計人口,垂直邊標記累積的收入比,將在上面計算出的累計收入比值,在正方形中標出。然后,將這些點同

27、原點以及正方形的右上角連接,就可以得到一條曲線。 這條曲線被稱為洛倫茨曲線。 基尼系數(shù)就是對角線與洛倫茨曲線之間的面積,與對角線以下的三角形的面積之比。,各國基尼系數(shù)的比較,美國 40.8% 英國 36.1% 法國 32.7% 俄羅斯 31.0% 韓 國 31.6% 德 國 30% 意大利 27.3% 匈牙利 26.9% 瑞典 25% 日 本 24.9%,0.4,分配不公,1978-2005中國基尼系數(shù)

28、變化情況,亞行揭露:中國基尼系數(shù)擴大到0.473,己達到拉美平均水平,勇奪亞洲冠軍,2007年8月8日,亞洲開發(fā)銀行發(fā)表了《減少不平等,中國需要具有包容性的增長》的新聞稿并公布了《亞洲的分配不均》的研究報告。在22個納入亞行研究范圍的國家中,中國勇奪貧富差距之冠,在衡量分配不平等的兩個常見指標中,收入最高的20%人口的平均收入與收入最低的20%人口的平均收入的比率,中國是11倍,高出其它國家一大截;基尼系數(shù),2004年中國的數(shù)值是0

29、.4725,僅比尼泊爾的0.4730低微小,遠遠高于印度、韓國、臺灣。亞行指出,從1993到2004年,中國的基尼系數(shù)從0.407擴大到0.473,己達到拉丁美洲的平均水平,不得不讓人懷念“公平的增長”的典范:韓國和臺灣(地區(qū))。,貧富差距排名國家 最高20%人口收入/最低20%人口收入 基尼系數(shù)  中國 11.37倍

30、 0.4725尼泊爾 9.47倍 0.4730菲律賓 9.11倍 0.4397土庫曼斯坦 8.33倍 0.4302泰國 7.72倍

31、 0.4196馬來西亞 7.7倍 0.4033柬埔寨 7.04倍 0.3805斯里蘭卡 6.83倍 0.4018越南

32、 6.24倍 0.3708臺灣 6.05倍 0.3385阿塞拜疆 5.95倍 0.3650哈薩克斯坦 5.61倍

33、 0.3383印度 5.52倍 0.3622印度尼西亞 5.52倍 0.3430韓國 5.47倍 0.3155蒙古 5.4

34、4倍 0.3284老撾 5.4倍 0.3463塔吉克斯坦 5.14倍 0.3263亞美尼亞 5.08倍 0.338文萊

35、 5.03倍 0.3408巴基斯坦 4.46倍 0.3118吉爾吉斯 4.43倍 0.303,,2.5 分布集中趨勢的測度,一、眾數(shù)(mode)二、中位數(shù)(median)三、四分位數(shù)四

36、、均值(mean)五、幾何平均數(shù)(geometric mean)六、切尾均值(trimmed mean)七、眾數(shù)、中位數(shù)和均值的比較,集中趨勢,常用的集中趨勢的測度指標:算術平均數(shù)調和平均數(shù)幾何平均數(shù)中位數(shù)眾數(shù),集中趨勢:一組數(shù)據(jù)向其中心值靠攏的傾向和程度。集中趨勢測度:尋找數(shù)據(jù)水平的代表值或中心值。,眾數(shù),眾數(shù) Mo (mode),一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值適合于數(shù)據(jù)量較多時使用不受極端值的影響一組數(shù)據(jù)可能

37、沒有眾數(shù)或有幾個眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù),眾數(shù)(不惟一性),無眾數(shù)原始數(shù)據(jù): 10 5 9 12 6 8,一個眾數(shù)原始數(shù)據(jù): 6 5 9 8 5 5,多于一個眾數(shù)原始數(shù)據(jù): 25 28 28 36 42 42,眾數(shù)(mode)Mo,數(shù)據(jù)按大小順序排隊形成次數(shù)分配后,在統(tǒng)計分布中有明顯集中

38、趨勢的數(shù)值。正態(tài)分布和一般偏態(tài)分布中,分布的最高峰點所對應的數(shù)值就是眾數(shù)。是一種位置代表值。,眾數(shù),對于分組數(shù)據(jù)來說,計算眾數(shù)的近似公式為:,其中:L:表示眾數(shù)所在組的下組限Δ1:表示眾數(shù)組次數(shù)與下一組次數(shù)之差Δ2:表示眾數(shù)組次數(shù)與上一組次數(shù)之差i:表示眾數(shù)所在組的組距,,眾數(shù)的計算:分組資料* ,例子,1、眾數(shù)所在的組:80-90。2、或者:眾數(shù)等于眾數(shù)所在組的組中值85。,【例】,【例】一家市場調查公司為研

39、究不同品牌飲料的市場占有率,對隨機抽取的一家超市進行了調查。調查員在某天對50名顧客購買飲料的品牌進行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次 。右邊就是記錄的原始數(shù)據(jù),例題分析結果,Mo=可口可樂,用Excel求出 Mo插入——函數(shù) mode,中位數(shù),中位數(shù) Me (median),排序后處于中間位置上的值,不受極端值的影響主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)各變量值與中位數(shù)的

40、離差絕對值之和最小,即,中位數(shù) (位置的確定),原始數(shù)據(jù):,分組數(shù)據(jù):,數(shù)值型數(shù)據(jù)的中位數(shù),【例】 9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3

41、 4 5 6 7 8 9,中位數(shù) ? 1080,?,數(shù)值型數(shù)據(jù)的中位數(shù),【例】:10個家庭的人均月收入數(shù)據(jù)排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10,?,中位數(shù)的

42、計算:分組資料*,對分組資料的一種計算方法:,,中位數(shù)的計算:例子,根據(jù)考試成績的數(shù)據(jù)計算考試成績的中位數(shù)。,,第21個數(shù)所在的組,分組數(shù)據(jù):,四分位數(shù),四分位數(shù) (quartile),排序后處于25%和75%位置上的值,不受極端值的影響主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù),四分位數(shù) (位置的確定),原始數(shù)據(jù):,分組數(shù)據(jù):,數(shù)值型數(shù)據(jù)的四分位數(shù),【例】:9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù): 1500 7

43、50 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,?,?,數(shù)值型數(shù)據(jù)的四分位數(shù),【例】:10個家庭的人均月收入數(shù)據(jù)排 序:

44、660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10,?,?,分位數(shù),與中位數(shù)性質相似。四分位數(shù)、十分位數(shù)、百分位數(shù)十分位數(shù)(Decile): D1 D2 ………D9百分位數(shù)(percentile):P1 P2 …………P99,均值,

45、均值 (mean),集中趨勢的最常用測度值一組數(shù)據(jù)的均衡點所在體現(xiàn)了數(shù)據(jù)的必然性特征易受極端值的影響用于數(shù)值型數(shù)據(jù),不能用于分類數(shù)據(jù)和順序數(shù)據(jù),算術平均數(shù),設一組數(shù)據(jù)為: x1 ,x2 ,… ,xn,總體均值,樣本均值,加權均值 (weighted mean),設一組數(shù)據(jù)為: x1 ,x2 ,… ,xn相應的頻數(shù)為: f1 , f2 ,… ,fk,總體均值,樣本均值,加權均值 (例題分析),,均

46、值 (數(shù)學性質),1.各變量值與均值的離差之和等于零,2. 各變量值與均值的離差平方和最小,幾何均值,幾何均值 (geometric mean),n 個變量值乘積的 n 次方根適用于對比率數(shù)據(jù)的平均主要用于計算平均增長率計算公式為,5. 可看作是均值的一種變形,幾何均值 (例題分析),【例】一位投資者購持有一種股票,在2000年、2001年、2002年和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計

47、算該投資者在這四年內(nèi)的平均收益率是多少?,算術平均:,幾何平均:,切尾均值,切尾均值 (trimmed Mean),去掉大小兩端的若干數(shù)值后計算中間數(shù)據(jù)的均值在電視大獎賽、體育比賽及需要人們進行綜合評價的比賽項目中已得到廣泛應用計算公式為,n 表示觀察值的個數(shù);α表示切尾系數(shù),,,a=0, 切尾均值=算術平均數(shù)a?1/2,切尾均值=中位數(shù),切尾均值 (例題分析),【例】某次比賽共有11名評委,對某位歌手的給分分別是:,經(jīng)整理得

48、到順序統(tǒng)計量值為,去掉一個最高分和一個最低分,a 取1/11,眾數(shù)、中位數(shù)和均值的比較,一個故事,周先生開辦了一個小工廠。管理人員:周先生、他的弟弟和六個親戚。工作人員:5個領工和10個工人。工廠經(jīng)營得很順利,現(xiàn)在需要招聘一個新工人?,F(xiàn)在周先生正在面試王先生。周:我們這里報酬不錯。平均薪金是每周300元。你在學徒期間每周得75元,不過很快就可以加工資。王先生工作了幾天之后,要求見廠長。王:周廠長你欺騙我!我已經(jīng)找其他工人核

49、對過了沒有一個人的工資超過每周100元。平均工資怎么可能是一周300元呢?周:啊,王先生,不要激動。平均工資真的是300元。我要向你證明這一點。,周先生每周付出的酬金如下:我得2400元我弟弟得1000元我的六個親戚每人得250元,250*6=1500五個領工每人得200元,10個工人每人100元,共2000總共是每周6900元,付給23個人,周先生拿出了工資表,平均工資:6900/23=300元,對話繼續(xù):,王:?你是對的

50、,平均工資是每周300元??珊孟衲氵€是蒙騙了我。周:我不同意!你實在是不明白。我把工資表都告訴你了,看,工資的中位數(shù)是200元,可這不是平均工資,而是中等工資。王:每周100元又是怎么回事呢?周:那是眾數(shù),是大多數(shù)人掙的工資。老弟,你的問題是出在你不懂平均數(shù)、中位數(shù)和眾數(shù)之間的區(qū)別。王:好,現(xiàn)在我可懂了。我辭職,我要先去學習統(tǒng)計了……,???,眾數(shù)、中位數(shù)和均值的關系,,眾數(shù)、中位數(shù)、均值的特點和應用,眾數(shù)不受極端值影響具有

51、不惟一性數(shù)據(jù)分布偏斜程度較大時應用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時應用均值易受極端值影響數(shù)學性質優(yōu)良數(shù)據(jù)對稱分布或接近對稱分布時應用,2.6 分布離散程度的測度,一、極差二、內(nèi)距三、方差和標準差四、離散系數(shù),極差 R (range),一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數(shù)據(jù)的分布,R = max(xi) - min(xi),計算公式為,內(nèi)距 (Inter-Q

52、uartile Range,IQR),也稱四分位差上四分位數(shù)與下四分位數(shù)之差 內(nèi) 距= Q3 – Q1反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響可用于衡量中位數(shù)的代表性,方差和標準差,方差和標準差 (Variance and Standard deviation),1.離散程度的測度值之一2.最常用的測度值3.反映了數(shù)據(jù)的分布反映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計算的,稱為總體

53、方差或標準差;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標準差,總體方差和標準差 (Population variance and Standard deviation),未分組數(shù)據(jù):,組距分組數(shù)據(jù):,未分組數(shù)據(jù):,組距分組數(shù)據(jù):,方差的計算公式,標準差的計算公式,,樣本方差和標準差 (simple variance and standard deviation),未分組數(shù)據(jù):,組距分組數(shù)據(jù):,未分組數(shù)據(jù):,組距分組數(shù)據(jù):,方差的計算公式,

54、標準差的計算公式,樣本方差 自由度(degree of freedom),一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù)當樣本數(shù)據(jù)的個數(shù)為 n 時,若樣本均值?x 確定后,只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)則不能自由取值例如,樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則 ?x = 5。當 ?x = 5 確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他

55、值樣本方差用自由度去除,其原因可從多方面解釋,從實際應用角度看,在抽樣估計中,當用樣本方差s2去估計總體方差σ2時,它是σ2的無偏估計量,例:方差和標準差,某工會隨機調查了5名工人上月的加班時間如下表,計算數(shù)據(jù)的方差和標準差。,,離散系數(shù),離散系數(shù) (coefficient of variation),1. 標準差與其相應的均值之比對數(shù)據(jù)相對離散程度的測度消除了數(shù)據(jù)水平高低和計量單位的影響4.用于對不同組別數(shù)據(jù)離散程度的比較

56、5. 計算公式為,離散系數(shù) (例題分析),【 例 】某管理局抽查了所屬的8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤的離散程度。,離散系數(shù) (例題分析),,結論: 計算結果表明,v1<v2,說明產(chǎn)品銷售額的離散程度小于銷售利潤的離散程度,例:某地兩個不同類型的企業(yè)全年平均月產(chǎn)量資料如下表,計算離散系數(shù)。,比較結果: 鋼廠的標準差比紡紗廠大,但我們卻不能直接斷定煉鋼廠的平均月產(chǎn)量的差異程度比紡紗廠的大。因為

57、,首先這兩個廠的平均月產(chǎn)量相差懸殊,其次兩個廠屬于性質不同(計量單位不同)的兩個企業(yè)。因此只能根據(jù)離散系數(shù)的大小來判斷。 表中最后一欄的兩個企業(yè)的離散系數(shù)表明,鋼廠的平均月產(chǎn)量的差異程度比紡紗廠的小,生產(chǎn)比較穩(wěn)定。其結果與用標準差判斷的結果正好相反。,例:離散系數(shù),對30名經(jīng)理人員的調查表明年平均收入=$500,000,標準差 = $50,000。對30名工人的調查表明平均收入= $32,000,標準差 = $5,000。離散系

58、數(shù):經(jīng)理人員:工人:雖然經(jīng)理人員收入的絕對離散程度遠遠大于工人,但經(jīng)理人員收入的相對離散程度小于工人。,數(shù)據(jù)的特征和測度,分布的形狀,集中趨勢,,,,,,,離散程度,,眾 數(shù),中位數(shù),均 值,離散系數(shù),方差和標準差,峰 度,四分位距,極差,偏 態(tài),,,,,,,,,,,Location,Dispersion,Shape,數(shù)據(jù)的特征和測度,2.7 莖葉圖與箱線圖,一、莖葉圖二、箱線圖,莖葉圖 (stem-a

59、nd-leaf display),用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉樹葉上只保留一位數(shù)字莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息,莖葉圖 (例題分析),莖葉圖(擴展的莖葉圖),例:地區(qū)1 高三男生身高數(shù)據(jù)的莖葉圖,

60、HEIGHT Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 15 . 001223344 17.00 15 . 55666667778899999 20.00 16 . 01112222223333333444 35.00 16 . 55555666666667777788888888

61、888999999 25.00 17 . 0000000011112222233333344 24.00 17 . 555666677777777777888899 13.00 18 . 0111111122333 11.00 18 . 55667788899 4.00 19 . 2333 2.00 19

62、 . 56 3.00 Extremes (>=198) Stem width: 10.00 Each leaf: 1 case(s),箱線圖 (box plot),用于顯示未分組的原始數(shù)據(jù)的分布箱線圖由一組數(shù)據(jù)的5個特征值繪制而成,它由一個箱子和兩條線段組成箱線圖的繪制方法首先找出一組數(shù)據(jù)的5個特征值,即最大值、最小值、中位數(shù)Me和兩個四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)連

63、接兩個四分(位)數(shù)畫出箱子,再將兩個極值點與箱子相連接,箱線圖 (箱線圖的構成),箱線圖 (例題分析),分布的形狀與箱線圖,,不同分布的箱線圖,,未分組數(shù)據(jù)——多批數(shù)據(jù)箱線圖 (例題分析),【例】 從某大學經(jīng)濟管理專業(yè)二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調查,所得結果如表。試繪制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征,未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖 (例題分析),8門課程考試成績的箱線圖,

64、11名學生8門課程考試成績的箱線圖,,,,,min-max,,25%-75%,,median value,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,45,55,65,75,85,95,105,,

65、,,,,,,,,,,,,,學生1,學生2,學生3,學生4,學生5,學生6,學生7,學生8,學生9,學生10,學生11,未分組數(shù)據(jù)——多批數(shù)據(jù)箱線圖 (例題分析),2.9 統(tǒng)計表與統(tǒng)計圖,一、統(tǒng)計表二、統(tǒng)計圖,統(tǒng)計表,統(tǒng)計表是顯示統(tǒng)計數(shù)據(jù)的基本工具。表頭行標題列標題數(shù)字資料下方:表外附加三線表,統(tǒng)計表的構成,,行標題,表頭,列標題,數(shù)字資料,附加,,,,,統(tǒng)計圖,統(tǒng)計圖是統(tǒng)計數(shù)據(jù)的直觀表現(xiàn)形式。,如何用圖形來表示數(shù)據(jù)?,

66、常用統(tǒng)計圖,條形圖(Bar Chart),用寬度相同的條形高度或長短來表示數(shù)據(jù)變動的圖形,條形的排列可以橫排,也可以縱排。條形圖有單式、復式等形式。,2003我國就業(yè)人員情況,圓形圖 (Pie Chart),也叫餅圖,它是用圓形及圓內(nèi)扇形的面積來表示數(shù)值大小的圖形。主要用于總體內(nèi)部的結構,各組成部分所占比例等。,2003年我國國內(nèi)生產(chǎn)總值中各產(chǎn)業(yè)比重,線圖(Line Chart),利用線形的升降起伏來表現(xiàn)描述的變量在一段時期內(nèi)的變動

67、情況,主要用于顯示時間數(shù)列的數(shù)據(jù),以反映事物發(fā)展變化的規(guī)律和趨勢。,1996年-2003年城鄉(xiāng)居民人民幣儲蓄存款年底余額,雷達圖,適合多維數(shù)據(jù)即多個變量的圖示,在顯示或對比各變量的數(shù)值總和時十分有用??捎糜谘芯慷鄠€樣本之間的相似程度。,2003年我國城鎮(zhèn)和農(nóng)村居民家庭平均每人全年消費性支出構成,繪制統(tǒng)計圖時的注意事項,1、通過選擇恰當?shù)膱D形類型、刻度、長寬比例等,使圖形能夠準確反映數(shù)據(jù)中包含的信息。時間一般繪在橫軸,指標數(shù)據(jù)繪在縱軸

68、。長寬比例要適當 ,其長寬比例大致為10:7。一般情況下,縱軸數(shù)據(jù)下端應從“0”開始。數(shù)據(jù)與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷。,繪制統(tǒng)計圖時的注意事項,2、圖形要盡量簡明。圖形應該突出所要傳達的信息,不必要的標簽、背景、網(wǎng)格線、等會分散讀者的注意力。3、圖形應該有清楚的標題和必要的說明,明確圖形的含義、計量單位、坐標軸代表的變量、資料來源等等。4、反復加工和修改是獲得優(yōu)秀統(tǒng)計圖形的重要步驟。統(tǒng)計軟件給出的統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論