基于Lasso的高維數(shù)據(jù)線性回歸模型統(tǒng)計推斷方法比較.pdf_第1頁
已閱讀1頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、目的:
  本文將介紹五種基于Lasso的高維數(shù)據(jù)線性回歸模型統(tǒng)計推斷方法:Lasso-懲罰計分檢驗(Lasso Penalized Score Test,Lassoscore),多重樣本拆分(Multiple Sample-Splitting,MS-split)、穩(wěn)定選擇(Stability Selection)、低維投射(Low-Dimensional Projection Estimate,LDPE)、協(xié)方差檢驗(Covar

2、iance test,Covtest),并將這五種方法作比較,分析其在不同高維數(shù)據(jù)情形下的表現(xiàn)。
  方法:
  分別介紹Lasso-懲罰計分檢驗、多重樣本拆分、穩(wěn)定選擇、低維投射、協(xié)方差檢驗的基本原理。利用以下四個參數(shù)設置模擬數(shù)據(jù),分別為:7種樣本量n=50、75、100、150、200、300、400;兩種自變量個數(shù)p=100、300;兩種自變量間相關(guān)性,一是自變量間相互獨立,二是自變量間相關(guān)性為corr(Xi,Xj)=

3、0.5|i-j|;兩種回歸系數(shù)大小,一是β1=β2=β3=β4=β5=5,βj=0,j>5。二是β1=β2=β3=β4=β5=0.15,βj=0,j>5。以上四個參數(shù)分別構(gòu)成不同情形的高維數(shù)據(jù)。采用R軟件模擬數(shù)據(jù)并用五種方法做統(tǒng)計推斷,最后以期望假陽性率(Expected False Positives,EFP)和檢驗效能(power)為評價指標,比較這五種方法在不同高維數(shù)據(jù)情形下的表現(xiàn)。
  結(jié)果:
  在理想高維數(shù)據(jù)情形

4、下五種方法除協(xié)方差檢驗推斷結(jié)果保守外其余方法表現(xiàn)都較好,其中穩(wěn)定選擇的EFP最低而檢驗效能最高,在五種方法中表現(xiàn)最好。低維投射、穩(wěn)定選擇、多重樣本拆分都對βmin條件有要求,其中穩(wěn)定選擇過于其依賴βmin條件,所以在復雜高維數(shù)據(jù)情形下檢驗效能大幅度降低,表現(xiàn)差。在復雜高維數(shù)據(jù)情形下低維投射在大樣本和小樣本下表現(xiàn)都較保守,雖然在中等樣本量時檢驗效能很高,但是以引入極高的假陽性為代價的。無論在何種數(shù)據(jù)情形下協(xié)方差檢驗推斷結(jié)果都很保守。在復雜

5、高維數(shù)據(jù)情形下Lasso-懲罰計分檢驗的檢驗效能是五種方法中最高的,其次為多重樣本拆分,而Lasso-懲罰計分檢驗的EFP也是最高的,多重樣本拆分的EFP基本接近0。
  結(jié)論:
  在常見復雜高維數(shù)據(jù)情形下Lasso-懲罰計分檢驗發(fā)現(xiàn)真實非零變量的能力優(yōu)于其余四種方法,且其對βmin的要求低,但期望假陽性率高。多重樣本拆分的發(fā)現(xiàn)真實非零變量的能力雖然依賴于數(shù)據(jù)對βmin條件的滿足與否,但當條件不滿足時僅次于Lasso-懲罰

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論