若干半?yún)?shù)和非參數(shù)模型的穩(wěn)健估計(jì)和特征篩選.pdf_第1頁
已閱讀1頁,還剩98頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、近幾十年來非參數(shù)和半?yún)?shù)建模受到越來越多統(tǒng)計(jì)學(xué)者的關(guān)注,大量的文獻(xiàn)研究了非參數(shù)和半?yún)?shù)回歸模型的估計(jì)問題.非參數(shù)模型的優(yōu)勢(shì)在于它的靈活性,不需要對(duì)模型的結(jié)構(gòu)做任何具體的假設(shè).可是,非參數(shù)模型存在明顯的缺陷.首先,維數(shù)詛咒是非參數(shù)估計(jì)無法逃避的一個(gè)本質(zhì)問題.其次,非參數(shù)模型中很難加入離散的預(yù)測(cè)變量.第三,當(dāng)預(yù)測(cè)變量的維數(shù)較高時(shí),很難畫出估計(jì)函數(shù)的圖像并給出估計(jì)的合理解釋.半?yún)?shù)模型作為非參數(shù)模型和參數(shù)模型之間的一類模型,既繼承了非參數(shù)模型

2、的靈活性,又繼承了參數(shù)模型的可解釋性.關(guān)于模型結(jié)構(gòu)的假定方面,半?yún)?shù)模型強(qiáng)于非參數(shù)模型又弱于線性模型,一定程度上降低了(并非完全消除)模型指定錯(cuò)誤的可能性.現(xiàn)有的估計(jì)方法大多數(shù)基于最小二乘法;而最小二乘方法不穩(wěn)健,同時(shí)需要誤差的二階矩存在并且有限.另一方面,隨著收集數(shù)據(jù)能力的不斷提高,(超)高維數(shù)據(jù)頻繁地出現(xiàn)在社會(huì)生活和科學(xué)研究的諸多領(lǐng)域;高維數(shù)據(jù)的變量選擇和超高維數(shù)據(jù)的特征篩選問題也因此成為當(dāng)今統(tǒng)計(jì)界的又一研究熱點(diǎn).本文在非參數(shù)和半?yún)?/p>

3、數(shù)回歸模型的框架下分別研究穩(wěn)健的估計(jì)方法和穩(wěn)健的特征篩選方法,以便進(jìn)一步補(bǔ)充和完善相關(guān)的方法和理論.
   第2章研究一般的非參數(shù)模型Y=m(T)+σ(T)ε,其中Y是響應(yīng)變量,T是協(xié)變量并且與隨機(jī)誤差ε相互獨(dú)立,誤差滿足E(ε)=0,var(ε)=1.假設(shè)m(·)是光滑的,σ(·)恒正.Kai,Li和Zou(20i0)在上述非參數(shù)模型下提出局部復(fù)合分位數(shù)回歸(localcompositequantileregression,L

4、CQR)方法.當(dāng)誤差分布對(duì)稱且非正態(tài)時(shí),LCQR估計(jì)能夠顯著地改進(jìn)局部最小二乘(localleastsquares,LLS)估計(jì)的效率;誤差服從正態(tài)時(shí),LCQR估計(jì)相對(duì)于LLS估計(jì)損失的效率也很少.可是,LCQR方法僅適用于對(duì)稱的誤差分布,非對(duì)稱的誤差分布下LCQR估計(jì)的相合性無法保證.實(shí)際中誤差分布一般是未知的,Kai,Li和Zou(2010)給出的誤差對(duì)稱性的假設(shè)有些牽強(qiáng).為此我們針對(duì)非參數(shù)模型提出加權(quán)局部復(fù)合分位數(shù)回歸(weigh

5、tedlocalcompositequantileregression,WLCQR)方法,新方法對(duì)誤差分布沒有任何要求,適用范圍比LCQR更廣泛.任意給定t0,構(gòu)造m(t0)的WLCQR估計(jì).我們利用不等的權(quán)重{ωk,k=1,…,q}對(duì)Kai,Li和Zou(2010)的LCQR方法中求出的初始估計(jì){(a)k,k=1,…,q}進(jìn)行加權(quán)復(fù)合.等間隔地取q個(gè)點(diǎn){(τ)k=k/(q+1),k=1,…,q}.記F-1(·)為誤差ε的分位數(shù)函數(shù),定

6、義m(t0)的WLCQR估計(jì)(m)(t0)為(m)(t0)=q∑k=1ωk(a)k=ωT(a),其中權(quán)向量ω=(ω1,ω2,…,ωq)T滿足q∑k=1ωk=1和q∑k=1ωkF-1((τ)k)=0.在誤差分布對(duì)稱性未知的情況下,條件∑qk=1ωkF-1((τ)k)=0使得WLCQR估計(jì)(m)(t0)的漸近偏表達(dá)式中的常數(shù)項(xiàng)恰好為零,從而保證了WLCQR估計(jì)的相合性.于是我們可以得到(m)(t0)的漸近偏,漸近方差和漸近正態(tài)性,即bias

7、{(m)(t0)|(τ)}=1/2m"(t0)μ2h2+Op(h2),var{(m)(t0)|(τ)}=1/nhv0σ2(t0)/fT(t0)J1(q)+Op(1/nh)var{(m)(t0)|(τ)}=1/nhv0σ2(t0)/fT(t0)J1(q)+Op(1/nh)和√nh{(m)(t0)-m(t0)-1/2m"(t0)μ2h2}D→N{0,v0σ2(t0)/fT(t0)J1(q)}.權(quán)向量ω一般是不唯一的,我們通過最小化漸近方差求

8、出最優(yōu)權(quán)向量ω(★)的理論表達(dá)式,從而得到與之對(duì)應(yīng)的m(t0)的最優(yōu)估計(jì)(m)(★)(t0)的漸近方差varmin{(m)(★)(t0)|(τ)}=1/nhv0σ2(t0)/fT(t0)J(★)1(q)+Op(1/nh).當(dāng)誤差分布對(duì)稱時(shí),我們?cè)跐u近相對(duì)效率的準(zhǔn)則下比較新方法求出的最優(yōu)估計(jì)(m)(★)(t0),經(jīng)典的LLS估計(jì)(m)ls(t0)以及Kai,Li和Zou(2010)提出的LCQR估計(jì)(m)cqr(t0)的效率,得到limq

9、→∞inf{ARE((m)(★)(t0),(m)ls(t0))}≥1,limq→∞inf{ARE((m)(★)(t0),(m)cqr(t0))}≥1.
   此外,數(shù)值模擬和一個(gè)實(shí)例分析得出的結(jié)論也與之前的理論分析一致.
   第3章研究變系數(shù)部分線性模型Y=XTα(U)+ZTβ+ε,其中α(U)={α1(U),…,αd1(U)}T是一個(gè)d1×1維未知的光滑函數(shù)系數(shù)向量,β=(β1,…,βd2)T是一個(gè)d2×1維未知的真

10、實(shí)參數(shù)向量.假設(shè)U是一元協(xié)變量,隨機(jī)誤差ε與協(xié)變量向量{U,X,Z}獨(dú)立,E(ε)=0.任意給定u0,針對(duì)上述變系數(shù)部分線性模型給出局部秩方法的具體估計(jì)步驟.由于模型既涉及參數(shù)部分也涉及非參數(shù)部分,相對(duì)應(yīng)估計(jì)的收斂速度應(yīng)分別與經(jīng)典的參數(shù)和非參數(shù)估計(jì)的收斂速度保持一致.受到Kai,Li和Zou(2011)的啟發(fā),我們提出三階段估計(jì)步驟來實(shí)現(xiàn)局部秩的思想.第一階段,利用局部秩回歸得到參數(shù)部分β和非參數(shù)部分α(u0)的初始估計(jì).第二階段,利用

11、全局秩回歸修正第一階段求出的參數(shù)部分β的初始估計(jì),改進(jìn)后的參數(shù)估計(jì)的收斂速度與經(jīng)典的參數(shù)估計(jì)的收斂速度保持一致.第三階段,再次利用局部秩回歸改進(jìn)第一階段求出的非參數(shù)部分α(u0)的初始估計(jì).于是我們可以分別建立參數(shù)部分β的局部秩估計(jì)(β)LR和非參數(shù)部分α(u0)的局部秩估計(jì)(α)LR(u0)的漸近正態(tài)性,即√n((β)LR-β)D→N(0,1/12(τ)2[E(ZZT)]-1Δ0[E(ZZT)]-1)和√nh(α)LR(u0)-α(u

12、0)-μ2/2α"(u0)h2+o(h2))D→N(0,v0/12(τ)2f(u0)∑1XXT(u0)).
   進(jìn)一步,通過比較參數(shù)部分和非參數(shù)部分的局部秩估計(jì)和局部最小二乘估計(jì)的效率可以發(fā)現(xiàn),局部秩方法相對(duì)于局部最小二乘法是一種既穩(wěn)健又有效的估計(jì)方法.具體地說,對(duì)大多數(shù)非正態(tài)分布的誤差而言,局部秩估計(jì)能夠顯著地改進(jìn)局部最小二乘估計(jì)的效率;誤差分布服從正態(tài)時(shí),局部秩估計(jì)的效率損失極少.理論結(jié)果表明,非參數(shù)部分的局部秩估計(jì)損失的

13、效率不超過11.1%,參數(shù)部分的局部秩估計(jì)損失的效率不超過13.6%.此外,我們通過數(shù)值模擬和一個(gè)環(huán)境數(shù)據(jù)集的實(shí)例分析再次驗(yàn)證了之前得到的理論結(jié)果.
   第4章研究超高維模型下的特征排序和篩選方法.大多數(shù)已有的特征篩選方法都需要假定模型的具體結(jié)構(gòu),并且要求工作模型與潛在的真實(shí)模型非常接近.Zhu,Li,Li和Zhu(2011)在很一般的模型框架下提出一種新的特征篩選方法,即SIRS(sureindependentranking

14、andscreening)方法.SIRS方法不需要假設(shè)回歸模型的具體結(jié)構(gòu),適用于一大類常見的參數(shù)和半?yún)?shù)模型.可是我們發(fā)現(xiàn)SIRS方法在某些情況下無法選出活躍的預(yù)測(cè)變量,第4章將給出具體的例子加以說明.為了改進(jìn)SIRS方法,我們首次利用預(yù)測(cè)變量的“局部”信息流來定義新的邊際效用準(zhǔn)則,進(jìn)而提出新的非參數(shù)特征篩選(nonparametricrankingandscreening,NRS)方法.NRS方法依然不需要假定模型的具體結(jié)構(gòu),其邊際效

15、用準(zhǔn)則的定義為ψk=E[Ψ2(Xk,Y)],k=1,…,p,其中Ψ(xk,y)=W(xk)/E[I(Xk<xk)]{R(xk,y)-S(xk,y)},R(xk,y)=E[XkI(Xk<xk)I(Y<y)],S(xk,y)=E{XkI(Xk<xk)E[I(Y<y)]}.這里權(quán)重函數(shù)ω(xk)滿足ω(xk)≥0,E[ω(Xk)]=1.實(shí)際中權(quán)重函數(shù)的簡單選取方法是ω(xk)=2E[I(Xk<xk)].我們用Ψk來度量預(yù)測(cè)變量Xk的邊際效用,

16、并從理論上證明了NRS方法具有排序相合性.即在一定的正則性條件下,存在充分小的常數(shù)(s)δ/2∈(0,4/δ),使得P{maxj∈A(Ψ)j>mink∈(A)(Ψ)k}≥1-4pexp{nlog(1-δ(s)δ/2)/3}成立.此外,我們還研究了活躍預(yù)測(cè)變量之間的相關(guān)性并將其運(yùn)用到特征排序和篩選的過程中,使得非參數(shù)特征篩選方法更全面,適用范圍更廣.在數(shù)值模擬實(shí)驗(yàn)中,通過考查各種不同類型的回歸模型,我們?cè)俅悟?yàn)證新提出的方法一致且顯著地優(yōu)于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論