蛋白質(zhì)的β-發(fā)夾、β(γ)-轉(zhuǎn)角及四類簡單超二級結(jié)構(gòu)預(yù)測.pdf_第1頁
已閱讀1頁,還剩87頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、由于蛋白質(zhì)的功能與其結(jié)構(gòu)是密切相關(guān)的,因此研究蛋白質(zhì)的結(jié)構(gòu)是獲取功能信息的重要手段。隨著人類基因組計(jì)劃的順利實(shí)施,蛋白質(zhì)序列信息的積累速度遠(yuǎn)快于蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的增長速度。然而,通過實(shí)驗(yàn)手段確定蛋白質(zhì)的結(jié)構(gòu),不但成本高、耗時(shí),而且實(shí)驗(yàn)中還會遇到一些目前無法解決的技術(shù)困難,因此人們非常希望能利用理論計(jì)算的方法直接從序列信息預(yù)測蛋白質(zhì)結(jié)構(gòu),這也是生物信息學(xué)研究的重要課題。 目前,直接從序列信息預(yù)測蛋白質(zhì)的三級結(jié)構(gòu)還很困難。由于局域結(jié)構(gòu)

2、有著較強(qiáng)的序列信號,且在三級結(jié)構(gòu)中大量存在、頻繁出現(xiàn),對蛋白質(zhì)的折疊、識別和穩(wěn)定性起重要作用,因此,局域結(jié)構(gòu)的預(yù)測可以簡化結(jié)構(gòu)預(yù)測問題,是蛋白質(zhì)三級結(jié)構(gòu)預(yù)測重要的中間步驟。 本文主要研究蛋白質(zhì)局域結(jié)構(gòu)中超二級結(jié)構(gòu)的預(yù)測,重點(diǎn)研究β-發(fā)夾模體的預(yù)測;研究了部分規(guī)則二級結(jié)構(gòu)中β-轉(zhuǎn)角和γ-轉(zhuǎn)角的預(yù)測。 1.提出了一種新的預(yù)測算法-基于離散增量的支持向量機(jī)算法,用該算法首次對超二級結(jié)構(gòu)數(shù)據(jù)庫(ArchDB40)中β-發(fā)夾模體進(jìn)

3、行了預(yù)測,取得較好效果。 2.利用離散增量和序列打分值構(gòu)成的向量來表示序列信息,將離散增量和打分值作為向量輸入支持向量機(jī),在向量空間中尋找最優(yōu)超平面,提出了一種新的組合向量預(yù)測算法。該算法首次應(yīng)用于β-發(fā)夾模體的預(yù)測,對ArchDB40超二級結(jié)構(gòu)數(shù)據(jù)庫中β-發(fā)夾數(shù)據(jù)集和文獻(xiàn)(Kumar and Bhasin,Nucleic Acids Research,2005,33:154-159)中已有的β-發(fā)夾數(shù)據(jù)集的預(yù)測結(jié)果顯示,我們的

4、算法可以實(shí)現(xiàn)比以往方法更高的預(yù)測成功率。與文獻(xiàn)中已有數(shù)據(jù)集的預(yù)測結(jié)果相比,對獨(dú)立的檢驗(yàn)集預(yù)測精度提高4%,β-發(fā)夾的敏感性提高6%。另外,將這種算法首次用于ArchDB40數(shù)據(jù)庫中的四類簡單超二級結(jié)構(gòu)分類,無論是對5-交叉檢驗(yàn)的訓(xùn)練集,還是對獨(dú)立的檢驗(yàn)集都取得較好分類結(jié)果。 3.在離散增量和序列打分值的基礎(chǔ)上,進(jìn)一步把預(yù)測的二級結(jié)構(gòu)信息加入組合向量,將它們共同輸入支持向量機(jī),對普遍使用的,分別包含426個(gè)和320個(gè)蛋白質(zhì)序列的兩

5、數(shù)據(jù)集中的部分規(guī)則二級結(jié)構(gòu)β-轉(zhuǎn)角和γ-轉(zhuǎn)角進(jìn)行了預(yù)測。結(jié)果指出,對β-轉(zhuǎn)角的7-交叉檢驗(yàn)預(yù)測精度達(dá)到79.8%、相關(guān)系數(shù)為0.47;對γ-轉(zhuǎn)角5-交叉檢驗(yàn)預(yù)測的相關(guān)系數(shù)達(dá)到了0.18,這些結(jié)果都是目前最好的預(yù)測結(jié)果。 4.建立了一個(gè)新的包括2208個(gè)非冗余蛋白質(zhì)鏈的數(shù)據(jù)庫,蛋白質(zhì)結(jié)構(gòu)分辨率高于2.5(A°),序列相似性小于40%。得到α-α模體6799個(gè),α-β模體6711個(gè),β-α模體6072個(gè)和β-β模體8163個(gè),首次將

6、最小離散增量算法用于蛋白質(zhì)四類簡單超二級結(jié)構(gòu)預(yù)測,當(dāng)序列模式固定長取8個(gè)氨基酸殘基,對“822型”序列模式3-交叉檢驗(yàn)的平均預(yù)測精度達(dá)到78%,Jack-knife檢驗(yàn)的平均預(yù)測精度達(dá)到76.8%;當(dāng)序列模式固定長取10個(gè)氨基酸殘基,對“1041型”序列模式3-交叉檢驗(yàn)的平均預(yù)測精度達(dá)到83%,Jack-knife檢驗(yàn)的平均預(yù)測精度達(dá)到79.8%。 5.在蛋白質(zhì)簡單超二級結(jié)構(gòu)分類預(yù)測、β-發(fā)夾預(yù)測、β-轉(zhuǎn)角預(yù)測及γ-轉(zhuǎn)角的預(yù)測工

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論