![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/14/17/0f7fb53d-a8e8-4c75-8646-52d8b2750b23/0f7fb53d-a8e8-4c75-8646-52d8b2750b23pic.jpg)
![基于機(jī)器學(xué)習(xí)方法的藥物靶標(biāo)挖掘研究.pdf_第1頁(yè)](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/14/17/0f7fb53d-a8e8-4c75-8646-52d8b2750b23/0f7fb53d-a8e8-4c75-8646-52d8b2750b231.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、藥物的發(fā)展歷史甚久,中國(guó)古代就有神農(nóng)嘗百草的故事以及本草綱目等名著。從人類(lèi)基因組計(jì)劃基本完成的那一刻起,生物數(shù)據(jù)作為一種非物質(zhì)的新型生產(chǎn)資料正在逐漸引發(fā)著生物醫(yī)學(xué)的變革,新藥的研發(fā)邁入了一個(gè)全新的階段。近年來(lái)“大數(shù)據(jù)”概念受到越來(lái)越多的關(guān)注,而隨著生物科技的不斷進(jìn)步,高通量測(cè)序技術(shù)得到快速發(fā)展,使得生命科學(xué)研究獲得了強(qiáng)大的數(shù)據(jù)產(chǎn)出能力,海量產(chǎn)出了包括基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等各種生物學(xué)數(shù)據(jù)。這些數(shù)據(jù)具有“4V”特點(diǎn):數(shù)據(jù)
2、量大(Volume)、數(shù)據(jù)多樣化(Variety)、有價(jià)值(Value)、高速(Velocity)。如果能合理地收集,管理并利用好這樣的生物數(shù)據(jù),從中挖掘有用的生物信息,將對(duì)人類(lèi)疾病的診療送來(lái)福音。為了提高新藥研發(fā)的效率,給疾病患者盡早帶來(lái)福音,作為新藥研發(fā)的首要步驟,利用機(jī)器學(xué)習(xí)的方法挖掘潛在藥物靶標(biāo)已成為生物制藥領(lǐng)域的研究熱門(mén)。對(duì)此,本文完成了如下幾個(gè)方面的研究工作:
(1)基于蛋白質(zhì)序列信息的潛在藥物靶標(biāo)預(yù)測(cè)研究。盡管研
3、究者已經(jīng)總結(jié)出了部分藥物靶標(biāo)的特征,但是藥物靶標(biāo)的完整特征仍在摸索階段。而藥靶蛋白質(zhì)的序列信息只依賴(lài)于測(cè)序技術(shù),相對(duì)于各種生物假設(shè)是獨(dú)立的。因此利用蛋白質(zhì)的序列信息預(yù)測(cè)潛在的藥物靶標(biāo),能夠避免對(duì)于藥物靶標(biāo)生物假設(shè)的片面性和盲目性。本文首先從細(xì)胞組件,分子功能以及生物過(guò)程三個(gè)方面,對(duì)載體、轉(zhuǎn)運(yùn)以及酶三類(lèi)藥靶蛋白質(zhì)進(jìn)行了對(duì)比分析,從而確保了三組已知藥物靶標(biāo)蛋白質(zhì)數(shù)據(jù)可以作為一個(gè)正面訓(xùn)練集整體進(jìn)行機(jī)器學(xué)習(xí)的可行性。進(jìn)一步采用較為成熟的計(jì)算軟件
4、,基于蛋白質(zhì)的序列信息提取了多種物化屬性作為特征集。接著設(shè)計(jì)了兩種策略從蛋白質(zhì)樣本的測(cè)試集中提取分類(lèi)器所需要的陰性數(shù)據(jù)集,并使用三種核函數(shù)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),比較了三種支持向量機(jī)核方法的分類(lèi)性能。第一種策略的特點(diǎn)是“不放過(guò)”測(cè)試集中的潛在的藥物靶標(biāo)。第二種策略的特點(diǎn)是對(duì)于測(cè)試集中潛在的藥物靶標(biāo)“不選錯(cuò)”,兩種策略各有優(yōu)勢(shì)。本文結(jié)果表明在對(duì)藥靶蛋白質(zhì)進(jìn)行大批量篩選時(shí),推薦使用第一種策略。而對(duì)藥靶蛋白質(zhì)進(jìn)行精選時(shí),推薦使用第二種策略。最后分
5、析了預(yù)測(cè)的藥物靶標(biāo)蛋白質(zhì)中具有富集效應(yīng)的通路,并在通路中標(biāo)出了具有研究意義的靶點(diǎn),這些靶點(diǎn)對(duì)于藥物開(kāi)發(fā)具有一定的研究?jī)r(jià)值。
(2)基于經(jīng)典貝葉斯分類(lèi)方法提出了一種新的分類(lèi)方法BFC(Bayesian Forest Classifier)。首先分析了基于貝葉斯分類(lèi)方法的分類(lèi)器的研究現(xiàn)狀,著重介紹了樸素貝葉斯分類(lèi)器與貝葉斯網(wǎng)絡(luò)分類(lèi)器的原理,并指出現(xiàn)有方法在處理有限樣本多維特征數(shù)據(jù)方面的不足。然后基于樸素貝葉斯的框架提出了一種新的多
6、樹(shù)結(jié)構(gòu)的貝葉斯分類(lèi)器BFC。BFC利用隱變量分類(lèi)模型的策略建立協(xié)變量間相互依賴(lài)的關(guān)系。首先把協(xié)變量按照他們與分類(lèi)變量之間的關(guān)系以及變量互相之間的關(guān)系分成四個(gè)大組。在協(xié)變量互相之間有關(guān)聯(lián)的組中,再采用樹(shù)狀模型又把這些互相關(guān)聯(lián)的協(xié)變量不斷劃分重組為子組塊,從而最終實(shí)現(xiàn)協(xié)變量的有效分類(lèi)。利用細(xì)節(jié)平衡的MCMC采樣步驟時(shí),這種樹(shù)組策略在仿真數(shù)據(jù)和實(shí)際應(yīng)用中都能夠取得很好的效果。本文進(jìn)一步從理論上證明了算法中所設(shè)計(jì)的MCMC采樣的細(xì)致平衡性。最后
7、通過(guò)三組仿真實(shí)驗(yàn)以及15組真實(shí)基準(zhǔn)數(shù)據(jù)測(cè)試了BFC的分類(lèi)能力,并與11種常用的分類(lèi)方法細(xì)致的比較研究。新的分類(lèi)方法不僅可以用在藥物靶標(biāo)的篩選、蛋白質(zhì)調(diào)控關(guān)系的預(yù)測(cè)等方面,而且在機(jī)器學(xué)習(xí)與模式識(shí)別的各個(gè)領(lǐng)域都能有廣泛的應(yīng)用。
(3)基于蛋白質(zhì)序列信息以及蛋白質(zhì)互作用網(wǎng)絡(luò)的拓?fù)涮卣鞯臐撛谒幬锇袠?biāo)挖掘研究。本文從三種視角對(duì)藥物靶標(biāo)蛋白質(zhì)的拓?fù)鋵傩赃M(jìn)行了分析:藥靶蛋白質(zhì)作為網(wǎng)絡(luò)的中介,藥靶蛋白質(zhì)作為信號(hào)源以及藥靶蛋白質(zhì)的群簇特征??偣?/p>
8、比較了網(wǎng)絡(luò)的節(jié)點(diǎn)度、介數(shù)、平均距離、偏心距、聚類(lèi)系數(shù)、核數(shù)以及社區(qū)性等7個(gè)拓?fù)涮卣?。發(fā)現(xiàn)藥靶蛋白質(zhì)在6、9、12、18核的子網(wǎng)絡(luò)中具有較高的全局比,在偏心距為7、8、9的位置具有較高的概率密度,與藥靶蛋白質(zhì)相互作用的蛋白質(zhì)也都存在于較高連接度的群簇,對(duì)于這些特征的分析有助于從系統(tǒng)的角度進(jìn)一步理解藥物靶標(biāo)的作用機(jī)理。本文進(jìn)一步利用網(wǎng)絡(luò)特征從測(cè)試蛋白質(zhì)集合中提取陰性訓(xùn)練集,比較了三種分類(lèi)器(SVM、AdaboostBayes以及BFC)對(duì)訓(xùn)
9、練數(shù)據(jù)的分類(lèi)性能,從測(cè)試集中預(yù)測(cè)得到了102個(gè)潛在的藥物靶標(biāo)。最后對(duì)預(yù)測(cè)得到的藥靶中富集顯著的通路進(jìn)行了分析,并在通路中標(biāo)出了具有進(jìn)一步實(shí)驗(yàn)價(jià)值的相關(guān)靶點(diǎn)。
(4)提出了一種針對(duì)信號(hào)通路中蛋白質(zhì)間激活與抑制調(diào)控關(guān)系的預(yù)測(cè)方法。藥物與靶標(biāo)蛋白質(zhì)相結(jié)合,通過(guò)靶標(biāo)蛋白質(zhì)對(duì)其他蛋白質(zhì)的相互作用對(duì)整個(gè)信號(hào)通路起到調(diào)節(jié)的作用。因此,對(duì)于信號(hào)網(wǎng)絡(luò)中蛋白質(zhì)調(diào)控關(guān)系的研究有助于發(fā)現(xiàn)新的藥靶蛋白質(zhì)。本文給出了信號(hào)通路研究的數(shù)據(jù)資源,并介紹了基因本
10、體以及蛋白質(zhì)結(jié)構(gòu)域兩組數(shù)據(jù)資源以及其特點(diǎn)。進(jìn)而利用基于富集比值的打分方法以及超幾何分布的統(tǒng)計(jì)檢驗(yàn)方法,提取了具有富集顯著的蛋白質(zhì)結(jié)構(gòu)以及基因本體互作用數(shù)據(jù)作為特征。使用BFC分類(lèi)方法對(duì)信號(hào)通路中蛋白質(zhì)調(diào)控關(guān)系進(jìn)行了預(yù)測(cè),并通過(guò)已知蛋白質(zhì)調(diào)控關(guān)系的經(jīng)典通路驗(yàn)證了分類(lèi)器的預(yù)測(cè)能力。最后開(kāi)發(fā)了信號(hào)通路中蛋白質(zhì)激活與抑制調(diào)控關(guān)系預(yù)測(cè)器的工作流程。實(shí)驗(yàn)結(jié)果表明,基于富集比值的打分方法能夠有效地挖掘信號(hào)通路中蛋白質(zhì)的激活與抑制調(diào)控關(guān)系。蛋白質(zhì)調(diào)控關(guān)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于機(jī)器學(xué)習(xí)方法的藥物不良反應(yīng)預(yù)測(cè).pdf
- 挖掘Internet深層信息的機(jī)器學(xué)習(xí)方法的研究.pdf
- 基于核函數(shù)的機(jī)器學(xué)習(xí)方法研究.pdf
- 基于機(jī)器學(xué)習(xí)方法的視頻標(biāo)注研究.pdf
- 基于機(jī)器學(xué)習(xí)方法的藥物不良反應(yīng)預(yù)測(cè)及分析.pdf
- 基于稀疏性的機(jī)器學(xué)習(xí)方法研究.pdf
- 核機(jī)器學(xué)習(xí)方法研究.pdf
- 基于機(jī)器學(xué)習(xí)方法的人臉識(shí)別研究.pdf
- 基于標(biāo)記分布的機(jī)器學(xué)習(xí)方法研究.pdf
- 基于機(jī)器學(xué)習(xí)方法的視覺(jué)信息標(biāo)注研究.pdf
- 基于機(jī)器學(xué)習(xí)方法的生物序列分類(lèi)研究.pdf
- 基于機(jī)器學(xué)習(xí)方法的建筑能耗性能研究.pdf
- 基于機(jī)器學(xué)習(xí)的藥物研發(fā)方法研究.pdf
- 基于機(jī)器學(xué)習(xí)方法的網(wǎng)絡(luò)流量分類(lèi)研究.pdf
- 基于機(jī)器學(xué)習(xí)方法的核素識(shí)別技術(shù)研究.pdf
- 基于語(yǔ)音反演機(jī)器學(xué)習(xí)方法的聲道模型研究.pdf
- 基于機(jī)器學(xué)習(xí)方法的基因和蛋白預(yù)測(cè)研究.pdf
- 基于機(jī)器學(xué)習(xí)方法的股票數(shù)據(jù)研究.pdf
- 基于機(jī)器學(xué)習(xí)方法的股票數(shù)據(jù)研究
- 基于機(jī)器學(xué)習(xí)方法的人臉表情識(shí)別研究.pdf
評(píng)論
0/150
提交評(píng)論