![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-2/24/12/ac64ca0d-1508-4001-a944-856293c0271f/ac64ca0d-1508-4001-a944-856293c0271fpic.jpg)
![基于統(tǒng)計建模方法研究真核生物基因表達調控系統(tǒng).pdf_第1頁](https://static.zsdocx.com/FlexPaper/FileRoot/2019-2/24/12/ac64ca0d-1508-4001-a944-856293c0271f/ac64ca0d-1508-4001-a944-856293c0271f1.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、生命是一個多層次的復雜系統(tǒng),通過分子間復雜的相互作用來實現(xiàn)生物學功能,這一點在細胞對基因時空特異性表達的控制方面已得到充分體現(xiàn)。本文致力于利用多元統(tǒng)計和機器學習的方法,從高通量、大樣本的生物實驗數據中挖掘基因表達的調控關系并構建基因調控網絡,旨在從生物分子網絡層次揭示基因表達調控系統(tǒng)的運行機制。通過本研究,我們提出了能夠提高基因表達調控關系預測準確度的計算方法,并進一步揭示了基因表達調控系統(tǒng)復雜性背后蘊含的內在規(guī)律。本文中的研究方法和結
2、果為從生物分子網絡層次理解基因表達調控機制、揭示復雜疾病發(fā)生發(fā)展的原因提供了重要參考。
基因表達調控體系是指遺傳信息從DNA到蛋白質流動的整個過程的調節(jié)方式和機制,對細胞時空特異地執(zhí)行生物學功能起決定作用,是細胞的核心控制系統(tǒng)。因而,基因表達調控系統(tǒng)長期以來都是分子生物學家和生物信息學家們最為關注的研究對象之一。轉錄因子對基因的調控是早期基因表達調控研究的主要內容,學術界已提出了大量預測算法,但由于這些算法往往只是單純地通過基
3、因組序列信息進行預測,其預測結果的理論研究和實驗指導價值都比較有限。隨著基因表達調控研究的不斷深入,人們發(fā)現(xiàn)除轉錄因子之外,真核細胞還擁有其他多種重要的表達調控機制,如非編碼RNA調控、染色質表觀遺傳修飾調控等。如何準確地鑒定各類調控因子與基因之間的調控關系,并明確其相應的調控模式和特征,是該領域存在的重要科學問題。進入21世紀以來,轉錄組學、蛋白質組學和表觀基因組學等高通量實驗技術快速發(fā)展,為基因表達調控研究提供了大量的細胞內分子真實
4、狀態(tài)信息,同時也對生物信息學家的數據分析和挖掘能力提出了挑戰(zhàn)。上述問題是基因表達調控研究領域亟待解決的重要問題,也是本文工作的基本出發(fā)點。
本文從兩個角度研究真核基因表達調控系統(tǒng):基于基因序列結構的轉錄調控和基于分子相互作用的表達調控。首先,在基于基因序列結構的轉錄調控研究方面,我們重點關注一種基于序列的基因轉錄調控結構——雙順反子基因。雙順反子基因類似于原核細胞的操縱子(operon),可以在同一個轉錄本上翻譯兩個不同的蛋白
5、質,因而這兩個蛋白質共享相同的轉錄調控信號。這種基因結構在原核生物中較為常見,但在真核生物中卻僅有一些個例被發(fā)現(xiàn)。作為一種有趣的基因調控組織方式,雙順反子在真核生物基因組中出現(xiàn)頻率尚不清楚,且其結構與功能產物之間的是否存在一定關系也不得而知。為此,我們基于雙順反子基因的結構性特點,采用比較基因組學和機器學習的研究方法,在人類全基因組范圍內對雙順反子基因進行了準確預測,在人類基因組中預測到30個保守的雙順反子基因,為準確估計該類基因結構在
6、哺乳動物中的出現(xiàn)頻率提供了參考數據。在此基礎上,我們根據蛋白質結構域信息構建了雙順反子的蛋白質產物間的相互作用網絡,并通過平均網絡距離算法發(fā)現(xiàn)了同一個雙順反子基因所表達的蛋白質之間傾向于具有直接的相互作用,因而可能參與相同的通路或執(zhí)行相關的生物學功能。這一結論從基因功能產物水平解釋了雙順反子基因在真核生物中保守存在的原因——盡管在基因中同時維持兩個開放閱讀框會承受更大的進化壓力,然而如果能夠使兩個在功能上相關或是有相互作用的蛋白質感受相
7、同的調控信號,則雙順反子的基因結構不失為一種高效的基因表達調控機制。
各類調控因子對基因的表達調控是真核細胞中更普遍的調控方式,主要通過與基因的復雜相互作用最終實現(xiàn)了細胞對基因時空特異表達的精確控制。因此,本文進一步針對調控因子和基因之間的調控關系進行深入研究和闡述。真核細胞在基因表達過程中的多個水平都存在調控機制,主要包括轉錄水平、RNA剪接水平、mRNA穩(wěn)定性水平、翻譯水平和翻譯后水平等的調控。本文主要從轉錄水平、mRNA
8、穩(wěn)定性水平兩個層面對基因表達調控系統(tǒng)進行研究。
在mRNA穩(wěn)定性水平的調控層面,本文重點關注一類具有重要生物調控作用的非編碼RNA——microRNA。我們通過對microRNA分子濃度與基因mRNA豐度之間的定量關系進行統(tǒng)計建模,研究microRNA與其靶基因之間的復雜調控關系。與其它已知方法相比,我們所構建的Lasso回歸模型,可以更準確地發(fā)現(xiàn)microRNA與基因之間的調控關系。在該模型的基礎上,利用前列腺癌臨床樣本的表
9、達譜數據,構建了前列腺癌發(fā)生和轉移兩個不同時期的microRNA-gene調控網絡。通過對這兩個調控網絡的分析和比較,我們發(fā)現(xiàn)網絡中存在多個模塊及關鍵的microRNA節(jié)點,文獻分析顯示這些模塊與前列腺癌的發(fā)生和轉移過程密切相關。本研究不但發(fā)展了利用臨床表達譜數據準確構建microRNA-gene調控網絡的有效方法,而且揭示了microRNA調控網絡的模塊化特征。同時,本研究也證明了多元統(tǒng)計模型在高通量組學數據挖掘中的重要價值。
10、 在基因轉錄水平的調控層面,我們重點關注近幾年正在興起的表觀遺傳調控對基因表達的影響。在此方面,我們首先發(fā)展了利用表觀基因組學數據鑒定DNA調控元件的新方法——DELTA,從隨機變量概率分布理論出發(fā),系統(tǒng)考慮了DNA調控元件周圍各類表觀遺傳修飾的分布形狀特征,并利用支持向量機對DNA調控元件進行鑒定。在多個實際數據中的測試表明DELTA方法的鑒定準確性相比其它已知方法有顯著提高。此外,我們還對啟動子區(qū)組蛋白修飾與其所在基因之間的復雜調
11、控關系進行定量研究,通過Lasso回歸模型證明根據啟動子區(qū)組蛋白修飾豐度可以準確地預測基因在多個細胞系中表達水平的變化,提示了組蛋白修飾在維持細胞系身份(identity)中的重要作用。同時,通過構建組蛋白修飾的基因調控網絡,我們發(fā)現(xiàn)細胞系特異基因通常被多個組蛋白修飾所調控,說明組蛋白修飾是細胞系特異基因復雜表達譜的重要來源。
由于準確地鑒定調控因子和靶基因之間的相互作用關系是系統(tǒng)研究基因表達調控的前提和基礎,因此,本文在方法
12、學上也進行了重要探索,主要包括利用Lasso多元線性回歸模型預測microRNA與靶基因之間的調控關系、利用隨機變量概率分布理論和支持向量機預測DNA調控元件以及利用Lasso多元線性回歸模型鑒定組蛋白修飾與基因之間的調控關系。這些方法在實際數據測試中的表現(xiàn)大都優(yōu)于其他已知算法,而且統(tǒng)計模型的實際預測效果主要取決于數學模型與真實生物過程之間的耦合程度,而非單純依賴于算法的復雜度。此外,我們在研究中還廣泛使用了復雜網絡的構建和分析方法,主
13、要包括雙順反子基因的蛋白質結構域相互作用網絡、microRNA與靶基因之間的調控網絡和組蛋白修飾與靶基因之間的調控網絡。這些網絡分析方法是發(fā)掘基因表達調控復雜系統(tǒng)背后內在運行規(guī)律的有力手段。
基因表達調控是一個復雜的生物學過程,生物分子網絡層次的研究有助于從系統(tǒng)水平理解其運行機制,揭示網絡拓撲結構與生物功能之間的內在關系,是研究復雜生物系統(tǒng)的重要方法。在此基礎上,我們將在以后的研究中考慮整合多種類型的分子網絡對生物系統(tǒng)進行模擬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 真核基因表達調控
- 真核生物CpG序列甲基化對基因表達調控的影響的研究.pdf
- 基于短時序基因表達數據的動態(tài)調控網絡建模方法研究.pdf
- 48227.真核生物基因結構預測方法研究
- 真核生物基因結構
- 生物基因表達數據分析與建模方法研究.pdf
- 25073.真核生物相鄰基因共表達機制的研究
- 大菱鲆基因克隆及真核表達研究.pdf
- 基于混合核函數的間歇過程統(tǒng)計建模和監(jiān)測方法研究.pdf
- 真核生物基因組結構自動注釋系統(tǒng)研究.pdf
- 真核生物基因組中雙向轉錄基因對的系統(tǒng)研究.pdf
- 凋亡素基因原核及真核表達載體構建研究.pdf
- 克隆原核及真核生物耐鹽相關基因研究.pdf
- 新城疫病毒F基因在真核及原核表達系統(tǒng)中的表達.pdf
- 原核表達系統(tǒng)的真核化及其在基因免疫中的應用.pdf
- 基因表達調控網絡的構建方法研究.pdf
- 油茶PAL基因的全長克隆及其在原核和真核生物中的表達.pdf
- 基于核的多元統(tǒng)計回歸方法研究.pdf
- 豬Rspo3基因的原核及真核表達研究.pdf
- 3個水稻Osvdac基因的原核和真核表達研究.pdf
評論
0/150
提交評論