基因組序列特征研究及順式調(diào)控元件保守性分析.pdf_第1頁
已閱讀1頁,還剩108頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、生物學(xué)與信息科學(xué)是當(dāng)今世界上發(fā)展最迅速、影響最大的兩門科學(xué)。而這兩門科學(xué)的交叉融合形成了廣義的生物信息學(xué),正以嶄新的理念吸引著科學(xué)家的注意。近幾年借助信息技術(shù)的優(yōu)勢,測序平臺得到快速發(fā)展,越來越多的生物基因組數(shù)據(jù)被公布出來,反過來又為生物信息學(xué)提出了新的挑戰(zhàn)。如何快速而有效的分析這些數(shù)據(jù),正成為生物信息學(xué)的一個重要研究方向。 基因組序列分析是基因組學(xué)的一個重要組成部分和研究領(lǐng)域。在本研究中,我們從信息論的角度,將基因組序列視作遺

2、傳信息流,提出了一種新的序列分析特征-BBC(Base-Base Correlation),證明該特征即反映了基因組信息組織的結(jié)構(gòu)規(guī)律,也是一種基因組標(signature)。經(jīng)過BBC特征的計算,一條核酸序列轉(zhuǎn)化成其對應(yīng)的一個16維特征向量,從而將不同基因組的序列比較,轉(zhuǎn)化為其對應(yīng)的多維特征向量的數(shù)學(xué)分析。同時BBC特征法作為一種無比對(alignment-free)法,可以很好的適用于大規(guī)?;蚪M序列比較和序列搜索。BBC特征法對于

3、一條核酸序列,不論其長度是多少,都可將其轉(zhuǎn)化為一個16維的特征向量,這其實是對不同規(guī)模的基因組序列的歸一化和標準化。因此,BBC特征法可以快速而有效的對基因組序列進行比較分析。 真核生物尤其是人類基因組中包含大量的非編碼序列。這些非編碼序列包括內(nèi)含子、基因上游區(qū)、基因下游區(qū)以及基因間區(qū)。我們首先利用BBC特征,并結(jié)合核酸單詞頻率,二聯(lián)核苷酸相對豐度分析了人類基因組中的基因上游區(qū)、基因下游區(qū)、外顯子、內(nèi)含子以及基因間區(qū),將序列轉(zhuǎn)化

4、成對應(yīng)的特征向量。在特征分析的基礎(chǔ)上,我們采用判別分析對基因組中不同的功能區(qū)域進行判別分類。我們的研究發(fā)現(xiàn),人類基因組中不同的功能區(qū)域存在不同的組成特征。我們的結(jié)果表明:對于人類基因組中編碼蛋白質(zhì)的外顯子,判別準確率達到94%,而對于基因中不編碼的內(nèi)含子,判別準確率達到86%。 伴隨著測序技術(shù)的迅速發(fā)展,全基因組數(shù)據(jù)的快速增長,對遺傳進化領(lǐng)域也提出了新的挑戰(zhàn)?;谌蚪M的系統(tǒng)發(fā)生分析可有效避免基于單一基因或片段的系統(tǒng)發(fā)生分析產(chǎn)

5、生的偏向。但基于全基因組序列的比對遭遇到理論和計算上的瓶頸。我們采用BBC特征代替?zhèn)鹘y(tǒng)的多序列比對,構(gòu)建系統(tǒng)發(fā)生樹,提出了一套基于BBC特征的全基因組系統(tǒng)發(fā)生學(xué)分析方法。首先,我們將這套方法應(yīng)用于存在爭議的戊肝病毒分型。我們的分析表明,基于BBC特征的全基因組系統(tǒng)發(fā)生學(xué)分析方法,戊肝病毒被分為四個型和若干亞型,不同型的戊肝病毒具有不同的地理分布。這和序列比對的方法以及目前大部分的研究結(jié)果相一致,但基于BBC特征的系統(tǒng)發(fā)生學(xué)分析方法卻明顯

6、提高了分析效率,將原先需要幾天才能完成的工作縮短為幾分鐘。另外,我們將這套算法應(yīng)用于冠狀病毒的進化研究中。從基于BBC特征構(gòu)建的進化樹上,我們可以看到冠狀病毒主要分為四個大的分支,SARS自成一分支,且遠離其它冠狀病毒。我們進一步從基因組信息結(jié)構(gòu)角度證明了SARS屬于一種新型的冠狀病毒。同時,我們也確定了在SARS之后新發(fā)現(xiàn)的兩株冠狀病毒(NL63和HKU1)所屬分支。 生物信息學(xué)的另一個重要應(yīng)用是借助各種算法和分析工具,關(guān)注對

7、人類疾病相關(guān)問題的分析。另外,生命科學(xué)已進入功能基因組時代,影響基因表達調(diào)控的調(diào)控元件的研究已成為一個重要的研究方向。博士期間,我被國家公派選拔前往美國哈佛大學(xué)進行為期一年的學(xué)習(xí)和研究。在這期間,作為ENCODE項目的參與者,我們借助哈佛大學(xué)及其附屬醫(yī)院在乳腺癌研究方面的優(yōu)勢,應(yīng)用功能基因組中的高通量檢測技術(shù)ChIP-chip來分析乳腺癌中的重要基因雌激素受體(Estrogen Receptor, ER)及先鋒轉(zhuǎn)錄因子FoxA1在全基因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論