![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-2/24/12/908b2c2b-81c3-4b8f-8786-0d5139358d49/908b2c2b-81c3-4b8f-8786-0d5139358d49pic.jpg)
![基于高通量RNa-seq數(shù)據(jù)轉(zhuǎn)錄組拼接的算法研究.pdf_第1頁(yè)](https://static.zsdocx.com/FlexPaper/FileRoot/2019-2/24/12/908b2c2b-81c3-4b8f-8786-0d5139358d49/908b2c2b-81c3-4b8f-8786-0d5139358d491.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、當(dāng)今的生物技術(shù)快速發(fā)展,生物學(xué)大數(shù)據(jù)每天以爆炸式的速度增長(zhǎng),這無(wú)疑給生物學(xué)研究和發(fā)展帶來(lái)前所未有的機(jī)遇,然而傳統(tǒng)的生物學(xué)分析方法已經(jīng)無(wú)法處理如此龐大的數(shù)據(jù)。生物信息學(xué),作為一門新興的交叉學(xué)科應(yīng)運(yùn)而生,它將數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué)等結(jié)合起來(lái)研究和解決大數(shù)據(jù)下的生物學(xué)問(wèn)題。其中一個(gè)非?;A(chǔ),重要而又極具挑戰(zhàn)性的問(wèn)題就是序列拼接問(wèn)題,轉(zhuǎn)錄組拼接就是其典型代表。轉(zhuǎn)錄組拼接就是利用RNA-seq等測(cè)序技術(shù)產(chǎn)生的海量測(cè)序片段拼接出實(shí)驗(yàn)組織中所有的表
2、達(dá)轉(zhuǎn)錄本,并估計(jì)出其表達(dá)量。本文的研究主要集中在如何利用組合優(yōu)化方法來(lái)解決轉(zhuǎn)錄組拼接問(wèn)題,這對(duì)于新物種研究,以及與異常轉(zhuǎn)錄相關(guān)的人類復(fù)雜疾病研究等相關(guān)問(wèn)題意義重大。
第二代RNA-seq測(cè)序技術(shù)的快發(fā)展和廣泛應(yīng)用給轉(zhuǎn)錄組拼接工作帶來(lái)無(wú)限機(jī)遇的同時(shí),也伴隨著在計(jì)算上前所未有的挑戰(zhàn)。目前的拼接算法根據(jù)計(jì)算策略可大致分為兩類:
1)基于參考基因組的轉(zhuǎn)錄組拼接算法;
2)從頭轉(zhuǎn)錄組拼接算法。當(dāng)有高質(zhì)量的參考基因組存
3、在時(shí),可先將測(cè)序片段回貼到參考基因組上,之后,根據(jù)回貼的結(jié)果對(duì)每個(gè)基因分別進(jìn)行轉(zhuǎn)錄組拼接。在參考基因組不存在,不完整,嚴(yán)重片段化或是在癌組織中大量突變等,從頭轉(zhuǎn)錄組拼接就成為了非常重要的且是唯一的選擇。從頭拼接策略不需要依賴任何參考信息,直接從測(cè)序片段本身出發(fā),重構(gòu)出最終的表達(dá)轉(zhuǎn)錄體序列。無(wú)論是轉(zhuǎn)錄組拼接的何種策略,目前的算法在計(jì)算精度和計(jì)算效率上都存在明顯的缺陷和嚴(yán)重的不足,導(dǎo)致其實(shí)際應(yīng)用效果非常差。因此,兩種策略都亟待開發(fā)出全新的,
4、高質(zhì)量的拼接算法,以準(zhǔn)確重構(gòu)出真核生物組織中的全長(zhǎng)轉(zhuǎn)錄組。
基于上述的考慮,本文設(shè)計(jì)全新的基于參考基因組的轉(zhuǎn)錄組拼接算法TransComb,這個(gè)算法給轉(zhuǎn)錄組拼接提出了全新的設(shè)計(jì)思路,極大的彌補(bǔ)了當(dāng)前算法存在的嚴(yán)重缺陷。經(jīng)過(guò)在模擬數(shù)據(jù)和多組真實(shí)數(shù)據(jù)上的測(cè)試,結(jié)果充分地表明,無(wú)論在模擬數(shù)據(jù)還是真實(shí)數(shù)據(jù)上,本文開發(fā)的拼接算法與其他主流拼接算法比較都展示出明顯的優(yōu)勢(shì):不僅具有更高的靈敏度,而且具有更高的準(zhǔn)確度,對(duì)其他算法普遍存在的假陽(yáng)
5、性高的難題得到了極大程度的解決。而且,在計(jì)算資源消耗方面,TransComb使用的CPU時(shí)間明顯更短且運(yùn)行內(nèi)存更低。經(jīng)過(guò)綜合的測(cè)試表明,TransComb無(wú)論是在計(jì)算精度上還是在計(jì)算效率上都顯著超過(guò)其他拼接算法。
本文的新算法TransComb具有以下幾個(gè)明顯的的創(chuàng)新點(diǎn):
1)新的技術(shù)構(gòu)造出更加準(zhǔn)確的剪接圖。本文設(shè)計(jì)出使用雙端測(cè)序信息來(lái)修復(fù)片段化的外顯子的技術(shù),以及為修復(fù)錯(cuò)誤連接的外顯子而設(shè)計(jì)出的窗口滑動(dòng)技術(shù)。
6、> 2)梳圖模型和雙端測(cè)序信息解決轉(zhuǎn)錄組拼接的核心難題。轉(zhuǎn)錄組拼接的核心難題就是外顯子兩側(cè)進(jìn)出邊連接的不確定性,這也是目前幾乎所有的拼接軟件共存的一大漏洞。本文開發(fā)的梳圖模型將測(cè)序覆蓋度信息和雙端測(cè)序信息合理的整合在一起,巧妙的解決了拼接的核心難題。
3)全新的圖模型:加權(quán)節(jié)點(diǎn)圖。打破基于RNA-seq的轉(zhuǎn)錄組拼接算法依賴傳統(tǒng)重疊圖和剪接圖的現(xiàn)狀,我們的算法是在加權(quán)節(jié)點(diǎn)圖的基礎(chǔ)上完成拼接,節(jié)點(diǎn)圖中包含了更多有效信息,因而克服
7、了現(xiàn)有算法的若干缺陷。
4)基于節(jié)點(diǎn)圖設(shè)計(jì)的新的路的延伸策略。該策略在延伸過(guò)程中每一步都有節(jié)點(diǎn)圖上邊的權(quán)重作為依據(jù),使得每一條延伸出的路都以很大概率代表一個(gè)表達(dá)的轉(zhuǎn)錄體,無(wú)論該轉(zhuǎn)錄體是高表達(dá)還是低表達(dá)。
盡管TransComb在拼接方面表現(xiàn)出了明顯的優(yōu)勢(shì),但是其仍然存在不足之處。比如:
1)TransComb在設(shè)計(jì)過(guò)程中沒(méi)有實(shí)現(xiàn)并行化,因此,在程序設(shè)計(jì)方面還有待進(jìn)一步提升。
2)表達(dá)量估計(jì)算法設(shè)計(jì)
8、沒(méi)有將測(cè)序偏好等信息考慮進(jìn)去,因此,在某些數(shù)據(jù)上的表達(dá)量估計(jì)中TransComb與其他主流算法效果接近,沒(méi)有表現(xiàn)出明顯的優(yōu)勢(shì),這個(gè)過(guò)程還有待于進(jìn)一步提高。
最后,本文還將簡(jiǎn)要介紹我們開發(fā)的另一個(gè)轉(zhuǎn)錄組拼接算法BinPacker,該算法是不依賴參考信息的從頭拼接算法。BinPacker把轉(zhuǎn)錄組拼接問(wèn)題重新模型化為追蹤一系列物品的軌跡模型,每個(gè)物品代表一種轉(zhuǎn)錄體,物品的尺寸表示該轉(zhuǎn)錄體的覆蓋度。這個(gè)方法能夠巧妙地將覆蓋度信息合理的
9、利用在拼接過(guò)程中,另外,BinPacker具備如下兩個(gè)獨(dú)有的特征:
1)只有剪接圖中的可變剪接事件作為拼接過(guò)程的考慮對(duì)象;
2)拼接大量雜亂無(wú)章的測(cè)序片段的過(guò)程被形象的模型化為梳理剪接圖中的邊的過(guò)程。最后,我們同時(shí)在模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)上測(cè)試BinPacker,測(cè)試結(jié)果顯示,BinPacker在各種數(shù)據(jù)類型下均明顯超過(guò)幾乎所有現(xiàn)存的從頭拼接軟件,包括最主流的軟件Trinity,在某些數(shù)據(jù)下,BinPacker的表現(xiàn)甚至
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 水貂被毛色素沉積機(jī)理及基于高通量RNA-seq皮膚轉(zhuǎn)錄組注釋研究.pdf
- 改進(jìn)的RNA-Seq數(shù)據(jù)轉(zhuǎn)錄組表達(dá)分析研究.pdf
- 高通量RNA-seq測(cè)序數(shù)據(jù)的基因表達(dá)水平分析研究.pdf
- 基于RNA-seq技術(shù)的宮頸鱗癌轉(zhuǎn)錄組學(xué)研究.pdf
- 基于RNA-seq的油菜抗旱基因的高通量克隆和功能分析.pdf
- 基于RNA-seq技術(shù)對(duì)猬迭宮絳蟲轉(zhuǎn)錄組的研究.pdf
- 基于高通量RNA-seq數(shù)據(jù)的水稻亞種特異性編碼基因鑒定及長(zhǎng)非編碼RNA識(shí)別.pdf
- 大芻草苗期轉(zhuǎn)錄組RNA-Seq數(shù)據(jù)的De novo組裝和分析.pdf
- 基于RNA-seq的絨山羊皮膚行囊轉(zhuǎn)錄組數(shù)據(jù)組裝和分析.pdf
- 基于RNa-Seq對(duì)牦牛和犏牛睪丸轉(zhuǎn)錄組的比較分析.pdf
- 基于高通量轉(zhuǎn)錄組測(cè)序的序列比對(duì)算法研究.pdf
- 基于RNA-Seq技術(shù)的人轉(zhuǎn)錄組分析研究.pdf
- 基于概率模型的RNA-Seq數(shù)據(jù)分析.pdf
- 基于RNA測(cè)序技術(shù)的轉(zhuǎn)錄組從頭拼接算法研究.pdf
- 基于RNA-Seq技術(shù)的紅鰭東方鲀鰓和鰾轉(zhuǎn)錄組的初步研究.pdf
- 基于平滑LDA的RNA-Seq數(shù)據(jù)分析研究.pdf
- 基于腫瘤RNA-Seq數(shù)據(jù)識(shí)別融合基因的方法研究.pdf
- 基于高通量測(cè)序半夏珠芽轉(zhuǎn)錄組研究.pdf
- 基于RNA-Seq技術(shù)的膠質(zhì)類芽孢桿菌KNP414轉(zhuǎn)錄組學(xué)研究.pdf
- 基于RNA-Seq技術(shù)的栽培和野生番茄轉(zhuǎn)錄組分析.pdf
評(píng)論
0/150
提交評(píng)論