面向組學大數(shù)據(jù)的生物信息學研究.pdf_第1頁
已閱讀1頁,還剩122頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著DNA測序、質(zhì)譜測序等高通量技術(shù)的快速發(fā)展,生命科學領(lǐng)域進入了以海量多元組學數(shù)據(jù)為特征的大數(shù)據(jù)時代。組學大數(shù)據(jù)給生命科學研究帶來了前所未有的機遇,在研究基因功能、疾病機制、精準醫(yī)療等方面具有重要意義。面向組學大數(shù)據(jù)的生物信息學研究,有助于快速有效地挖掘組學大數(shù)據(jù)中蘊含的生物學知識。大數(shù)據(jù)具有規(guī)模性、多樣性、高速性等三個特征,給傳統(tǒng)生物信息學帶來了新的挑戰(zhàn)。在數(shù)據(jù)計算方面,亟需解決中小實驗室對計算資源的彈性需求;在數(shù)據(jù)分析方面,亟需多

2、組學整合分析體系解決生物學問題。缺乏相應的生物信息學工具是大數(shù)據(jù)時代生命科學領(lǐng)域面臨的主要瓶頸。本論文主要目的即在于使用數(shù)據(jù)計算技術(shù)和數(shù)據(jù)分析技術(shù)解決組學大數(shù)據(jù)分析中存在的上述問題。
  在數(shù)據(jù)計算技術(shù)研究方面,本文重點關(guān)注云計算技術(shù)解決若干蛋白質(zhì)組大數(shù)據(jù)問題。亞馬遜網(wǎng)絡服務(AWS,Amazon Web Service)采用現(xiàn)收現(xiàn)付(pay asyou go)的計費模式,提供彈性計算云(EC2,Elastic Compute C

3、loud)和簡單存儲服務(S3,Simple Storage Service)等多種云服務,使得用戶通過互聯(lián)網(wǎng)即可按需獲取計算和存儲資源,可有效解決組學大數(shù)據(jù)對計算資源的彈性需求。MapReduce框架將任務的處理過程劃分成Map和Reduce兩個階段:Map階段將輸入數(shù)據(jù)切割成數(shù)據(jù)分塊,以鍵值對的形式分配到計算節(jié)點上的Map函數(shù)并行分析處理,Map函數(shù)的輸出同樣以鍵值對的形式保存在各自的計算節(jié)點上;Reduce階段負責將所有的中間結(jié)果

4、根據(jù)鍵值進行合并,然后生成最終結(jié)果。MapReduce框架簡化了分布式計算的編程模型。針對海量串聯(lián)質(zhì)譜數(shù)據(jù)帶來的計算復雜度問題,本文使用云計算技術(shù)解決鑒定新肽段、單氨基酸變異肽段以及外顯子跳躍剪接肽段等基于串聯(lián)質(zhì)譜的蛋白質(zhì)組大數(shù)據(jù)問題。本文采用串聯(lián)質(zhì)譜數(shù)據(jù)結(jié)合蛋白質(zhì)基因組學的方法,構(gòu)建了全基因組六框翻譯氨基酸的序列數(shù)據(jù)庫、錯義突變的氨基酸序列數(shù)據(jù)庫以及外顯子跳躍剪接的氨基酸序列數(shù)據(jù)庫,使用基于 MapReduce框架的數(shù)據(jù)庫搜索算法加快

5、基于串聯(lián)質(zhì)譜的肽段鑒定過程,使用Target-Decoy搜索策略對肽段鑒定結(jié)果進行質(zhì)量控制。本文構(gòu)建了基于云計算技術(shù)的蛋白質(zhì)組大數(shù)據(jù)分析和呈現(xiàn)平臺 CAPER3。CAPER3使用 AWS和MapReduce框架實現(xiàn)了數(shù)據(jù)處理流程的可擴展性。CAPER3具有兩個主要組件,分別是遠程工作包(RWP,Remote Work Package)和本地工作包(LWP,Local Work Package)。RWP部署在AWS上,處理運行在云端的任務

6、。LWP是基于Java的圖形客戶端,具有數(shù)據(jù)傳輸、任務配置、進度監(jiān)控以及結(jié)果展示等功能。LWP使得用戶不需要專業(yè)知識即可在處理數(shù)據(jù)時獲得 AWS提供的彈性計算能力。CAPER3在鑒定新肽段、已知單氨基酸變異肽段、樣本特異的單氨基酸變異肽段、以及外顯子跳躍剪接肽段等蛋白質(zhì)組大數(shù)據(jù)問題上,加快了數(shù)據(jù)處理速度,并且從蛋白質(zhì)層次上提供基因或者變異的證據(jù),可為未來研究提供重要線索。CAERP3的源代碼可通過https://github.com/y

7、s-amms/CaperCloud獲取,使用說明詳見http://prodigy.bprc.ac.cn/caper3。
  在數(shù)據(jù)分析技術(shù)研究方面,本文重點關(guān)注建立基于生物學網(wǎng)絡的多組學整合分析體系。單一組學數(shù)據(jù)的分析往往具有局限性。高通量測序技術(shù)產(chǎn)生了多平臺的組學數(shù)據(jù),揭示了細胞中分子的靜態(tài)和動態(tài)信息,而細胞中不同分子之間相互通信形成了復雜的生物學網(wǎng)絡??紤]不同組學數(shù)據(jù)之間的關(guān)聯(lián),有利于對候選疾病基因進行篩選和排序。驅(qū)動基因鑒定

8、問題是生物信息學中一個重要的研究領(lǐng)域。本文首先搜集整理了最新的癌癥相關(guān)突變數(shù)據(jù)集,使用特征分析發(fā)現(xiàn)癌癥相關(guān)突變與中性突變在基于PAM250和基于香農(nóng)信息熵的序列特征上存在顯著差異。在生物學網(wǎng)絡層次,本文提出一種通路算法用于解決驅(qū)動基因鑒定問題。基于通路的算法假設(shè)通路上游的驅(qū)動基因經(jīng)信號轉(zhuǎn)導過程導致下游轉(zhuǎn)錄因子過表達,轉(zhuǎn)錄因子過表達導致其靶基因顯著過表達,進而引發(fā)癌癥;而基于蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(PFIN,Protein functiona

9、l interaction network)的算法假設(shè)癌癥驅(qū)動基因的網(wǎng)絡鄰居存在更多差異表達基因。本文研發(fā)了基于生物學網(wǎng)絡的癌癥驅(qū)動基因鑒定工具 Bionexr。Bionexr是一個 R包,由四個功能模塊組成,分別是“數(shù)據(jù)下載與解析”、“基因分析”、“網(wǎng)絡分析”和“可視化”。為了方便獲取 TCGA數(shù)據(jù),“數(shù)據(jù)下載與解析”模塊提供TCGA level-3基因體系突變數(shù)據(jù)和基因表達數(shù)據(jù)的下載,查看下載進度和斷點續(xù)傳功能。對于基因體系突變數(shù)據(jù)

10、,“基因分析”模塊計算突變對基因功能的影響。對于基因表達數(shù)據(jù),“基因分析”模塊計算基因在腫瘤樣本和正常樣本中的表達倍數(shù)變化?!熬W(wǎng)絡分析”模塊集成了基于KEGG通路和基于PFIN的分析算法。對于基于KEGG通路分析流程的鑒定結(jié)果,“可視化”模塊以具有三級層次(分別是突變基因、轉(zhuǎn)錄因子和靶基因)的有向圖呈現(xiàn);對于基于 PFIN分析流程的鑒定結(jié)果,“可視化”模塊以無向圖呈現(xiàn)。四個模塊既相互獨立,又可以串聯(lián)在一起,構(gòu)成鑒定癌癥驅(qū)動基因的數(shù)據(jù)分析

11、流程?!盎蚍治觥焙汀熬W(wǎng)絡分析”組成的分析流程使得 Bionexr在鑒定癌癥驅(qū)動基因時既考察核酸層次的信息,又考察生物學網(wǎng)絡層次的信息。使用Bionexr對TCGA中的多種癌癥,如頭和頸部鱗狀細胞癌、乳腺癌、腎癌和子宮內(nèi)膜癌,進行數(shù)據(jù)分析,發(fā)現(xiàn)了潛在的癌癥驅(qū)動基因或通路,分析結(jié)果提供豐富的信息。Bionexr的源代碼及使用說明可通過https://github.com/ys-amms/bionexr獲取。
  組學大數(shù)據(jù)的知識挖掘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論