生物信息學有關的數據結構與智能計算問題.pdf_第1頁
已閱讀1頁,還剩79頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著生物技術的發(fā)展,積累了越來越多的生物數據,對生物數據的存儲分析形成了新的學科:生物信息學。生物信息學的發(fā)展是多種學科交叉的結果,但是另外一方面對生物數據的分析,新算法的開發(fā)對數學和計算機科學的發(fā)展也起到了一定的推動作用。本文就是對這方面的初步探討。本文分三個部分,第一部分,從生物信息學中的生物序列的比對出發(fā),將序列的突變推廣到信息科學和計算科學中的廣義差錯,并且給出其應用:廣義糾錯碼和容錯復雜度。第二部分,使用模糊神經網絡算法分析基

2、因識別的因素問題,第三部分,給出一種新的聚類算法EMR算法,并將其應用于蛋白質的聚類中。 在數據處理問題中,差錯的類型有多種,除了符號的變更外還有數據的丟失與插入等情況發(fā)生,我們統稱這種差錯為廣義差錯或突變誤差.在計算機,信息論與生物信息學領域中,對這種廣義差錯都有研究,并分別對這種差錯給以度量的定義,如在計算機與信息論領域稱這種廣義差錯的度量為Levenshtein距離,編輯距離(Editedistance)或Evolutio

3、nary距離等,這些距離有的是等價的,也有是不等價的.在生物信息學中,為尋找序列的突變誤差的發(fā)生的狀況有一系列的比對(Alignment)計算方法與研究,由此可產生Alignment距離與Alignment空間,Alignment距離實際上就是Evolutionary距離.本文首先概述這幾種距離的定義與相互關系,為研究廣義差錯的數據結構,我們引進它們的代數結構理論,并由此對Alignment距離滿足三角形不等式給出它的嚴格證明,本文還討

4、論了最小罰分比對與最大得分比對的關系問題與廣義糾錯碼的構造問題,給出了最優(yōu)比對的不唯一性的例子,最小罰分比對與最大得分比對的不等價性與等價條件。在碼長較小時利用Alignment算法可得到一系列最優(yōu)的廣義糾錯碼。 復雜度理論是計算機科學與密碼學的重要基礎,所謂容錯復雜度就是允許數據具有差錯時的復雜度,近年來在密碼學研究中受到重視.本文對一般廣義差錯(符號改變、插入與刪除),給出了它們一般的非線性容錯復雜度的定義、計算與應用。

5、 在真核生物外顯子與內含子的識別中,由DNA序列可以產生多種結構的特征參數,如氨基酸的頻率分布,Z-坐標等,我們稱這些特征參數為外顯子與內含子的識別因素.本文的目的就是分析這些因素,及它們的組合在基因識別中的作用.為此目的,我們采用了人工神經網絡理論中的模糊感知器模型,建立相應的特征參數集與神經網絡訓練與識別模型,并以Burset-Guigo訓練集為訓練數據,以Hmr,H178,果蠅和擬南芥等數據集構成混合檢驗集,選擇DNA序列的氨

6、基酸的頻率分布,Z-坐標等為該序列的特征參數,并對這些參數及它們的不同組合作學習訓練與識別的因素分析,分別在單因素,低因素(因素數為2,3,4,5),高因素(因素數大于5)時,得到這些因素在不同組合下識別的精度指標,由此可以看到不同因素組合在基因識別中的作用. 聚類分析是數據發(fā)掘理論與統計學中的一個重要領域.常見的聚類分析類型很多,如系統聚類,中心聚類等,這些數據的聚類一般是以它們的距離為基礎,把距離較近的數據歸結為同一個類,本

7、文提出的分布族的聚類分析問題,是指所討論的數據是由一大批數據序列組成,由每個序列可確定它的分布結構(如頻率分布,二重數據的聯合頻率分布等),由此就可以產生一分布族,為對分布族進行聚類分析,在本文中我們以Kullback-Leibler熵為不同分布的差異性度量,給出了相應的優(yōu)化聚類算法,這種算法與EM算法或K-mean算法思路相似,但又增加一個新的遞歸運算步驟,所以我們稱之為EMR(Expectation-Maximization-Rec

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論