免費考博網&免費考博論壇：為您提供最新最權威的考博資訊!中國最大最權威的考博網站!
專注考博19年，考博第一品牌！幫助100萬考博人輕松上岸！

我的快捷通道

加入VIP 上傳考博資料您的流量增加流量考博報班每日簽到

上一主題下一主題

主題 : 2009年全國優秀博士論文:數據挖掘的建模及在生物信息學中的應用研究

復制鏈接 ┊瀏覽器收藏┊打印

nanafly

級別: 總版主

顯示用戶信息

樓主發表于: 2009-10-10

倒序閱讀 ┊ 只看樓主 ┊ 小中大

2009年全國優秀博士論文:數據挖掘的建模及在生物信息學中的應用研究

作者姓名：沈紅斌
　　論文題目：數據挖掘的建模及在生物信息學中的應用研究
　　作者簡介：沈紅斌，男，1979年8月出生，2004年4月師從于上海交通大學楊杰教授，于2007年3月獲博士學位。

　　中文摘要
　　隨著科學技術的飛速發展，經濟和社會都取得了極大的進步，與此同時，在各個領域產生了大量的數據，如何從這些數據中發現有價值的知識及規律，成為目前理論與實踐研究的熱點與難點。與此同時，生命科學技術的快速發展也產生了大量的生物數據，單純地利用傳統的生物實驗方法將很難快速且全面的處理如此多生物數據，從而必然制約了生命科學及制藥工程的快速發展。在這種情況下，生物信息學應運而生。生物信息學是一門生物學與信息科學交叉而形成的年輕學科，旨在運用信息學、物理學、化學、數學、計算機科學、系統科學的理論和方法來研究生物系統和生物過程的信息量和信息流，在已有數據的基礎之上發現相應的規律和知識并進而用來進一步指導與解釋生物實驗與生命現象，加速對生命本質特征的認識。本論文在數據挖掘及生物信息學理論與方法上進行了深入的研究與探索。
　　聚類分析是數據挖掘研究中的重要內容，成為各學科研究中的重要工具。但在現實生活中，常常遇到高維數據集的處理且在大多數情況下，這些數據集對于各個聚類存在屬性不平衡的現象。根據這一點，本文創新性提出了在核特征空間中的屬性加權核聚類算法，實驗表明新聚類算法能很好地反映各屬性對于各個聚類的重要性，因而取得了比傳統聚類算法更好的結果。傳統聚類算法的應用對象往往局限于單一獨立的數據集，但在很多情況下一個數據集要和其他數據集相互發生關聯。基于信息理論，本文首先提出了一合作聚類算法，反映了數據集間的相互作用關系，結果表明聚類結果將受到其他數據集的影響。我們同時也從理論上證明了這兩個算法的收斂性。
　　蛋白折疊是比蛋白的三維結構更深層次的知識信息，因而是更加困難的研究課題，同時，從蛋白序列預測蛋白折疊類型能夠進一步為預測該蛋白的三維結構提供極有價值的信息。本文從生物系統的復雜性角度出發，創新性地提出了基于集成分類器框架的蛋白折疊預測系統，從多個生物特征角度對序列信息源及特征進行融合決策預測，結果證明所得到的集成預測系統是非常有效的，把蛋白折疊的預測精度提高了6-21%。
　　蛋白的三維結構是標識所有蛋白折疊類型的重要屬性。即使蛋白之間所包含的序列信息或者其功能特性有所不同，其所包含的折疊類型或者結構類型也可能是相似的。鑒于此，Levitt和Chothia把蛋白分成以下的4種結構類型：(1) all- ，(2) all- ，(3) 和 (4) 。從蛋白序列出發，預測蛋白的結構類型是蛋白質科學中的重要研究課題。本文首次有機地將有監督聚類算法與模糊系統學習算法結合在一起進行蛋白三級結構預測，提高了蛋白結構預測的精度，該工作第一次將模糊系統學習方法引入到蛋白結構預測中，為生物信息學進一步的研究開辟了新的思路。
　　膜蛋白是一種非常重要的蛋白，占人體蛋白總數的約1/3，但目前已經知道的膜蛋白結構只占1%左右。膜蛋白的主要功能之一是離子通道，我們的認知、感覺、情緒等的產生都是由于這些通道在不停地開關，所以，膜蛋白對人體的重要性是不言而喻的，如phospholamban離子通道蛋白對心臟功能有著重要作用。絕大多數疾病都是由于某一特定的膜蛋白不足引起的，現在市場上銷售的80%的藥物都集中在膜蛋白上。因此，研究膜蛋白的序列特征以及其三維結構對于了解膜蛋白的功能起著重要的作用，已經成為結構生物學中的研究熱點，但同時由于膜蛋白不溶于水的特性也使得生物實驗方法求解膜蛋白結構非常困難，這就為我們利用計算方法從序列預測膜蛋白拓撲結構提出了挑戰及嶄新的課題。本文創新性地提出了基于集成分類器模型及蛋白序列進化信息的新穎PsePSSM離散化模型，提出了融合序列功能域特征及PsePSSM特征的蛋白屬性預測框架，并成功應用于膜蛋白拓撲結構預測及酶蛋白功能家族預測，新預測模型在8類膜蛋白的拓撲結構上準確率達到了85%以上，比傳統方法的預測精度提高了約30%。
　　蛋白在細胞中的位置信息與其功能特性是密切相關的，甚至即使我們知道了一個蛋白的功能特性，了解該蛋白在細胞中行使功能的位置也是非常重要的。例如，細胞核包含了細胞的遺傳因子DNA，控制著細胞的整個活動過程等。但隨著人類基因項目的成功實施，人類所發現的新蛋白數目呈現指數增長的趨勢，根據國際蛋白數據庫UniProtKB/Swiss-Prot的統計，2006年6月份的蛋白數目達到了223,100，比1986年增加了56倍多。面對如此快的蛋白合成速度，單純依靠生物實驗方法測定蛋白的亞細胞位置是幾乎不可能完成的任務，迫切希望能通過生物信息學的研究在已經掌握的相關知識的基礎上提出預測分析新蛋白的亞細胞位置，為加快生命科學研究及制藥工程服務。本文首次在國際上提出并探討了a) 蛋白在細胞中多個位置出現的預測模型；b) 蛋白在細胞核中出現的位置的預測模型，即 “亞亞細胞位置預測模型”，獲得國際學術界的認可；c) 本文首次將亞細胞定位的預測研究推廣到覆蓋22個亞細胞位置，極大地提高了預測模型的實用價值，并提出了融合蛋白序列高層基因本體特征及序列自身氨基酸特征的蛋白亞細胞位置預測方法，提出了面向不同物種的亞細胞定位的預測新思路；結果表明新算法方法在嚴格的數據集上獲得了比傳統算法方法高出35%以上的預測精度，所開發的工具被廣泛應用于生物實驗中。
　　為了推廣理論研究成果的應用，我們在科學研究中還建立了15個在線的生物信息學網站平臺：http://www.csbio.sjtu.edu.cn/bioinf/，全世界的相關領域生物學家只要通過互聯網提交生物數據，就能得到網站即時運算返回的結果。經不完全統計，網站已被使用了1,100,000余次，極大地推動了生物信息學理論研究的應用成果化。國際上許多生物學家在發表的學術論文中應用了經我們所開發的生物信息學應用平臺分析運算得到的相關數據來驗證他們的實驗結果，獲得了良好的評價。