基本信息
- 項目名稱:
- 一種基于混合分形算法的預(yù)測耐熱核酸序列新方法
- 小類:
- 生命科學(xué)
- 簡介:
- 對功能未知的基因的預(yù)測具有很強的實際應(yīng)用價值和現(xiàn)實意義。 在后基因組時代,許多生物的基因組被測序。然而從包含基因數(shù)眾多的序列中找到某種特定的基因并不容易。對幾萬個基因序列進行實驗測定耗財費力,并不現(xiàn)實。本作品所提出的方法可以找出具有耐熱性狀的部分基因。大大縮小實驗的工作量和節(jié)省昂貴的實驗資源。 本作品所提出的方法具有很強的推廣能力,不局限于耐熱性狀。也可是抗蟲、抗旱等基因。
- 詳細(xì)介紹:
- 嗜熱微生物的最適生長溫度通常在50-80攝氏度。對于微生物耐熱機制的全面理解是設(shè)計結(jié)構(gòu)穩(wěn)定的蛋白質(zhì)、培育耐熱菌種的重要前提。如何預(yù)測一個功能未知的DNA序列是否具有耐熱性狀是一個長久但是沒有完全得到解決的重要問題。CGR可以分析隱藏在DNA序列圖譜的信息,更重要的是可以可視化的表示出某些未知的序列結(jié)構(gòu),但是目前大部分研究對CGR混沌圖只進行粗略的信息提取。分形維數(shù)是度量復(fù)雜、高度不規(guī)則幾何體的有力工具。本文里,首先用CGR算法將每條DNA序列轉(zhuǎn)化成高維向量,同時通過計算每幅混沌圖的分形維數(shù)彌補只用CGR特征產(chǎn)生的信息損失。然后利用這些特征通過支持向量機進行DNA序列耐熱性狀的預(yù)測。本文一共做了3組實驗:17維向量、65維向量、256維向量。每一組實驗的預(yù)測都做了自檢驗及十折交叉驗證。在十折交叉驗證中,257維向量達(dá)到最優(yōu)結(jié)果。平均預(yù)測準(zhǔn)確率高達(dá)0.9456,其相應(yīng)的MCC值為0.8878。本文通過將這些結(jié)果與沒有加入分形維數(shù)所做實驗的結(jié)果對比表明這種新提出的混合分形算法是一種十分有效地方法。
作品專業(yè)信息
撰寫目的和基本思路
- 目的: 本文對兩種已經(jīng)相對成熟的算法和技術(shù)——CGR和SVM進行創(chuàng)造性的結(jié)合,并且在此基礎(chǔ)上首次應(yīng)用分形幾何提取生物序列的特征。旨在提出一個更有效地對未知基因功能的預(yù)測算法。 基本思路: 1、猜想。2、驗證。3、進一步改進。4、再次驗證。首先通過編寫程序計算分形維數(shù)。預(yù)測的準(zhǔn)確率較(2)中有著明顯的提升,預(yù)測準(zhǔn)確率達(dá)到了0.9456,其相應(yīng)的MCC值達(dá)到了0.8878。
科學(xué)性、先進性及獨特之處
- 科學(xué)性:CGR算法和SVM算法都是理論體系成熟,經(jīng)受住時間考驗的算法,前人從中獲益頗豐。 先進性:CGR算法的提出具有創(chuàng)造性,可有效的,更為重要的是可視的反映出生物序列信息,也是目前生物序列可視化的最主要方法。獨特之處: 1、將這兩種廣泛應(yīng)用的算法進行創(chuàng)造性的結(jié)合是本文的最大亮點和獨特之處。 2、本文利用分形幾何中的分形維數(shù)提取生物序列的CGR混沌圖信息尚屬首次,具有創(chuàng)新性。
應(yīng)用價值和現(xiàn)實意義
- 對功能未知的基因的預(yù)測具有很強的實際應(yīng)用價值和現(xiàn)實意義。 生物的基因組被測序。然而從包含基因數(shù)眾多的序列中找到某種特定的基因并不容易。仍然以耐熱為例,對幾萬個基因序列進行實驗測定耗財費力,并不現(xiàn)實。本作品所提出的方法可以找出最有可能具有耐熱性狀的一部分基因。大大縮小實驗的工作量和節(jié)省昂貴的實驗資源。 本作品所提出的方法具有很強的推廣能力,不局限于耐熱性狀。也可是抗蟲、抗旱等基因。
學(xué)術(shù)論文摘要
- 摘要—嗜熱微生物的最適生長溫度通常在50-80攝氏度。對于微生物耐熱機制的全面理解是設(shè)計結(jié)構(gòu)穩(wěn)定的蛋白質(zhì)、培育耐熱菌種的重要前提。如何預(yù)測一個功能未知的DNA序列是否具有耐熱性狀是一個長久但是沒有完全得到解決的重要問題。CGR可以分析隱藏在DNA序列圖譜的信息,更重要的是可以可視化的表示出某些未知的序列結(jié)構(gòu),但是目前大部分研究對CGR混沌圖只進行粗略的信息提取。分形維數(shù)是度量復(fù)雜、高度不規(guī)則幾何體的有力工具。本文里,首先用CGR算法將每條DNA序列轉(zhuǎn)化成高維向量,同時通過計算每幅混沌圖的分形維數(shù)彌補只用CGR特征產(chǎn)生的信息損失。然后利用這些特征通過支持向量機進行DNA序列耐熱性狀的預(yù)測。本文一共做了3組實驗:17維向量、65維向量、256維向量。每一組實驗的預(yù)測都做了自檢驗及十折交叉驗證。在十折交叉驗證中,257維向量達(dá)到最優(yōu)結(jié)果。平均預(yù)測準(zhǔn)確率高達(dá)0.9456,其相應(yīng)的MCC值為0.8878。本文通過將這些結(jié)果與沒有加入分形維數(shù)所做實驗的結(jié)果對比表明這種新提出的混合分形算法是一種十分有效地方法。 關(guān)鍵詞:嗜熱、嗜溫、CGR、DNA序列、支持向量機、分形維數(shù)
獲獎情況
- 本作品是在前面的工作的基礎(chǔ)上進行算法的改進,通過使用分形幾何的知識提取分形維數(shù)特征來提高對未知基因的預(yù)測能力。文章已經(jīng)投到Journal of theoretical biology(SCI,IF=2.54)。 本作品前期的工作: 1、結(jié)合CGR和SVM兩種主流方法對未知功能的DNA序列的功能進行預(yù)測。論文已在2010年被ICBBE( International Conference on Bioinformatics and Biomedical Engineering, indexed by EI Compendex and ISTP)收錄。 2、將同樣的方法推廣到蛋白質(zhì)序列上。論文被Protein and Peptide Letters(SCI,IF=1.75)收錄。
鑒定結(jié)果
- 該方法對預(yù)測未知基因的功能具有參考價值。富有創(chuàng)造性。
參考文獻(xiàn)
- 本文主要涉及Chaos game representation (CGR)算法和support vector machine (SVM)算法的基本理論依據(jù)和實現(xiàn)流程,以及在世界范圍內(nèi)對生物耐熱基因的識別研究水平現(xiàn)狀,最后通過從權(quán)威數(shù)據(jù)庫NCBI(National Center for Biotechnology Information)采集數(shù)據(jù)進行算法的檢測。 主要參考文獻(xiàn)及網(wǎng)頁: [1] KC. Chou, “Pseudo amino acid composition and its application in Bioinformatics, Proteomics and system biology”, Curr.Prote. 6, 262-274, 2009. [2] V. Vapnik, Statistical Learning Theory, Wiley Interscience, New York, 1998. [3] P. Forterre, “A hot story from comparative genomics: reverse gyrase is the only hyperthermophile-specific protein”, Trends Genet. 18, 236-237, 2002. [4] L. Montanucci, PL.Martelli, P.Fariselli and R.Casadio, “Predicting protein thermostability changes from sequence upon multiple mutations”, Bioinformatics. 24, i190-i195, 2008. [5] HJ. Jeffrey, “ Chaos game representation of gene structure”, Nucleic Acids Res. 18, 2163-2170, 1990. [6]
同類課題研究水平概述
- 耐熱微生物生長的最適溫度(OGT)一般是在50-80攝氏度,有些微生物可在更高的溫度(80-120攝氏度)生長。目前,人們對這種耐熱生物機制并沒有完全的研究清楚,但是有一點被廣為接受的是,基因是決定這些性狀的最初原因。在這個前提下,人們通過各種方法對生物的DNA序列、蛋白質(zhì)序列進行研究,并且取得了豐富的成果。 前人的實驗已經(jīng)得出一些結(jié)論,如有大量實驗結(jié)果表明在耐熱微生物體內(nèi),其DNA序列中的C、G含量要高于一般水平。其中一個原因是C、G中間有三條氫鍵,使得DNA更加穩(wěn)定,可以適應(yīng)更高的溫度。對于蛋白質(zhì)的研究有許多不同的方法,對初級蛋白質(zhì)結(jié)果的研究主要是通過挖掘氨基酸序列信息。對高級結(jié)構(gòu)的蛋白質(zhì)研究主要是通過理化性質(zhì),如發(fā)現(xiàn)鹽橋?qū)τ谏锏牡鞍踪|(zhì)結(jié)果有著重要的作用。 在最近幾年,由于測序技術(shù)的成熟和生物信息學(xué)的蓬勃發(fā)展,人們進行了大量生物的DNA、蛋白質(zhì)測序工作。因此,人們的視線逐漸轉(zhuǎn)向這些隱藏著大量信息的序列并且取得了一定的成果。其中,美國科學(xué)家Montanucci.et al.僅僅用了生物序列信息,通過統(tǒng)計方法中的主成分分析發(fā)現(xiàn)了耐熱生物的基因與不耐熱生物的基因有著巨大的差別。另外,Zhang et al.通過支持向量機(SVM)和其他一些機器學(xué)習(xí)方法進行耐熱蛋白質(zhì)和不耐熱蛋白質(zhì)的分類,并且取得了較為不錯的分類結(jié)果。 上述的結(jié)果大多基于統(tǒng)計學(xué)方法。雖然取得了一些成績,但較為抽象,不具有直觀的可視性。Jeffrey提出的chaos game representation (CGR)成功的解決了這個問題,他將每條DNA序列都轉(zhuǎn)化成一幅混沌模式圖。Jeffrey甚至聲稱人們可以直接通過肉眼就能發(fā)現(xiàn)耐熱基因和不耐熱基因相應(yīng)混沌圖的差別。這些都為今后使用CGR進行耐熱性狀的分類提供了一個全新的思路。 目前并沒有人和關(guān)于結(jié)合CGR和SVM方法進行生物耐熱性狀的分類的文獻(xiàn)。本文采用了全新的方法進行生物耐熱性狀的研究。作者創(chuàng)造性的將兩種方法結(jié)合,取得了令人振奮的結(jié)果。 采用分形幾何提取特征已經(jīng)在很多領(lǐng)域有應(yīng)用,如判斷腫瘤細(xì)胞的生長規(guī)律,神經(jīng)元的形態(tài),水質(zhì)預(yù)測等。但是目前并沒有人將分形幾何這個強大的工具應(yīng)用于提取CGR混沌圖的特性。本作品將這種方法應(yīng)用到混沌圖的信息提取上,實驗的結(jié)果表明這樣做可以顯著提高對未知基因功能的預(yù)測能力。