基本信息
- 項(xiàng)目名稱:
- 一種基于混合分形算法的預(yù)測(cè)耐熱核酸序列新方法
- 小類:
- 生命科學(xué)
- 簡(jiǎn)介:
- 對(duì)功能未知的基因的預(yù)測(cè)具有很強(qiáng)的實(shí)際應(yīng)用價(jià)值和現(xiàn)實(shí)意義。 在后基因組時(shí)代,許多生物的基因組被測(cè)序。然而從包含基因數(shù)眾多的序列中找到某種特定的基因并不容易。對(duì)幾萬個(gè)基因序列進(jìn)行實(shí)驗(yàn)測(cè)定耗財(cái)費(fèi)力,并不現(xiàn)實(shí)。本作品所提出的方法可以找出具有耐熱性狀的部分基因。大大縮小實(shí)驗(yàn)的工作量和節(jié)省昂貴的實(shí)驗(yàn)資源。 本作品所提出的方法具有很強(qiáng)的推廣能力,不局限于耐熱性狀。也可是抗蟲、抗旱等基因。
- 詳細(xì)介紹:
- 嗜熱微生物的最適生長(zhǎng)溫度通常在50-80攝氏度。對(duì)于微生物耐熱機(jī)制的全面理解是設(shè)計(jì)結(jié)構(gòu)穩(wěn)定的蛋白質(zhì)、培育耐熱菌種的重要前提。如何預(yù)測(cè)一個(gè)功能未知的DNA序列是否具有耐熱性狀是一個(gè)長(zhǎng)久但是沒有完全得到解決的重要問題。CGR可以分析隱藏在DNA序列圖譜的信息,更重要的是可以可視化的表示出某些未知的序列結(jié)構(gòu),但是目前大部分研究對(duì)CGR混沌圖只進(jìn)行粗略的信息提取。分形維數(shù)是度量復(fù)雜、高度不規(guī)則幾何體的有力工具。本文里,首先用CGR算法將每條DNA序列轉(zhuǎn)化成高維向量,同時(shí)通過計(jì)算每幅混沌圖的分形維數(shù)彌補(bǔ)只用CGR特征產(chǎn)生的信息損失。然后利用這些特征通過支持向量機(jī)進(jìn)行DNA序列耐熱性狀的預(yù)測(cè)。本文一共做了3組實(shí)驗(yàn):17維向量、65維向量、256維向量。每一組實(shí)驗(yàn)的預(yù)測(cè)都做了自檢驗(yàn)及十折交叉驗(yàn)證。在十折交叉驗(yàn)證中,257維向量達(dá)到最優(yōu)結(jié)果。平均預(yù)測(cè)準(zhǔn)確率高達(dá)0.9456,其相應(yīng)的MCC值為0.8878。本文通過將這些結(jié)果與沒有加入分形維數(shù)所做實(shí)驗(yàn)的結(jié)果對(duì)比表明這種新提出的混合分形算法是一種十分有效地方法。
作品專業(yè)信息
撰寫目的和基本思路
- 目的: 本文對(duì)兩種已經(jīng)相對(duì)成熟的算法和技術(shù)——CGR和SVM進(jìn)行創(chuàng)造性的結(jié)合,并且在此基礎(chǔ)上首次應(yīng)用分形幾何提取生物序列的特征。旨在提出一個(gè)更有效地對(duì)未知基因功能的預(yù)測(cè)算法。 基本思路: 1、猜想。2、驗(yàn)證。3、進(jìn)一步改進(jìn)。4、再次驗(yàn)證。首先通過編寫程序計(jì)算分形維數(shù)。預(yù)測(cè)的準(zhǔn)確率較(2)中有著明顯的提升,預(yù)測(cè)準(zhǔn)確率達(dá)到了0.9456,其相應(yīng)的MCC值達(dá)到了0.8878。
科學(xué)性、先進(jìn)性及獨(dú)特之處
- 科學(xué)性:CGR算法和SVM算法都是理論體系成熟,經(jīng)受住時(shí)間考驗(yàn)的算法,前人從中獲益頗豐。 先進(jìn)性:CGR算法的提出具有創(chuàng)造性,可有效的,更為重要的是可視的反映出生物序列信息,也是目前生物序列可視化的最主要方法。獨(dú)特之處: 1、將這兩種廣泛應(yīng)用的算法進(jìn)行創(chuàng)造性的結(jié)合是本文的最大亮點(diǎn)和獨(dú)特之處。 2、本文利用分形幾何中的分形維數(shù)提取生物序列的CGR混沌圖信息尚屬首次,具有創(chuàng)新性。
應(yīng)用價(jià)值和現(xiàn)實(shí)意義
- 對(duì)功能未知的基因的預(yù)測(cè)具有很強(qiáng)的實(shí)際應(yīng)用價(jià)值和現(xiàn)實(shí)意義。 生物的基因組被測(cè)序。然而從包含基因數(shù)眾多的序列中找到某種特定的基因并不容易。仍然以耐熱為例,對(duì)幾萬個(gè)基因序列進(jìn)行實(shí)驗(yàn)測(cè)定耗財(cái)費(fèi)力,并不現(xiàn)實(shí)。本作品所提出的方法可以找出最有可能具有耐熱性狀的一部分基因。大大縮小實(shí)驗(yàn)的工作量和節(jié)省昂貴的實(shí)驗(yàn)資源。 本作品所提出的方法具有很強(qiáng)的推廣能力,不局限于耐熱性狀。也可是抗蟲、抗旱等基因。
學(xué)術(shù)論文摘要
- 摘要—嗜熱微生物的最適生長(zhǎng)溫度通常在50-80攝氏度。對(duì)于微生物耐熱機(jī)制的全面理解是設(shè)計(jì)結(jié)構(gòu)穩(wěn)定的蛋白質(zhì)、培育耐熱菌種的重要前提。如何預(yù)測(cè)一個(gè)功能未知的DNA序列是否具有耐熱性狀是一個(gè)長(zhǎng)久但是沒有完全得到解決的重要問題。CGR可以分析隱藏在DNA序列圖譜的信息,更重要的是可以可視化的表示出某些未知的序列結(jié)構(gòu),但是目前大部分研究對(duì)CGR混沌圖只進(jìn)行粗略的信息提取。分形維數(shù)是度量復(fù)雜、高度不規(guī)則幾何體的有力工具。本文里,首先用CGR算法將每條DNA序列轉(zhuǎn)化成高維向量,同時(shí)通過計(jì)算每幅混沌圖的分形維數(shù)彌補(bǔ)只用CGR特征產(chǎn)生的信息損失。然后利用這些特征通過支持向量機(jī)進(jìn)行DNA序列耐熱性狀的預(yù)測(cè)。本文一共做了3組實(shí)驗(yàn):17維向量、65維向量、256維向量。每一組實(shí)驗(yàn)的預(yù)測(cè)都做了自檢驗(yàn)及十折交叉驗(yàn)證。在十折交叉驗(yàn)證中,257維向量達(dá)到最優(yōu)結(jié)果。平均預(yù)測(cè)準(zhǔn)確率高達(dá)0.9456,其相應(yīng)的MCC值為0.8878。本文通過將這些結(jié)果與沒有加入分形維數(shù)所做實(shí)驗(yàn)的結(jié)果對(duì)比表明這種新提出的混合分形算法是一種十分有效地方法。 關(guān)鍵詞:嗜熱、嗜溫、CGR、DNA序列、支持向量機(jī)、分形維數(shù)
獲獎(jiǎng)情況
- 本作品是在前面的工作的基礎(chǔ)上進(jìn)行算法的改進(jìn),通過使用分形幾何的知識(shí)提取分形維數(shù)特征來提高對(duì)未知基因的預(yù)測(cè)能力。文章已經(jīng)投到Journal of theoretical biology(SCI,IF=2.54)。 本作品前期的工作: 1、結(jié)合CGR和SVM兩種主流方法對(duì)未知功能的DNA序列的功能進(jìn)行預(yù)測(cè)。論文已在2010年被ICBBE( International Conference on Bioinformatics and Biomedical Engineering, indexed by EI Compendex and ISTP)收錄。 2、將同樣的方法推廣到蛋白質(zhì)序列上。論文被Protein and Peptide Letters(SCI,IF=1.75)收錄。
鑒定結(jié)果
- 該方法對(duì)預(yù)測(cè)未知基因的功能具有參考價(jià)值。富有創(chuàng)造性。
參考文獻(xiàn)
- 本文主要涉及Chaos game representation (CGR)算法和support vector machine (SVM)算法的基本理論依據(jù)和實(shí)現(xiàn)流程,以及在世界范圍內(nèi)對(duì)生物耐熱基因的識(shí)別研究水平現(xiàn)狀,最后通過從權(quán)威數(shù)據(jù)庫(kù)NCBI(National Center for Biotechnology Information)采集數(shù)據(jù)進(jìn)行算法的檢測(cè)。 主要參考文獻(xiàn)及網(wǎng)頁: [1] KC. Chou, “Pseudo amino acid composition and its application in Bioinformatics, Proteomics and system biology”, Curr.Prote. 6, 262-274, 2009. [2] V. Vapnik, Statistical Learning Theory, Wiley Interscience, New York, 1998. [3] P. Forterre, “A hot story from comparative genomics: reverse gyrase is the only hyperthermophile-specific protein”, Trends Genet. 18, 236-237, 2002. [4] L. Montanucci, PL.Martelli, P.Fariselli and R.Casadio, “Predicting protein thermostability changes from sequence upon multiple mutations”, Bioinformatics. 24, i190-i195, 2008. [5] HJ. Jeffrey, “ Chaos game representation of gene structure”, Nucleic Acids Res. 18, 2163-2170, 1990. [6]
同類課題研究水平概述
- 耐熱微生物生長(zhǎng)的最適溫度(OGT)一般是在50-80攝氏度,有些微生物可在更高的溫度(80-120攝氏度)生長(zhǎng)。目前,人們對(duì)這種耐熱生物機(jī)制并沒有完全的研究清楚,但是有一點(diǎn)被廣為接受的是,基因是決定這些性狀的最初原因。在這個(gè)前提下,人們通過各種方法對(duì)生物的DNA序列、蛋白質(zhì)序列進(jìn)行研究,并且取得了豐富的成果。 前人的實(shí)驗(yàn)已經(jīng)得出一些結(jié)論,如有大量實(shí)驗(yàn)結(jié)果表明在耐熱微生物體內(nèi),其DNA序列中的C、G含量要高于一般水平。其中一個(gè)原因是C、G中間有三條氫鍵,使得DNA更加穩(wěn)定,可以適應(yīng)更高的溫度。對(duì)于蛋白質(zhì)的研究有許多不同的方法,對(duì)初級(jí)蛋白質(zhì)結(jié)果的研究主要是通過挖掘氨基酸序列信息。對(duì)高級(jí)結(jié)構(gòu)的蛋白質(zhì)研究主要是通過理化性質(zhì),如發(fā)現(xiàn)鹽橋?qū)τ谏锏牡鞍踪|(zhì)結(jié)果有著重要的作用。 在最近幾年,由于測(cè)序技術(shù)的成熟和生物信息學(xué)的蓬勃發(fā)展,人們進(jìn)行了大量生物的DNA、蛋白質(zhì)測(cè)序工作。因此,人們的視線逐漸轉(zhuǎn)向這些隱藏著大量信息的序列并且取得了一定的成果。其中,美國(guó)科學(xué)家Montanucci.et al.僅僅用了生物序列信息,通過統(tǒng)計(jì)方法中的主成分分析發(fā)現(xiàn)了耐熱生物的基因與不耐熱生物的基因有著巨大的差別。另外,Zhang et al.通過支持向量機(jī)(SVM)和其他一些機(jī)器學(xué)習(xí)方法進(jìn)行耐熱蛋白質(zhì)和不耐熱蛋白質(zhì)的分類,并且取得了較為不錯(cuò)的分類結(jié)果。 上述的結(jié)果大多基于統(tǒng)計(jì)學(xué)方法。雖然取得了一些成績(jī),但較為抽象,不具有直觀的可視性。Jeffrey提出的chaos game representation (CGR)成功的解決了這個(gè)問題,他將每條DNA序列都轉(zhuǎn)化成一幅混沌模式圖。Jeffrey甚至聲稱人們可以直接通過肉眼就能發(fā)現(xiàn)耐熱基因和不耐熱基因相應(yīng)混沌圖的差別。這些都為今后使用CGR進(jìn)行耐熱性狀的分類提供了一個(gè)全新的思路。 目前并沒有人和關(guān)于結(jié)合CGR和SVM方法進(jìn)行生物耐熱性狀的分類的文獻(xiàn)。本文采用了全新的方法進(jìn)行生物耐熱性狀的研究。作者創(chuàng)造性的將兩種方法結(jié)合,取得了令人振奮的結(jié)果。 采用分形幾何提取特征已經(jīng)在很多領(lǐng)域有應(yīng)用,如判斷腫瘤細(xì)胞的生長(zhǎng)規(guī)律,神經(jīng)元的形態(tài),水質(zhì)預(yù)測(cè)等。但是目前并沒有人將分形幾何這個(gè)強(qiáng)大的工具應(yīng)用于提取CGR混沌圖的特性。本作品將這種方法應(yīng)用到混沌圖的信息提取上,實(shí)驗(yàn)的結(jié)果表明這樣做可以顯著提高對(duì)未知基因功能的預(yù)測(cè)能力。