基本信息
- 項(xiàng)目名稱:
- 基于粗糙集和遺傳神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測方法研究
- 小類:
- 生命科學(xué)
- 簡介:
- 本文研究了氨基酸殘基的編碼方法,探討了神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測中的應(yīng)用,并對遺傳神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程及結(jié)果進(jìn)行了分析。
- 詳細(xì)介紹:
- 生物信息學(xué)作為一門新興學(xué)科,已成為本世紀(jì)自然科學(xué)的前沿領(lǐng)域之一。在生物信息學(xué)的眾多研究方向中,蛋白質(zhì)結(jié)構(gòu)預(yù)測占有及其重要的地位。它的研究對于正確理解蛋白質(zhì)結(jié)構(gòu)與功能的關(guān)系,以及分子設(shè)計(jì)、生物制藥等領(lǐng)域都有著很重要的現(xiàn)實(shí)意義。 本文研究了氨基酸殘基的編碼方法,探討了神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測中的應(yīng)用,并對遺傳神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程及結(jié)果進(jìn)行了分析。主要研究內(nèi)容及結(jié)論如下: 1.為了更好的對氨基酸殘基進(jìn)行編碼,通過統(tǒng)計(jì)分析和粗糙分析,詳細(xì)研究了氨基酸殘基的眾多理化因素對蛋白質(zhì)二級(jí)結(jié)構(gòu)的影響,并應(yīng)用粗糙集知識(shí)對這些因素進(jìn)行了屬性約簡。在保證分類不變的情況下,提取了影響蛋白質(zhì)二級(jí)結(jié)構(gòu)的主要理化因素,包括:氨基酸的疏水性環(huán)境、氨基酸能否形成氫鍵、α螺旋的傾向性、Coil無規(guī)則卷曲的傾向性、 Coil無規(guī)則卷曲的構(gòu)象分類。 2.針對傳統(tǒng)5位編碼和正交編碼所含信息不足的缺點(diǎn),結(jié)合氨基酸殘基在序列中的位置信息及影響蛋白質(zhì)二級(jí)結(jié)構(gòu)的主要理化因素,提出了一種新的編碼方法。對比實(shí)驗(yàn)結(jié)果表明,提出的編碼方法是有效的。在相同的實(shí)驗(yàn)條件下,Q3準(zhǔn)確率較傳統(tǒng)5位編碼和正交編碼均提高了8.99%-10.94%,同時(shí), QH、QE和QC準(zhǔn)確率較傳統(tǒng)5位編碼和正交編碼提高了2.25%-20.43%。 3.針對BP網(wǎng)絡(luò)在網(wǎng)絡(luò)結(jié)構(gòu)較大時(shí)計(jì)算時(shí)間長,且易陷入局部最優(yōu)的不足,通過分析BP網(wǎng)絡(luò)的基本原理,對標(biāo)準(zhǔn)BP算法進(jìn)行了改進(jìn)。根據(jù)權(quán)值調(diào)整后誤差的變化方向不同,設(shè)置多個(gè)不同的學(xué)習(xí)率及動(dòng)量因子。實(shí)驗(yàn)表明,提出的改進(jìn)方法能夠有效地提高網(wǎng)絡(luò)的訓(xùn)練速度,并能改善預(yù)測結(jié)果,采用改進(jìn)5位編碼和改進(jìn)正交編碼,Q3準(zhǔn)確度分別可達(dá)到59.79%和61.18%。 4. 針對單層神經(jīng)網(wǎng)絡(luò)預(yù)測精度偏低的問題,提出了級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)模型。該模型充分利用了氨基酸殘基之間的相關(guān)性,在自適應(yīng)學(xué)習(xí)速率和附加動(dòng)量的BP算法基礎(chǔ)上,通過逐步增加子網(wǎng)絡(luò)的窗口長度來降低特征輸入與神經(jīng)網(wǎng)絡(luò)分類輸出之間的不確定性。仿真實(shí)驗(yàn)表明,提出的網(wǎng)絡(luò)模型是有效的,三態(tài)預(yù)測結(jié)果均優(yōu)于單層BP網(wǎng)絡(luò),而且三級(jí)級(jí)聯(lián)網(wǎng)絡(luò)的預(yù)測能力最優(yōu),其預(yù)測準(zhǔn)確度比單層BP網(wǎng)絡(luò)提高了2.29%-2.70%。結(jié)合本文提出的改進(jìn)5位編碼和改進(jìn)正交編碼,三級(jí)級(jí)聯(lián)網(wǎng)絡(luò)模型的Q3準(zhǔn)確度分別可達(dá)到62.08%和63.88%。 5.為了進(jìn)一步提高蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測的精度,利用遺傳算法全局尋優(yōu)的特點(diǎn),建立了級(jí)聯(lián)遺傳神經(jīng)網(wǎng)絡(luò)模型。該模型不但縮短了樣本學(xué)習(xí)時(shí)間,而且有效避免了神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu)解的弊端。仿真實(shí)驗(yàn)結(jié)果表明,采用三級(jí)級(jí)聯(lián)GA-BP模型,Q3準(zhǔn)確度達(dá)到了66.04%,比三級(jí)級(jí)聯(lián) 網(wǎng)絡(luò)模型提高了2.16%,其QH、QE和QC準(zhǔn)確率也都有不同程度的提高。
作品專業(yè)信息
撰寫目的和基本思路
- 通過探討氨基酸殘基的編碼方法和神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測中的應(yīng)用,以期提高預(yù)測精度。 在分析氨基酸殘基理化性質(zhì)的基礎(chǔ)上,利用粗糙集的方法提取出了影響二級(jí)結(jié)構(gòu)的主要理化性質(zhì);綜合氨基酸殘基位置信息和理化性質(zhì)對氨基酸進(jìn)行了編碼;在此編碼的基礎(chǔ)之上依次用改進(jìn)BP網(wǎng)絡(luò),級(jí)聯(lián)BP網(wǎng)絡(luò)和遺傳算法優(yōu)化BP網(wǎng)絡(luò)對蛋白質(zhì)二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測,最后通過比較分析,提出了3級(jí)級(jí)聯(lián)GA-BP網(wǎng)絡(luò)的預(yù)測模型。
科學(xué)性、先進(jìn)性及獨(dú)特之處
- 全文研究方案正確可行、論點(diǎn)明確、論據(jù)充分、數(shù)據(jù)詳實(shí)、科學(xué)可信。緊隨蛋白質(zhì)結(jié)構(gòu)預(yù)測這個(gè)生物信息學(xué)前沿,利用多學(xué)科交叉綜合研究的方法來探討蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測這一熱點(diǎn)和難點(diǎn)問題。 作品獨(dú)特之處在將粗糙集和神經(jīng)網(wǎng)絡(luò)弱耦合的方法應(yīng)用于蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測,提出綜合利用氨基酸殘基位置信息和理化因素的新編碼方式;通過逐步增加級(jí)聯(lián)網(wǎng)絡(luò)的窗口長度,降低特征輸入與分類輸出間的不確定性。
應(yīng)用價(jià)值和現(xiàn)實(shí)意義
- 雖然本模型只是基于單序列進(jìn)行結(jié)構(gòu)預(yù)測,沒有引入可以將預(yù)測精度提高5%-10%的同源信息。但是本文提出了一種將粗糙集和神經(jīng)網(wǎng)絡(luò)弱耦合的全新預(yù)測方法,啟發(fā)人們從另外一個(gè)角度來考慮蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測問題,從而對提高蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測的精度提供一定的借鑒和參考價(jià)值。
學(xué)術(shù)論文摘要
- 本文研究了氨基酸殘基的編碼方法,探討了神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測中的應(yīng)用,并對遺傳神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程及結(jié)果進(jìn)行了分析。主要研究內(nèi)容及結(jié)論如下: 在充分分析氨基酸殘基理化因素的基礎(chǔ)上,利用粗糙集的方法提取出了影響二級(jí)結(jié)構(gòu)的主要理化因素,綜合氨基酸殘基位置信息和理化性質(zhì)對氨基酸進(jìn)行了編碼,實(shí)驗(yàn)結(jié)果表明,提出的編碼方法有效,在相同條件下,Q3準(zhǔn)確率較傳統(tǒng)編碼方法提高了8.99%-10.94%,QH、QE和QC準(zhǔn)確率較傳統(tǒng)編碼方法提高了2.25%-20.43%。 針對單層神經(jīng)網(wǎng)絡(luò)預(yù)測精度偏低的問題,提出了級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)模型。該模型通過逐步增加子網(wǎng)絡(luò)的窗口長度來降低特征輸入與分類輸出之間的不確定性。仿真實(shí)驗(yàn)表明,其預(yù)測準(zhǔn)確度比單層BP網(wǎng)絡(luò)提高了2.29%-2.70%。兩種改進(jìn)編碼的三級(jí)級(jí)聯(lián)網(wǎng)絡(luò)的Q3準(zhǔn)確度分別可達(dá)到62.08%和63.88%。 利用遺傳算法全局尋優(yōu)的特點(diǎn),建立了級(jí)聯(lián)遺傳神經(jīng)網(wǎng)絡(luò)模型。仿真實(shí)驗(yàn)結(jié)果表明,采用三級(jí)級(jí)聯(lián)GA-BP模型,Q3準(zhǔn)確度最高達(dá)到了66.04%,比三級(jí)級(jí)聯(lián) 網(wǎng)絡(luò)模型提高了2.16%,其QH、QE和QC準(zhǔn)確率也都有不同程度的提高。
獲獎(jiǎng)情況
- 無
鑒定結(jié)果
- 本論文達(dá)到國內(nèi)先進(jìn)水平,針對蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測提出了新的編碼方法,對以往的BP算法進(jìn)行了改進(jìn),有效提高了網(wǎng)格訓(xùn)練速度,改善了預(yù)測結(jié)果,研究成果有重要參考價(jià)值。
參考文獻(xiàn)
- [1]梁剛峰.蛋白質(zhì)二級(jí)結(jié)構(gòu)的建模與預(yù)測[D].北京:國防科學(xué)技術(shù)大學(xué)研究生院,2005. [2]萊特(美)著.張維欽譯.蛋白質(zhì)的結(jié)構(gòu)和功能[M].高等教育出版社,1982. [3]趙國屏等編著.生物信息學(xué)[M].北京:科學(xué)出版社,2002. [4]黃德雙,張廣政.基于氨基酸構(gòu)象分類和神經(jīng)網(wǎng)絡(luò)技術(shù)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測研究[J].生物信息學(xué)若干前沿問題的探討,2003,109-116. [5]陶慰孫,李惟,姜涌明.蛋白質(zhì)分子基礎(chǔ)(第二版)[M].北京:高等教育出版社,1995:4-5. [6]Duntsch I,Gediga G.Roughian:Rough information analysis.International Journal of Intelligent Systems,2001(1):121-147. [7]梁吉業(yè),曲開社,徐宗本.信息系統(tǒng)的屬性約簡.系統(tǒng)工程理論與實(shí)踐,2001,21(12):76-80. [8]Fan Z P,Ma J,Zhang Q.An approach to multiple attribute decision making based on fuzzy preference information on alternative.Fuzzy Sets and System,2002(131):101-106. [9]Feng S,Xu L.Decision support for fuzzy comprehensive evaluation of urban development.Fuzzy Sets and Systems,1999,105(1):1-12. [10]王國胤,Rough集理論與知識(shí)獲取,西安:西安交通大學(xué)出版社,2001.
同類課題研究水平概述
- 蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測的研究與進(jìn)展: 在過去的幾十年中,科學(xué)家們己經(jīng)提出了幾十種理論預(yù)測蛋白質(zhì)二級(jí)結(jié)構(gòu)的方法。幾乎所有這些方法都假定蛋白質(zhì)的二級(jí)結(jié)構(gòu)主要是由鄰近殘基間的短程相互作用所決定的,然后通過對一些已知空間結(jié)構(gòu)的蛋白質(zhì)分子進(jìn)行分析、歸納,制定出一套預(yù)測規(guī)則,并根據(jù)這些規(guī)則對其它已知或未知結(jié)構(gòu)的蛋白質(zhì)分子的二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測。機(jī)器學(xué)習(xí)方法在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測方面非常成功,其中神經(jīng)網(wǎng)絡(luò)方法是目前公認(rèn)的前景最為樂觀的二級(jí)結(jié)構(gòu)預(yù)測方法之一。 最早使用神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測中取得成功的是Qian和Sejnowski。他們采用的網(wǎng)絡(luò)結(jié)構(gòu)為一個(gè)單隱層全互連的網(wǎng)絡(luò),輸入層使用一個(gè)長度為2m+1個(gè)氨基酸的局部輸入窗口;輸出層由3個(gè)單元組成,通過sigmoid型函數(shù)進(jìn)行放大輸出。其編碼方式采用的是正交編碼,預(yù)測的準(zhǔn)確率為64.3%。此后,研究人員大都基于這樣的基本模型結(jié)構(gòu),針對提高預(yù)測準(zhǔn)確度、解決overfitting等問題,做出許多改進(jìn)工作,如D.G.Kneller、P.Stlorz及Lapedes、S.K.Riis 等人在基于前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了不同方式的改進(jìn),但是效果不是很明顯。隨后幾年,通過在輸入層添加同源序列比對信息,將基于神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測精度提高到一個(gè)新的水平。在最近幾年,許多人用神經(jīng)網(wǎng)絡(luò)的方法與其他算法相結(jié)合,推出新的算法以求達(dá)到更高的精度。 目前,基于單條序列的神經(jīng)網(wǎng)絡(luò)方法能夠得到65%~68%的二級(jí)結(jié)構(gòu)預(yù)測準(zhǔn)確率,利用多序列比對的信息能提高二級(jí)結(jié)構(gòu)預(yù)測的準(zhǔn)確率?;趩螚l序列和局部輸入窗口的神經(jīng)網(wǎng)絡(luò)方法,經(jīng)過多年的研究,其實(shí)際預(yù)測準(zhǔn)確率提高并不是很明顯,雖然在輸入層利用多重序列比對信息可以比較好的提高預(yù)測率,但這樣的預(yù)測方法是基于比對算法的,有一定的局限性。 總之,神經(jīng)網(wǎng)絡(luò)技術(shù)在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測研究中起著十分重要的作用,但預(yù)測精度至今還沒達(dá)到十分理想的狀態(tài)。其關(guān)鍵問題是如何選擇一個(gè)合理的模型,以及如何很好地描述從氨基酸序列到蛋白質(zhì)二級(jí)結(jié)構(gòu)序列的映射過程,從而提高蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測準(zhǔn)確率。