基本信息
- 項(xiàng)目名稱:
- 基于分級(jí)BP神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)
- 小類:
- 生命科學(xué)
- 簡(jiǎn)介:
- 生物信息學(xué)是一門新興的交叉邊緣學(xué)科,已經(jīng)成為當(dāng)今生命科學(xué)乃至整個(gè)自然科學(xué)的重大前沿領(lǐng)域之一。作為后基因組時(shí)代重要課題——蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是生物信息學(xué)中的重要問題。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問題就是如何從蛋白質(zhì)的氨基酸序列出發(fā)預(yù)測(cè)他的功能構(gòu)象問題。預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的算法大多以已知二級(jí)結(jié)構(gòu)的蛋白質(zhì)為依據(jù),用人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等技術(shù)構(gòu)建預(yù)測(cè)方法,本文采用分級(jí)BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)。
- 詳細(xì)介紹:
- 蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)是生物信息學(xué)中一個(gè)重要的研究課題,進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)對(duì)于理解蛋白質(zhì)結(jié)構(gòu)與功能的關(guān)系,以及分子設(shè)計(jì)、生物制藥等領(lǐng)域都發(fā)揮重要的現(xiàn)實(shí)意義。隨著人類基因組計(jì)劃的順利實(shí)施,已知氨基酸序列的蛋白質(zhì)數(shù)量成級(jí)數(shù)增長(zhǎng)。目前試驗(yàn)手段主要依靠X射線晶體衍射與核磁共振方法測(cè)定蛋白質(zhì)二級(jí)結(jié)構(gòu),但測(cè)定周期較長(zhǎng),導(dǎo)致已測(cè)定二級(jí)結(jié)構(gòu)的蛋白質(zhì)數(shù)量與已知氨基酸序列的蛋白質(zhì)數(shù)量差距越來越大,要求有一種快速簡(jiǎn)潔而適用性強(qiáng)的預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的方法。而生物學(xué)界達(dá)成一致共識(shí):蛋白質(zhì)的氨基酸排列順序決定了它的空間結(jié)構(gòu),空間結(jié)構(gòu)體現(xiàn)了蛋白質(zhì)的生理功能。那么我們就可以從已知序列和結(jié)構(gòu)的蛋白質(zhì)出發(fā),挖掘出其中的關(guān)系,就可以預(yù)測(cè)出其他已知序列的蛋白質(zhì)二級(jí)結(jié)構(gòu)。如果能夠成將蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)精度提高到80%,就可以為生物學(xué)家了解蛋白質(zhì)三級(jí)結(jié)構(gòu),設(shè)計(jì)新藥物提供數(shù)據(jù),免去實(shí)驗(yàn)測(cè)定的麻煩,節(jié)省研究成本。 近年來,人們利用序列同源信息能夠預(yù)測(cè)精度提高到80%,但這種方法不僅工作量大,而且對(duì)于那些低同源和無同源蛋白質(zhì)的預(yù)測(cè)非常困難,因此,神經(jīng)網(wǎng)絡(luò)方法被認(rèn)為是目前最有前景的方法。該方法最先是在1988年由Qian和Sejnowski提出,隨即引起了一波又一波的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)高潮,各種神經(jīng)網(wǎng)絡(luò)模型不斷提出和改進(jìn),精度一次次被提高:zhu采用多模神經(jīng)網(wǎng)絡(luò)取得68%的精度,王艷春采用級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)取得69.61%的精度。 本課題在前人的基礎(chǔ)上,改進(jìn)了BP神經(jīng)網(wǎng)絡(luò)算法,將預(yù)測(cè)精度提高到69.92%。其創(chuàng)新點(diǎn)在于:采用分級(jí)神經(jīng)網(wǎng)絡(luò)的思想,分為一二兩級(jí)各級(jí)有不同的目標(biāo)和意義,所以每一級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)也有區(qū)別。一級(jí)網(wǎng)絡(luò)采用了profile編碼,攜帶有較大的進(jìn)化信息,二級(jí)網(wǎng)絡(luò)采用改進(jìn)的正交編碼,所謂改進(jìn)的正交編碼,就是在常用的20位正交編碼后加一位表示成分信息,這樣使得編碼中含有了蛋白質(zhì)序列的全局信息,這種創(chuàng)新改進(jìn)對(duì)預(yù)測(cè)精度提高有一定幫助。同時(shí)使用兩種編碼是本文的大膽嘗試,取得了很好的效果。其二,考慮到本課題網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)比較大,利用多模神經(jīng)網(wǎng)絡(luò)將訓(xùn)練集分開到每個(gè)子網(wǎng)絡(luò),使得每個(gè)子網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)都相對(duì)較小,分?jǐn)偭苏麄€(gè)網(wǎng)絡(luò)的負(fù)荷,最終收斂性更好收斂時(shí)間也更短。 蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)目前是一個(gè)大有可為的研究領(lǐng)域,是數(shù)據(jù)挖掘技術(shù)在生物信息學(xué)中成功典型應(yīng)用。為了能夠提高精度,為生物學(xué)家提供研究提供依據(jù),各種機(jī)器學(xué)習(xí)方法得以應(yīng)用,以及傳統(tǒng)的統(tǒng)計(jì)方法也做了改進(jìn)和創(chuàng)新。這些方法也可以結(jié)合起來,都是值得本文繼續(xù)研究的地方。
作品專業(yè)信息
撰寫目的和基本思路
- 為了提高蛋白質(zhì)預(yù)測(cè)精度,本文改進(jìn)了BP神經(jīng)網(wǎng)絡(luò)的方法,將預(yù)測(cè)精度提高到70%以上。如果能夠成將蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)精度提高到80%,就可以為生物學(xué)家了解蛋白質(zhì)三維結(jié)構(gòu),設(shè)計(jì)新藥物提供理論數(shù)據(jù),給生物學(xué)家研究帶來方便。將氨基酸殘基片段作為BP神經(jīng)網(wǎng)絡(luò)的輸入,二級(jí)結(jié)構(gòu)即為對(duì)應(yīng)的輸出,神經(jīng)網(wǎng)絡(luò)可以有效地學(xué)習(xí)蛋白質(zhì)二級(jí)結(jié)構(gòu)形成的復(fù)雜規(guī)律或模型,提取需要的信息,并利用所掌握的信息進(jìn)行預(yù)測(cè)。
科學(xué)性、先進(jìn)性及獨(dú)特之處
- 本作品用機(jī)器學(xué)習(xí)方法去解決生物學(xué)中模式分類問題,是數(shù)據(jù)挖掘技術(shù)在生物信息學(xué)中的成功應(yīng)用案例。蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)目前依舊是一個(gè)難題,主要是預(yù)測(cè)精度不夠高,本作品將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與編碼方式做了改進(jìn),將預(yù)測(cè)精度從同類研究的68%,提高到73.1%,具有一定的科學(xué)性及先進(jìn)性。且本作品提出的操作方法簡(jiǎn)單,具有較強(qiáng)的可操作性及可重復(fù)性,能夠提供蛋白質(zhì)數(shù)據(jù)方便驗(yàn)證結(jié)論。
應(yīng)用價(jià)值和現(xiàn)實(shí)意義
- 進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)對(duì)于理解蛋白質(zhì)結(jié)構(gòu)與功能的關(guān)系,以及分子設(shè)計(jì)、生物制藥等領(lǐng)域都發(fā)揮重要的現(xiàn)實(shí)意義。如果能夠?qū)Φ鞍踪|(zhì)結(jié)構(gòu)做出較為精確的預(yù)測(cè),就可以根據(jù)預(yù)測(cè)出來的結(jié)構(gòu)設(shè)計(jì)出我們所需要功能蛋白質(zhì)藥物分子。美國加州理工學(xué)院設(shè)計(jì)和合成了具有鋅指蛋白結(jié)構(gòu)模式的23肽,就是一個(gè)按實(shí)際需要設(shè)計(jì)的非天然蛋白質(zhì)。這些工作前提是要蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)精度提高。
學(xué)術(shù)論文摘要
- 為提高蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的精度,本文對(duì)BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與編碼方式做了改進(jìn)。構(gòu)建了一個(gè)由5個(gè)子網(wǎng)絡(luò)集成的多模神經(jīng)網(wǎng)絡(luò),蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)結(jié)果由5個(gè)子網(wǎng)絡(luò)綜合得到。方法是對(duì)于每個(gè)子網(wǎng)絡(luò)采用神經(jīng)網(wǎng)絡(luò)分級(jí)思想分為二級(jí)網(wǎng)絡(luò)。一級(jí)網(wǎng)絡(luò)將蛋白質(zhì)一級(jí)序列用含有進(jìn)化信息的profile編碼作為輸入,二級(jí)結(jié)構(gòu)作為輸出;二級(jí)網(wǎng)絡(luò)以一級(jí)網(wǎng)絡(luò)輸出作為輸入,以對(duì)一級(jí)網(wǎng)絡(luò)結(jié)果進(jìn)行精煉,同時(shí)開創(chuàng)性地將一級(jí)序列用改進(jìn)正交編碼作為另一輸入以提高精度。本文首創(chuàng)了改進(jìn)的21位正交編碼,即在傳統(tǒng)20位編碼最后加一位表示氨基酸成分比例。網(wǎng)絡(luò)訓(xùn)練利用子網(wǎng)絡(luò)差異訓(xùn)練方式進(jìn)行,實(shí)驗(yàn)采用交叉驗(yàn)證,最終的預(yù)測(cè)精度達(dá)到73.1%,比DSC,PREDATOR,PHD方法精度分別提高4.7%,4.41%,0.90%,可為生物工作者蛋白質(zhì)結(jié)構(gòu)研究提供便捷方法。
獲獎(jiǎng)情況
- 無
鑒定結(jié)果
- 無
參考文獻(xiàn)
- [1] 閻隆飛 孫之榮.蛋白質(zhì)分子結(jié)構(gòu) [M].清華大學(xué)學(xué)術(shù)專著,1999 [2] Qian Ning, Sejnowski T J. Predicting the Secondary Structure of Globular Proteins Using Network Modals [J]. Journal of Molecular Biology,1988. 865-884 [3]Hanxi Zhu,Ikuo YOSHIHHARA. Kunihito YAMAMORI Prediction of Protein Secondary Structure by Multi-Modal Neural Networks [J]. International Joint Conference on Neural Networks, 2002.280-285. [4] Xin Huang, De-Shuang Huang, Guang-Zheng Zhang, Prediction of Protein Secondary Structure Using Improved Two-Level Neural Network Architecture [J].Protein & Peptide Letter ,2005. (12) 805-811. [5] 王艷春,何東健,王守志,基于級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè) [J].計(jì)算機(jī)工程,2010.36(4). [6] 馮永娥,蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)以及二級(jí)結(jié)構(gòu)與三級(jí)結(jié)構(gòu)之間關(guān)聯(lián)的探討 [D].內(nèi)蒙古:內(nèi)蒙古大學(xué). 2008. [7] cuff J.A, Barton G.J, Evaluation and improvement of multiple sequence methods for protein secondary structure prediction [J] ,Proteins.1999. 508-519. [8] Pierre Baldi,張東暉譯,生物信息學(xué)——機(jī)器學(xué)習(xí)方法 [M],2003. [9] 林麗玉,基于神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的研究 [D],大連:大連理工大學(xué).2005.
同類課題研究水平概述
- 目前,采用DSC方法的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)精度為68.4%,PREDATOR方法為68.69%,PHD方法為72.1%,PHD方法雖然精度較高但比起神經(jīng)網(wǎng)絡(luò)方法更復(fù)雜,適用性范圍較小。 Hanxi Zhu等人采用多模神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)預(yù)測(cè)精度為68%, 王艷春等人采用級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精度為69.61, Huang Xin和Li Yixue等采用改進(jìn)的二級(jí)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精度,71.19%.本文提出的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精度為 73.1%.