基本信息
- 項(xiàng)目名稱:
- 基于身份驗(yàn)證的聲音識(shí)別系統(tǒng)的開發(fā)
- 小類:
- 信息技術(shù)
- 大類:
- 科技發(fā)明制作A類
- 簡介:
- 本作品旨在通過預(yù)先輸入聲音文本,經(jīng)過聲音預(yù)處理系統(tǒng)后再通過特征信號(hào)提取系統(tǒng),提取出能表征說話人身份的特征參數(shù),再利用提取出的特征序列根據(jù)一定的數(shù)學(xué)算法為說話人建立聲音庫。當(dāng)說話人再次錄入聲音時(shí),系統(tǒng)會(huì)自動(dòng)進(jìn)行數(shù)據(jù)庫檢索,根據(jù)匹配結(jié)果識(shí)別判斷該說話人。特征提取方面,我們采用動(dòng)態(tài)MFCC和靜態(tài)MFCC相結(jié)合的方法;模板匹配方面,主要采用基于經(jīng)典的BP算法的神經(jīng)網(wǎng)絡(luò)識(shí)別模型,并在算法方面探索改進(jìn)和優(yōu)化。
- 詳細(xì)介紹:
- 本作品旨在通過預(yù)先輸入聲音文本,經(jīng)過聲音預(yù)處理系統(tǒng)(濾除雜、噪音)后再通過特征信號(hào)提取系統(tǒng),提取出能表征說話人身份特征的特征參數(shù),再利用提取出的特征序列根據(jù)一定的數(shù)學(xué)算法為說話人建立聲音庫。當(dāng)說話人再次錄入聲音時(shí),系統(tǒng)會(huì)自動(dòng)進(jìn)行數(shù)據(jù)庫檢索,根據(jù)匹配結(jié)果識(shí)別判斷該說話人身份。 本作品主要由聲音預(yù)處理部分、特征提取部分、模式匹配部分組成。聲音預(yù)處理的目標(biāo)是將原始語音信號(hào)經(jīng)過一些特定的處理手段,如采樣量化、預(yù)加重處理、取音框、加框再通過低通濾波器,處理成為利于系統(tǒng)識(shí)別的可處理信號(hào);特征提取方面,由于單一的特征參數(shù)無法很好的表達(dá)說話人的信息,我們采用動(dòng)態(tài)MFCC( Mel頻率倒譜系數(shù))和靜態(tài)MFCC相結(jié)合的方法,以在識(shí)別率上達(dá)到突破。模板匹配方面,我們主要采用基于經(jīng)典的BP算法的神經(jīng)網(wǎng)絡(luò)識(shí)別模型,并在算法方面探索改進(jìn)和優(yōu)化,以期達(dá)到很好的匹配效果。 我們旨在通過編程操作,最終實(shí)現(xiàn)我們的聲音識(shí)別系統(tǒng),達(dá)到預(yù)期的效果指標(biāo)。
作品專業(yè)信息
設(shè)計(jì)、發(fā)明的目的和基本思路、創(chuàng)新點(diǎn)、技術(shù)關(guān)鍵和主要技術(shù)指標(biāo)
- 目的:普遍意義上聲音識(shí)別的概念是指說話人識(shí)別。說話人識(shí)別包括說話人辨認(rèn)和說話人確認(rèn)兩個(gè)方面。說話人辨認(rèn)是一對(duì)多的分析過程,即判斷出某段語音是若干人中哪一個(gè)所說,主要應(yīng)用于刑偵破案、罪犯跟蹤、國防監(jiān)聽等。說話人確認(rèn)是一對(duì)一的確定過程,即確認(rèn)某段語音是否屬于指定的某人,主要應(yīng)用于證券交易、銀行交易、個(gè)人計(jì)算機(jī)聲控鎖、身份證、信用卡等?;诼曇糇R(shí)別系統(tǒng)更廣泛快速的應(yīng)用于日常生活中的身份驗(yàn)證,并且對(duì)于推廣生物特征識(shí)別技術(shù)具有重要的意義。因此,我們的研究范圍確定為以說話人確認(rèn)為目的的文本相關(guān)型的聲音識(shí)別系統(tǒng),主要目的就是提出和設(shè)計(jì)開發(fā)能夠快速準(zhǔn)確識(shí)別不同個(gè)體的可行方案。 基本思路:聲音識(shí)別技術(shù)屬于生物特征識(shí)別技術(shù),是一種根據(jù)語音波形所反映的說話人生理和行為特征的語音參數(shù)技術(shù)?;驹砭褪翘卣魈崛『湍J狡ヅ洹WR(shí)別的核心是預(yù)先錄入聲音樣本,并提取每個(gè)樣本獨(dú)一無二的特征,建立特征數(shù)據(jù)庫,使用時(shí)將待檢聲音與數(shù)據(jù)庫中的特征進(jìn)行匹配,通過分析計(jì)算,實(shí)現(xiàn)說話人識(shí)別。聲音識(shí)別技術(shù)的關(guān)鍵在于對(duì)各種聲學(xué)特征參數(shù)進(jìn)行處理,并確定模式匹配方法。 創(chuàng)新點(diǎn):聲紋識(shí)別主要有兩大技術(shù)關(guān)鍵:特征提取和模式匹配,我們的創(chuàng)新點(diǎn)便在這兩個(gè)方面。首先,在特征提取方面,由于單一的特征參數(shù)無法很好地表達(dá)出說話人的信息,我們采用動(dòng)態(tài)MFCC和靜態(tài)MFCC相結(jié)合的方法,以在識(shí)別率上達(dá)到突破。其次,我們把基于經(jīng)典BP算法的識(shí)別率相對(duì)比較高的人工神經(jīng)網(wǎng)絡(luò)應(yīng)用在模板匹配方面,并在算法方面探索改進(jìn)和優(yōu)化,以期達(dá)到很好的匹配效果。
科學(xué)性、先進(jìn)性
- 我們?cè)诜治隽烁鞣N方法的利弊后,決定采用能夠反映人對(duì)語音的感知特性的 Mel頻率倒譜系數(shù)作為特征參數(shù),主要利用靜態(tài)MFCC和動(dòng)態(tài)MFCC相結(jié)合,以期達(dá)到最佳的提取效果。標(biāo)準(zhǔn)的 MFCC只反映了語音參數(shù)的靜態(tài)特性 ,而人耳對(duì)語音的動(dòng)態(tài)特征更為敏感 ,一階差分 MFCC是一種動(dòng)態(tài)參數(shù) ,有較好的噪聲魯棒性。因?yàn)樗崛≡谝欢ǔ潭壬夏M了人耳對(duì)語音處理的特點(diǎn) ,而且還具有一定的抗噪性 ,進(jìn)一步地挖掘出說話人語音背后的隱性個(gè)性差異 ,識(shí)別性能優(yōu)于LPCC等其他方法。 人工神經(jīng)網(wǎng)絡(luò)是一種廣泛應(yīng)用于數(shù)據(jù)分類與預(yù)測問題中的一種非線性模型,我們采用它為聲紋識(shí)別模型。BP算法是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)之一。BP網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小?;谝陨戏治?,我們決定采用經(jīng)典的BP網(wǎng)絡(luò),以期達(dá)到最佳的匹配效果。
獲獎(jiǎng)情況及鑒定結(jié)果
- 該作品獲得2010年度鄭州大學(xué)創(chuàng)新實(shí)驗(yàn)項(xiàng)目資助
作品所處階段
- 實(shí)驗(yàn)室階段
技術(shù)轉(zhuǎn)讓方式
- 無
作品可展示的形式
- 模型、現(xiàn)場演示
使用說明,技術(shù)特點(diǎn)和優(yōu)勢,適應(yīng)范圍,推廣前景的技術(shù)性說明,市場分析,經(jīng)濟(jì)效益預(yù)測
- 與其他生物識(shí)別技術(shù),諸如指紋識(shí)別、掌形識(shí)別、虹膜識(shí)別等相比較,聲紋識(shí)別具有不會(huì)遺失和忘記、不需記憶、使用方便準(zhǔn)確、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢,可廣泛應(yīng)用于安全驗(yàn)證、控制等各方面,特別是基于電信網(wǎng)絡(luò)的身份識(shí)別。 它有著廣闊的市場應(yīng)用前景,通過SR技術(shù),可以利用本身的生物特性進(jìn)行身份鑒別,例如為公安部門進(jìn)行語音驗(yàn)證、為一般用戶提供防盜門開啟功能等等。 比爾·蓋茨認(rèn)為:“以人類生物特征(指紋、語音、臉像等)進(jìn)行身份驗(yàn)證的生物識(shí)別技術(shù),在今后數(shù)年內(nèi)將成為IT產(chǎn)業(yè)最為重要的技術(shù)革命?!痹谑澜绶秶鷥?nèi),聲紋識(shí)別技術(shù)正廣泛應(yīng)用于諸多領(lǐng)域。截止到去年初,聲紋識(shí)別產(chǎn)品的市場占有率為17.8%,僅次于指紋識(shí)別和掌形識(shí)別。目前,我國市場尚屬啟動(dòng)階段,其發(fā)展空間更為廣闊,在金融、證券、社保、公安、軍隊(duì)及其他民用安全認(rèn)證等行業(yè)和部門有著廣泛的需求。 該作品以期能在校園內(nèi)部實(shí)現(xiàn)預(yù)期的效果,并能在師生中廣泛推廣和應(yīng)用。
同類課題研究水平概述
- 19世紀(jì)60年代,美國的聯(lián)邦調(diào)查局在貝爾實(shí)驗(yàn)室的幫助下,把聲音進(jìn)行分類。貝爾實(shí)驗(yàn)室的工程師勞倫斯·科斯塔逐漸相信聲音圖譜或聲紋(他命名的)能夠提供一種有效的個(gè)人識(shí)別方法,最早提出了“聲紋(voicePrint)的概念并提出了基于模式匹配和概率統(tǒng)計(jì)方差分析的聲紋識(shí)別方法,從而形成了聲紋識(shí)別研究的一個(gè)高潮,其間的工作主要集中在各種識(shí)別參數(shù)的提取、選擇和實(shí)驗(yàn)上,并將倒頻譜和線性預(yù)測分析等方法應(yīng)用于聲紋識(shí)別。70年代末至今,聲紋識(shí)別的研究重點(diǎn)轉(zhuǎn)向?qū)Ω鞣N聲學(xué)參數(shù)的線性或非線性處理以及新的模式匹配方法上。近幾年,聲紋識(shí)別技術(shù)己逐漸走出實(shí)驗(yàn)室,在個(gè)人身份識(shí)別、刑事偵破中得到應(yīng)用。 在國外,AT&T研制的基于聲紋識(shí)別技術(shù)的智慧卡(smartcard)己應(yīng)用于自動(dòng)提款機(jī)。歐洲電信聯(lián)盟于1998年完成了CAVE計(jì)劃,并于同年又啟動(dòng)了PICASSO計(jì)劃,在電信網(wǎng)上完成了聲紋識(shí)別;同時(shí),Motorola和Visa等公司成立了V一commerce聯(lián)盟,希望實(shí)現(xiàn)電子交易的自助化,其中通過聲音確定人的身份是此項(xiàng)目的重要組成部分。 國內(nèi)聲紋識(shí)別技術(shù)則主要應(yīng)用于司法鑒定,例如上海思?jí)研畔⒓夹g(shù)有限公司的Vls聲紋分析鑒定系統(tǒng);還有IP呼叫系統(tǒng),比如南京北極星軟件公司的FinesuPP0rt系統(tǒng)中就用到了聲紋技術(shù)。 目前聲紋識(shí)別技術(shù)的識(shí)別率,T-NETIX公司的SPeakEZ達(dá)到94%一95%,日本巖井公司在此基礎(chǔ)上研制的同類產(chǎn)品據(jù)稱其識(shí)別率已達(dá)到99.8%。根據(jù)最近的報(bào)道,國內(nèi)的北京得意音通技術(shù)有限責(zé)任公司開發(fā)的“得意”身份證開發(fā)工具據(jù)其自稱辨認(rèn)和確認(rèn)準(zhǔn)確度都可以到達(dá)接近100%。