基本信息
- 項(xiàng)目名稱:
- “谷歌翻譯”英譯漢偏誤分析與對(duì)策
- 小類:
- 教育
- 簡介:
- 機(jī)器翻譯是語言學(xué)領(lǐng)域唯一被列入當(dāng)代科學(xué)技術(shù)十大難題的研究項(xiàng)目,是語言學(xué)和計(jì)算機(jī)科學(xué)結(jié)合的交叉學(xué)科。通過自動(dòng)翻譯克服語言障礙、實(shí)現(xiàn)信息共享有重大的意義。“谷歌”公司開發(fā)的系統(tǒng)——“谷歌翻譯”擁有著龐大的用戶群,其譯文卻不盡人意。本文發(fā)揮語言類專業(yè)學(xué)生的專業(yè)優(yōu)勢(shì),將第二語言習(xí)得領(lǐng)域的偏誤分析法引入到了機(jī)器翻譯的譯文評(píng)測(cè)當(dāng)中,并以“谷歌翻譯”為研究對(duì)象進(jìn)行了實(shí)踐分析,對(duì)糾正偏誤、改進(jìn)譯文質(zhì)量提出了設(shè)想。
- 詳細(xì)介紹:
- 21世紀(jì)以來,隨著互聯(lián)網(wǎng)的普及和跨語言交流的日益頻繁,克服語言障礙,實(shí)現(xiàn)信息共享的需求日益凸顯。利用計(jì)算機(jī)實(shí)現(xiàn)廉價(jià)、快捷、高質(zhì)量的自動(dòng)翻譯一直是人類的夢(mèng)想。從上世紀(jì)五十年代開始,語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)等相關(guān)領(lǐng)域的專家學(xué)者就一直在努力探索,力圖攻克這一難題。然而,經(jīng)過六十多年的研究,機(jī)器翻譯的譯文質(zhì)量仍遠(yuǎn)遠(yuǎn)不能滿足用戶的需求。 本課題組成員均為語言專業(yè)大學(xué)生。我們將第二語言習(xí)得(Second Language Acquisition)中的偏誤分析法(Error Analysis)引入到了機(jī)器翻譯測(cè)評(píng)(Machine Translation Evaluation)當(dāng)中,提出了“機(jī)器翻譯偏誤”的概念及其研究方法。 我們選取《新概念英語》第二冊(cè)1-48課課文作為源語言語料;采用“谷歌(Google)”公司開發(fā)的在線翻譯系統(tǒng)“谷歌翻譯”作為測(cè)評(píng)系統(tǒng)。通過對(duì)500多例翻譯語料的篩選、標(biāo)注,得到824條偏誤語料。 在對(duì)大量偏誤語料進(jìn)行分析過程中,本課題組還提出了兩大視角(源語言視角和目標(biāo)語言視角)來拓寬偏誤的涵蓋面;同時(shí)又通過優(yōu)先順序和經(jīng)濟(jì)性原則的規(guī)定,盡可能地減少了重復(fù)分析。最后,我們?cè)诮y(tǒng)計(jì)數(shù)據(jù)的基礎(chǔ)上,歸納出了“谷歌翻譯”英譯漢8種常見的偏誤類型。 “谷歌翻譯”系統(tǒng)在技術(shù)實(shí)現(xiàn)上過多地依賴于統(tǒng)計(jì)的方法,重技術(shù)、輕語言,這一缺陷嚴(yán)重阻礙了其譯文質(zhì)量的提高。為了糾正偏誤、提高譯文質(zhì)量,除了要加強(qiáng)大規(guī)模真實(shí)語料的統(tǒng)計(jì)、訓(xùn)練,更要注重語言學(xué)規(guī)則的算法化與實(shí)現(xiàn)研究。
作品專業(yè)信息
撰寫目的和基本思路
- 本課題組在使用“谷歌翻譯”的過程中,發(fā)現(xiàn)了該系統(tǒng)譯文存在“偏誤”現(xiàn)象。因此,我們將第二語言習(xí)得領(lǐng)域的偏誤分析法引入機(jī)器翻譯譯文評(píng)測(cè)中,提出了“機(jī)器翻譯偏誤”及其研究方法。我們以“谷歌翻譯”系統(tǒng)為研究對(duì)象,對(duì)824條英譯漢偏誤語料進(jìn)行了篩選、標(biāo)注、統(tǒng)計(jì),以統(tǒng)計(jì)數(shù)據(jù)為基礎(chǔ),歸納出該英譯漢系統(tǒng)8種常見的偏誤類型及其分布,初步分析了產(chǎn)生偏誤的原因,并提出了糾正偏誤、改進(jìn)譯文質(zhì)量的設(shè)想。
科學(xué)性、先進(jìn)性及獨(dú)特之處
- 本研究利用語言類學(xué)生的專業(yè)優(yōu)勢(shì)、關(guān)注學(xué)術(shù)前沿,理論聯(lián)系實(shí)際,將第二語言習(xí)得領(lǐng)域的偏誤分析法引入到機(jī)器翻譯譯文評(píng)測(cè)當(dāng)中,提出了“機(jī)器翻譯偏誤”概念并對(duì)其進(jìn)行系統(tǒng)研究,包括偏誤視角、偏誤類型、偏誤分布和成因分析。與傳統(tǒng)的做法不同,我們?cè)谄`分析的視角上,既關(guān)注源語言視角,又關(guān)注目標(biāo)語視角;在偏誤類型歸納方面,通過規(guī)定優(yōu)先級(jí)盡可能避免交叉分類現(xiàn)象。因此可以說本課題在理論和方法兩方面均具有創(chuàng)新性。
應(yīng)用價(jià)值和現(xiàn)實(shí)意義
- “谷歌翻譯”等系統(tǒng)在技術(shù)實(shí)現(xiàn)上過于依賴數(shù)理統(tǒng)計(jì)、重技術(shù)輕語言,阻礙了其譯文質(zhì)量的提高。本課題發(fā)揮語言類學(xué)生的專業(yè)優(yōu)勢(shì),理論聯(lián)系實(shí)際,提出了“機(jī)器翻譯偏誤”概念及其研究方法,為機(jī)器翻譯譯文質(zhì)量測(cè)評(píng)提供了新的研究思路;所總結(jié)出的“谷歌翻譯”英譯漢的8種偏誤類型可以通過補(bǔ)充規(guī)則的方式運(yùn)用到機(jī)器翻譯系統(tǒng)的設(shè)計(jì)中,從而有效提高譯文水平;該研究方法對(duì)改進(jìn)其他翻譯系統(tǒng)也有積極的參考價(jià)值。
作品摘要
- 機(jī)器翻譯是語言學(xué)和計(jì)算機(jī)科學(xué)相結(jié)合的交叉學(xué)科。利用計(jì)算機(jī)實(shí)現(xiàn)自然語言之間的高質(zhì)量自動(dòng)翻譯對(duì)于促進(jìn)國際交流、實(shí)現(xiàn)信息資源共享具有重要的意義。對(duì)機(jī)器翻譯譯文進(jìn)行合理的評(píng)測(cè),有助于機(jī)器翻譯系統(tǒng)的改進(jìn)。本課題將第二語言習(xí)得研究中的偏誤概念和偏誤分析理論引入機(jī)器翻譯的譯文評(píng)測(cè),提出“機(jī)器翻譯偏誤”的概念并探索其研究方法。從源語言和目標(biāo)語兩個(gè)視角對(duì)“谷歌翻譯”英譯漢語料進(jìn)行分析,歸納出了八種常見偏誤類型及其分布比例。這一結(jié)果有望通過補(bǔ)充規(guī)則的方式運(yùn)用到機(jī)器翻譯系統(tǒng)的設(shè)計(jì)中,從而有效提高譯文水平;這一研究方法對(duì)改進(jìn)其他翻譯系統(tǒng)也有積極的參考價(jià)值。
獲獎(jiǎng)情況及評(píng)定結(jié)果
- 2009年首都“挑戰(zhàn)杯”學(xué)術(shù)科技競(jìng)賽一等獎(jiǎng)。
參考文獻(xiàn)
- [1] 葉蜚聲,徐通鏘.語言學(xué)綱要[M].北京.北京大學(xué)出版社,1997. [2] 張政. 計(jì)算機(jī)翻譯研究[M]. 北京:清華大學(xué)出版社,2006. [3] 馮志偉.機(jī)器翻譯研究[M].北京:中國對(duì)外翻譯出版公司,2004. [4] 俞士汶.計(jì)算語言學(xué)概論[M].北京:商務(wù)印書館,2003. [5] 劉珣.對(duì)外漢語課堂教學(xué)引論[M].北京:北京語言大學(xué)出版社,2000. [6] 朱德熙.語法講義[M].北京:商務(wù)印書館,1982. [7] 黃伯榮,廖序東.現(xiàn)代漢語(下冊(cè))[M].北京:高等教育出版社,2002. [8] 劉穎.計(jì)算語言學(xué)[M].北京:清華大學(xué)出版社,2002. [9] (英)亞歷山大,何其莘. 新概念英語(2)(新版)實(shí)踐與進(jìn)步[M].北京: 外語教學(xué)與研究出版社,2007. [10] S. Pit Corder.1981, Error Analysis and Interlanguage, Oxford: Oxford University Press.
調(diào)查方式
- 本文采用了語料調(diào)查的方法。首先選取真實(shí)的源語言語料,通過機(jī)器翻譯系統(tǒng)取得目標(biāo)語語料;對(duì)目標(biāo)語語料進(jìn)行篩選、標(biāo)注、統(tǒng)計(jì),在統(tǒng)計(jì)數(shù)據(jù)的基礎(chǔ)上,進(jìn)行理論分析。
同類課題研究水平概述
- 機(jī)器翻譯譯文的評(píng)價(jià)有人工測(cè)評(píng)和自動(dòng)測(cè)評(píng)兩種方式。 在國外,人工評(píng)測(cè)方面,廣泛采用的美國科學(xué)院語言自動(dòng)處理咨詢委員會(huì)(簡稱ALPAC)報(bào)告中對(duì)機(jī)器翻譯譯文的評(píng)價(jià)標(biāo)準(zhǔn),包括:可懂度(Intelligibility)和忠實(shí)度(Fidelity)、語體風(fēng)格(Genre)和語法(Grammar),主要從目標(biāo)語的角度來對(duì)譯文進(jìn)行分級(jí)評(píng)測(cè)。歐洲共同體采用的是另外一套評(píng)估標(biāo)準(zhǔn),從識(shí)別、經(jīng)濟(jì)、語言、使用難易度四個(gè)方面對(duì)機(jī)器譯文進(jìn)行測(cè)評(píng)。此外,日本科學(xué)技術(shù)廳將可懂度和忠實(shí)度進(jìn)行了分級(jí),力圖將人工評(píng)測(cè)標(biāo)準(zhǔn)量化。自動(dòng)評(píng)測(cè)方面,廣泛使用的BLEU(Bilingual Evaluation Understudy)和NIST(National Institute of Standards and Technology)兩種指標(biāo),均通過計(jì)算機(jī)程序,測(cè)試機(jī)器翻譯譯文和參考譯文相似度。 在國內(nèi),對(duì)機(jī)器翻譯的測(cè)評(píng)的研究主要由北京大學(xué)計(jì)算語言所進(jìn)行。在20世紀(jì)90年代即開發(fā)了基于分類評(píng)估法的機(jī)器翻譯評(píng)測(cè)系統(tǒng),并建立了機(jī)器翻譯評(píng)測(cè)大綱。從2003年到現(xiàn)在,在人工評(píng)測(cè)方面,采用可理解率、忠實(shí)度、流利度等指標(biāo);在自動(dòng)評(píng)測(cè)方面,大多采用國際通行的一些指標(biāo)。 國內(nèi)外各種機(jī)器翻譯評(píng)測(cè)都主要是以目標(biāo)語視角進(jìn)行的——以譯文質(zhì)量為核心、而譯文評(píng)價(jià)的標(biāo)準(zhǔn)也都最后落在了忠實(shí)度和可懂度上。 本課題所引入的機(jī)器翻譯偏誤分析法采用了源語言、目標(biāo)語兩大視角,關(guān)注語言現(xiàn)象,力圖通過語言學(xué)的解釋為譯文質(zhì)量提高、系統(tǒng)改進(jìn)提供思路。不僅關(guān)注譯文質(zhì)量的忠實(shí)度、可懂度,更關(guān)注由于工程實(shí)現(xiàn)的規(guī)則缺失而造成的偏誤。