国产性70yerg老太,狠狠的日,欧美人与动牲交a免费,中文字幕成人网站

基本信息

項(xiàng)目名稱:
基于主題模型的中文語(yǔ)義研究
小類:
信息技術(shù)
簡(jiǎn)介:
隨著信息爆炸時(shí)代的到來(lái),對(duì)于信息的分析與處理就變得尤為重要。在文本分析領(lǐng)域中,主題模型已經(jīng)成功的應(yīng)用于對(duì)英文文本的建模,然而由于漢語(yǔ)與英語(yǔ)在語(yǔ)義結(jié)構(gòu)方面的巨大差異,漢語(yǔ)主題模型的研究仍然存在著尚未解決的關(guān)鍵問(wèn)題。已有的漢語(yǔ)主題模型的研究都只是簡(jiǎn)單的套用英文主題模型,并沒(méi)有考慮到漢語(yǔ)語(yǔ)義的高度復(fù)雜性,本文提出了一種新的針對(duì)漢語(yǔ)的主題模型,并經(jīng)過(guò)對(duì)大量文本的分類實(shí)驗(yàn)證明了新模型的有效性。
詳細(xì)介紹:
在如今這個(gè)信息極大豐富的時(shí)代,當(dāng)我們面對(duì)海量信息的時(shí)候,如何高速有效的取得對(duì)我們有用的信息就顯得極其重要。對(duì)文本進(jìn)行分析與處理便是解決這一問(wèn)題的有效途徑之一。主題模型是近年來(lái)應(yīng)用文本分析的一個(gè)熱點(diǎn),雖然他已經(jīng)廣泛的應(yīng)用于對(duì)英文文本的分析領(lǐng)域,但是,對(duì)中文主題模型的研究仍然存在著尚未解決的關(guān)鍵問(wèn)題。絕大多數(shù)的研究者在對(duì)中文進(jìn)行主題模型建模的時(shí)候,都是簡(jiǎn)單的套用英文文本的建模方式,而忽略了漢語(yǔ)與英語(yǔ)在語(yǔ)義結(jié)構(gòu)上存在重大差異這一事實(shí),這就迫切的需要我們提出一種新的,更加適用于漢語(yǔ)的主題模型。本文通過(guò)對(duì)漢語(yǔ)與英語(yǔ)的特征分析,合理的抓住了漢語(yǔ)的語(yǔ)義結(jié)構(gòu)特點(diǎn),提出了一種新的,以漢字為基本可觀察變量的主題模型,并且在用新模型對(duì)中文語(yǔ)料庫(kù)進(jìn)行建模后,用支持向量機(jī)為機(jī)器學(xué)習(xí)工具對(duì)提取的文本特征進(jìn)行學(xué)習(xí)并分類,取得了很好的分類效果,對(duì)SOUGOU實(shí)驗(yàn)室提供的新聞分類語(yǔ)料庫(kù)中的10000篇文本進(jìn)行分類時(shí),準(zhǔn)確率可達(dá)85%,并且該模型相比較于傳統(tǒng)的漢語(yǔ)主題模型,提高了分類的效率,以此證明了新模型在語(yǔ)義層面給中文文本進(jìn)行建模的有效性。

作品專業(yè)信息

撰寫目的和基本思路

首先,鑒于目前對(duì)于信息處理的重要性,本文選取了有關(guān)為文本建模方面的研究以滿足時(shí)代的需要;其次,主題模型的研究在英文領(lǐng)域以成為熱點(diǎn)并得到廣泛應(yīng)用,但漢語(yǔ)主題模型的研究仍存在未解決的問(wèn)題,于是為漢語(yǔ)提出一個(gè)合理的主題模型便顯得迫在眉睫;再次,分析了漢語(yǔ)與英語(yǔ)的不同點(diǎn),并根據(jù)中文的語(yǔ)義結(jié)構(gòu)特點(diǎn),提出了新的以漢字為基本可觀察變量的主題模型;最后,通過(guò)實(shí)驗(yàn)證明了新模型的有效性。

科學(xué)性、先進(jìn)性及獨(dú)特之處

本文以文本分析領(lǐng)域的熱點(diǎn)——主題模型為基礎(chǔ),在發(fā)現(xiàn)該模型在中文領(lǐng)域應(yīng)用的問(wèn)題之后,結(jié)合中文的語(yǔ)言特點(diǎn),提出了新的適用于中文的主題模型,從而為更加有效的分析中文文本提供了有效工具。并且,在實(shí)驗(yàn)的過(guò)程中,以目前分類技術(shù)中被認(rèn)為最有效的支持向量機(jī)來(lái)進(jìn)行機(jī)器學(xué)習(xí),保證了分類結(jié)果的準(zhǔn)確性。

應(yīng)用價(jià)值和現(xiàn)實(shí)意義

新模型可以應(yīng)用于基于語(yǔ)義的信息檢索,文本分類、歧義去除、引用分析、社交網(wǎng)絡(luò)分析等。并且為未來(lái)新的中文分析模型的提出提供了思路和方向。

學(xué)術(shù)論文摘要

隨著主題模型的發(fā)展,使用主題模型來(lái)對(duì)中文文本進(jìn)行分析越來(lái)越受到人們的關(guān)注?,F(xiàn)如今,絕大多數(shù)的研究者都是簡(jiǎn)單的套用英文的主題模型,也就是將漢語(yǔ)中的詞作為基本可觀察變量的方法來(lái)分析中文文本。然而,漢語(yǔ)和英語(yǔ)在語(yǔ)義的基本結(jié)構(gòu)和語(yǔ)句構(gòu)成上存在著巨大差異,這使我們有理由懷疑在分析中文文本時(shí),套用英文建模方式的有效性,因此本文作者提出了一種以漢字為基本可觀察變量的主題模型。我們分別以漢字和漢語(yǔ)詞作為基本可觀察變量,使用主題模型中的LDA模型對(duì)中文文本進(jìn)行建模,并比較了他們?cè)诜种Ф壬系谋憩F(xiàn),再利用支持向量機(jī)(SVM)對(duì)文本進(jìn)行分類。實(shí)驗(yàn)證明,以漢字為基本可觀察變量的LDA模型在分支度上的表現(xiàn)優(yōu)于以漢語(yǔ)詞為基本可觀察變量的LDA模型;同時(shí),在文本分類方面,兩者表現(xiàn)出了幾乎相同的準(zhǔn)確性,且在個(gè)別主題數(shù)上,前者的準(zhǔn)確率高于后者。在平行雙語(yǔ)語(yǔ)料庫(kù)的研究中,我們分別比較了基于英語(yǔ)詞,漢語(yǔ)詞和漢字的主題模型在文本分類方面的表現(xiàn),探討了這幾個(gè)主題模型的相似度,結(jié)果證明主題模型可以很好的在語(yǔ)義層面給文本建模,同時(shí),提出了用以上三種模型同時(shí)分類來(lái)提高分類準(zhǔn)確度的新方法。

獲獎(jiǎng)情況

無(wú)

鑒定結(jié)果

無(wú)

參考文獻(xiàn)

[1] M. Steyvers and Tom Griffithm, Probabilistic topic models[M]. In T.Landauer, D. McNamara, S. Dennis, and W. Kintsch(eds), Latent Semantic Anaysis:A Road to Meaning.2007. [2]J. Boyd-Graber, D. Blei, and X. Zhu. A topic model for word sense disambiguation[A]. In Empirical Methods in Natural Language Processing[C], 2007. [3] J. Chang and D. Blei. Hierarchical relational models for document networks[J]. In The Annals of Applied Statistics.2010,Vol.4,No.1,124-150. [4]林洋港.2009.概率主題模型在文本分類中的應(yīng)用研究[D]. [5]唐懿芳,牛力-傅賽香,嚴(yán)小衛(wèi)。文本的自動(dòng)分類,廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2001,19(4):50—55 [6]王建芬,曹元大。支持向量機(jī)在大類別數(shù)分類中的應(yīng)用,北京理工大學(xué)學(xué)報(bào),2001,21(2): [7]徐通鏘. 字和漢語(yǔ)語(yǔ)義句法的基本結(jié)構(gòu)原理[A]. 03—5397(2001)01—0003.11 [8]徐通鏘. 字和漢語(yǔ)語(yǔ)義句法的生成機(jī)制[J]. 語(yǔ)言文字應(yīng)用1999 年第1期 [9] 胡學(xué)鋼,董學(xué)春,謝飛. 基于詞向量空間模型的中文文本分類方法[A]. 1003—5060(2007)10-1261-04

同類課題研究水平概述

一種較早出現(xiàn)的主題模型是由Hofman(1999)提出的probabilistic Latent Semantic Index (pLSI)[,pLSI中關(guān)于組成一篇文檔的各個(gè)主題的混合權(quán)重沒(méi)有給出任何概率假設(shè),這就造成該模型無(wú)法對(duì)訓(xùn)練文本集外的文本進(jìn)行相關(guān)的概率計(jì)算,所以如果要分析某個(gè)文本,必須要將其加入訓(xùn)練集重新訓(xùn)練;此外pLSI中需要學(xué)習(xí)的模型參數(shù)會(huì)隨著文檔數(shù)目的增加而線性增長(zhǎng)。在pLSI之后,Blei等提出的Latent Dirichlet Allocation(LDA)在主題模型的發(fā)展過(guò)程中起到了很大作用。LDA模型對(duì)每篇文章的主題分布變量引入了一個(gè)Dirichlet分布作為先驗(yàn)(由于Dirichlet分布與多項(xiàng)式分布共軛,這也方便了貝葉斯網(wǎng)絡(luò)中推理),并把Dirichlet分布的參數(shù)作為L(zhǎng)DA模型的參數(shù),從而解決了上面提到的pLSI中問(wèn)題。從此,LDA模型便大行其道,很是受研究者的喜愛(ài),是研究的熱點(diǎn)。但就目前來(lái)看,大多數(shù)的研究都把精力放在了英文的文本分析上,而由于漢語(yǔ)語(yǔ)義結(jié)構(gòu)的復(fù)雜性,幾乎沒(méi)有學(xué)者對(duì)中文的主題模型進(jìn)行過(guò)細(xì)致的研究,即便有,也只是簡(jiǎn)單的套用英文主題模型的方式,并沒(méi)有很好的研究和利用中文的語(yǔ)義結(jié)構(gòu)的特點(diǎn),并不妥當(dāng),所以這是中文主題模型尚待解決的一個(gè)問(wèn)題。
建議反饋 返回頂部