基本信息
- 項(xiàng)目名稱(chēng):
- 基于BAM的用戶查詢與網(wǎng)頁(yè)匹配的研究
- 來(lái)源:
- 第十二屆“挑戰(zhàn)杯”省賽作品
- 小類(lèi):
- 信息技術(shù)
- 大類(lèi):
- 自然科學(xué)類(lèi)學(xué)術(shù)論文
- 簡(jiǎn)介:
- 提出一個(gè)新匹配的策略使用更加精確和現(xiàn)實(shí)的概念以提高過(guò)去的基于關(guān)鍵詞的匹配策略。根據(jù)從各個(gè)網(wǎng)頁(yè)中提取語(yǔ)義概念為每個(gè)網(wǎng)頁(yè)建立1個(gè)概念格子。這樣概念格由雙向聯(lián)想記憶存儲(chǔ)器進(jìn)行編碼以區(qū)別于過(guò)去復(fù)雜概念格建立算法。然后提取這些形式概念中與查詢的關(guān)鍵詞相關(guān)的對(duì)象與屬性進(jìn)行匹配操作。
- 詳細(xì)介紹:
- 提出一個(gè)新匹配的策略使用更加精確和現(xiàn)實(shí)的概念以提高過(guò)去的基于關(guān)鍵詞的匹配策略。根據(jù)從各個(gè)網(wǎng)頁(yè)中提取語(yǔ)義概念為每個(gè)網(wǎng)頁(yè)建立1個(gè)概念格子。這樣概念格由雙向聯(lián)想記憶存儲(chǔ)器進(jìn)行編碼以區(qū)別于過(guò)去復(fù)雜概念格建立算法。然后提取這些形式概念中與查詢的關(guān)鍵詞相關(guān)的對(duì)象與屬性進(jìn)行匹配操作。在新的匹配模型中,使用的形式概念與自然語(yǔ)義概念相似,并且這些概念被作為文本和網(wǎng)頁(yè)表示的基本元素。匹配模型不僅具有理解自然語(yǔ)言文本的能力而且具有學(xué)習(xí)的能力。其中各個(gè)概念權(quán)重是可變的,這個(gè)模型可以根據(jù)用戶反饋更新文本的表示,還可以通過(guò)學(xué)習(xí)得到一組有用的概念來(lái)幫助檢索。模型中采用的學(xué)習(xí)策略可以使相關(guān)網(wǎng)頁(yè)的相似性得以加強(qiáng),不相關(guān)網(wǎng)頁(yè)的相似性得以削弱。實(shí)驗(yàn)證明,這個(gè)新的匹配模型可以使信息檢索的召回率和準(zhǔn)確率得以提高。
作品專(zhuān)業(yè)信息
撰寫(xiě)目的和基本思路
- 作品撰寫(xiě)的目的是提高網(wǎng)頁(yè)匹配速度。基本思路是提出一個(gè)新的匹配策略,使用更加精確和現(xiàn)實(shí)的概念以提高過(guò)去基于關(guān)鍵詞的匹配策略。
科學(xué)性、先進(jìn)性及獨(dú)特之處
- 提出了一個(gè)新的匹配策略,在新的匹配模型中,使用的形式概念與自然語(yǔ)義概念相似,并且這些概念被作為文本和網(wǎng)頁(yè)表示的基本元素。匹配模型不僅具有理解自然語(yǔ)言文本的能力而且具有學(xué)習(xí)的能力。其中各個(gè)概念權(quán)重是可變的。這個(gè)模型可以根據(jù)用戶反饋更新文本的表示,還可以通過(guò)學(xué)習(xí)得到一組有用的概念來(lái)幫助檢索。
應(yīng)用價(jià)值和現(xiàn)實(shí)意義
- 可以顯著的提高搜索性能,提高了準(zhǔn)確率和召回率
學(xué)術(shù)論文摘要
- 提出一個(gè)新匹配的策略使用更加精確和現(xiàn)實(shí)的概念以提高過(guò)去的基于關(guān)鍵詞的匹配策略主。根據(jù)從各個(gè)網(wǎng)頁(yè)中提取語(yǔ)義概念為每個(gè)網(wǎng)頁(yè)建立1個(gè)概念格子。這樣概念格由雙向聯(lián)想記憶存儲(chǔ)器進(jìn)行編碼以區(qū)別于過(guò)去復(fù)雜概念格建立算法。然后提取這些形式概念中與查詢的關(guān)鍵詞相關(guān)的對(duì)象與屬性進(jìn)行匹配操作。
獲獎(jiǎng)情況
- 無(wú)
鑒定結(jié)果
- 無(wú)
參考文獻(xiàn)
- [1]KOSKO B.Bidrectional Associative Memory [J].IEEE Transactions of Systems,Man and Cybernetics,1988,18(1):49-60. [2]WILLE R.Restructuring Lattice Theory:An Approach Based on Hierarchies of Concepts [J].Ordered Sets,1982,32:445-470. [3] BěLOHLáVEK R.Respresentation of Concept Lattices by Bidirectional Associative Memories [J].Neural Computation,2000,12(10):2 279-2 290. [4]GODIN R,GECSEI J,PICHET C.Design of Browsing Interface for Information Retrieval [J].Proc SIGIR,1989,89:32-39.
同類(lèi)課題研究水平概述
- (l)向量模型:1975年由Salton等提出。向量模型中文檔被看成一組獨(dú)立的n維詞條向量,對(duì)每個(gè)詞條分量都賦予一個(gè)權(quán)值,文檔和用戶查詢的匹配問(wèn)題可以轉(zhuǎn)化為向量空間匹配問(wèn)題,用兩個(gè)向量的夾角余弦表示文檔和用戶查詢的匹配程度。 (2)布爾模型:1980年由Booksteinll提出。布爾模型是一種簡(jiǎn)單的匹配模型,如果用戶提交的查詢?cè)~條在文檔中出現(xiàn)就賦予Ture值,反之賦予False值,用and,or,not等邏輯運(yùn)算符將查詢?cè)~條連成一個(gè)邏輯表達(dá)式。布爾模型的檢索速度快,并且易于實(shí)現(xiàn),幾乎所有的商業(yè)搜索引擎都支持該模型。但是該模型要求過(guò)于嚴(yán)格,漏檢比較嚴(yán)重,而且沒(méi)有考慮到關(guān)鍵字的權(quán)重問(wèn)題,使得檢索結(jié)果不夠令人滿意。 (3)潛在語(yǔ)義索引模型:1990年由Deerwester提出。它利用特征詢與文檔對(duì)象之間的內(nèi)在關(guān)系形成信息的語(yǔ)義結(jié)構(gòu),來(lái)反映數(shù)據(jù)間最主要的聯(lián)系模式,忽略了個(gè)體文檔對(duì)詞語(yǔ)的不同使用風(fēng)格。 (4)概率模型:概率模型考慮了詞條和文檔之間的統(tǒng)計(jì)概率。根據(jù)先前檢索過(guò)程中得到的相關(guān)性先驗(yàn)信息,計(jì)算文檔集合中每篇文檔成為相關(guān)文檔的概率,然后根據(jù)統(tǒng)計(jì)決策理論決定輸出標(biāo)準(zhǔn)來(lái)確定哪些文檔可以輸出。 (5)基于命題邏輯的模型:它將文檔和查詢當(dāng)成一個(gè)命題公式,用邏輯推導(dǎo)的方法計(jì)算二者的相關(guān)性。此外還有神經(jīng)網(wǎng)絡(luò)模型:它將每個(gè)關(guān)鍵詞作為輸入神經(jīng)元,每篇文檔作為輸出神經(jīng)元,通過(guò)查詢激活相應(yīng)的輸入神經(jīng)元,來(lái)獲得輸出信號(hào),即相關(guān)文檔。神經(jīng)網(wǎng)絡(luò)模型具有學(xué)習(xí)能力,考慮了關(guān)鍵詞之間的相關(guān)性。但是在實(shí)際的信息檢索系統(tǒng)中很少應(yīng)用,因?yàn)閷?shí)際中需要太多的神經(jīng)元表示數(shù)據(jù)庫(kù)中的文檔和關(guān)鍵詞,并且會(huì)因此產(chǎn)生大量的計(jì)算。