国产性70yerg老太,狠狠的日,欧美人与动牲交a免费,中文字幕成人网站

基本信息

項目名稱:
基于XML文檔相似度的研究及其在檢索中的應(yīng)用
小類:
信息技術(shù)
簡介:
本文提出了一種新的計算XML文檔之間相似度的算法,該方法不僅考慮了xml文檔的內(nèi)容語義,還充分考慮了它的結(jié)構(gòu)特點?;诖怂惴ㄎ覀冞€提出了一個XML信息檢索模型并實現(xiàn)了其原型系統(tǒng)。實驗結(jié)果證明了該算法具有較高的查全率與查準(zhǔn)率。
詳細(xì)介紹:
本文同時考慮了XML文檔之間的內(nèi)容和結(jié)構(gòu)特點,提出了一種新的計算XML文檔之間相似度的方法,主要工作包括以下幾個方面: ?(1)綜合考慮了元素的相似度和路徑的結(jié)構(gòu)信息,提出了一種計算路徑之間的相似度的算法。 ?(2)基于路徑相似度,提出了一種計算文檔之間的相似度的方法,并且基于該方法實現(xiàn)XML文檔之間的近似匹配。

作品圖片

  • 基于XML文檔相似度的研究及其在檢索中的應(yīng)用
  • 基于XML文檔相似度的研究及其在檢索中的應(yīng)用

作品專業(yè)信息

撰寫目的和基本思路

XML文檔的相似度計算是XML文檔檢索、聚類、分類等應(yīng)用的基本問題,所以對XML相似度計算的研究有重要意義。 XML文檔之間的相似度計算思路: (1)把XML文檔解析成相應(yīng)路徑集 (2)綜合考慮路徑中元素的編輯距離和語義相似度得到元素相應(yīng)的語言相似度 (3)通過路徑中元素的相似度利用動態(tài)歸劃思想得出兩路徑間相似度 (4)通過路徑間的相似度得到兩路徑集間的相似度即兩XML文檔間的相似度

科學(xué)性、先進性及獨特之處

(1)根據(jù)WordNet本體計算兩個詞之間的相似度 (2)計算兩元素相似度時考慮了編輯相似度和語義相似度 (3)在計算兩路徑相似度時綜合考慮了元素的相似度和路徑的結(jié)構(gòu)信息 (4)計算XML文檔相似度的同時考慮了XML文檔之間的內(nèi)容和結(jié)構(gòu)特點

應(yīng)用價值和現(xiàn)實意義

隨著XML逐漸成為因特網(wǎng)上數(shù)據(jù)交換的標(biāo)準(zhǔn),開發(fā)一種基于半結(jié)構(gòu)化數(shù)據(jù)的搜索引擎有十分重要的科研和應(yīng)用價值,它不需要用戶對所查詢XML的DTD或schema模式、復(fù)雜的XML查詢語言(如XQuery等)等相關(guān)知識有所了解,而對數(shù)據(jù)進行檢索。它還可以方便的嵌入到web搜索引擎中,為電子商務(wù)和電子政務(wù)的發(fā)展提供強大的動力,為軟件產(chǎn)業(yè)的發(fā)展提供新的增長點。

學(xué)術(shù)論文摘要

隨著XML作為數(shù)據(jù)表示語言的流行,從中發(fā)現(xiàn)和挖掘有用的信息非常重要。本文提出了一種新的計算XML文檔之間相似度的算法,分別從元素、路徑和文檔三個層面進行相似度計算。該方法不僅考慮了XML文檔的內(nèi)容語義,還充分考慮了它的結(jié)構(gòu)特點。其中元素相似度的計算考慮了標(biāo)簽名的編輯相似度和語義相似度,路經(jīng)相似度的計算時綜合考慮了元素的相似度和路徑的結(jié)構(gòu)信息,然后基于路徑相似度實現(xiàn)XML文檔之間的近似匹配。最后基于XML文檔相似度算法我們提出了一個XML信息檢索模型并實現(xiàn)了其原型系統(tǒng)。

獲獎情況

該論文在6月12日的第十一屆“挑戰(zhàn)杯”山東省大學(xué)生課外學(xué)術(shù)科技作品競賽評審會上被評為山東省一等獎,并被推薦進入國家決賽。

鑒定結(jié)果

參考文獻(xiàn)

一、現(xiàn)有技術(shù) (1)WordNet技術(shù)。WordNet是普林斯頓大學(xué)科學(xué)實驗室開發(fā)的一個英語詞典,它根據(jù)詞條的意思將各個詞條分組,每一個具有相同意義的詞條組稱為一個synset(同義詞集合)。WordNet為每一個synset 提供了簡短概要的定義。并記錄不同synset之間的語義關(guān)系。并提供了相關(guān)的API(編程應(yīng)用接口)。 (2)XML文檔解析技術(shù):SAX 和DOM,它提供了相應(yīng)的API(編程應(yīng)用接口)。 (3)動態(tài)歸劃算法。利用最優(yōu)子結(jié)構(gòu)性質(zhì)和重疊子問題性質(zhì)設(shè)計算法。 二、技術(shù)文獻(xiàn)的檢索目錄 萬方數(shù)據(jù)庫 EI compendex數(shù)據(jù)庫

同類課題研究水平概述

近幾年, 許多國內(nèi)外學(xué)者對XML文檔的相似度問題進行了廣泛研究。概括起來一般分為三類:第一類是基于XML的標(biāo)簽(label)內(nèi)容,第二類是基于文檔結(jié)構(gòu),第三類綜合考慮了XML的標(biāo)簽內(nèi)容和文檔結(jié)構(gòu)。第一類方法主要基于包含相同標(biāo)簽的文檔具有相似的文檔,兩個文檔中所擁有的共同標(biāo)簽(相同的標(biāo)簽或同義詞標(biāo)簽)越多,則相似度越大。第二類方法涉及點匹配,邊匹配,路徑匹配,樹結(jié)構(gòu)匹配等。基于包含相同的邊、相同的路徑越多,則它們的文檔結(jié)構(gòu)越相似。或者基于標(biāo)簽樹結(jié)構(gòu)之間的編輯距離,利用編輯距離來衡量兩棵樹之間的相似度,其基本思想是將兩棵樹之間的距離定義為利用編輯操作實現(xiàn)一棵樹到另一棵樹轉(zhuǎn)換所需的最小代價,樹之間的編輯操作主要有插入、刪除、替換三種。編輯距離和相似度之間成反比關(guān)系,編輯距離越小,則相似度越大,該類方法重點關(guān)注XML文檔的拓?fù)浣Y(jié)構(gòu)。第三類方法同時充分考慮了XML的結(jié)構(gòu)和內(nèi)容信息。
建議反饋 返回頂部