国产性70yerg老太,狠狠的日,欧美人与动牲交a免费,中文字幕成人网站

基本信息

項(xiàng)目名稱:
基于XML文檔相似度的研究及其在檢索中的應(yīng)用
小類:
信息技術(shù)
簡(jiǎn)介:
本文提出了一種新的計(jì)算XML文檔之間相似度的算法,該方法不僅考慮了xml文檔的內(nèi)容語義,還充分考慮了它的結(jié)構(gòu)特點(diǎn)?;诖怂惴ㄎ覀冞€提出了一個(gè)XML信息檢索模型并實(shí)現(xiàn)了其原型系統(tǒng)。實(shí)驗(yàn)結(jié)果證明了該算法具有較高的查全率與查準(zhǔn)率。
詳細(xì)介紹:
本文同時(shí)考慮了XML文檔之間的內(nèi)容和結(jié)構(gòu)特點(diǎn),提出了一種新的計(jì)算XML文檔之間相似度的方法,主要工作包括以下幾個(gè)方面: ?(1)綜合考慮了元素的相似度和路徑的結(jié)構(gòu)信息,提出了一種計(jì)算路徑之間的相似度的算法。 ?(2)基于路徑相似度,提出了一種計(jì)算文檔之間的相似度的方法,并且基于該方法實(shí)現(xiàn)XML文檔之間的近似匹配。

作品圖片

  • 基于XML文檔相似度的研究及其在檢索中的應(yīng)用
  • 基于XML文檔相似度的研究及其在檢索中的應(yīng)用

作品專業(yè)信息

撰寫目的和基本思路

XML文檔的相似度計(jì)算是XML文檔檢索、聚類、分類等應(yīng)用的基本問題,所以對(duì)XML相似度計(jì)算的研究有重要意義。 XML文檔之間的相似度計(jì)算思路: (1)把XML文檔解析成相應(yīng)路徑集 (2)綜合考慮路徑中元素的編輯距離和語義相似度得到元素相應(yīng)的語言相似度 (3)通過路徑中元素的相似度利用動(dòng)態(tài)歸劃思想得出兩路徑間相似度 (4)通過路徑間的相似度得到兩路徑集間的相似度即兩XML文檔間的相似度

科學(xué)性、先進(jìn)性及獨(dú)特之處

(1)根據(jù)WordNet本體計(jì)算兩個(gè)詞之間的相似度 (2)計(jì)算兩元素相似度時(shí)考慮了編輯相似度和語義相似度 (3)在計(jì)算兩路徑相似度時(shí)綜合考慮了元素的相似度和路徑的結(jié)構(gòu)信息 (4)計(jì)算XML文檔相似度的同時(shí)考慮了XML文檔之間的內(nèi)容和結(jié)構(gòu)特點(diǎn)

應(yīng)用價(jià)值和現(xiàn)實(shí)意義

隨著XML逐漸成為因特網(wǎng)上數(shù)據(jù)交換的標(biāo)準(zhǔn),開發(fā)一種基于半結(jié)構(gòu)化數(shù)據(jù)的搜索引擎有十分重要的科研和應(yīng)用價(jià)值,它不需要用戶對(duì)所查詢XML的DTD或schema模式、復(fù)雜的XML查詢語言(如XQuery等)等相關(guān)知識(shí)有所了解,而對(duì)數(shù)據(jù)進(jìn)行檢索。它還可以方便的嵌入到web搜索引擎中,為電子商務(wù)和電子政務(wù)的發(fā)展提供強(qiáng)大的動(dòng)力,為軟件產(chǎn)業(yè)的發(fā)展提供新的增長(zhǎng)點(diǎn)。

學(xué)術(shù)論文摘要

隨著XML作為數(shù)據(jù)表示語言的流行,從中發(fā)現(xiàn)和挖掘有用的信息非常重要。本文提出了一種新的計(jì)算XML文檔之間相似度的算法,分別從元素、路徑和文檔三個(gè)層面進(jìn)行相似度計(jì)算。該方法不僅考慮了XML文檔的內(nèi)容語義,還充分考慮了它的結(jié)構(gòu)特點(diǎn)。其中元素相似度的計(jì)算考慮了標(biāo)簽名的編輯相似度和語義相似度,路經(jīng)相似度的計(jì)算時(shí)綜合考慮了元素的相似度和路徑的結(jié)構(gòu)信息,然后基于路徑相似度實(shí)現(xiàn)XML文檔之間的近似匹配。最后基于XML文檔相似度算法我們提出了一個(gè)XML信息檢索模型并實(shí)現(xiàn)了其原型系統(tǒng)。

獲獎(jiǎng)情況

該論文在6月12日的第十一屆“挑戰(zhàn)杯”山東省大學(xué)生課外學(xué)術(shù)科技作品競(jìng)賽評(píng)審會(huì)上被評(píng)為山東省一等獎(jiǎng),并被推薦進(jìn)入國(guó)家決賽。

鑒定結(jié)果

參考文獻(xiàn)

一、現(xiàn)有技術(shù) (1)WordNet技術(shù)。WordNet是普林斯頓大學(xué)科學(xué)實(shí)驗(yàn)室開發(fā)的一個(gè)英語詞典,它根據(jù)詞條的意思將各個(gè)詞條分組,每一個(gè)具有相同意義的詞條組稱為一個(gè)synset(同義詞集合)。WordNet為每一個(gè)synset 提供了簡(jiǎn)短概要的定義。并記錄不同synset之間的語義關(guān)系。并提供了相關(guān)的API(編程應(yīng)用接口)。 (2)XML文檔解析技術(shù):SAX 和DOM,它提供了相應(yīng)的API(編程應(yīng)用接口)。 (3)動(dòng)態(tài)歸劃算法。利用最優(yōu)子結(jié)構(gòu)性質(zhì)和重疊子問題性質(zhì)設(shè)計(jì)算法。 二、技術(shù)文獻(xiàn)的檢索目錄 萬方數(shù)據(jù)庫 EI compendex數(shù)據(jù)庫

同類課題研究水平概述

近幾年, 許多國(guó)內(nèi)外學(xué)者對(duì)XML文檔的相似度問題進(jìn)行了廣泛研究。概括起來一般分為三類:第一類是基于XML的標(biāo)簽(label)內(nèi)容,第二類是基于文檔結(jié)構(gòu),第三類綜合考慮了XML的標(biāo)簽內(nèi)容和文檔結(jié)構(gòu)。第一類方法主要基于包含相同標(biāo)簽的文檔具有相似的文檔,兩個(gè)文檔中所擁有的共同標(biāo)簽(相同的標(biāo)簽或同義詞標(biāo)簽)越多,則相似度越大。第二類方法涉及點(diǎn)匹配,邊匹配,路徑匹配,樹結(jié)構(gòu)匹配等。基于包含相同的邊、相同的路徑越多,則它們的文檔結(jié)構(gòu)越相似?;蛘呋跇?biāo)簽樹結(jié)構(gòu)之間的編輯距離,利用編輯距離來衡量?jī)煽脴渲g的相似度,其基本思想是將兩棵樹之間的距離定義為利用編輯操作實(shí)現(xiàn)一棵樹到另一棵樹轉(zhuǎn)換所需的最小代價(jià),樹之間的編輯操作主要有插入、刪除、替換三種。編輯距離和相似度之間成反比關(guān)系,編輯距離越小,則相似度越大,該類方法重點(diǎn)關(guān)注XML文檔的拓?fù)浣Y(jié)構(gòu)。第三類方法同時(shí)充分考慮了XML的結(jié)構(gòu)和內(nèi)容信息。
建議反饋 返回頂部