基本信息
- 項(xiàng)目名稱:
- 面向主題的中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
- 小類:
- 信息技術(shù)
- 大類:
- 科技發(fā)明制作B類
- 簡介:
- 針對(duì)傳統(tǒng)搜索引擎,對(duì)于檢索關(guān)鍵詞返回信息量大,用戶篩選困難的缺陷。本系統(tǒng)提出主題劃分的思想,主要是對(duì)傳統(tǒng)搜索引擎的搜索結(jié)果進(jìn)行主題聚類和文檔重排。對(duì)于某個(gè)關(guān)鍵字搜索得到的頁面,可以按主題自動(dòng)分類,不同主題的搜索結(jié)果分別在不同的頁面上顯示結(jié)果;對(duì)于同一個(gè)主題的搜索頁面,采用文檔重排技術(shù),使得跟關(guān)鍵字更相關(guān)的結(jié)果顯示在搜索頁面的前面。
- 詳細(xì)介紹:
- 作品名稱為“面向主題的中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)”。針對(duì)傳統(tǒng)搜索引擎對(duì)于一個(gè)搜索關(guān)鍵詞提供海量搜索結(jié)果的缺陷,本作品提出了一種面向主題的搜索引擎的概念,即對(duì)傳統(tǒng)搜索引擎的搜索結(jié)果,進(jìn)行主題劃分和文檔重排。本作品的關(guān)鍵技術(shù)為,動(dòng)態(tài)確定聚類個(gè)數(shù)的K-means算法和基于權(quán)重重排文檔。
作品專業(yè)信息
設(shè)計(jì)、發(fā)明的目的和基本思路、創(chuàng)新點(diǎn)、技術(shù)關(guān)鍵和主要技術(shù)指標(biāo)
- 設(shè)計(jì)目的及思路: 傳統(tǒng)的Web信息采集的目標(biāo)就是盡可能多地采集信息頁面,甚至是整個(gè)Web上的資源,而并不太在意采集的順序和被采集頁面的相關(guān)主題。導(dǎo)致給用戶的搜索結(jié)果中有很多是無關(guān)信息,或者耗費(fèi)用戶大量時(shí)間來確認(rèn)哪些網(wǎng)頁是自己需要的。 針對(duì)這個(gè)問題,我們提出一種新的方案,將采集來的頁面進(jìn)行自動(dòng)分類和文檔重排。這種方案可以達(dá)到如下效果:對(duì)于某個(gè) 關(guān)鍵字搜索得到的頁面,可以按主題自動(dòng)分類,不同主題的搜索結(jié)果分別在不同的頁面上顯示結(jié)果,即同一個(gè)頁面上的搜索結(jié)果都是同一個(gè)主題的,這樣可以讓用戶直接選擇自己的主題;另外,對(duì)于同一個(gè)主題的搜索頁面,采用文檔重排技術(shù),使得跟關(guān)鍵字更相關(guān)的結(jié)果顯示在搜索頁面的前面。 項(xiàng)目的創(chuàng)新點(diǎn)在于能夠根據(jù)當(dāng)前搜索引擎的問題,首次提出將自動(dòng)分類和文檔重排技術(shù)運(yùn)用到搜索結(jié)果處理中,使用戶能在海量的信息中快速、準(zhǔn)確地找到自己需求的信息。 技術(shù)的關(guān)鍵是設(shè)計(jì)一個(gè)有效的自動(dòng)分類和文檔重排算法。 主要技術(shù)指標(biāo): (1)查準(zhǔn)率 查準(zhǔn)率是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,用來測(cè)量檢索出的信息中有多少是正確的。本系統(tǒng)設(shè)定查準(zhǔn)率不低于70%。 (2)系統(tǒng)響應(yīng)時(shí)間 系統(tǒng)響應(yīng)時(shí)間是指從用戶提交檢索到獲得最終結(jié)果這段時(shí)間。在不考慮網(wǎng)絡(luò)擁塞等網(wǎng)絡(luò)速度的情況下,不應(yīng)超過30秒每10條記錄。
科學(xué)性、先進(jìn)性
- 本作品能夠有效地將搜索結(jié)果按主題自動(dòng)分類,使用戶可以直接選擇自己感興趣的主題,避免盲目地從海量數(shù)據(jù)中尋找自己需求的頁面;其次,采用自然語言處理中的文檔重排技術(shù),使同一個(gè)主題中,與關(guān)鍵字聯(lián)系更緊密的結(jié)果排在搜索頁面的前面。 該作品與現(xiàn)有的2大搜索引擎(google和baidu)相比,對(duì)搜索結(jié)果的改善具有顯著的提升。目前市面上這2大搜索引擎并沒有對(duì)結(jié)果按主題分類。
獲獎(jiǎng)情況及鑒定結(jié)果
- 無。
作品所處階段
- 目前作品還處于實(shí)驗(yàn)室階段。
技術(shù)轉(zhuǎn)讓方式
- 無。
作品可展示的形式
- 現(xiàn)場(chǎng)演示,磁盤。
使用說明,技術(shù)特點(diǎn)和優(yōu)勢(shì),適應(yīng)范圍,推廣前景的技術(shù)性說明,市場(chǎng)分析,經(jīng)濟(jì)效益預(yù)測(cè)
- 由于本系統(tǒng)是對(duì)傳統(tǒng)搜索引擎搜索結(jié)果的一種改進(jìn),搜索結(jié)果的主題劃分可以為用戶提供更加清晰的檢索結(jié)果。 對(duì)于用戶而言,當(dāng)輸入關(guān)鍵字時(shí),系統(tǒng)返回的不是海量的搜索結(jié)果,而是對(duì)于搜索結(jié)果主題的劃分。自動(dòng)主題劃分使得搜索結(jié)果顯得更為清晰,也使得用戶可以根據(jù)自己的興趣選擇自己最想看的主題。 而文檔重排,使得同一個(gè)主題中,與主題靠近的搜索結(jié)果靠前。這樣用戶第一眼就可以看到最重要最相關(guān)的搜索結(jié)果。 對(duì)于需要了解特定關(guān)鍵字多個(gè)方面的查詢,以及在檢索時(shí)不明確關(guān)鍵字主題的查詢,本系統(tǒng)都提供了極大的方便。
同類課題研究水平概述
- 一、國外研究現(xiàn)狀 Aggarwal則提出了一種針對(duì)兩個(gè)假設(shè)的基于主題的Web信息采集方法:1)Linkage Locality,即被相關(guān)于某一主題的頁面鏈接到的頁面趨向于擁有同一主題。2)Sibling Locality,對(duì)于某個(gè)鏈接到某主題的頁面,它所鏈接到的其它頁面也趨向于擁有這個(gè)主題。這樣,在采集器接到一個(gè)主題采集請(qǐng)求命令后,它就從自己保存的關(guān)于這個(gè)主題的起點(diǎn)出發(fā),按照兩個(gè)假設(shè)蔓延,并利用指向備選頁面中的URL結(jié)構(gòu)以及其他一些meta信息使用統(tǒng)計(jì)學(xué)習(xí)的方法進(jìn)行修剪,使采集的頁面很快接近主題。 North Carolina大學(xué)計(jì)算機(jī)科學(xué)系和法學(xué)院聯(lián)合開發(fā)研制的LIBCLient ITISWeb系統(tǒng),只對(duì)法律信息進(jìn)行權(quán)威檢索,獲取全面高質(zhì)的專業(yè)信息的效率大大提高,取得了較為令人滿意的效果。但僅限于英文。 二、國內(nèi)研究現(xiàn)狀 國內(nèi)主要的主題搜索引擎有賽迪網(wǎng)()推出的中文IT垂直搜索引擎“IT羅盤”,慧聰網(wǎng)站()推出的行業(yè)搜索等。 在目前這些已有的主題搜索引擎中,國外的大多是針對(duì)英文的,而不是中文,不能直接應(yīng)用。 國內(nèi)外主要研究的是傳統(tǒng)的主題搜索引擎,傳統(tǒng)意義上的主題搜索引擎是用主題爬蟲爬取主題相關(guān)的網(wǎng)頁,然后為用戶提供結(jié)果;而本系統(tǒng)是對(duì)搜索引擎的搜索結(jié)果進(jìn)行主題劃分。故與前面的國內(nèi)外研究的主題搜索引擎有所不同。