国产性70yerg老太,狠狠的日,欧美人与动牲交a免费,中文字幕成人网站

基本信息

項目名稱:
基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應用
小類:
信息技術
簡介:
利用站內(nèi)網(wǎng)頁樹中主網(wǎng)頁或上層網(wǎng)頁及超鏈接相對穩(wěn)定和可跟蹤性,把爬蟲定期上網(wǎng)抓取的相鄰時間間隔的網(wǎng)頁進行對比分析,可以區(qū)分出以下幾類超鏈接:永不改變的、新增的、位置變化的和消失的,它們對應不同的信息:不變化的鏈接其標題具有部門、類型信息;新增的、位置變化的和消失的鏈接往往是新聞、通告等變化內(nèi)容,這些鏈接對應的網(wǎng)頁一般是文檔網(wǎng)頁,需要采用一般網(wǎng)頁分析方法。結果說明這種方法對網(wǎng)頁分析是有效的。
詳細介紹:
21世紀搜索引擎正在改變著我們的生活,百度、谷歌等大型搜索已經(jīng)被大家所熟知,這些搜索引擎是為人們提供寬泛的搜索服務。一般高校和大型企業(yè)機構都有一定規(guī)模的網(wǎng)站,這些網(wǎng)站中存在著大量信息,對于高校和企業(yè)內(nèi)部人員來說,使用基于本網(wǎng)站的搜索引擎無疑是最佳的選擇。但是我們了解到現(xiàn)今絕大部分網(wǎng)站或者沒有搜索功能、或者有搜索功能但這種搜索功能只是人工實現(xiàn)的目錄索引,自動化不高、搜索功能不強。針對中小型規(guī)模網(wǎng)站的站內(nèi)搜索需求,本設計基于站內(nèi)網(wǎng)頁及其連接相對固定、易于跟蹤分析的特點提出了基于更新信息的網(wǎng)頁分析方法,據(jù)此開發(fā)了一個站內(nèi)搜索引擎。任何網(wǎng)站只要使用我們設計這一系統(tǒng)就可以不需要重新設計網(wǎng)站就能向用戶提供本網(wǎng)站的搜索服務。 思路:搜索引擎系統(tǒng)實際上包含兩個主要程序和一個數(shù)據(jù)庫三部分。一個程序的功能是用來爬網(wǎng)頁、分析網(wǎng)頁信息并把獲取信息插入數(shù)據(jù)庫,該程序稱為蜘蛛程序或網(wǎng)頁爬蟲;另一個程序為用戶提供在數(shù)據(jù)庫中查詢所需數(shù)據(jù)的查詢程序,用戶使用搜索引擎主要是使用該程序,蜘蛛程序和數(shù)據(jù)庫屬于后臺系統(tǒng),不被用戶感知。本作品架構也是基于這個架構,與一般搜索引擎不同之處在于網(wǎng)頁分析部分。 網(wǎng)頁是網(wǎng)站設計者提供信息讓用戶閱讀的唯一方式,是信息的載體。一個網(wǎng)頁就是一定量信息的集合,一個網(wǎng)站是網(wǎng)頁的集合,是信息的更大的集合。作為向訪問者提供信息的網(wǎng)站要解決好兩個問題:一是信息在哪里,二是信息是什么,解決這兩個問題的內(nèi)容構成了網(wǎng)頁內(nèi)容的主體,因此站內(nèi)網(wǎng)頁的內(nèi)容根據(jù)其角色不同,分為引導信息和信息。站內(nèi)網(wǎng)頁也因其中主要信息的不同可以分為引導信息網(wǎng)頁和信息網(wǎng)頁。引導信息網(wǎng)頁主要是提供用戶需要的信息到哪里去取,一般是網(wǎng)站的主頁或網(wǎng)頁節(jié)點樹中較上層的網(wǎng)頁,這種網(wǎng)頁的特征是信息主要是以超鏈接形式存在。由于站內(nèi)信息是有一定組織形式,因此引導性網(wǎng)頁與網(wǎng)頁架構有關,含有網(wǎng)頁架構信息。信息網(wǎng)頁就是信息本身,是網(wǎng)頁節(jié)點樹中的葉節(jié)點。這兩類網(wǎng)頁在更新性上表現(xiàn)出完全不同的行為,引導性網(wǎng)頁中反映架構信息的部分一般是不變化的,而引導性網(wǎng)頁中反映信息的部分和信息網(wǎng)頁一般隨時間變化。 我們的思路是利用站內(nèi)網(wǎng)頁樹中主網(wǎng)頁或上層網(wǎng)頁及超鏈接相對穩(wěn)定和可跟蹤性,讓爬蟲定期上網(wǎng)抓取這些網(wǎng)頁內(nèi)容,將相鄰時間間隔的對應網(wǎng)頁進行對比分析,可以區(qū)分出以下幾類超鏈接:永不改變的、新增的、位置變化的和消失的。而這四類超鏈接的連接目標對應不同的處理類型:不變化的鏈接反映站內(nèi)結構,其鏈接標題具有部門、類型信息;新增的、位置變化的和消失的鏈接往往是新聞、通告等變化內(nèi)容,這些鏈接對應的網(wǎng)頁一般是文檔網(wǎng)頁,這類網(wǎng)頁需要采用一般網(wǎng)頁分析方法。這些變化信息為進一步分析網(wǎng)頁提供了幫助,如:不變化超鏈接標題、不變化的表格標題等含有部門、類型信息,變化信息中時間信息可以縮小查詢的范圍。這就是我們提出的根據(jù)網(wǎng)頁更新信息來分析網(wǎng)頁的方法。實驗結果和實際說明我們的這種方法對網(wǎng)頁分析是有效的。

作品圖片

  • 基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應用
  • 基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應用
  • 基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應用
  • 基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應用
  • 基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應用

作品專業(yè)信息

設計、發(fā)明的目的和基本思路、創(chuàng)新點、技術關鍵和主要技術指標

針對中小型規(guī)模網(wǎng)站的站內(nèi)搜索需求,本設計基于站內(nèi)網(wǎng)頁及其連接相對固定、易于跟蹤分析的特點提出了基于更新信息的網(wǎng)頁分析方法,據(jù)此開發(fā)了一個站內(nèi)搜索引擎。 利用站內(nèi)網(wǎng)頁樹中主網(wǎng)頁或上層網(wǎng)頁及超鏈接相對穩(wěn)定和可跟蹤性,把爬蟲定期上網(wǎng)抓取的相鄰時間間隔的網(wǎng)頁進行對比分析,可以區(qū)分出以下幾類超鏈接:永不改變的、新增的、位置變化的和消失的,它們對應不同的信息:不變化的鏈接其標題具有部門、類型信息;新增的、位置變化的和消失的鏈接往往是新聞、通告等變化內(nèi)容,這些鏈接對應的網(wǎng)頁一般是文檔網(wǎng)頁,需要采用一般網(wǎng)頁分析方法。結果說明這種方法對網(wǎng)頁分析是有效的。 主要創(chuàng)新點是網(wǎng)頁分析理解方法與一般搜索引擎的方法不同,即網(wǎng)頁分析策略不同。一般搜索引擎的網(wǎng)頁分析是在爬蟲把網(wǎng)頁抓取后保存起來,然后由網(wǎng)頁分析程序對其分析。由于其搜索的網(wǎng)頁數(shù)量很大且大都是采用寬度優(yōu)先方式爬網(wǎng)頁,網(wǎng)頁的對應性難以確定,只能利用本網(wǎng)頁的信息分析,分析中可借助的其他提示信息非常有限,因此分析難度很大。目前文獻介紹的方法均是網(wǎng)頁內(nèi)容本身分析的方法,這些方法很多還不成熟、處在研究階段。 技術關鍵是如何利用不變化的超鏈接標題信息和表格標題信息等對網(wǎng)頁分類以及理解。這些信息有助于分析理解網(wǎng)頁,但如何利用、如何整合這些信息需要進一步研究。另一個問題是對變化的一般文檔網(wǎng)頁如何分析提取信息。這個問題是搜索引擎面臨的共同問題。

科學性、先進性

有關搜索引擎的研究很熱、但真正應用到實際中的很少。究其原因一是Web 中信息的量巨大、異質性和缺乏結構性使得自動地從中獲取有價值的信息和數(shù)據(jù)變得十分具有挑戰(zhàn)性。網(wǎng)頁的機器理解與主要信息提取是一個難以徹底解決的問題,因為網(wǎng)頁中可能包含文本、圖像、聲音等多媒體信息,文本的理解涉及到自然語言理解、圖像的理解涉及圖像識別、聲音的理解涉及聲音識別等,這些領域目前還在研究之中。 原因之二是在搜索引擎領域,一些優(yōu)秀的實現(xiàn)方法來自于一些公司,出于商業(yè)因素的考慮一般不通過論文公開發(fā)表。學術界的研究成果雖然公開,但是被大規(guī)模采用的并不多。 目前站內(nèi)搜索研究中心問題與一般搜索引擎研究的內(nèi)容相同:網(wǎng)頁機器理解,而且在這方面充分利用站內(nèi)這些特點來理解還沒有文獻報道。考慮到站內(nèi)搜索的自身特點,除了利用網(wǎng)頁本身的信息外,還加入了同一網(wǎng)頁的更新信息、降低了網(wǎng)頁分析的難度。在此基礎上設計出信息提取算法,可以從網(wǎng)頁中提取出一些新的有用信息,為建立索引數(shù)據(jù)庫、進行數(shù)據(jù)庫優(yōu)化做好充分準備。

獲獎情況及鑒定結果

校2011年挑戰(zhàn)杯特等獎 第四屆“挑戰(zhàn)杯”合鍛集團省大學生課外學術科技作品競賽特等獎

作品所處階段

實驗室階段

技術轉讓方式

可以考慮技術轉讓

作品可展示的形式

實物、產(chǎn)品、圖片、現(xiàn)場演示

使用說明,技術特點和優(yōu)勢,適應范圍,推廣前景的技術性說明,市場分析,經(jīng)濟效益預測

使用說明:見“使用說明書”。 作品的技術特點和優(yōu)勢:本作品技術的特點主要是在網(wǎng)頁的機器理解與主要信息提取方面與其他站內(nèi)搜索引擎不同。在網(wǎng)頁分析及信息提取方面,我們考慮到站內(nèi)搜索的自身特點,除了利用網(wǎng)頁本身的信息外,還加入了同一網(wǎng)頁的更新信息。根據(jù)更新性將超鏈接分為四類,然后對這四類超鏈接分別處理,從而降低了網(wǎng)頁分析的難度。在此基礎上設計出信息提取算法,該算法將網(wǎng)頁分析工作朝全面理解網(wǎng)頁內(nèi)容目標又推近了一步,為建立索引數(shù)據(jù)庫,進行數(shù)據(jù)庫優(yōu)化打下基礎。 作品適用范圍及推廣前景:該作品適合于任何網(wǎng)站。只要將考察網(wǎng)站信息設置好,通過一定時間分析就可以為該網(wǎng)站提供站內(nèi)索引查詢。因此該作品是一個通用的站內(nèi)搜索引擎建立軟件,應用非常廣泛,其推廣前景非常廣。 市場分析和經(jīng)濟效益預測:目前市場上該類軟件還未見出現(xiàn),很多網(wǎng)站還沒有提供站內(nèi)搜索查詢功能,因此市場前景非常樂觀。

同類課題研究水平概述

我們查詢了“中國學術期刊全文”,在核心期刊中,找尋到搜索引擎相關的文獻24篇。對這些文獻的歸納總結如下: 葉允明等人主要綜述了當時web搜索引擎技術的發(fā)展和分類情況, 王繼成等人從web檢索角度劃分為三個層次:搜索引擎與目錄、元搜索引擎、信息檢索agent,其中元搜索引擎研究多搜索引擎集成,信息檢索agent研究滿足用戶需求方面具有可適應性、主動性、協(xié)作性。 針對廣域網(wǎng)的海量信息,由單一網(wǎng)頁爬蟲來獲取信息幾乎不可能,解決方式之一就是分布式Web 爬蟲。分布式Web 爬蟲是由多個可并發(fā)獲取Web 信息的Agent 構成的Web 爬蟲系統(tǒng),每個Agent 運行于不同的計算資源之上,這些資源或集中部署在同一個局域網(wǎng)內(nèi)部,或分布在廣域網(wǎng)的不同地理位置和網(wǎng)絡位置,每個Agent 以多進程或多線程方式通過并發(fā)保持多個TCP 鏈接獲取Web 信息。許 笑等人主要探討分布式爬蟲技術和與agent技術結合的課題。解決廣域網(wǎng)的海量信息的另一種方式就是讓爬蟲對網(wǎng)頁過濾,只對感興趣的網(wǎng)頁進行處理,蔣宗禮等人討論具有主題內(nèi)容過濾的爬蟲設計技術,這些技術包括數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、自然語言機器理解等。在解決廣域網(wǎng)海量信息的第二中方式中,除了研究對網(wǎng)頁的理解外,還需要對用戶的檢索意愿做研究,把握用戶的檢索要求, 薛曄偉等人主要討論如何按照用戶查詢意愿來進行網(wǎng)頁排序。 無論網(wǎng)絡爬蟲采用何種方式,對搜索引擎的研制而言核心技術仍然是對網(wǎng)頁內(nèi)容的分析理解方面。吳飛等人主要討論網(wǎng)頁中各種特定內(nèi)容的分析理解和獲取,如網(wǎng)頁中Deep Web 數(shù)據(jù)、網(wǎng)絡話題、數(shù)字版權信息、網(wǎng)絡社區(qū)信息、搜索與翻譯結合、網(wǎng)頁中的多媒體信息等。這些分析技術均為針對特定內(nèi)容的分析技術、通用性少,有效性待檢驗。 李曉紅等人探討元搜索引擎。 劉凡平等人是研討站內(nèi)搜索引擎的文獻。該文通過對站內(nèi)搜索的設計分析和實現(xiàn), 以及對網(wǎng)頁排序算法的研究, 提出了利用綜合倒排文件和快速排序方法進行站內(nèi)網(wǎng)頁決策性排序, 建立新式站內(nèi)搜索, 并應用于實際. 歐陽柳波等人著重研究網(wǎng)站網(wǎng)頁分類更新策略,說明網(wǎng)頁的更新性是網(wǎng)頁屬性之一。 本作品是基于網(wǎng)頁更新性來分析理解網(wǎng)頁。通過核心期刊全文數(shù)據(jù)庫查詢結果說明目前本作品的工作還未有文獻報道,具有創(chuàng)新性。
建議反饋 返回頂部