国产性70yerg老太,狠狠的日,欧美人与动牲交a免费,中文字幕成人网站

基本信息

項目名稱:
基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應(yīng)用
小類:
信息技術(shù)
簡介:
利用站內(nèi)網(wǎng)頁樹中主網(wǎng)頁或上層網(wǎng)頁及超鏈接相對穩(wěn)定和可跟蹤性,把爬蟲定期上網(wǎng)抓取的相鄰時間間隔的網(wǎng)頁進行對比分析,可以區(qū)分出以下幾類超鏈接:永不改變的、新增的、位置變化的和消失的,它們對應(yīng)不同的信息:不變化的鏈接其標題具有部門、類型信息;新增的、位置變化的和消失的鏈接往往是新聞、通告等變化內(nèi)容,這些鏈接對應(yīng)的網(wǎng)頁一般是文檔網(wǎng)頁,需要采用一般網(wǎng)頁分析方法。結(jié)果說明這種方法對網(wǎng)頁分析是有效的。
詳細介紹:
21世紀搜索引擎正在改變著我們的生活,百度、谷歌等大型搜索已經(jīng)被大家所熟知,這些搜索引擎是為人們提供寬泛的搜索服務(wù)。一般高校和大型企業(yè)機構(gòu)都有一定規(guī)模的網(wǎng)站,這些網(wǎng)站中存在著大量信息,對于高校和企業(yè)內(nèi)部人員來說,使用基于本網(wǎng)站的搜索引擎無疑是最佳的選擇。但是我們了解到現(xiàn)今絕大部分網(wǎng)站或者沒有搜索功能、或者有搜索功能但這種搜索功能只是人工實現(xiàn)的目錄索引,自動化不高、搜索功能不強。針對中小型規(guī)模網(wǎng)站的站內(nèi)搜索需求,本設(shè)計基于站內(nèi)網(wǎng)頁及其連接相對固定、易于跟蹤分析的特點提出了基于更新信息的網(wǎng)頁分析方法,據(jù)此開發(fā)了一個站內(nèi)搜索引擎。任何網(wǎng)站只要使用我們設(shè)計這一系統(tǒng)就可以不需要重新設(shè)計網(wǎng)站就能向用戶提供本網(wǎng)站的搜索服務(wù)。 思路:搜索引擎系統(tǒng)實際上包含兩個主要程序和一個數(shù)據(jù)庫三部分。一個程序的功能是用來爬網(wǎng)頁、分析網(wǎng)頁信息并把獲取信息插入數(shù)據(jù)庫,該程序稱為蜘蛛程序或網(wǎng)頁爬蟲;另一個程序為用戶提供在數(shù)據(jù)庫中查詢所需數(shù)據(jù)的查詢程序,用戶使用搜索引擎主要是使用該程序,蜘蛛程序和數(shù)據(jù)庫屬于后臺系統(tǒng),不被用戶感知。本作品架構(gòu)也是基于這個架構(gòu),與一般搜索引擎不同之處在于網(wǎng)頁分析部分。 網(wǎng)頁是網(wǎng)站設(shè)計者提供信息讓用戶閱讀的唯一方式,是信息的載體。一個網(wǎng)頁就是一定量信息的集合,一個網(wǎng)站是網(wǎng)頁的集合,是信息的更大的集合。作為向訪問者提供信息的網(wǎng)站要解決好兩個問題:一是信息在哪里,二是信息是什么,解決這兩個問題的內(nèi)容構(gòu)成了網(wǎng)頁內(nèi)容的主體,因此站內(nèi)網(wǎng)頁的內(nèi)容根據(jù)其角色不同,分為引導(dǎo)信息和信息。站內(nèi)網(wǎng)頁也因其中主要信息的不同可以分為引導(dǎo)信息網(wǎng)頁和信息網(wǎng)頁。引導(dǎo)信息網(wǎng)頁主要是提供用戶需要的信息到哪里去取,一般是網(wǎng)站的主頁或網(wǎng)頁節(jié)點樹中較上層的網(wǎng)頁,這種網(wǎng)頁的特征是信息主要是以超鏈接形式存在。由于站內(nèi)信息是有一定組織形式,因此引導(dǎo)性網(wǎng)頁與網(wǎng)頁架構(gòu)有關(guān),含有網(wǎng)頁架構(gòu)信息。信息網(wǎng)頁就是信息本身,是網(wǎng)頁節(jié)點樹中的葉節(jié)點。這兩類網(wǎng)頁在更新性上表現(xiàn)出完全不同的行為,引導(dǎo)性網(wǎng)頁中反映架構(gòu)信息的部分一般是不變化的,而引導(dǎo)性網(wǎng)頁中反映信息的部分和信息網(wǎng)頁一般隨時間變化。 我們的思路是利用站內(nèi)網(wǎng)頁樹中主網(wǎng)頁或上層網(wǎng)頁及超鏈接相對穩(wěn)定和可跟蹤性,讓爬蟲定期上網(wǎng)抓取這些網(wǎng)頁內(nèi)容,將相鄰時間間隔的對應(yīng)網(wǎng)頁進行對比分析,可以區(qū)分出以下幾類超鏈接:永不改變的、新增的、位置變化的和消失的。而這四類超鏈接的連接目標對應(yīng)不同的處理類型:不變化的鏈接反映站內(nèi)結(jié)構(gòu),其鏈接標題具有部門、類型信息;新增的、位置變化的和消失的鏈接往往是新聞、通告等變化內(nèi)容,這些鏈接對應(yīng)的網(wǎng)頁一般是文檔網(wǎng)頁,這類網(wǎng)頁需要采用一般網(wǎng)頁分析方法。這些變化信息為進一步分析網(wǎng)頁提供了幫助,如:不變化超鏈接標題、不變化的表格標題等含有部門、類型信息,變化信息中時間信息可以縮小查詢的范圍。這就是我們提出的根據(jù)網(wǎng)頁更新信息來分析網(wǎng)頁的方法。實驗結(jié)果和實際說明我們的這種方法對網(wǎng)頁分析是有效的。

作品圖片

  • 基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應(yīng)用
  • 基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應(yīng)用
  • 基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應(yīng)用
  • 基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應(yīng)用
  • 基于更新信息的網(wǎng)頁機器理解及在站內(nèi)搜索中應(yīng)用

作品專業(yè)信息

設(shè)計、發(fā)明的目的和基本思路、創(chuàng)新點、技術(shù)關(guān)鍵和主要技術(shù)指標

針對中小型規(guī)模網(wǎng)站的站內(nèi)搜索需求,本設(shè)計基于站內(nèi)網(wǎng)頁及其連接相對固定、易于跟蹤分析的特點提出了基于更新信息的網(wǎng)頁分析方法,據(jù)此開發(fā)了一個站內(nèi)搜索引擎。 利用站內(nèi)網(wǎng)頁樹中主網(wǎng)頁或上層網(wǎng)頁及超鏈接相對穩(wěn)定和可跟蹤性,把爬蟲定期上網(wǎng)抓取的相鄰時間間隔的網(wǎng)頁進行對比分析,可以區(qū)分出以下幾類超鏈接:永不改變的、新增的、位置變化的和消失的,它們對應(yīng)不同的信息:不變化的鏈接其標題具有部門、類型信息;新增的、位置變化的和消失的鏈接往往是新聞、通告等變化內(nèi)容,這些鏈接對應(yīng)的網(wǎng)頁一般是文檔網(wǎng)頁,需要采用一般網(wǎng)頁分析方法。結(jié)果說明這種方法對網(wǎng)頁分析是有效的。 主要創(chuàng)新點是網(wǎng)頁分析理解方法與一般搜索引擎的方法不同,即網(wǎng)頁分析策略不同。一般搜索引擎的網(wǎng)頁分析是在爬蟲把網(wǎng)頁抓取后保存起來,然后由網(wǎng)頁分析程序?qū)ζ浞治觥S捎谄渌阉鞯木W(wǎng)頁數(shù)量很大且大都是采用寬度優(yōu)先方式爬網(wǎng)頁,網(wǎng)頁的對應(yīng)性難以確定,只能利用本網(wǎng)頁的信息分析,分析中可借助的其他提示信息非常有限,因此分析難度很大。目前文獻介紹的方法均是網(wǎng)頁內(nèi)容本身分析的方法,這些方法很多還不成熟、處在研究階段。 技術(shù)關(guān)鍵是如何利用不變化的超鏈接標題信息和表格標題信息等對網(wǎng)頁分類以及理解。這些信息有助于分析理解網(wǎng)頁,但如何利用、如何整合這些信息需要進一步研究。另一個問題是對變化的一般文檔網(wǎng)頁如何分析提取信息。這個問題是搜索引擎面臨的共同問題。

科學(xué)性、先進性

有關(guān)搜索引擎的研究很熱、但真正應(yīng)用到實際中的很少。究其原因一是Web 中信息的量巨大、異質(zhì)性和缺乏結(jié)構(gòu)性使得自動地從中獲取有價值的信息和數(shù)據(jù)變得十分具有挑戰(zhàn)性。網(wǎng)頁的機器理解與主要信息提取是一個難以徹底解決的問題,因為網(wǎng)頁中可能包含文本、圖像、聲音等多媒體信息,文本的理解涉及到自然語言理解、圖像的理解涉及圖像識別、聲音的理解涉及聲音識別等,這些領(lǐng)域目前還在研究之中。 原因之二是在搜索引擎領(lǐng)域,一些優(yōu)秀的實現(xiàn)方法來自于一些公司,出于商業(yè)因素的考慮一般不通過論文公開發(fā)表。學(xué)術(shù)界的研究成果雖然公開,但是被大規(guī)模采用的并不多。 目前站內(nèi)搜索研究中心問題與一般搜索引擎研究的內(nèi)容相同:網(wǎng)頁機器理解,而且在這方面充分利用站內(nèi)這些特點來理解還沒有文獻報道??紤]到站內(nèi)搜索的自身特點,除了利用網(wǎng)頁本身的信息外,還加入了同一網(wǎng)頁的更新信息、降低了網(wǎng)頁分析的難度。在此基礎(chǔ)上設(shè)計出信息提取算法,可以從網(wǎng)頁中提取出一些新的有用信息,為建立索引數(shù)據(jù)庫、進行數(shù)據(jù)庫優(yōu)化做好充分準備。

獲獎情況及鑒定結(jié)果

校2011年挑戰(zhàn)杯特等獎 第四屆“挑戰(zhàn)杯”合鍛集團省大學(xué)生課外學(xué)術(shù)科技作品競賽特等獎

作品所處階段

實驗室階段

技術(shù)轉(zhuǎn)讓方式

可以考慮技術(shù)轉(zhuǎn)讓

作品可展示的形式

實物、產(chǎn)品、圖片、現(xiàn)場演示

使用說明,技術(shù)特點和優(yōu)勢,適應(yīng)范圍,推廣前景的技術(shù)性說明,市場分析,經(jīng)濟效益預(yù)測

使用說明:見“使用說明書”。 作品的技術(shù)特點和優(yōu)勢:本作品技術(shù)的特點主要是在網(wǎng)頁的機器理解與主要信息提取方面與其他站內(nèi)搜索引擎不同。在網(wǎng)頁分析及信息提取方面,我們考慮到站內(nèi)搜索的自身特點,除了利用網(wǎng)頁本身的信息外,還加入了同一網(wǎng)頁的更新信息。根據(jù)更新性將超鏈接分為四類,然后對這四類超鏈接分別處理,從而降低了網(wǎng)頁分析的難度。在此基礎(chǔ)上設(shè)計出信息提取算法,該算法將網(wǎng)頁分析工作朝全面理解網(wǎng)頁內(nèi)容目標又推近了一步,為建立索引數(shù)據(jù)庫,進行數(shù)據(jù)庫優(yōu)化打下基礎(chǔ)。 作品適用范圍及推廣前景:該作品適合于任何網(wǎng)站。只要將考察網(wǎng)站信息設(shè)置好,通過一定時間分析就可以為該網(wǎng)站提供站內(nèi)索引查詢。因此該作品是一個通用的站內(nèi)搜索引擎建立軟件,應(yīng)用非常廣泛,其推廣前景非常廣。 市場分析和經(jīng)濟效益預(yù)測:目前市場上該類軟件還未見出現(xiàn),很多網(wǎng)站還沒有提供站內(nèi)搜索查詢功能,因此市場前景非常樂觀。

同類課題研究水平概述

我們查詢了“中國學(xué)術(shù)期刊全文”,在核心期刊中,找尋到搜索引擎相關(guān)的文獻24篇。對這些文獻的歸納總結(jié)如下: 葉允明等人主要綜述了當(dāng)時web搜索引擎技術(shù)的發(fā)展和分類情況, 王繼成等人從web檢索角度劃分為三個層次:搜索引擎與目錄、元搜索引擎、信息檢索agent,其中元搜索引擎研究多搜索引擎集成,信息檢索agent研究滿足用戶需求方面具有可適應(yīng)性、主動性、協(xié)作性。 針對廣域網(wǎng)的海量信息,由單一網(wǎng)頁爬蟲來獲取信息幾乎不可能,解決方式之一就是分布式Web 爬蟲。分布式Web 爬蟲是由多個可并發(fā)獲取Web 信息的Agent 構(gòu)成的Web 爬蟲系統(tǒng),每個Agent 運行于不同的計算資源之上,這些資源或集中部署在同一個局域網(wǎng)內(nèi)部,或分布在廣域網(wǎng)的不同地理位置和網(wǎng)絡(luò)位置,每個Agent 以多進程或多線程方式通過并發(fā)保持多個TCP 鏈接獲取Web 信息。許 笑等人主要探討分布式爬蟲技術(shù)和與agent技術(shù)結(jié)合的課題。解決廣域網(wǎng)的海量信息的另一種方式就是讓爬蟲對網(wǎng)頁過濾,只對感興趣的網(wǎng)頁進行處理,蔣宗禮等人討論具有主題內(nèi)容過濾的爬蟲設(shè)計技術(shù),這些技術(shù)包括數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、自然語言機器理解等。在解決廣域網(wǎng)海量信息的第二中方式中,除了研究對網(wǎng)頁的理解外,還需要對用戶的檢索意愿做研究,把握用戶的檢索要求, 薛曄偉等人主要討論如何按照用戶查詢意愿來進行網(wǎng)頁排序。 無論網(wǎng)絡(luò)爬蟲采用何種方式,對搜索引擎的研制而言核心技術(shù)仍然是對網(wǎng)頁內(nèi)容的分析理解方面。吳飛等人主要討論網(wǎng)頁中各種特定內(nèi)容的分析理解和獲取,如網(wǎng)頁中Deep Web 數(shù)據(jù)、網(wǎng)絡(luò)話題、數(shù)字版權(quán)信息、網(wǎng)絡(luò)社區(qū)信息、搜索與翻譯結(jié)合、網(wǎng)頁中的多媒體信息等。這些分析技術(shù)均為針對特定內(nèi)容的分析技術(shù)、通用性少,有效性待檢驗。 李曉紅等人探討元搜索引擎。 劉凡平等人是研討站內(nèi)搜索引擎的文獻。該文通過對站內(nèi)搜索的設(shè)計分析和實現(xiàn), 以及對網(wǎng)頁排序算法的研究, 提出了利用綜合倒排文件和快速排序方法進行站內(nèi)網(wǎng)頁決策性排序, 建立新式站內(nèi)搜索, 并應(yīng)用于實際. 歐陽柳波等人著重研究網(wǎng)站網(wǎng)頁分類更新策略,說明網(wǎng)頁的更新性是網(wǎng)頁屬性之一。 本作品是基于網(wǎng)頁更新性來分析理解網(wǎng)頁。通過核心期刊全文數(shù)據(jù)庫查詢結(jié)果說明目前本作品的工作還未有文獻報道,具有創(chuàng)新性。
建議反饋 返回頂部