基本信息
- 項(xiàng)目名稱:
- 基于云模型的個(gè)性化定制大眾評(píng)價(jià)信息檢索系統(tǒng)
- 來(lái)源:
- 第十二屆“挑戰(zhàn)杯”省賽作品
- 小類:
- 信息技術(shù)
- 大類:
- 科技發(fā)明制作B類
- 簡(jiǎn)介:
- 本產(chǎn)品面向各種對(duì)大眾評(píng)價(jià)信息(如論壇,博客等)比較重視的各種企事業(yè)國(guó)家政府單位和一些名人,當(dāng)然也適用于對(duì)大眾評(píng)價(jià)信息較感興趣的普通族群。本著“一次定制,天天搜索,智能搜索”的觀念,以為一些企業(yè)政府提供的相應(yīng)服務(wù)獲得經(jīng)濟(jì)效益,而對(duì)于一般用戶可以通過(guò)廣告獲得盈利。
- 詳細(xì)介紹:
- 隨著World Wide Web(簡(jiǎn)稱WWW,Web)的迅速發(fā)展,Web上的信息與日俱增,互聯(lián)網(wǎng)已成為人們獲取信息的重要來(lái)源。但是,由于因特網(wǎng)的廣泛性和開(kāi)放性,在因特網(wǎng)上發(fā)布信息極為容易而且不受限制,無(wú)論任何單位、團(tuán)體、個(gè)人只要具備上網(wǎng)條件便可以自由地在因特網(wǎng)上發(fā)布信息,從而加劇了因特網(wǎng)信息的急速膨脹,使得Web的使用者找到對(duì)自己有用的信息的難度越來(lái)越大。因此,如何快速、準(zhǔn)確地從浩瀚的信息資源中尋找所需的信息已經(jīng)成為困擾用戶的一個(gè)難題。 而對(duì)于像BBS、Blog等放映大眾意見(jiàn)的信息,增長(zhǎng)量和更新率更是高的驚人,一般數(shù)量都是呈指數(shù)級(jí)增長(zhǎng)的。而如何快速的從這部分?jǐn)?shù)量如此大,增長(zhǎng)速度如此快的信息中找到想要的信息,并且更加智能,更加方便,更加靈活的展示給信息獲取者成了當(dāng)代信息檢索的一種發(fā)展方面之一,也是本項(xiàng)目主要研究?jī)?nèi)容。 首先,運(yùn)用Hadoop,這個(gè)開(kāi)源分布式計(jì)算框架來(lái)時(shí)實(shí)現(xiàn)云模型;再則,運(yùn)用這個(gè)云計(jì)算平臺(tái)來(lái)搭建網(wǎng)絡(luò)爬蟲(chóng)的分布式框架;第三,為了提高網(wǎng)絡(luò)爬蟲(chóng)的效率,項(xiàng)目提出了基于層次結(jié)構(gòu)保存的Web Crawler 算法,利用該算法能更高速,更高質(zhì)量的獲取網(wǎng)絡(luò)信息;第四,運(yùn)用基于面向自然語(yǔ)言處理技術(shù)實(shí)現(xiàn)對(duì)資訊主題分類,以使用戶可以更加方便﹑智能的定制和查看相關(guān)主題信息;第五,運(yùn)用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則技術(shù)實(shí)現(xiàn)對(duì)資訊文本內(nèi)容的關(guān)聯(lián)分析,使用戶可以快速的發(fā)現(xiàn)和文本內(nèi)容相關(guān)的網(wǎng)頁(yè)信息;第六,運(yùn)用基于進(jìn)化神經(jīng)網(wǎng)絡(luò)模型的文本分類算法對(duì)網(wǎng)頁(yè)信息進(jìn)行分類,使用戶可以更加方便和精確的獲取更加有用的信息;最后,就是產(chǎn)品的跨平臺(tái)使用,不僅僅局限于網(wǎng)絡(luò),本系統(tǒng)可以適用于電視、Internet、手機(jī)等平臺(tái)的運(yùn)用,并在這些應(yīng)用平臺(tái)為廣告商提供了一種新的廣告投放模式。 本項(xiàng)目產(chǎn)品面向各種對(duì)大眾評(píng)價(jià)信息(如論壇,博客等)比較重視的各種企事業(yè)國(guó)家政府單位和一些名人,當(dāng)然也適用于對(duì)大眾評(píng)價(jià)信息較感興趣的普通族群。以為一些企業(yè)政府提供的相應(yīng)服務(wù)獲得經(jīng)濟(jì)效益,而對(duì)于一般用戶可以通過(guò)廣告獲得盈利。
作品專業(yè)信息
設(shè)計(jì)、發(fā)明的目的和基本思路、創(chuàng)新點(diǎn)、技術(shù)關(guān)鍵和主要技術(shù)指標(biāo)
- 當(dāng)今社會(huì)是一個(gè)信息的社會(huì),一個(gè)有價(jià)值信息很多時(shí)候會(huì)左右一個(gè)決定或者政策的成敗。而一些國(guó)家單位對(duì)大眾對(duì)他們的政策和一些領(lǐng)導(dǎo)的本身的評(píng)價(jià)信息很重視,因?yàn)檫@些可以很好得到群眾對(duì)相關(guān)政策和領(lǐng)導(dǎo)的意見(jiàn)。這就為這些單位對(duì)自己和工作有更進(jìn)一步的認(rèn)識(shí),也有利于他們對(duì)以后對(duì)政策改進(jìn)和自身的提升,這也是本系統(tǒng)的主要?jiǎng)?chuàng)新點(diǎn)。
科學(xué)性、先進(jìn)性
- 由于當(dāng)今各種搜索引擎的網(wǎng)頁(yè)覆蓋率不能令人滿意和使用過(guò)程中靈活性小,本系統(tǒng)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù),文本分析技術(shù),元搜索技術(shù)和Hadoop集群技術(shù)的結(jié)合在一定程度上克服了上述的問(wèn)題。運(yùn)用自己實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲(chóng)算法和文本分析技術(shù)去獲取那部分各大搜索引擎沒(méi)有覆蓋或者覆蓋不全的信息,這樣就可以在一定程度上提高信息的覆蓋率(搜索的效果可見(jiàn)附錄)。個(gè)性化定制則是指用戶根據(jù)具體需求,如定時(shí)監(jiān)聽(tīng)服務(wù),跟進(jìn)服務(wù)等。
獲獎(jiǎng)情況及鑒定結(jié)果
- 本系統(tǒng)獲得華南理工大學(xué)軟件學(xué)院(香港城市大學(xué)物流中心)大力支持,并和惠州學(xué)院取得聯(lián)系,正就軟件的可行性進(jìn)行進(jìn)一步協(xié)商。
作品所處階段
- 實(shí)驗(yàn)室階段
技術(shù)轉(zhuǎn)讓方式
- 專利實(shí)施許可
作品可展示的形式
- 實(shí)物、產(chǎn)品
使用說(shuō)明,技術(shù)特點(diǎn)和優(yōu)勢(shì),適應(yīng)范圍,推廣前景的技術(shù)性說(shuō)明,市場(chǎng)分析,經(jīng)濟(jì)效益預(yù)測(cè)
- 該作品的特點(diǎn)是使用方便,界面友好,跨平臺(tái)(Java實(shí)現(xiàn)),效果良好。且使用C/S模式,運(yùn)用RCP技術(shù)(為Eclipse框架的開(kāi)源部分),這樣加大了系統(tǒng)的安全性和用戶的體驗(yàn)性以及框架的穩(wěn)定性。本產(chǎn)品適用于各種對(duì)大眾評(píng)價(jià)信息比較重視的各種企事業(yè)國(guó)家政府單位和一些名人,當(dāng)然也適用于對(duì)大眾評(píng)價(jià)信息較感興趣的族群。因此適用性很廣,且由于框架設(shè)計(jì)合理,相關(guān)程序算法穩(wěn)定,接口合理,推廣技術(shù)難度不大,可行性高。通過(guò)上面的分析可以知道該系統(tǒng)市場(chǎng)前景廣闊,對(duì)于一些企業(yè)政府可以通過(guò)軟件和提供的相應(yīng)服務(wù)獲得經(jīng)濟(jì)效益,而對(duì)于一般用戶可以通過(guò)廣告獲得盈利。
同類課題研究水平概述
- 索引擎從誕生到現(xiàn)在不足20年時(shí)間,經(jīng)過(guò)一個(gè)短暫的雛形階段,目前已經(jīng)發(fā)展成熟了兩代產(chǎn)品,包括以人工目錄搜索為特點(diǎn)的第一代搜索引擎,以AltaVista、YAHOO、Info seek為代表,主要依靠人工目錄分類,由于人工分類難以處理海量的信息,搜索結(jié)果的好壞往往用反饋結(jié)果的數(shù)量來(lái)衡量;以超鏈分析為基礎(chǔ),機(jī)器自動(dòng)處理的第二代搜索引擎,由于鏈接分析技術(shù)的引入,真正提高了自動(dòng)搜索引擎的結(jié)果質(zhì)量,以信息自動(dòng)抓取和自動(dòng)排序檢索為特征,商業(yè)產(chǎn)品以Google,Baidu為代表。第三代搜索引擎目前正在發(fā)展和形成中,個(gè)性化、分類化和智能化是目前比較公認(rèn)應(yīng)該具有的特征。 如前所述網(wǎng)絡(luò)上每日涌現(xiàn)大量的及時(shí)信息,如何將這些最新的信息反饋給用戶已經(jīng)成為一個(gè)比較棘手的問(wèn)題。傳統(tǒng)的搜索引擎只能搜索互聯(lián)網(wǎng)上與用戶輸入相關(guān)的網(wǎng)頁(yè)信息,而不能反饋及時(shí)最新的信息,弊端主要反映在以下四個(gè)方面: (1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,傳統(tǒng)搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的信息。 (2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)資源之問(wèn)的矛盾將進(jìn)一步加深。 (3)信息數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫(kù)、音頻/視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),傳統(tǒng)搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無(wú)能為力,不能很好地發(fā)現(xiàn)和獲取。 (4)傳統(tǒng)搜索引擎大多提供基于關(guān)鍵詞的檢索,難以支持針對(duì)語(yǔ)義信息的查詢。 隨著網(wǎng)絡(luò)信息的日益膨脹,如何確保信息的時(shí)效性已經(jīng)成為一個(gè)比較重要的話題。保證信息的時(shí)效性對(duì)于一些敏感信息,例如政府,商務(wù),工作應(yīng)聘等信息具有重要意義。本課題研究的目標(biāo)是利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)和元搜索技術(shù)的結(jié)合,實(shí)現(xiàn)基于RCP框架的C/S模式的大眾評(píng)價(jià)系統(tǒng)的搜索引擎,提供對(duì)網(wǎng)絡(luò)及時(shí)更新信息的檢索查詢。