疫情數(shù)據(jù)智能分析平臺
作者:曾奧涵 計(jì)算機(jī)科學(xué)與技術(shù)系
指導(dǎo)老師:唐杰 計(jì)算機(jī)科學(xué)與技術(shù)系
關(guān)鍵詞:疫情,數(shù)據(jù)挖掘,可視化
摘要
本項(xiàng)目針對現(xiàn)有疫情數(shù)據(jù)平臺存在的各類問題,搭建了一個疫情數(shù)據(jù)智能分析平臺。該平臺能整合疫情相關(guān)的各類數(shù)據(jù),在可視化多個維度的疫情數(shù)據(jù)的基礎(chǔ)之上,進(jìn)一步對疫情數(shù)據(jù)進(jìn)行分析,從而讓用戶能夠直觀全面的了解疫情,進(jìn)一步為個人、企業(yè)、政府的復(fù)工復(fù)產(chǎn)提供參考。
平臺動機(jī)
隨著新型冠狀肺炎病毒在全世界蔓延,與疫情相關(guān)的信息數(shù)量也在高速增長,不少機(jī)構(gòu)推出了疫情可視化平臺。然而,與疫情數(shù)據(jù)有關(guān)的權(quán)威數(shù)據(jù)源非常分散,缺乏統(tǒng)一的整合平臺。其次,現(xiàn)有平臺大多只展示疫情數(shù)據(jù),數(shù)據(jù)種類非常單一,而且缺乏對疫情數(shù)據(jù)的分析,這就導(dǎo)致用戶無法直觀,全面的了解疫情。
因此,本作品希望構(gòu)建一個疫情數(shù)據(jù)智能分析平臺,在可視化多個維度的疫情數(shù)據(jù)的基礎(chǔ)之上,進(jìn)一步對疫情數(shù)據(jù)進(jìn)行分析,從而讓用戶能夠直觀全面的了解疫情,進(jìn)一步為個人、企業(yè)、政府的復(fù)工復(fù)產(chǎn)提供參考。
平臺功能
平臺的主體界面是一個可以交互的世界地圖,平臺主要包括四個功能:
1.疫情數(shù)據(jù)展示:我們使用語義相似度+人工匹配的方法,對爬取的多個數(shù)據(jù)源的疫情數(shù)據(jù)進(jìn)行了整合,并在地圖上加以顯示。
2.疫情事件展示:我們收集疫情相關(guān)的的政府政策、新聞報(bào)道、學(xué)術(shù)研究,開發(fā)匹配算法將事件與地區(qū)坐標(biāo)匹配,最終以氣泡的形式顯示在地圖上。
3.疫情數(shù)據(jù)預(yù)測:我們根據(jù)國家/地區(qū)歷史疫情數(shù)據(jù),在SEIR 模型內(nèi)的基礎(chǔ)上引入大眾防疫指數(shù),并結(jié)合機(jī)器學(xué)習(xí)方法預(yù)測未來疫情趨勢。
4.風(fēng)險(xiǎn)指數(shù)評估:地區(qū)的風(fēng)險(xiǎn)指數(shù)反映了該地區(qū)內(nèi)疫情的嚴(yán)重程度,我們利用機(jī)器學(xué)習(xí)方法,綜合考慮多維度數(shù)據(jù)評估地區(qū)風(fēng)險(xiǎn)指數(shù)。
此外,平臺會實(shí)時更新所有數(shù)據(jù),并且支持按照時間軸進(jìn)行歷史數(shù)據(jù)的查看,并可以按照時間自動播放。
平臺成果
本平臺自疫情期間上線以來,截止2020年9月10日,已經(jīng)收集了200個國家/地區(qū)的細(xì)粒度疫情數(shù)據(jù),包括疫情相關(guān)的事件 51588 條,吸引了 37,9538 次的訪問總量。平臺上線后,我們還將平臺的所有代碼以及收集到的所有數(shù)據(jù)在網(wǎng)上公開,希望能通過疫情數(shù)據(jù)的開放共享,助力疫情相關(guān)的學(xué)術(shù)研究。
該平臺在五月份的校慶云科展上進(jìn)行了展示,得到了在場的醫(yī)學(xué)院張林琦教授的認(rèn)可,借此機(jī)會我們與醫(yī)學(xué)院的張琳琦教授、清華公共健康研究中心的程峰教授、社會學(xué)系的景軍教授進(jìn)行了合作與交流,期望完善平臺功能,提升平臺的專業(yè)性,充分發(fā)揮平臺作用。