基本信息
- 項目名稱:
- 基于雙目立體視覺的人機界面裝置
- 小類:
- 信息技術
- 大類:
- 科技發(fā)明制作B類
- 簡介:
- 本裝置基于雙目立體視覺技術,通過在成本較低的市售視頻采集裝置上加裝自制紅外濾光片,對紅外光源進行捕捉,實時計算目標物體在三維空間中的位置坐標,實現(xiàn)了實時高效的三維重建。本作品可作為底層接口對不同的應用進行擴展,可應用于涉及動作捕捉、空間定位、機器立體視覺等各類領域。
- 詳細介紹:
- 本作品采用雙目立體視覺中的兩攝像機平行的方案作為理論基礎。紅外捕捉裝置由價格低廉的市售攝像頭組裝而成,再加上自制的濾光片構成了硬件部分。紅外發(fā)射裝置是由IRL-715和簡易電路組裝而成。軟件部分按幀對視頻流進行處理并提取圖像坐標信息,從而計算出三維坐標,由于算法經過簡化,所以滿足了實時性。本作品界面簡易,操作簡單,并且價格低廉,擴展性極強,可以出現(xiàn)在任何需要進行動作捕捉和空間定位的場合,具有極高的應用價值。 工作流程: 1、攝像機標定: 由于我們采用兩攝像機平行的方案,所以攝像機的內外參數都在硬件組裝的時候就可以計算出來,所以省略了攝像機標定這個步驟。在應用中,攝像機參數被寫在程序里,直接參與三維重建的運算。這樣的方案解決了每次使用系統(tǒng)前都需要對攝像機相關參數進行標定的問題,是用戶的使用更加的方便。 2、圖像獲取: 我們調用相關的函數將視頻流調如內存,由于我們只需要YUY2格式中的亮度信息,所以我們只提取亮度信息。使用紅外濾鏡和紅外線光源后,獲取的圖片色彩單一,只有黑白兩色,所以不用考慮噪音的干擾,也節(jié)省了一些圖像預處理的時間。 3、特征點提取和立體匹配: 根據獲取的亮度信息(0-255),我們就可以判斷哪里是亮點,哪里是暗點。經過大量數據的分析后發(fā)現(xiàn),在考慮光暈的情況下,光源的亮度值基本都大于180。所以我們將亮度值180設為分界點后,對圖像進行處理,從而獲取光源的圖像坐標信息。由于我們只有一個光源,所以不需要進行立體匹配,以后根據不同的應用可以加入多點識別的立體匹配算法。 4、三維重建 根據特征點提取出來的圖片信息和攝像頭的相關參數信息,我們就可以用三維重建算法計算三維坐標。 應用領域: 我們將DCE的實際應用大體分為三大方面。動作捕捉、空間定位和機器立體視覺。 動作捕捉 通過處理目標物體的空間運動軌跡便可以實現(xiàn)一系列人機交互的功能,令計算機系統(tǒng)更加“人性化”。只提取兩維信息可以實現(xiàn)常規(guī)無線鼠標的功能。將其三維信息提取,便可應用于時下較為流行的3D游戲,通過實現(xiàn)游戲控制的三維鼠標,來模擬空間立體效果,更真實的讓玩家體驗到身臨其境的感覺。不僅如此,當前我們的掌上電腦——手機,卻始終沒有出現(xiàn)鼠標這個概念。將DCE置于手機的一側,用戶只需配帶一個紅外發(fā)射裝置,在其周圍寫寫畫畫就可以實現(xiàn)手機鼠標。這將加速推動智能化手機的發(fā)展。另外,如果我們將程序中識別的算法寫的更精細一些,即可以將DCE引入工業(yè)化生產的領域,它將會在3D場景的三維動作采集,實時的機械手控制裝置中發(fā)揮其顯著的作用。 空間定位 將DCE自身的空間坐標系與目標物體的坐標系進行坐標轉換,就可以得到它們在空間上的相對位置關系,令計算機系統(tǒng)更加“智能化”?;谶@個原理,我們將紅外發(fā)射裝置安置于DCE可視范圍內規(guī)定出的一個鍵盤區(qū)域中,并對這個區(qū)域進行實時監(jiān)控,根據發(fā)射紅外線的光源位置不同,即可接收不同的鍵盤消息,從而實現(xiàn)無線虛擬鍵盤。隨著智能化筆記本不斷的飛速發(fā)展,筆記本的輕便性已漸漸為人們所重視。將DCE實現(xiàn)的無線虛擬鍵盤應用于其中,不但能令筆記本的厚度大大減小,更能在一定程度上解決它的散熱問題。這將為便攜式電腦的發(fā)展做出具大的貢獻。 機器立體視覺 由于我們可以不斷的接收外界發(fā)來的信號,并實時的進行三維坐標的還原。這樣使DCE和機器結合,將會令機器持續(xù)的感知物體在三維空間的變化,產生立體視覺,令計算機系統(tǒng)的感知范圍“立體化”。根據這個特點,佩帶上DCE的機器人將會像人類一樣不斷的“做出判斷”,實時的感覺不同物源的空間位置,做出跟隨的動作。通過不斷的改進,必將滿足人類對它的渴望與需求。正如當今車載GPS系統(tǒng)的盛行,將DCE安置于汽車將更加的方便道路交通管理。每輛車的四個車燈處都添加紅外發(fā)射裝置,在車輛行駛的過程中,DCE會實時的觀測周圍車輛的距離,并作出判斷,一定范圍內發(fā)出報警訊號,以提示駕駛員做出相應的減速、剎車動作。在道路交通事故日益嚴重的今天,擁有這樣的車輛警報系統(tǒng)將更有效保證道路的安全駕駛,避免了很多災難的發(fā)生。
作品專業(yè)信息
設計、發(fā)明的目的和基本思路、創(chuàng)新點、技術關鍵和主要技術指標
- 發(fā)明目的: 為了實現(xiàn)實時三維重建,讓計算機可以用數碼攝像裝置直接捕獲和分析用戶的動作,從而獲取信息,使人機交互方式更為多樣化,操作更方便,我們發(fā)明了基于雙目立體視覺的人機界面裝置。 基本思路、技術關鍵: 要實現(xiàn)實時的三維信息還原,技術關鍵在于如何能讓計算機在極短的時間內識別出目標物體并且立體匹配,也就是簡化立體視覺的實現(xiàn)流程。經過分析,只要將色彩信息進行過濾,只保留我們想要的目標物體的信息就可以解決這個問題。所以我們自制了可以濾去可見光的濾光片,安裝在攝像頭的內部。這樣只保留紅外線圖像信息,就可以不用考慮可見光的干擾。 創(chuàng)新點: 1、使用紅外光源作為捕捉對象,并且使用自制的濾光片濾光,可以忽略可見光的干擾,不用考慮紅外線以外的信息,也不再受目標物體外形的限制,從而簡化雙目立體視覺的特征點提取和立體匹配的部分,提高了程序的運行效率,在保證實時性的同時不給CPU帶來太大的負擔,目前沒有同概念的產品。 2、本作品摒棄了以往立體視覺中使用高檔高精度攝像機作為接收裝置,而是采用市售視頻裝置,大大降低了系統(tǒng)的成本,使本作品更容易被大眾接受,實屬創(chuàng)新。 技術指標: CPU占用率:6%以下(英特爾 賽揚 雙核處理器T1400) 測量范圍:根據兩攝像頭間距不同,量程可變 誤差:當兩攝像頭間距為5cm時 10cm-50cm 誤差為5%
科學性、先進性
- 概念創(chuàng)新: 由于設備的局限性導致現(xiàn)在計算機很難短時間內從色彩豐富的圖像信息中捕捉目標物體。但是彩色CCD可以看到人眼看不到的紅外線,所以我們自制了紅外濾鏡,濾去可見光后再對紅外光源進行捕捉,從而極大的簡化了模式識別的算法,提高了程序的運行效率,基本保證了實時性,這時本作品的特色。 簡易便攜,擴展性強: 系統(tǒng)設備相較數碼相機更為輕便,體積小,易安裝使用,可以出現(xiàn)在任何需要進行動作捕捉或者三維非精確測量的場合,能夠轉型到很多領域,如模擬鼠標鍵盤、游戲控制信號、教學輔助激光筆等用品的功能,十分容易普及。本裝置作為三維還原接口可以擴展到很多領域,擴展性極強。 價格低廉: 目前數字近景測量系統(tǒng)比較流行的是選取高檔數碼相機,但這樣的設備價格也比較昂貴,數碼相機的單價就在1000元左右,而本項目的設備價格十分低廉,使用市售視頻裝置連帶自制的紅外濾鏡和紅外光源,整套系統(tǒng)價格低于200元,適用于民用用途。
獲獎情況及鑒定結果
- 2009年“挑戰(zhàn)杯”吉林省大學生課外學術科技作品競賽 科技發(fā)明制作類 一等獎
作品所處階段
- 實驗室階段
技術轉讓方式
- 無
作品可展示的形式
- 實物 磁盤 現(xiàn)場演示 圖片 錄像 樣品
使用說明,技術特點和優(yōu)勢,適應范圍,推廣前景的技術性說明,市場分析,經濟效益預測
- 本作品的特點是操作簡單,易上手使用。裝置便攜易安裝,可以出現(xiàn)在任何場合。擴展性強,應用范圍極廣。價格十分低廉,可以被大眾接受。 本作品作為底層三維還原接口,可以通過調整兩攝像頭間距來調整有效范圍,并且配合不同功能的軟件,應用于各種需要進行實時三維還原的領域。 通過處理目標物體的空間運動軌跡便可以實現(xiàn)一系列人機交互的功能,如模擬鼠標的功能,更是可以處理三維信息,實現(xiàn)控制3D游戲的三維鼠標,甚至可以將鼠標這個概念引入手機。 將本裝置自身的空間坐標系與目標物體的坐標系進行坐標轉換,就可以得到它們在空間上的相對位置關系?;谶@個原理,我們可以根據紅外光源位置不同,發(fā)送不同的鍵盤消息,從而實現(xiàn)無線虛擬鍵盤的功能。 將本裝置和機器結合,根據還原出的三維坐標,做出不同的判斷,便可以讓機器擁有實時的立體視覺,可見本裝置可以用于機器人導航等領域,可以使機器更加智能化。
同類課題研究水平概述
- 從20世紀80年代至今,立體視覺的研究者們對立體視覺的各個層次進行了大量的研究,取得了一大批科研成果。現(xiàn)在國際上以計算機視覺為主題或主要以計算機視覺為主題的國際會議有國際計算機視覺會議(ICCV),國際模式識別會議(ICPR),國際計算機視覺與模式識別會議(CVPR),歐洲計算機視覺會議(ECCV)與亞洲計算機視覺會議(ACCV)。以計算機視覺為主要內容之一的國際刊物也很多,有IEEE Trans. On PAM1,Visual Image Computing, IJPRAI,Pattern Recognition等。 但是,隨著計算機視覺研究的不斷深入,人們發(fā)現(xiàn)了馬爾視覺理論的局限性,這些理論、方法、算法在實際應用中并沒有產生能完全取代人的視覺系統(tǒng)。無論是從視覺生理的角度,還是從實際應用方面來看,現(xiàn)有的立體視覺技術還處在十分不成熟的階段,計算機立體視覺系統(tǒng)的研究面臨著一系列技術難點: 1. 立體匹配作為立體視覺的核心,在理論上和技術上都還不完善。例如,如何選擇合理的匹配特征,以克服匹配準確性與恢復視差全面性間的矛盾;如何選擇有效的匹配準則和算法結構,以解決存在嚴重灰度失真、幾何畸變、噪聲干擾、特殊結構及遮擋景物的匹配問題;如何建立更有效的圖像表達形式和立體視覺模型,降低立體匹配的難度等。目前也還沒有一種可靠的通用的匹配方法。 2. 人類對自身視覺機理還不十分了解,人類是如何精選、獲取和分析理解視覺知識的,至今還未充分搞清楚。 3. 立體視覺系統(tǒng)所需的計算量是非常龐大的,然而實用的系統(tǒng)對時間的要求是有一定限制的。在現(xiàn)階段集成電路和特殊功能部件的發(fā)展還不能滿足實時性的要求,這為立體視覺系統(tǒng)完全變?yōu)閷嵱玫耐ㄓ孟到y(tǒng)設置了一大障礙。 由于國內外基于立體視覺的三維還原裝置都是對可見光進行識別,并且算法十分復雜,所以實時的三維信息還原的裝置并不多見。而用紅外線作為光源進行動作捕捉更是鳳毛麟角。在TED大賽上曾經出現(xiàn)過一位工程師,用紅外線LED和WII遙控器制作了一個實時的三維動作捕捉裝置,但并沒有將三維信息進行還原,而國內尚為出現(xiàn)以紅外線為捕捉對象的基于立體視覺的實時的三維還原裝置。所以使用紅外濾鏡濾去可見光,用紅外線光源作為捕捉對象的技術路線十分的新穎,在國內外都很少見。