• <xmp id="yyece"><menu id="yyece"></menu>
    <menu id="yyece"><strong id="yyece"></strong></menu>
  • <nav id="yyece"><code id="yyece"></code></nav>
    <nav id="yyece"><code id="yyece"></code></nav>
    <xmp id="yyece"><menu id="yyece"></menu>
    <nav id="yyece"><strong id="yyece"></strong></nav>
  • 專題欄目:ARVRMR虛擬現實

    FRL:基于4顆黑白攝像頭,Quest如何實現3D手勢識別?

    售價僅399美元,低成本的VR一體機Oculus Quest自推出以來不斷為使用者帶來多樣化的玩法,比如無線大空間體驗、PC VR模式(Link),甚至還支持手勢識別,讓人不得不夸贊它的性價比。

    據了解,Oculus Quest采用四顆黑白的廣角攝像頭,最初它們的作用是定位手柄,以及AR透視和環境掃描,后來隨著Facebook Reality Labs在算法上的突破,Quest也可以通過這四顆攝像頭來實現準確率較高的手勢識別。手勢識別的好處是,VR用戶無須用手柄,戴上頭顯后直接就能通過手勢進行界面控制,一些VR應用搭配手勢識別后,交互更自然,玩法也更多樣化。

    那么,Quest的手勢識別算法到底是什么原理呢?近期,Facebook Reality Labs在一篇名為《MEgATrack:黑白第一人稱攝像頭追蹤手部節點的VR方案》中公開了其背后的更多細節。

    FRL科研人員表示:除了深度攝像頭外,市面上較常見的還包括基于單目RGB攝像頭和神經網絡算法的手勢識別方案。單目RGB攝像頭更易集成,而且隨著機器學習技術提升,功能可以繼續強化。但將基于RGB攝像頭的手勢識別方案用于VR/AR依然存在一些問題,比如:單目方案難以直接識別3D手勢、通常需要搭配關鍵點回歸和實時姿態方案而無法獨立運行、時間上難以達到連貫和低抖動等。

    對于上述問題,市面上還沒有成熟的解決方案。因此,FRL提出了一種基于4顆黑白攝像頭的手勢追蹤方案。該方案無須深度攝像頭,因此對算力和功耗的要求更小,特點是在環境(光線暗等環境)和雙手形狀等變量影響下依然能穩定運行,延時和抖動的情況足夠少。而且除了VR,Facebook表示該手勢識別方案也可以用于AR頭顯中。

    硬件方面,該手勢識別方案基于4顆同步的VGA廣角攝像頭,每顆攝像頭的FOV可達150°(寬)x120°(高)x175°(對角線)。廣角攝像頭采用等距投影模型,光線的參數由與攝像頭主軸之間的角度來決定,因此也更適合預測手部關節點的距離而不是深度。

    而軟件系統方面,這款手勢識別方案是基于FRL開發的一個手部關鍵點預測神經網絡架構,該架構由DetNet(識別網絡)和KeyNet(節點網絡)兩部分組成,特點是結合手勢識別歷史數據,來保持手勢預測結果在時間和空間層面的一致性,也就是說可有效減少抖動、延時等問題。此外,為了優化DetNet的計算效率,FRL采用了一個叫detection-by-tracking的方式來提升手勢識別效果、降低計算成本,優化后的手勢識別方案可在PC VR模式中以60Hz刷新率運行,在一體機的處理器中可以30Hz刷新率運行。

    第一步:DetNet手勢邊界識別

    具體來講,detection-by-tracking方法的流程是根據前兩次追蹤到的手勢來推斷當前手勢變化,接著將識別到的手部關鍵點投射在每顆攝像頭捕捉的數據中,并計算出最小包含圓(最小圓覆蓋測距算法),作為識別到的手勢識別結果。如果當前DetNet并未識別到任何手勢,它會開始渲染下一幀手勢,這時候DetNet只會在一顆攝像頭上運行。當一顆攝像頭識別到手勢后,其他攝像頭才會根據追蹤到的手勢來識別邊界框,并進行立體手勢追蹤。

    總之,整個手勢識別過程足夠快速且高效,識別到的手勢邊框可保持時間連貫性,為后續的DetNet運行流程降低噪點產生的可能。

    第二步:KeyNet手勢關鍵點預測

    接下來,該手勢識別方案的第二大部分關鍵點預測網絡KeyNet開始發揮作用,它會根據DetNet預測的邊界框截取的手勢圖像來預測手部的21個3D節點。

    通常,市面上的一些節點預測系統會單獨處理每一幀圖像,但如果用在基于多顆攝像頭的實時手勢識別系統中,會出現一些弊端,比如:預測遮擋手勢或是超出攝像頭視場角外手勢的準確性不高、時間連貫性不高、容易產生抖動等。

    相比之下,KeyNet的圖像源來自于DetNet環節預測的邊界框以及截取的手勢圖像,為了讓邊界框截取完整的手勢,科研人員將截取圖像大小提升20%。此外,KeyNet還會參考上一幀推測的3D手勢,將21個關鍵點疊加在新的手勢圖像上。

    然后,為了實現對不同大小手掌的準確追蹤,該方案在KeyNet預測節點基礎上,會在手部進入3D攝像頭視場角時同時預測手掌大小,并自動運行校正流程。

    總結

    總之,DetNet結合detection-by-tracking方案有效實現對多顆攝像頭前移動的手部的追蹤,而KeyNet則有效輸出空間和時間連貫的關鍵節點預測。整個方案可生成準確、低抖動的手勢識別和重建效果,適用于頻繁的實時手勢交互場景。通過自動校正,該手勢方案還可準確追蹤不同形狀、大小的手部。

    盡管如此,目前該方案還存在許多局限,比如:難以理解和識別手與手、手與物體之間的交互,以及手部大小校正范圍有限等。這些問題對于手勢識別的準確性均有影響,因此科研人員也將繼續研究相關解決方案。未來,為了實現更沉浸的VR/AR效果,虛擬手勢畫面與真實物體或虛擬物體之間的自然交互必不可少,此前Magic Leap所展示的多種AR應用也以虛擬物體與實際空間的互動為賣點,看起來效果足夠好。相信隨著FRL經過對手勢識別技術的不斷探索,未來也會進一步優化AR/VR應用的手勢交互體驗。

    來源:青亭網

    發表評論

    相關文章

    在线观看免费视频