• <xmp id="yyece"><menu id="yyece"></menu>
    <menu id="yyece"><strong id="yyece"></strong></menu>
  • <nav id="yyece"><code id="yyece"></code></nav>
    <nav id="yyece"><code id="yyece"></code></nav>
    <xmp id="yyece"><menu id="yyece"></menu>
    <nav id="yyece"><strong id="yyece"></strong></nav>
  • 專題欄目:ARVRMR虛擬現實

    微軟研究團隊分享:用數據集LaMAR開發AR場景定位、映射算法

    計算機視覺是計算機科學中最引人注目的領域之一。它的發展速度非常迅速,并且有望顯著影響人們的生活和工作方式。近年來,機器學習和計算機視覺的融合交叉進展正在加速,并為眾多領域帶來了重大進展,包括醫療保健、機器人、汽車工業和增強現實。

    為了幫助人們實現更多目標,微軟研究人員一直在與所述領域的學者和專家合作,共同開展一系列的計算機視覺項目。一個例子是PeopleLens。這款以HoloLens作為靈感的頭戴式設備可以通過空間化音頻識別周圍的人員,從而幫助失明人士或視力低下人士在社交場合進行互動。另一個例子是Swin Transformer。這個計算機視覺架構在目標檢測中實現了高精度,并提供了將計算機視覺和自然語言處理(NLP)架構統一的機遇。

    在日前舉行的2022年歐洲計算機視覺大會(ECCV),微軟介紹了團隊在計算機領域的最新成果。下面將重點與混合現實相關的兩份研究論文。第一篇是通過增加面部landmark的數量來實現更精確的3D面部重建,在降低所需計算能力的同時獲得最先進的結果。另一篇主要涉及一個利用AR設備對真實世界進行視覺定位和映射的數據集。以下是第二篇“LaMAR: Benchmarking Localization and Mapping for Augmented Reality”的分享。

    為了充分發揮增強現實的潛力,任何頭顯用戶都應該能夠將虛擬內容放置在物理世界中,與他人共享,并期望虛擬內容能夠隨著時間的推移而保持在原處。但是,在AR設備以全息圖形式增強現實世界之前,它們需要構建物理3D世界的數字映射。然后,設備需要相對于所述映射進行定位或重新定位。這允許它們檢索先前放置的全息圖并在指定位置向用戶顯示。實現所述功能的計算機視覺基礎稱為映射和視覺定位。

    通常,視覺定位的研究集中在單個圖像,一般是精心挑選的著名景點的視圖。但這并不能反映真實的AR場景。AR設備可以本地映射環境,并提供空間配準序列,而不是單個圖像。這種序列同時可以包括其他數據,如來自傳感器的慣性信號或無線電信號。然而,使用這樣的序列進行定位非常具有挑戰性,因為它們通常只是在正常設備使用過程中收集,而且并不旨在促進定位。

    為了彌補這一差距,微軟引入了一個全新的基準。這是微軟一個專注于AR的設置,并明白到視覺重新定位是共享性和持久性AR體驗的關鍵要素。考慮到典型AR場景的空間尺度,例如導航機場或檢查工廠,團隊必須設計一條能夠自動計算各種現成AR設備(如HoloLens或iPhone)捕獲真實AR序列的ground truth攝像頭位置的管道。通過在所述基準評估最先進的方法,研究人員對當前研究提供了新的見解,并為AR視覺定位和映射領域的未來探索提供了途徑。

    這是微軟蘇黎世混合現實與人工智能實驗室和蘇黎世聯邦理工學院為期兩年合作的成果。

    1. 開發大規模AR數據集

    為了幫助研究社區解決AR映射繪制和視覺定位的具體問題,團隊從現代AR設備收集了多傳感器數據流。相關傳感器流在每個時刻都來自設備追蹤器的camera姿態(攝像頭的位置和方向)。所述數據流同時包含圖像、深度測量、慣性測量單元(IMU)的樣本和無線電信號。利用它們可以產生更有效的算法。

    例如,無線信號(如Wi-Fi或藍牙)可以簡化圖像檢索。類似地,序列定位可以利用傳感器流的時間方面來提供更多的空間背景,這可以實現camera姿態的更準確估計。這是一個典型的現實用例,其中用戶啟動AR應用程序并流式傳輸感知數據,以相對于先前構建的映射定位攝像頭,它反映了基于混合現實云服務(如Azure Spatial Anchors)構建的AR應用程序的工作方式。

    LaMAR數據集的首次發布包含了超過100小時的記錄,覆蓋面積45000平方米,是使用HoloLens 2和iPhone/iPad設備在兩年的時間內錄制。所述數據是在不同的室內和室外位置采集,代表了典型的AR場景,例如歷史建筑,多層辦公樓和城市中心等。它包括照明的變化和對象的移動,或者是緩慢的動作,比如把書放到桌面,或者是更快的動作,比如匿名人員在人行道行走。

    2. 自動對準AR序列以建立ground truth

    為了估計ground truth攝像頭姿態,團隊將捕獲的數據與位置的參考3D模型對準。所述參考模型是使用NavVis M6和VLX測繪系統捕獲。這兩個系統都配備了激光掃描儀(激光雷達),可生成密集、紋理化和高度精確的位置3D模型。為了對準數據,他們開發了一個不需要手動標記或設置自定義基礎設施強大管道,這使得研究人員能夠可靠地處理來自各種AR設備的長期數據。

    實際對準過程全自動,并利用AR設備的實時追蹤器在其本地坐標系中提供camera姿態。團隊將每個捕捉到的序列分別與密集ground truth參考模型對準。完成后,通過優化序列內和序列間的視覺約束,對所有camera姿態進行聯合優化。

    3. 評估AR背景下的本地化和映射

    他們在單幀設置中評估了當前最先進的方法:定位從手機獲得的單個圖像,以及從HoloLens 2獲得的單個圖片。然后為了利用無線電信號,團隊調整了相關的方法。最后,研究人員設計了基線,以所述方法為基礎,并在與真實AR應用相對應的多幀定位設置中使用設備實時追蹤器。結果表明,通過包括現代AR設備中通常可用的附加數據流,他們可以顯著提高最先進方法的性能表現。

    為了獲得令人信服的用戶體驗,AR應用程序應該在啟動會話后盡快檢索和可視化內容。為了量化這一點,研究人員引入了一種稱為time-to-recall的新度量。它主要測量成功定位所需的序列持續時間。這可以鼓勵研究人員開發能夠盡可能快地準確定位camera的算法。

    如上面所示,HoloLens 2的time-to-recall為80%?,手機為70%。使用無線電信號則可以將time-to-recall分別從10秒縮短到1.40秒和3.58秒。

    4. 使用LaMAR基準

    LaMAR是一個關注于使用AR設備進行視覺定位和映射的真實設置基準。評估結果顯示,利用姿態序列而不是單個幀,以及利用其他傳感器模式(如無線電信號)來定位camera和繪制環境具有巨大潛力。

    相關論文:LaMAR: Benchmarking Localization and Mapping for Augmented Reality

    研究人員可以通過這個頁面訪問LaMAR基準測試、評估服務器、ground truth管道的實現,以及帶有附加感官數據的基準。團隊表示:“我們希望這項工作能夠啟發未來的研究,鼓勵大家開發出適合真實AR場景的定位和映射算法。”

    發表評論

    相關文章

    在线观看免费视频