• <xmp id="yyece"><menu id="yyece"></menu>
    <menu id="yyece"><strong id="yyece"></strong></menu>
  • <nav id="yyece"><code id="yyece"></code></nav>
    <nav id="yyece"><code id="yyece"></code></nav>
    <xmp id="yyece"><menu id="yyece"></menu>
    <nav id="yyece"><strong id="yyece"></strong></nav>
  • 專題欄目:ARVRMR虛擬現實

    Meta研究結合參數化聲場改進AR/VR音頻雙耳信號匹配性能

    對于AR/VR,聽覺是實現沉浸感的一塊重要拼圖。通過麥克風陣列捕獲的聲學場景雙耳再現越來越流行,并在AR/VR中存在一系列的應用。

    雙耳再現的一種熱門方法涉及將High Order Ambisonics(HOA)信號與頭相關傳遞函數(HRTF)卷積。這種方法對于足夠高的球面諧波(Spherical Harmonics/SH)order相當準確,并且頭部追蹤的結合增強了沉浸體驗。但所述方法的主要缺點在于,當通過球形麥克風陣列記錄音頻信號時需要大量麥克風,并且需要球形陣列幾何形狀,這限制了它的實際使用。

    為了使用更靈活的陣列幾何形狀來再現雙耳信號,社區曾提出了基于波束成形的雙耳再現(Beamforming-based Binaural ReproductionBFBR)。所述方法使用一組波束成形器對麥克風信號進行濾波,然后再使用HRTF對輸出信號進行濾波,并且求和以再現雙耳信號。然而,對于更一般的陣列幾何結構,它只能帶來有限的指導原則,無法保證準確的雙耳信號再現。

    為了克服基于波束成形方法的局限性,并準確再現由任意幾何陣列記錄的雙耳信號,社區又開發了雙耳信號匹配(Binaural Signal-Matching/BSM)方法。其中,BSM使用分別為每個耳朵計算的最佳濾波器直接從陣列測量中估計雙耳信號。不過,BSM的精度對傳聲器位置而不是其數量敏感。特別是,陣列中的麥克風離耳朵越近,耳朵中的雙耳再現效果越好。所以,BSM方法的主要缺點是它在高頻下表現不佳,尤其是在其中一只耳朵距離陣列的所有麥克風相對較遠的情況下。

    為了提高感知性能,社區提議為高頻使用幅值最小二乘法(MagLS)代替最小二乘法(LS)。盡管MagLS的應用改善了再現雙耳信號的整體感知體驗,但當其中一只耳朵距離所有陣列麥克風相對較遠時,BSM依然存在感知表現不佳的情況。

    作為上述BSM和波束成形方法的替代方案,社區同時研究了參數空間音頻和雙耳再現。在這種方法中,聲場分解為component,通常是直接源和混響部分,并且每個component分別估計和再現。所述方法表現出相當不錯的性能,但具體效果取決于在復雜環境中實現具有挑戰性的估計精度。

    考慮到以往方法的局限性,由Meta Reality Labs和以色列本·古里安大學組成的團隊研究和分析了具有參數化聲場的BSM在時頻域的性能。具體而言,他們研究了分離為直接component和混響component的聲學場景,并探索了通過結合聲場參數化來改進BSM的潛力,特別是在BSM當前失效的情況。

    具有參數化聲場的BSM

    參數化基于這樣的假設,即測得的聲場可以分解為如下兩個component:

    公式1:x(n,k)=xd(n,k)+xr(n,k)+n(n,k+)

    其中n(k)是附加噪聲矢量,xd(n,k)表示時頻域中來自聲源的直接信號,建模為單個遠場平面波,寫為:

    公式2:xd(n,k)=v(k,θd,φd)sd(n,k)

    其中(θd、φd)表示直接信號的DOA,sd(n,k)表示源信號。xr(n,k)表示時頻域中測量信號的混響部分,并且通常由從未知方向到達的大量未知源組成。所述模型可以表示房間中的單個聲源,其中xd是來自聲源的直接聲音的測量值,xr是來自房間邊界的聲源反射的測量值。

    有方法可用于估計每個時頻bin的xd(n,k)及其到達方向(DOA),但在這篇論文中,團隊假設xd(n,k)及其DOA是已知。總之,與計算整個聲場的BSM濾波器相比,分別計算直接和混響component的BSM濾波有望產生更好的結果,因為在前者中,直接聲音component有望更準確地再現。component公式化為:

    團隊使用雙耳信號誤差和聽覺測試對所提出的BSM性能進行了數值評估。

    研究

    團隊在尺寸為8m×5m×3m、混響時間為T60=0.68 s的房間內使用圖像方法模擬點源。房間內的源位置為(2.47,2.27,1.7)m。源信號是一段5秒長的女性語音記錄,取自TIMIT數據庫,采樣頻率為48 kHz。

    半圓形麥克風陣列以(2,2,1.7)m為中心,DRR值為4.5 dB,折衷了布置在水平面上的m=6個全向麥克風。傳聲器位置用球坐標(rm,θm,φm)表示,m相對于陣列中心。麥克風測量信號由以下公式表示:

    通過假設自由場環境來計算表示源xd(t)的直接貢獻的x(t)的component。模擬中的HRTF取自Cologne數據庫,采樣頻率為48kHz。假設源DOA的HRTF在SH域中使用30 SH order進行插值。頭部以(2,2,1.7)m為中心,并與正x軸對齊。圖1給出了陣列位置相對于頭部位置的圖示。例如,假設半圓形陣列代表AR眼鏡上的陣列,則選擇陣列相對于頭部的選定方向,因為這對BSM算法來說最具挑戰性。

    如上所述,計算x(t)和xd(t)后,使用Short-TimeFourier-Transform (STFT)計算x(n,k)和xd(n,k),Hamming window為32ms,hop length為16ms。然后使用公式1計算xr(n,k)。

    計算兩個BSM濾波器,一個用于信號的直接component,另一個用于混響component。假設聲場由L個遠場源組成,當計算混響component的濾波器時,假設聲場由L=240個源組成,DOA對應于螺旋形幾乎均勻的分布。在計算直接component的濾波器時,假設單個源L=1,相對于陣列中心的DOA為(θd=π2,φd=π6)。

    然后,使用相應數量的L源、陣列幾何結構和假設源的DOA,在SH域中分析生成了混響和直接component的導向矢量。接下來,假設混響component的SNR=20 dB,而SNR=∞ 假設為直接component。

    對于[150024000]Hz范圍內的頻率,使用MagLS計算混響component的BSM權重。接下來,分別計算代表混響component和直接component的輸出:

    表示直接從沒有聲場分解的陣列測量中實現BSM方法的解決方案是:

    通過將左耳和右耳的HRTF與圖像方法計算的14 order HOA信號進行卷積來計算耳朵處的參考信號:

    雙耳信號的歸一化均方誤差(NMSE)計算為:

    模擬結果

    為了研究BSM方法在應用于分解聲場時的性能,團隊計算了直接component和混響component的NMSE,如圖2和圖3所示。

    圖2

    圖3

    圖2顯示了雙耳信號的再現直接component的NMSE相對較低,尤其是在低頻時。這一結果表明,直接component的再現相當準確,這與BSM方法的預期性能一致。混響component的NMSE如圖3所示。可以觀察到,在較高頻率下,NMSE較高,而最靠近麥克風位置的耳朵的NMSE較低。

    團隊同時計算了使用不帶聲場分解的BSM方法的再現雙耳信號的NMSE,以及使用帶聲場分離的BSM法的再現雙音信號的NMSE,如圖4所示。模擬結果表明,使用BSM方法的雙耳信號的更精確再現可以通過聲場分解來實現。通過比較直接component和混響component的NMSE,可以推斷NMSE由混響component主導。這項模擬研究顯示了聲場分解的潛力:如果這種分解可以在實踐中實現,它可以顯著提高BSM算法的性能。

    相關論文:Performance Analysis Of Binaural Signal Matching (BSM) in the Time-Frequency Domain

    總的來說,團隊研究了在半圓形陣列和分解聲場中利用BSM方法進行雙耳再現的問題。結果表明,使用分解聲場的再現雙耳信號的感知和總體精度高于使用標準BSM方法的情況,尤其是在耳朵位置和麥克風之間的距離較大的情況下。聽力測試表明,準確再現直接component對感知確實非常重要。

    研究人員指出,未來的工作可能包括結合空間編碼方法來實現聲場分解,開發更好地再現混響component的設計框架,并擴展本次研究中進行的聽力測試。未來的工作同時可能包括研究具有其他陣列配置的BSM方法,以及開發改進雙耳再現的設計框架。

    發表評論

    相關文章

    在线观看免费视频