微軟最新AI系統!云端麥克風陣列,音頻轉錄精度提升22.4%

發表時間:2019-11-18 04:06

智東西(公眾號:zhidxcom)編 | 王穎

導語:微軟利用人工智能轉錄會議音頻,新系統使用云端麥克風陣列。

智東西9月16日消息,微軟語音和對話研究小組的科學家最近研發了一個系統,利用內置于智能手機、筆記本電腦和平板電腦中的麥克風來提高音頻質量。

這個系統通過智能硬件連接互聯網,在云端形成臨時的麥克風陣列,可以實時高精度轉錄音頻。研究小組計劃在Interspeech 2019年會議上發表相關的研究論文。

會議室的音頻無法及時可靠地傳達給遠程參加會議的各方時,總會令人感到非常無奈。音響效果的差異和干擾總是導致線路另一端接收的音頻清晰度降低。

接下來我們一起了解一下,微軟設計的云端麥克風系統,是如何提高音頻轉錄的精度和效率的。

一、云端麥克風陣列提高音頻精度

微軟團隊的解決方案是一個端到端系統,首先從不同的麥克風收集聲音信號,然后進行波束成形,這種技術能使麥克風陣列對來自特定方向的聲音更加敏感。

該系統的主要研究人員Takuya Yoshioka在博客中寫道:“我們方法背后的核心思想是利用與會者通常攜帶到會議現場的筆記本電腦和智能手機等任何與互聯網相連的設備,虛擬地在云端形成一個臨時的麥克風陣列。”

由一個識別信號之間關系的模型進行編排。在波束形成過程中,信號被反饋到下游的語音識別模塊,然后對它們進行合并、注釋并發送回與會者。

據研究團隊介紹,通過他們的方法,使用云端麥克風陣列,參加會議時人們可以使用已經帶到會議現場的手機、筆記本電腦和平板電腦實時高精度轉錄音頻,無需專用的硬件設備。

Takuya Yoshioka指出,這種方法在理論上要比執行上簡單,因為不同設備之間的音頻保真度存在很大差異,不同麥克風捕捉到的語音信號彼此并不一致。設備的數量及其相對位置在每次會議之間的不一致也增加了麥克風陣列的設計難度。

二、語音轉錄系統仍需進一步完善

研究人員報告說,在定性測試中,他們的人工智能系統在使用3個麥克風和7個麥克風的情況下,其性能分別比單設備系統高出14.8%和22.4%。

研發團隊表示,他們的系統還不完善,偶爾會因為重疊的語音而出錯。測試中,有10%的錄音中包含不止一個說話者,這時語音轉錄的錯誤率為13.6%。

論文中Takuya Yoshioka和他的同事寫道:“我們將設備分布在放假各處,獲得了更好的空間覆蓋率,研究顯示了多個異步麥克風在真實場景中滿足轉錄的有效性。”

結語:語音轉錄技術提升還需加大研發投入

微軟在語音轉錄方面的研究迎合了市場的需求。去年夏天,微軟在語音轉錄方面的研究已經應用在了微軟365上,可以自主將語音轉換為文本,與會者還能通過視頻記錄轉換文本,使錄音文件的文本轉錄變得更加簡單便捷。

幾個月后,微軟在又OneDrive和SharePoint中推出了音頻和視頻文件的自動轉錄功能,進一步提升了文本轉換的效率。

語音文本的實時轉錄,在辦公和學習場景中都有很強的實用性。目前,語音轉錄系統還不完善,轉錄的準確性還有待提升,在數據、算法等方面還需要更多的研發投入,以滿足消費者在不同場景下的需求。

論文鏈接:https://www.microsoft.commeetingtranionsusingvirtualmicrophonearrays.pdf

原文來自:VentureBeat

責任編輯:

电子游艺行业