首頁 > 科學 > 查看文章

重要進展!谷歌 AI 發布開源最新視聽覺算法,秒學習,神同步

    發表時間:2019-10-13 03:10

隨著人工智能技術的發展,現在這個領域的關注群體已經從部分科技產業人士,變成了全民聚焦的未來趨勢。而在技術領域,目前已經有相關項目或技術產品,可以做到“嫁接”不同來源的視頻對象和動作。但是,更多業內人士認為,這個技術其實并不完美,背后大部分來源于存入數據庫的相機拍攝圖像模型,以及大數據的模型訓練,這種方式需要很長時間,并且通過不斷驗證和試錯,才最終形成完整的人體圖像合成技術。

但是,如果有一種辦法,可以實時“逐幀跟蹤“聲音和圖像,形成對齊效果,并且通過即時學習方式 “嫁接” 不同來源視頻的對象,是不是會更快捷,更有效率呢?

圖|Google AI logo(來源:Venturebeat)

近日,谷歌 AI 團隊的研究人員提出了一種叫時間周期一致性學習(TCC)自我監督的 AI 訓練技術,有點類似即時模仿,可以在一段連續過程中(如多次打擊棒球),找到每一幀和某個具體動作的對應關系,然后利用 AI 算法,即時復制到下一個相同動作當中

目前,谷歌已經將 TCC 的代碼開源,放到了 GitHub 倉庫中,希望更多開發者可以在自己開發的應用程序中使用這個算法以及相關技術。

TCC 的原理是什么

TCC 的原理是什么

當你想喝水的時候,就會伸手拿杯子,然后去接水,這一過程是按特定的順序進行的,整個次序不能顛倒,并且相似的視頻都會有這樣的先后順序以及對應關系。

幼苗成長為樹木,每個人每天從起床,上班,到回家的日常生活,或者一個人倒一杯水,這些都是按照特定的順序進行的。若想“嫁接”不同來源的特定片段的話,就需要 TCC。

(來源:Google AI 官方博客)

那么, TCC 是什么呢?按照谷歌 AI 的說法,利用時間周期一致性原則,在特定的順序變化中“逐幀跟蹤“,包括聲音、視點、物體大小、容器形狀的變化等,進行采集并找尋對應關系,通過對齊方式來學習并“嫁接”有用處的視覺表征片段。

這個算法是選擇視頻的每一參考幀,在其中嵌入空間(非像素空間),進行不斷的 AI 訓練,而在嵌入之時,其對視頻過程中的動作上下文進行選擇性語義理解,不斷重復和循環下,形成周期一致性的“嫁接”關系。

據悉,該訓練算法的目的是使用處理圖像的任何網絡架構(例如 ResNet)來學習幀編碼器,也就是在視頻當中添加馬賽克、調整移動等,在這些場景中變得更加有用。在下圖中,谷歌 AI 團隊展示了使用 TCC 訓練出的模型,該模型來自賓夕法尼亞大學所做的“行動數據集”項目,其中研究了深蹲練習視頻序列資料。

(來源:Google AI 官方博客)

圖中左側的每個點對應于幀嵌入,顯示的點將會跟蹤當前視頻幀的嵌入,隨著視頻幀的變化,點也會進行著變化。盡管在姿勢,光照,身體等方面存在許多差異,但 TCC 還是可以在不提供任何打點標注的情況下將視頻和模型同步在一起。

谷歌 AI 團隊表示,TCC 可以在少數視頻的情況下,可以形成實時的學習模型,做到“神同步”。而隨著視頻數量的增加,手動對齊或同步視頻變得非常困難。使用 TCC 技術,無需其他分類和標簽,對齊許多參考和剪輯的視頻。例如下面這個動圖中,TCC 將 25 個棒球投手視頻的動作完全對齊同步,非常厲害。

(來源:Google AI 官方博客)

此外,TCC 還可以將一個倒水、倒牛奶的聲音傳輸到另一個視頻中,做到視聽大致同步,毫無違和感。

為什么這是一次重要進展

為什么這是一次重要進展

相比之前 DeepFake 使用的大量采集人臉識別樣本,打點勾勒出面部形狀的圖像合成技術來說,這次谷歌 AI 團隊發布的 TCC 自我監督 AI 訓練技術,更加高效,更加便捷。

實際上,能夠制造假圖片和假視頻的 AI 技術不僅僅只有 DeepFake,相關技術在過去五年里層出不窮,這都要歸功于生成式對抗網絡(GAN)深度學習技術。

(來源:Innov8tiv)

但是,這次 TCC 自我監督 AI 訓練技術,更像是通過模型進行模仿,并非 GAN 這種長期訓練的結果。Google Research 研究助理 Debidatta Dwibedi 表示,這項研究成果或將對于從事視頻的研究人員,以及希望利用機器學習來調整視頻對象、調整馬賽克等多個場景的藝術家來說,是非常有用的。

隨著移動互聯網行業的發展,能夠制造假圖片和假視頻的 AI 技術使用門檻越來越低。現在隨便在網上一搜“AI 換臉”,就會找到很多神經網絡訓練教程,如果有編程功底,從開源社區拿到代碼和數據就可以自行搭建框架和訓練。

即使不懂得如何構建神經網絡,看不懂晦澀的論文,甚至是不懂編程的小白也沒問題,網上早就有 Fakeapp 和 Faceswap 等現成的換臉軟件,只要電腦硬件足夠強大,跟著教程走,自制簡單的換臉短視頻并不困難。

所以谷歌 AI 團隊對 TCC 自我監督 AI 訓練技術進行了開源,很大程度上有利于更多人使用并應用 AI 技術。

在開源和技術進展兩者加持下,這一次谷歌 AI 團隊發布的 TCC 自我監督 AI 訓練技術,更像是一次重要的變化,也是 AI 前進路上的一個重要節點。

參考:

https://venturebeat.com/2019/08/08/googles-ai-learns-how-actions-in-videos-are-connected/

https://ai.googleblog.com/2019/08/video-understanding-using-temporal.html

https://github.com/google-research/google-research/tree/master/tcc

https://arxiv.org/pdf/1904.07846.pdf

https://dreamdragon.github.io/PennAction/

?

責任編輯:

电子游艺行业