Deepfake再升級！一張照片音頻“復(fù)活”愛因斯坦

2019.06.21

AI 前線導(dǎo)讀：Deepfake 自誕生以來，就與造假、偽造等詞語緊緊捆綁在一起，只要出現(xiàn)在人們的視野中，就一定與新的造假方法有關(guān)。雖然遭到了公眾的聯(lián)合抵制，但是這并不能削減研究人員對相關(guān)技術(shù)探索的熱情，就在今天，一種新的“Deepfake”技術(shù)又出現(xiàn)了。據(jù)國外科技媒體 The Verge 報道，近日三星人工智能研究中心和倫敦帝國理工學(xué)院的研究人員提出一種新型端到端系統(tǒng)，只需要一張照片，加上一段音頻，就能讓愛因斯坦張嘴演講，讓百年以前就去世的人大唱歌手碧昂斯的歌曲，甚至還可以為合成視頻里的人物配上對應(yīng)的表情。

一張照片 + 一段音頻 = 合成視頻

先來看看通過照片 + 音頻合成的視頻到底效果如何？

通過著名科學(xué)家愛因斯坦的一張照片，再配合上他本人之前的演講，就能合成出這樣一段視頻：?

被稱為“俄國妖僧”的拉斯普京早在百年以前就去世了，但是通過這項技術(shù)，他竟然能在視頻里大唱著名歌手碧昂斯的熱單《Halo》：???

雖然聲音仍然是碧昂斯的，但是通過視頻能夠看到，照片中人物的口型幾乎和歌詞是一模一樣的。

如果說之前的兩個案例還算是正常發(fā)揮，那么下面這段視頻就有些“放大招”的意思了：?

不僅合成了與輸入音頻匹配的視頻，而且還可以通過調(diào)整表情以傳達特定情感。請記住，創(chuàng)建這些視頻所需的只是一張圖片和一個音頻文件，算法完成了其余所有工作。

這幾個案例雖然看上去有些唬人，而且合成的視頻并非是 100% 完美無缺的，但它是這項技術(shù)發(fā)展速度之快的最新例證，其背后的原理值得探索。

技術(shù)原理

據(jù)介紹，這是一套端到端系統(tǒng)，生成的視頻擁有與音頻同步的唇部運動和自然的面部表情，例如眨眼和皺眉。這項研究的相關(guān)論文也入選了 CVPR 2019。

論文地址：https://arxiv.org/pdf/1906.06337.pdf

圖 1：論文提出的端到端人臉合成模型，能夠使用一個靜止圖像和一個包含語音的音軌生成逼真的人臉序列。

這篇論文所提出的語音驅(qū)動人臉合成體系結(jié)構(gòu)如圖 2 所示。該系統(tǒng)由時序生成器和多個鑒別器組成，每一個鑒別器都從不同的角度對生成的序列進行評估。生成器捕獲自然序列的各個方面的能力與每個識別器根據(jù)它們辨別視頻的能力成正比。

圖 2：語音驅(qū)動面部合成的深層模型

時序生成器網(wǎng)絡(luò)具有編解碼器結(jié)構(gòu)，可以從概念上劃分為子網(wǎng)絡(luò)，如圖 3 所示。假設(shè)一個潛在的表征是由三個部分組成的，這三個部分包括說話人的身份、音頻內(nèi)容和自然的面部表情。這些組件由不同的模塊生成，結(jié)合在一起形成一個嵌入，就可以通過解碼網(wǎng)絡(luò)轉(zhuǎn)換成幀。

圖 3：生成器網(wǎng)絡(luò)結(jié)構(gòu)

每個幀的潛在表征是通過連接標(biāo)識、內(nèi)容和噪聲組件來構(gòu)造的。幀解碼器是一種 CNN，它使用步長轉(zhuǎn)置卷積從潛在的表征生成視頻幀。使用 U-Net 架構(gòu)，在標(biāo)識編碼器和幀解碼器之間進行殘差連接，以保存主體的標(biāo)識，如圖 4 所示。

圖 4：向生成器網(wǎng)絡(luò)添加殘差連接的影響。

而同步鑒別器給出原始視頻和音頻的固定長度片段 (誤差 0.2s)，并確定它們是否同步。鑒別器使用兩種流架構(gòu)來計算音頻和視頻的嵌入，通過計算兩個嵌入點之間的歐幾里德距離，并將其輸入單層感知器進行分類。鑒別器的結(jié)構(gòu)如圖 5 所示。

圖 5：同步鑒別器決定視聽對是否同步。它使用 2 個編碼器來獲取音頻和視頻的嵌入，并根據(jù)它們的歐幾里德距離決定它們是否同步。

論文團隊最后通過 PyTorch+GTX 1080 Ti 進行了實驗，而實驗的最終成果就像前文里視頻中展示的那樣，雖然不甚完美，但是已經(jīng)相當(dāng)成功了。

與 Speech2Vid 模型相比，這一方法在最終呈現(xiàn)效果上提升了不少：

從上圖可以看出：Speech2Vid 模型雖然也做到了讓人物開口講話，但是除了嘴部動作幾乎沒有表情，而新方法的效果讓人物的表情、動作更加自然，雖然會顯得有些夸張，但是比起直勾勾瞪著人的表情已經(jīng)進步了不少。

Speech2Vid 模型是另一種僅使用音頻語音段和目標(biāo)身份的面部圖像來生成說話人臉的視頻的方法，可通過該篇論文了解：https://link.springer.com/content/pdf/10.1007%2Fs11263-019-01150-y.pdf

Deepfake 技術(shù)會走向何方？

制作類似 Deepfake 的技術(shù)正在變得越來越容易，盡管像這樣的研究還沒有大規(guī)模商業(yè)化，但最初的 Deepfake 制造者很快就把他們的技術(shù)捆綁到易于使用的軟件中，同樣的情況也會發(fā)生在后來出現(xiàn)的這些新方法上。

注：Deepfake 技術(shù)已經(jīng)被一些公司進行了小范圍的商業(yè)化，AI 前線也曾經(jīng)進行過報道，感興趣的讀者可以點此回顧。

類似的研究層出不窮，讓人們擔(dān)心它們可能被用于誤導(dǎo)和宣傳，這個問題甚至已經(jīng)困擾到了一些國家的立法者。盡管有無數(shù)種方法整明技術(shù)是無害的，但它確實已經(jīng)造成了真正的傷害，尤其是對女性而言。

而合成技術(shù)產(chǎn)生的“合成數(shù)據(jù)”也有著不小的商業(yè)價值。合成數(shù)據(jù)可以減少對生成和捕獲數(shù)據(jù)的依賴，可以做到比手工標(biāo)記數(shù)據(jù)更便宜、更快速，還可以最大限度減少公司對第三方數(shù)據(jù)源的需求等等。

“技術(shù)是一把雙刃劍”，這句話已經(jīng)被無數(shù)次的提起。目前尚不知道本文提到的合成技術(shù)研究團隊未來會將這項技術(shù)用在哪里，這項技術(shù)暫時也還沒有開源，不論今后它的命運如何，只希望不再有更多無辜的人受到影響，相信各個國家也會加快對這類層出不窮的新技術(shù)的立法管理，技術(shù)無罪，但是掌握技術(shù)的人應(yīng)該守好底線。

參考鏈接：

https://www.theverge.com/2019/6/10/18659432/Deepfake-ai-fakes-tech-edit-video-by-typing-new-words

今日薦文

點擊下方圖片即可閱讀

谷歌股東大會變抗議大會，創(chuàng)始人缺席被罵“可恥”

福利推薦

2011 年至今，大數(shù)據(jù)概念火了八年，勢頭依然強盛。但即便如此，當(dāng)拋出“工業(yè)大數(shù)據(jù)”的概念時，為何人們還是唏噓不止，直道落地艱難？小編說：不基于真實工業(yè)場景的數(shù)據(jù)資源、沒有系統(tǒng)的競賽培訓(xùn)和專業(yè)的算法工具，開發(fā)者當(dāng)然只能面對行業(yè)難題，望而卻步。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

陳根：深度合成陷入“貓鼠游戲”，下一步是什么？

AI 技術(shù)或?qū)⒋娣b模特，到底是喜是憂？

布魯金斯學(xué)會報告：深度偽造與國際沖突

生成式AI來了，我們還能相信自己的眼睛嗎？

AI換臉技術(shù)能為所欲為？Deepfake到底有多可怕？

這個 AI 換臉技術(shù)也許是流量明星的春天

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

今日薦文