聚焦虛擬說(shuō)話(huà)人生成技術(shù),華為云論文被人工智能語(yǔ)音領(lǐng)域頂級(jí)會(huì)議ICASSP2022接收
聚焦虛擬說(shuō)話(huà)人生成技術(shù),華為云論文被人工智能語(yǔ)音領(lǐng)域頂級(jí)會(huì)議ICASSP2022接收
活動(dòng)對(duì)象:華為云電銷(xiāo)客戶(hù)及渠道伙伴客戶(hù)可參與消費(fèi)滿(mǎn)送活動(dòng),其他客戶(hù)參與前請(qǐng)咨詢(xún)客戶(hù)經(jīng)理
活動(dòng)時(shí)間: 2020年8月12日-2020年9月11日
活動(dòng)期間,華為云用戶(hù)通過(guò)活動(dòng)頁(yè)面購(gòu)買(mǎi)云服務(wù),或使用上云禮包優(yōu)惠券在華為云官網(wǎng)新購(gòu)云服務(wù),累計(jì)新購(gòu)實(shí)付付費(fèi)金額達(dá)到一定額度,可兌換相應(yīng)的實(shí)物禮品?;顒?dòng)優(yōu)惠券可在本活動(dòng)頁(yè)面中“上云禮包”等方式獲取,在華為云官網(wǎng)直接購(gòu)買(mǎi)(未使用年中云鉅惠活動(dòng)優(yōu)惠券)或參與其他活動(dòng)的訂單付費(fèi)金額不計(jì)入統(tǒng)計(jì)范圍內(nèi);
活動(dòng)對(duì)象:華為云電銷(xiāo)客戶(hù)及渠道伙伴客戶(hù)可參與消費(fèi)滿(mǎn)送活動(dòng),其他客戶(hù)參與前請(qǐng)咨詢(xún)客戶(hù)經(jīng)理
2022年5月7日至13日,人工智能語(yǔ)音領(lǐng)域國(guó)際頂級(jí)學(xué)術(shù)會(huì)議IEEE ICASSP 2022(2022 IEEE International Conference on Acoustics, Speech and Signal Processing)在線(xiàn)上召開(kāi),華為云語(yǔ)音語(yǔ)義創(chuàng)新Lab聯(lián)合2012先進(jìn)計(jì)算與存儲(chǔ)Lab類(lèi)腦計(jì)算團(tuán)隊(duì),攜層層審核后被接收的語(yǔ)音驅(qū)動(dòng)虛擬說(shuō)話(huà)人的論文《Meta Talk: Learning to Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking Face with High Definition》參會(huì)。 IEEE ICASSP是語(yǔ)音處理及其應(yīng)用領(lǐng)域的頂級(jí)會(huì)議,錄用十分嚴(yán)格,今年的IEEE ICASSP投稿ID突破9000,根據(jù)官方結(jié)果,最終中稿1800篇被接收。
在本次錄取的工作中,華為研究團(tuán)隊(duì)主要圍繞語(yǔ)音驅(qū)動(dòng)虛擬人進(jìn)行研究。語(yǔ)音驅(qū)動(dòng)虛擬說(shuō)話(huà)人模型,旨在生成與輸入語(yǔ)音能夠口型匹配的任意目標(biāo)人像虛擬說(shuō)話(huà)人視頻。目前業(yè)界開(kāi)發(fā)出了一些先進(jìn)的虛擬說(shuō)話(huà)人生成模型,包括語(yǔ)音驅(qū)動(dòng)的3D虛擬人視頻生成模型(AudioDVP) 和2D語(yǔ)音-口型生成模型(Wav2lip)。華為研究團(tuán)隊(duì)經(jīng)過(guò)多次實(shí)驗(yàn),發(fā)現(xiàn)AudioDVP僅有在數(shù)十小時(shí)大量訓(xùn)練數(shù)據(jù)下才能具有良好唇音同步效果,對(duì)應(yīng)目標(biāo)人物模特的訓(xùn)練數(shù)據(jù)錄制成本太高,一旦有更換模特的需求,則需要大量的人力物力來(lái)做重新準(zhǔn)備。另外,Wav2lip雖然在超過(guò)30小時(shí)的視頻數(shù)據(jù)下構(gòu)建了預(yù)訓(xùn)練模型,具有較好的泛化能力,但是生成的視頻清晰度較低,無(wú)法滿(mǎn)足應(yīng)用需求。
基于這些觀(guān)察,如下圖一,華為研究團(tuán)隊(duì)提出了一種新的虛擬說(shuō)話(huà)人的生成方法Meta Talk,融合了AudioDVP和Wav2lip各自的優(yōu)點(diǎn),通過(guò)自適應(yīng)裁剪模塊、3D人臉模型重建和渲染等模塊相互配合,突破了僅需3分鐘的原始視頻,即可實(shí)現(xiàn)生成唇形同步的4K清晰度且達(dá)到真實(shí)照片逼真程度的虛擬說(shuō)話(huà)人視頻的技術(shù)。

華為研究團(tuán)隊(duì)將此方法與SOTA方法進(jìn)行了測(cè)試和比較它們對(duì)于任意音頻的驅(qū)動(dòng)性能,包括ATVG、Wav2lip、AudioDVP和MakeIttalk。如下表所示的用于任意輸入語(yǔ)音對(duì)口型性能的定量評(píng)價(jià)的度量LSE-D和LSE-C,以及用于評(píng)價(jià)圖像質(zhì)量的度量FID和SSIM給出的比較結(jié)果表明,所提方法的唇音同步性能與Wav2Lip相當(dāng),且生成的視頻圖像質(zhì)量最高。此外,如下圖所示,在用任意語(yǔ)音進(jìn)行驅(qū)動(dòng)時(shí),所提方法與其他四種方法相比,其生成的虛擬說(shuō)話(huà)人的口型與源視頻人物的口型的匹配程度更高,并且生成的人像視頻可以顯示更多的面部紋理細(xì)節(jié),甚至?xí)r人臉臉上的雀斑都能清晰可見(jiàn)。

相關(guān)論文請(qǐng)點(diǎn)擊鏈接:https://ieeexplore.ieee.org/document/9747284

