5月28日消息,近日,AI主播亮相京東數科產業AI公開課,而這也是京東數科自主研發的AI虛擬數字人產品首次出現在公眾面前。據介紹,京東數科融合了2D和3D技術,將傳統方法與深度學習結合,僅需使用一段幾分鐘的人物視頻數據,經過幾小時訓練就可以合成出寫實風格的AI虛擬數字人。
據悉,為了順利實現文字到語音的轉化,京東數科自研了輕量級對抗語音合成技術,通過結合深度神經網絡在多人數據上進行個性化建模,達到音色豐富、特色鮮明的語音合成效果,甚至可以模擬人的呼吸和停頓,聽感酷似真人。高效輕量的對抗神經網絡大幅提升了合成速度,合成1秒音頻只需0.07秒,合成時延僅為業界水平的1/3,充分支持多場景實時語音合成。
在語音生成視頻的階段,為了使AI主播形象更加逼真,京東數科AI實驗室利用對抗生成網絡來還原更真實的表情,通過3D模型運動追蹤技術來確保AI主播在說話時口型準確、表情細膩、頭部運動自然。為了在口型匹配方面達到完美效果,京東數科AI實驗室利用大量語音數據,并特意設計了魯棒的語音特征,使其可以被不同音色、語言和語速的合成語音所驅動,且都能保持準確、連貫的口型。
最終,京東數科開發出了高度還原真人形象的AI虛擬數字人,在AI算法的驅動下,只需輸入文本內容,“小妮”就能根據語義實時進行主持,且表情、動作和語音表達非常自然逼真。
京東數科AI實驗室首席科學家薄列峰表示:“AI主播小妮的推出,是京東數科在多模態AI技術領域一次成功的落地應用。除了在客服、招聘等領域的應用之外,我們還將服務內容創造者,通過AI虛擬數字人技術,把靜態圖文內容轉化為由‘真人’講解的短視頻,滿足用戶對多樣化呈現形式的需求,增強用戶黏性和社區活躍度。”
責任編輯:Rex_07