更新:2025-06-20 17:53
大小:26.9M
下載地址掃描二維碼安裝到手機
MNN TaoAvatar是阿里巴巴基于 MNN 框架打造的一款本地運行、完全離線的手機端3D數(shù)字人應(yīng)用。它將大語言模型(LLM)、語音識別(ASR)、語音合成(TTS)、聲音驅(qū)動表情動作(A2BS)、神經(jīng)渲染(NNR)等模塊融合到Android手機上,無需聯(lián)網(wǎng)即可實現(xiàn)多模態(tài)互動。核心功能亮點包括離線聊天體驗、精準(zhǔn)語音識別、流暢語音輸出、自動表情聯(lián)動和精細(xì)渲染表現(xiàn),所有功能均在本機完成,確保數(shù)據(jù)安全與隱私。
歡迎使用MNN TaoAvatar App,這是一款基于TaoAvatar論文(arXiv:2503.17032v1)的功能齊全的移動應(yīng)用。
該項目將多模態(tài)AI虛擬形象直接呈現(xiàn)在 Android設(shè)備上,所有模型均可在本地運行,包括:
LLM(大型語言模型)
ASR(自動語音識別)
TTS(文本轉(zhuǎn)語音)
A2BS(音頻到BlendShape)
NNR(神經(jīng)渲染)
特征
由本地法學(xué)碩士(LLM)提供支持的對話式人工智能
嵌入ASR模型的語音轉(zhuǎn)文本
使用設(shè)備上的TTS進(jìn)行語音合成
通過A2BS(Audio-to-BlendShape)實現(xiàn)頭像行為動畫
富有表現(xiàn)力的虛擬形象的實時神經(jīng)渲染
100%離線且注重隱私
由于所有AI模型都是在設(shè)備本地執(zhí)行的,因此該項目需要高性能硬件才能順利運行。
最低設(shè)備要求
Snapdragon 8 Gen 3或同等旗艦SoC
示例:Snapdragon 8 Gen 3、Dimensity 9200以獲得流暢的體驗。
8 GB RAM或更多
5 GB可用磁盤空間用于模型文件
ARM64架構(gòu)
低于這些規(guī)格的設(shè)備可能會出現(xiàn)延遲、音頻卡頓或功能受限的情況。
MNN TaoAvatar:手機上的3D數(shù)字人“魔法棒”
MNN TaoAvatar是阿里巴巴基于其開源的輕量級深度學(xué)習(xí)推理框架MNN開發(fā)的3D數(shù)字人技術(shù)。與傳統(tǒng)的平面化Live2D技術(shù)不同,MNN TaoAvatar支持真3D虛擬角色的實時生成與驅(qū)動,能夠在手機等移動設(shè)備上以高達(dá)90FPS的幀率運行,帶來流暢的交互體驗。
該技術(shù)結(jié)合了3D高斯濺射(3D Gaussian Splatting)技術(shù),通過多視角圖像序列生成照片級逼真的3D全身虛擬形象。無論是面部表情、手勢還是身體姿態(tài),MNN TaoAvatar都能實現(xiàn)毫米級的精細(xì)控制,確保虛擬角色的口型、表情和動作自然同步,為用戶帶來栩栩如生的視覺體驗。
技術(shù)亮點:輕量高效,多模態(tài)驅(qū)動
MNN TaoAvatar的成功離不開MNN框架的強大性能支持。作為阿里巴巴自2019年開源的推理引擎,MNN以其輕量級、高性能和跨平臺兼容性在業(yè)內(nèi)廣受好評。MNN TaoAvatar在此基礎(chǔ)上進(jìn)一步優(yōu)化,具備以下核心優(yōu)勢:
實時面部捕捉:通過深度學(xué)習(xí)算法,MNN TaoAvatar能夠精準(zhǔn)捕捉用戶的喜怒哀樂,并以低延遲同步到3D虛擬角色,適用于直播、虛擬會議等實時交互場景。
輕量級部署:得益于MNN的模型量化和內(nèi)存優(yōu)化技術(shù),MNN TaoAvatar能夠在普通手機上流暢運行,無需高端硬件支持,大幅降低使用門檻。
多模態(tài)支持:除了面部表情捕捉,MNN TaoAvatar還支持語音、文本和圖像生成等多種輸入方式,為開發(fā)者提供豐富的創(chuàng)作空間。
開源生態(tài):作為阿里開源戰(zhàn)略的一部分,MNN TaoAvatar提供完善的API和工具,方便開發(fā)者將其集成到Android和iOS應(yīng)用中,助力快速開發(fā)與部署。
此外,MNN TaoAvatar通過知識蒸餾技術(shù)和可學(xué)習(xí)的高斯混合形狀優(yōu)化了非剛性變形處理,確保虛擬形象在復(fù)雜姿態(tài)下依然保持高保真度。這種技術(shù)創(chuàng)新使其在資源受限的移動設(shè)備上也能實現(xiàn)高質(zhì)量渲染,堪稱3D數(shù)字人領(lǐng)域的“黑科技”。
應(yīng)用場景:從直播帶貨到元宇宙
MNN TaoAvatar的應(yīng)用潛力十分廣泛,已在阿里巴巴內(nèi)部的多個場景中得到驗證。例如,在淘寶和優(yōu)酷等平臺中,3D數(shù)字人技術(shù)已用于提升直播帶貨和虛擬活動的用戶體驗。以下是一些典型應(yīng)用場景:
電商直播:通過逼真的3D虛擬主播,MNN TaoAvatar能夠提升用戶沉浸感,同時降低人力成本。
虛擬社交與會議:用戶可創(chuàng)建個性化的3D虛擬形象,參與虛擬會議或社交互動,增強沉浸式體驗。
元宇宙與AR:MNN TaoAvatar支持在AR設(shè)備(如Apple Vision Pro)上運行,為元宇宙和虛擬現(xiàn)實應(yīng)用提供技術(shù)支持。
在線教育與娛樂:通過生動的虛擬角色,MNN TaoAvatar可為教育和游戲內(nèi)容增添趣味性和互動性。
值得一提的是,MNN TaoAvatar的低存儲需求和高兼容性使其尤其適合移動端和AR設(shè)備,為未來元宇宙的普及奠定了技術(shù)基礎(chǔ)。
開源賦能:阿里數(shù)字人技術(shù)的又一里程碑
MNN TaoAvatar的開源標(biāo)志著阿里巴巴在數(shù)字人技術(shù)領(lǐng)域的又一重要突破。此前,阿里通義實驗室已推出EchoMimic、OmniTalker等數(shù)字人項目,展現(xiàn)了其在該領(lǐng)域的深厚積累。而MNN TaoAvatar的發(fā)布,進(jìn)一步壯大了MNN生態(tài),為全球開發(fā)者提供了探索3D數(shù)字人應(yīng)用的便捷工具。
版本0.0.1
點擊此處下載
這是我們第一個公開發(fā)布的版本;您可以使用asr和tts與應(yīng)用程序中的3d頭像聊天;如果您有任何疑問,請隨時打開問題尋求幫助。
小編簡評:倚塔app是一
小編簡評:魔堡最后的
小編簡評:出租車是我
小編簡評: 《石
小編簡評:重型挖掘機
小編簡評:工匠三次方
小編簡評:TalkIn是一
小編簡評:您是否曾尋
小編簡評:3amao3是一
網(wǎng)友評論