我遇见了我:虚拟数字人开源技术的实践与探索

DeGao 2025-09-09 00:38:46

2022开年,Magic Data 、虚拟数字人制作公司FaceGood,以及清华大学,思必驰等机构,举办一场虚拟数字人开源技术研讨会,Magic Data 发明者兼CEO张晴晴博士受邀出席论坛,在论坛上,就虚拟数字人驱动技术、软组织动作捕获跟踪技术、交互技术、数据搞定技术实行热烈交流,


Magic Data 多模态数据搞定系统Annotator®5.0,为虚拟数字人底层架构供应基石要紧多维度数据支撑,

连续涌现虚拟数字人

在元宇宙巨大市场中,高精智能虚拟数字人仿似一夜之间渗透到各行各业,正诱惑着海内外厂商加速布局元宇宙赛道,能在另一個宇宙中遇见不同样声音、样子甚至不同样性其他自己,这让生活在现实中人们引发真实期待,


虚拟数字人须要多模态技术驱动、丰富数据支撑,才干让数字人“立体”起来,过去数字人,更多是只是一种感官存在“物品”,他们会微笑,会说话,会唱歌,但他们没有情感,不会、人交流,

情感人机交互 ——“对话式AI”技术与数据

人工智能终极形态是情感需求,虚拟数字人能够刺激到人类情感需求,前提是他们必需做到与人交互,“对话式AI”技术与数据,能够实行虚拟数字人与人类交流相处,


“对话式AI”须要全流程准确、全效,将运用者语音转换为文本,理解文本含义,搜索符合语境最优应答,最后运用文本转语音工具供应应答,

在技术层面,对话式 AI涉及语音识别、自然语言理解、语音合成等重心技术,想要经由这些技术实行人、机器之间更自然对话,面对两点技术挑战:

一是個体语言体系差异化,由于所处地域、文化、教育背景不同样,每個人语言表达都是前无古人后无来者,这种個性化在人与人之间沟通中都难免发生理解偏差,更何况是一台机器,对于AI而言,中文不是一种语言,而是13亿种语言,

二是对话式口语经常会有语序颠倒、犹豫、迟疑引发停顿,在复杂多人交互场景中,也无法防止会发生语句打断、抢话、交叠音等难题,这些语音特征为 AI 建模带来很大困难,


真实对话数据、多语种语料库建设是搞定上述难题根本,为机器注入知识图谱、中文、方言、外语等多种语料,才干让机器像人一样理解自然语言,

1、语音识别技术、数据

语音识别,最先选是将人类语音中词汇等内容转换为计算机可读输入,这是计算机学习人类语言最先個步,上述提及到千人千面個性化表达以及对话口语颠倒、犹豫、迟疑;这些被输入“内容”对于机器来说都是非常要紧学习要素,

2、语音合成技术、数据

语音合成,最先选是将计算机引发文字〔自己或者外部输入〕转变为人类可以听得懂、流利汉语口语输出,人类在语言表达时候总是附带着语气与感情,语音合成音频是为模仿真实人声,所以须要对文本实行韵律占卜,什么地方须要停顿,停顿多久,哪個字或者词语须要重读,哪個词须要轻读;实行声音高低曲折,抑扬顿挫,

3、自然语言理解技术、数据集

自然语言理解,最先选是计算机经由对输入数据理解、分析,让人类与机器能够用自然语言实行有效地通讯交流,不光让机器能够“听懂人话”,更能让机器“讲人话”,

更多数据集样例可在MagicData官网实行查看:

https://www.magicdatatech.cn/datasets


希望后世虚拟人不光可以、人交流,还可以千人千面,能够真、“我”一样,有一样动作习惯,有常用表情,有熟悉语气等等,在人机交互过程中,机器要想感知人情感色彩,光靠声音是不够,更多信息传递蕴含在面部表情或语言内容中,情绪感知是一個多模态综合评价结果,而这些,须要定制化对每個個体实行多模态数据采集、刻画,

Magic Data 多模态数据搞定系统Annotator®5.0,为虚拟数字人构建供应最基石最要紧多维度数据支撑,在Annotator®5.0底层结构上,借助大量AI技术,经由对数据预搞定,捕获基石刻画本事,再经由人工后期精细化加工方法,进一步改良特征,于是最大层次保证对每個個体刻画本事,

pc端试用链接:
https://www.magicdatatech.cn/


数据是人工智能基石建设,任凭元宇宙还是虚拟数字人,一切有关人工智能构建都离不开数据,合理有效运用数据,才干让机器更好地理解人类,让人类更好地探索未知。

很高兴你能耐心的读完我的文章,你一定不想在AI时代错过原创、深挖的消息,请关注DeGao的Twitter,不迷路!

相关资讯