虚拟人的最大价值,从来不只是小哥哥小姐姐(3)
2023-02-07 来源:acgdir.com
以前面提到3D建模的技术为例,拟人形象这部分就需要耗费数以百万的成本。但AI技术介入之后,通过数据驱动的专家系统也可以渲染出虚拟人的形象和脸部表情。
这代表打造虚拟人的两种技术路径——以小冰框架的神经网络渲染技术(XNR)为例,打造虚拟人的第一步,需要训练两个专家模型:在大数据上训练语音专家模型,它能理解人类语音。在目标主播数据上训练嘴形专家模型,学习目标主播嘴形与表情以及语音之间的关系。第二步,训练人脸渲染模型,输入是语音,渲染出正确的人脸,该训练过程受到之前两个专家模型的监督。 第三步,驱动过程,输入语音,形成完整的主播视频。
通过采用小冰深度神经网络渲染技术以及小冰框架的小样本学习技术,整个训练过程只需要一周。这种方式的成本应该只是3D模型和CAD技术的几十分之一。
另外,与3D模型应用也不同,依赖技术体系的虚拟人——比如纯AI驱动的数字人,其作用更多体现在企业级服务数字人市场,因为它一定程度上缩短了产业链,比如动捕、渲染、形象库等环节增在被纯AI技术取代。
尤其是在场景上,两者也体现着不同:前者建立的是情感纽带,后者则主要看重它的实用替代价值。
每日经济新闻的主播N小黑/N小白,其实就是虚拟人替代真人劳作的代表。最初连续播放了70天的新闻,竟然没有关注发现它不是真人。而依赖背后的AI技术,“训练”出这样的员工,仅仅用了一周,然后取代了真实的主播,让他们把精力放在更有价值的工作上。
图源:小冰
我们此前介绍过万科总部的一位年度员工——崔筱盼,她也是一名虚拟人,引发讨论的并不只是因为她漂亮的形象,更重要的是她悄悄在万科财务部工作的十个月,展开催办的预付应收逾期单据核销率高达91.44%——甚至超过了财务部的真财务。
这代表打造虚拟人的两种技术路径——以小冰框架的神经网络渲染技术(XNR)为例,打造虚拟人的第一步,需要训练两个专家模型:在大数据上训练语音专家模型,它能理解人类语音。在目标主播数据上训练嘴形专家模型,学习目标主播嘴形与表情以及语音之间的关系。第二步,训练人脸渲染模型,输入是语音,渲染出正确的人脸,该训练过程受到之前两个专家模型的监督。 第三步,驱动过程,输入语音,形成完整的主播视频。
通过采用小冰深度神经网络渲染技术以及小冰框架的小样本学习技术,整个训练过程只需要一周。这种方式的成本应该只是3D模型和CAD技术的几十分之一。
另外,与3D模型应用也不同,依赖技术体系的虚拟人——比如纯AI驱动的数字人,其作用更多体现在企业级服务数字人市场,因为它一定程度上缩短了产业链,比如动捕、渲染、形象库等环节增在被纯AI技术取代。
尤其是在场景上,两者也体现着不同:前者建立的是情感纽带,后者则主要看重它的实用替代价值。
每日经济新闻的主播N小黑/N小白,其实就是虚拟人替代真人劳作的代表。最初连续播放了70天的新闻,竟然没有关注发现它不是真人。而依赖背后的AI技术,“训练”出这样的员工,仅仅用了一周,然后取代了真实的主播,让他们把精力放在更有价值的工作上。
图源:小冰
我们此前介绍过万科总部的一位年度员工——崔筱盼,她也是一名虚拟人,引发讨论的并不只是因为她漂亮的形象,更重要的是她悄悄在万科财务部工作的十个月,展开催办的预付应收逾期单据核销率高达91.44%——甚至超过了财务部的真财务。