AIGC - 走进元宇宙入口 - 虚拟数字人

22
Issuing time:2023-04-20 15:04


1. 什么是虚拟数字人:高度拟人、自然互动



数字人指的是由计算机技术、人工智能技术和大数据技术等多种技术手段构建的一种虚拟的人类形态。数字人通常具备丰富的信息处理能力、模拟能力和学习能力,可以根据人们的需求进行智能化定制服务。


目前市场中探讨的虚拟数字人主要为 AI 加持下高仿真、可互动的虚拟数字人,虚拟化、数字化和拟人化是其核心要素。


      虚拟化:存在于非物理世界中,目前主要以图片、视频、实时直播、实时动画等方式存在于 APP、小程序、软硬一体显示设备等中;

                  未来,VR 设备与全息投影也将成为其重要存在方式。

      数字化:依赖多项数字化技术,包括 CG(Computer Graphics,利用计算机进行视觉设计和生产)、语音识别、图像识别、动作捕捉等相关技术。

      拟人化:虚拟人在外表、行为以及思想与交互方面,均与人高度相似。

                  外表:具有特定的相貌、性别和性格等人物特征。虚拟数字人的外表会受到虚拟数字人类别(如直接借用真人形象、高保真建模、风格化)、

                           制作细节(对汗毛、   皮肤、头发等细节的建模)、渲染水平、设计审美等影响。

                  行为:具有用语言、面部表情和肢体动作表达的能力。虚拟数字人的行为表现会受到驱动方式(真人驱动、智能驱动等)、训练数据、驱动模型精度等影响。

                  互动:具有识别外界环境、并能与人交流互动的能力。虚拟数字人的交互能力会受到语音识别能力、自然语言理解及处理水平、知识图谱、

                           预先设置知识库等的影响。


2. 技术实现:多模态 AI 和算力为核心支撑


虚拟数字人主要由三大核心技术环节作为支撑:建模(即虚拟数字人形象的生成),驱动(即识别用户的意图,并根据用户当前意图决定数字人后续的语音和动作,驱动虚拟数字人与用户开启下一轮交互)和渲染(让虚拟数字人的皮肤纹理等变得真实,形象更加拟人)。这些技术环节均离不开人工智能技术的加持和算力资源的支持。


2.1 建模:计算机视觉技术加持



近年来,随着人工智能技术的发展,利用深度学习的动态三维重建技术逐渐显露锋芒。动态三维重建技术主要采用摄像机阵列采集几何形态、纹理、材质、三维运动信息等动态数据,同时结合光场中所有光线的方向和角度数据,为建模提供丰富、精细的信息,提升建模的效果。

同时,AI 技术也大大降低了建模的门槛。拟人的表情动作,如简单的皱眉,也会牵动骨骼、肌肉、皮肤的一系列变化。用传统的手工方式去调整工作量巨大,而利用 AI 技术可大幅降低工作量。


2.2 驱动:多模态 AI 技术赋能


根据互动驱动方式的差异,虚拟数字人可分为真人驱动型和 AI 驱动型两大类。真人驱动型虚拟数字人由真人的动作表达配合动作捕捉技术,驱动虚拟人与观众进行实时交互。AI 驱动型虚拟数字人则通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策虚拟数字人后续的输出文本,然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。


虚拟数字人分类-技术角度:



真人驱动型虚拟数字人 的核心技术支撑为动作捕捉技术。主流的动作捕捉技术为光学捕捉和惯性捕捉,但设备较为昂贵。今年来,随着深度学习技术和表情、动作识别等算法的进步,基于计算机视觉的动作捕捉逐渐兴起,具有低价、简单、易用的优势,普通的摄像头结合优质的识别算法也能实现良好的驱动。


AI 驱动的虚拟数字人 则需依赖多模态人工智能技术,综合运用视觉、听觉等多种“感官”,让 AI 形象更加拟人。具体技术主要包括:

        语音识别(ASR):听觉感知,实现“听得见”

        自然语言处理(NLP):准确理解用户的需求,即“听得懂”

        语音合成 (TTS):回应与互动,且语言表达符合真人发声习惯

        语音驱动面部动画(ADFA):通过语音驱动虚拟数字人唇形的变化


相比于单一模态的算法开发,多模态模型的开发训练更加复杂,涉及多模态表征学习、模态转换、对齐、多模态融合和协同学习等复杂技术细节和大规模训练需求。因此,高易用性的开发生产工具和高性能的计算引擎,对于提升虚拟数字人开发生产效率,降低训练成本同样至关重要。


2.3 渲染:大规模算力支撑


渲染技术用于提升虚拟人的逼真程度,可分为实时渲染和离线渲染,对于精细度要求较高、时效性要求低的场景则可采用离线渲染,游戏和实时交互场景则需要实时渲染。由于算力资源和传输速度的限制,实时渲染在画质和效果的表现仍有较大提升空间。


虚拟数字人渲染需消耗大量算力资源,对企业来说是一项巨额成本支出,极大限制了虚拟数字人的探索与应用。目前绝大多数企业算力的管理仍相对粗放,算力资源的高效利用和精细化管理有望有效降低虚拟数字人开发制作成本,促进其应用落地。


综上,从虚拟数字人制作全生命周期技术需求来看,多模态 AI 技术和充足的算力支撑是核心,而易用、高性能的 AI 开发生产工具和高效的算力资源管理则是促进其落地应用的基础保障。


3. 技术应用现状与趋势


目前虚拟数字人已在金融客服、媒体主播、游戏角色等领域得到应用。在去中心化的 Web 3.0 和元宇宙趋势下,我们认为个人或社区运营的数字化身类虚拟人商业化前景广阔,游戏赛道或是其首当其冲的爆发领域。


虚拟数字人的应用分类:

娱乐行业:比如,在电影中,数字人可以与观众进行实时互动,打造一场沉浸式的视听体验;在游戏领域,数字人可以用来扮演角色进行游戏;在直播领域,数字人可以应用于直播带货、直播互动等场景。


金融行业:数字人开始在服务客户、辅助金融机构运营上发挥重要作用。例如,“小i智能助理”作为中国银行智能客服的一种,是一款能与客户进行自然语言交流的 AI助手。其不仅能够回答客户提出的各种问题,还能根据客户需求进行推荐服务,提升客户体验。


医疗行业:在2020年10月举行的世界人工智能大会上,北京心脉医疗科技有限公司发布了其首款“数字人”——“心脉未来”。该产品由心脉智医创始人兼 CEO杨雄博士领衔研发,将实现人工智能技术与医疗领域的深度融合,成为国内首个能进行辅助诊断、手术模拟、健康管理的“数字人”。


教育行业:数字人的应用场景主要是教师培训、课程开发等方面。例如,在“AI+教育”中,通过数字人,教师可以从教学设计到课堂管理进行全方位的展示。在教学设计上,教师可以根据数字人形象和表情,设计出合适的教学方法,实现课堂的个性化教学。在课程开发上,教师可以通过数字人进行课程开发、案例演示等。


出行行业:目前,百度地图推出了“AI数字人”。在日常出行中,“AI数字人”不仅可以提供路线规划、导航、路况查询等服务,还可以为用户推荐当地的旅游景点和美食。


文旅行业:目前,各大博物馆、景点也推出了自己的虚拟数字形象代言人,帮助景区完成讲解、导览等工作,大大节省了人力成本,还给游客们带来了沉浸式的参观体验。














LanSong Document:
Phone : +8618006716739
Address: Room A1318, Building 3, No. 88 Longyuan Road, Cangqian Street, Yuhang District, Hangzhou City, Zhejiang Province
WhatsApp : +8618006716739
Email : support@lansongtech.com