数字人:从“虚拟偶像”到“产业帮手”的全解析(1/2)
一、数字人到底是个啥?一句话说清核心
先抛个最简单的定义:数字人就是“活”在数字世界里的“人”。不是动画片里的卡通形象,也不是游戏里的npc(非玩家角色),而是能像真人一样听、说、动,甚至能思考互动的虚拟存在。
打个比方,你刷短视频看到的虚拟主播、打电话时遇到的智能客服、银行app里帮你办业务的虚拟助手,这些都是数字人。它们有的长得和真人一模一样,连皱纹、发丝都清晰可见;有的是卡通风格,但说话做事透着“人情味儿”;还有的只闻其声不见其人,但能精准理解你的需求——本质上,它们都是用技术堆出来的“数字分身”或“虚拟员工”。
可能有人会问:“这和 siri、小爱同学有啥区别?”关键就在“形象”和“交互”上。语音助手只有声音,而数字人有可视化的“人形”,还能做动作、变表情,互动起来更像和真人对话。就像同样是聊天,打电话和视频通话的感觉完全不同,数字人就是给智能语音装上了“身体”和“脸”。
还有个容易混淆的概念是“智能体”。简单说,智能体是能自主干活的智能系统,比如自动下单的机器人、导航软件里的路线规划程序,不一定有人的样子;而数字人是智能体的“特殊款”,必须长着人形(或类人形),还得会模仿人的社交行为。比如同样是客服系统,纯文字回复的是智能体,而屏幕上那个边说话边点头的虚拟客服就是数字人。
二、数字人是怎么造出来的?拆解“造人”全过程
别看数字人五花八门,从制作到能干活,都得经过“搭骨架、塑外形、装大脑、练动作”这几步。就像造机器人,先做身体,再装智能系统,最后教它怎么动。
第一步:画图纸、塑外形——给数字人“造身体”
这是数字人最直观的一步,就像给虚拟人做“肉身”,主要分2d和3d两种路子。
2d数字人最简单,有点像“会动的图片”。比如有些直播间的虚拟主播,其实是用真人照片改的,通过技术让图片的嘴巴、眼睛跟着声音动。你刷到的“ai孙燕姿”短视频,很多就是用这种技术做的——把孙燕姿的照片和ai合成的歌声结合,让图片“唱”起来。这种数字人成本低,几千块就能做一个,缺点是不够逼真,动作也比较僵硬。
3d数字人就复杂多了,相当于造一个“虚拟玩偶”。高端的3d数字人要用专门的建模工具,比如游戏圈常用的unreal(虚幻)引擎,先搭出骨骼框架,再贴皮肤、画五官,连毛孔、胡茬、皮肤反光都得调。现在还有更省事的办法,用iphone对着真人拍段视频,就能把人的面部表情、动作数据扫进电脑,直接生成和真人一模一样的3d模型。
当年爆火的虚拟美妆博主“柳夜熙”,就是典型的3d数字人。她的团队花了半年多,投入上百万,才做出那逼真的面部表情和动作,第一条短视频成本就高达几十万。不过现在技术进步了,通过saas平台(简单说就是“云端工具包”),小企业花几万块也能定制3d数字人,不用再养专业建模团队了。
第二步:装“耳朵”和“嘴巴”——让数字人能听会说
光有样子不行,数字人得能和人交流,这就需要“听觉”和“语言”系统,核心是两项技术:asr和tts。
asr就是“语音识别技术”,相当于数字人的“耳朵”。你对着数字人说话,它能瞬间把声音转成文字。比如你问“今天天气怎么样”,asr会把这句话变成文本发给后台系统。现在这技术很成熟,手机输入法里的语音转文字、智能音箱的唤醒功能,用的都是同款技术。
tts是“语音合成技术”,也就是数字人的“嘴巴”。后台系统算出答案后,tts能把文字变成声音。早期的合成音很机械,像“机器人说话”;现在有了ai大模型,能模仿真人的语气、声调,甚至能复刻特定人的声音。比如“ai孙燕姿”的歌声,就是用孙燕姿的真实歌曲数据训练模型,让ai学会她的声线和演唱习惯。
现在高级点的数字人还能“定制声线”。比如企业做虚拟客服,能把真人客服的声音录下来,训练成专属语音,客户打电话听到的就是熟悉的“老客服”声音,亲切感一下子就上来了。
第三步:装“大脑”——让数字人变聪明
这是数字人从“木偶”变“智能人”的关键,以前的数字人缺的就是这个,所以只能念稿子、做重复动作,现在有了大语言模型(llm),才算真正有了“灵魂”。
早几年的数字人,“大脑”其实是预设好的脚本。比如你问它“营业时间”,它能答;但你多问一句“周末营业吗”,它可能就卡住了。就像提线木偶,只能做提前编好的动作。
现在的数字人,直接把gpt、文心一言这样的大模型当“大脑”。你问它啥,它先通过asr把话转成文字,传给大模型;大模型像真人一样思考,生成回答文本;再通过tts变成声音说出来。这个过程快的话只要几百毫秒,感觉就像数字人在“实时聊天”。
比如罗永浩的数字人直播时,有人问“这个手机续航怎么样”,大模型会结合产品参数,用口语化的方式回答,还能顺便推荐快充配件,这都是以前的数字人做不到的。百度副总裁说,现在的数字人已经能达到“媲美头部主播”的交互效果,就是因为大模型给了它真正的“思考能力”。
第四步:练动作——让数字人动起来更自然
光会说还不够,数字人得“动起来”才像人,这就需要“动作驱动”技术。
简单的动作驱动靠算法。比如数字人说话时,嘴巴要跟着语音动,算法会根据声音的频率、节奏,自动控制嘴巴的开合大小,还能加点头、眨眼的小动作。你刷到的2d数字人,基本都是用这种方式驱动的。
复杂的动作就得靠“动捕技术”。比如虚拟偶像跳舞,是让真人演员穿戴上带传感器的衣服,演员跳一遍,数字人就跟着学一遍,动作精准到手指的弯曲角度。现在还有更高级的“无标记动捕”,不用穿特制衣服,摄像头拍真人动作,电脑就能自动识别并传给数字人。
现在的高端数字人,连“微表情”都能做。比如你夸它“说得真好”,它会微笑着点头;你问它复杂问题,它会皱着眉“思考”。这些都是通过捕捉真人的表情数据,再教给数字人做出来的。
三、数字人分哪几类?从“花瓶”到“实干家”的进化
数字人不是一刀切的,按“聪明程度”和“用途”能分成好几类。几年前火的大多是“花瓶型”,现在主流是“实干型”。
按智能程度分:“木偶型”和“思考型”
“木偶型”数字人是早期的主流,没有真智能,只能做预设好的动作、说固定的话。比如商场里的虚拟导购,只会循环播放“欢迎光临”“这件衣服打8折”;还有些虚拟偶像的舞台表演,其实是提前编好的动画,就像放电影一样,不能和观众互动。
“思考型”数字人是现在的新趋势,靠大模型驱动,能自主思考、灵活互动。比如京东618期间的数字人主播,能上手测试产品,有人问“这冰箱耗电吗”,它会马上调出参数回答,还能对比其他型号;医院的虚拟导诊,能根据你的症状推荐科室,甚至提醒你带什么检查报告。这种数字人才算真正的“智能数字人”。
按用途分:“娱乐型”和“实用型”
“娱乐型”数字人最开始火起来的,主要是虚拟偶像、虚拟主播。2021年那波热潮里,屈臣氏推了“屈晨曦”,花西子搞了“花西子虚拟人”,都是想靠虚拟偶像吸引年轻人。但后来大家发现,虚拟偶像成本高、粉丝粘性差,抖音上虚拟主播的平均观看时长从15分钟跌到5分钟,粉丝流失率超40%,很多品牌悄悄把虚拟代言人撤了。
现在更吃香的是“实用型”数字人,也就是帮企业干活的“虚拟员工”。比如金融行业的虚拟客服,24小时在线解答贷款、理财问题,比真人客服效率高还不用发工资;教育领域的虚拟老师,能一对一给学生讲题,还能根据答题情况调整进度;政务大厅的虚拟导办,能帮人填表格、查流程,不用排队等真人。
百度的罗永浩数字人就是“实用型”的代表,在百度电商直播时,吸引了1300多万人观看,gmv(成交总额)突破5500万元,比罗永浩真人同期首秀的数据还好。京东的数据更夸张,618期间有1.7万家品牌用数字人直播,这些数字人带货能力超过了80%的真人主播。
四、数字人离我们有多近?盘点身边的数字人应用
现在数字人已经渗透到生活的方方面面,只是很多时候你没意识到那是数字人。从购物到看病,从学习到办事,到处都有它们的影子。
电商直播:24小时不休息的“虚拟销售”
这是数字人最常见的场景。很多品牌直播间里,半夜还在带货的主播可能就是数字人。它们不用吃饭、不用睡觉,能从凌晨播到天亮,还能记住所有产品的参数、优惠信息。
比如美妆品牌的数字人主播,能对着镜头演示化妆步骤,有人问“适合干皮吗”,马上就能答出产品成分和保湿效果;3c产品的数字人,能熟练讲解手机的处理器、摄像头参数,比刚入职的真人销售还专业。更厉害的是,数字人能同时在多个平台直播,一个“人”顶好几个真人主播。
不过数字人直播也有翻车的时候。有的数字人因为算法问题,会说些莫名其妙的话,比如把“降价”说成“涨价”;还有的动作僵硬,嘴巴和声音对不上,被观众一眼看穿。但总体来说,对中小品牌而言,数字人直播性价比很高——花几万块做个数字人,比雇几个真人主播一年几十万的工资划算多了。
金融服务:不会不耐烦的“虚拟柜员”
银行、证券这些行业,现在特爱用数字人。招商银行的“ai小招”就是典型,你打开app办信用卡,它会像真人柜员一样问你需求,帮你选卡种,还能解释年费、额度这些问题。要是半夜想查理财收益,数字人客服随叫随到,比等第二天银行开门方便多了。
还有些证券app的数字人投顾,能根据你的风险承受能力推荐基金,你问“这只基金最近跌了怎么办”,它会分析市场行情,给出加仓、减仓的建议。虽然不能替代专业投顾,但解决普通用户的基础问题绰绰有余。
政务办事:不用排队的“虚拟导办”
现在很多地方的政务服务大厅都上线了数字人。比如你去办社保转移,不用找真人咨询,直接问数字人,它会一步步教你填表格、准备材料,还能帮你预约办理时间。西宁、绵阳等地的政府部门,今年都上新了数字人,专门帮市民解答医保、公积金的问题。
本章未完,点击下一页继续阅读。