数字人直播哪家强？百度、硅基、风平与闪剪四大AI数字人横向评测！(2)

来源：　作者：Pendragon　时间：2024-05-15 22:49:12　浏览：次

[ 导读 ] 当前AI数字人的市场需求比较旺盛，市面上也有至少几十家的数字人品牌，比如腾讯、百度、科大讯飞、硅基智能、风平智能、闪剪、元分身等等，选择虽然很多但有一个问题，就

使用上「风平IP智造」颇为直观，基础操作就是选择数字人和背景，然后根据场景划分，整段粘贴文案或者上传录音文件即可，不需要根据产品来一条一条建立话术，基本上不需要特别的学习培训，不用有做直播的经验，只要自己试一试研究一会就可以快速搭建一个直播间。另外，数字人短视频和直播的搭建页面和使用方法几乎是相同的，只需要选择数字人和AI语音，选择场景和贴图，拖拖拽拽布局好，点击生成就能出片，减少额外的学习成本。

从产品体验上看，风平智能和硅基智能的数字人直播产品的设计思路有比较明显的不同，它并没有针对某一类直播做专门优化，你可以说他通用性更高，也可以说在直播带货这个特定方向上，没有硅基智能更细致与专业。但是，你用风平智能的功能，也可以搭建出来和硅基相同效果的直播间，关键还是灵活使用。

「风平IP智造」虽然对外宣传的AI功能虽然还没有全部实现，但已经具备AI文案撰写、AI文案改写，以及AI直播互动能能。前者简单的说就是类似ChatGPT或者文心一言的功能，输入你的想法就可以为你写文案，也可以给它一段文案，让它来改写。后者是智能直播互动能力，就是用类ChatGPT大语言模型学习直播内容，实现自动回答问题，甚至与直播间用户闲聊，「风平IP智造」应该是截稿时业内唯一实现这一功能的产品。

另外根据风平智能的对外的一些短视频和宣传，他们后面还要开放AI作画，还有一个叫「1号AI」的小程序，可以全程AI生成文案、作画，生成短视频，如果真的可以实现，那绝对是易用性的天花板。

闪剪

闪剪是另一款将短视频和直播功能分开的厂商，同样也是相互独立收费。其中用于数字人短视频创作的「闪剪」有网页端和APP两种，使用下来感觉比手机版剪映APP还要易用，并且具有AI生成文案功能，可以解决写文案头痛的烦恼。

而「闪剪智播」一样以简单易用著称，界面的直观程度，相比风平智能还有过之而无不及。软件提供了一些模板，打开一个看一看就会明白「闪剪智播」的直播间搭建操作，就是选择数字人、选择背景，插入前景贴图，上传话术录音即可。另外，「闪剪智播」目前没有不同套餐版本的功能区分，只需要花钱买合成时间即可。

「闪剪智播」在使用上有一个点与其他三款产品都不同，就是它的数字人只能使用录音文件驱动，虽然它本身也有一个插件是文本转AI声音，而且声音库还很丰富，但合成的音频却不能用于驱动数字人。我的理解是，闪剪这样做的目的是希望用户使用真人录音去驱动数字人，这样可以很大限度防止直播封禁的问题。

总的来说，百度曦灵略目前产品的打造显粗糙，虽然有大模型文心一言的无缝嵌入这一亮点，但整体功能和使用体验依旧有所欠缺。硅基智能「小播秀」的直播功能专业，如果做带货直播它可能是最齐全、最灵活的选择，但上手难度略高，它更适合电商和本地生活直播用户。「风平IP智造」将专业性与易用性结合的很好，短视频和直播功能可以满足各种类型的需求，操作上也非常直观，降低了学习难度，同时「风平IP智造」很早就规划了全AI内容生成的框架，AI功能也是目前最强大的。闪剪则是几款里门槛最低的，无需先行付费也可直接体验除去最终合成之外的绝大多数功能，特别是数字人短视频易用而强大，而直播产品目前的功能积淀还是略逊色，后续版本还有较大的提升空间。

数字人效果

数字人产品的核心竞争力，无疑是数字人的品质效果，即便你平台的易用性不好、功能不够多、模板不够丰富，但如果数字人做出来足够清晰、口型准确度足够高、动作表情自然，那么哪怕我是绿幕输出后期做视频做直播再去扣背景，也会有竞争力。

2D真人数字人的质量，一般和模型的训练算法、素材拍摄质量、AI合成的声音质量，还有数字人平台输出的算法、参数设置有关。目前2D数字真人建模算法的实现，包括百度、硅基、风平和闪剪用的都是相似原理的方案，都是以一段实际拍摄的真人拍摄的视频为素材，用AI神经网络去训练读每个字的口型，最后训练出来可说任意内容的数字人。

在具体实现上，大致又有两个分支，其中一个是录制完整真人开口说话的视频素材，训练也用的是真实的口型，它的优点是效果真实，录制时可以通过口播台词，来实现说话和语气、动作的匹配，训练出来的数字人动作表情也会切合使用场景。但相对来说，它对训练素材拍摄要求略微高一点点，主要是看人，如果是口才好不怯场、习惯在镜头前表达的人，只要10分钟就能搞定拍摄素材；如果是镜头前怯场的人，那就要多拍几遍。三款产品里，风平智能、硅基智能和闪剪都采用这种数字人模型的训练方式。

第二种算是简易速成的方法，录制的真人视频素材不用开口说话，数字真人是用AI算法去模拟预测口型的开合，这样的好处是对训练素材的要求低，只要拍摄者在镜头前面闭着嘴做一些手势动作就可以，而且建模速度快，不到1天就可以完成建模。但不足是，既然是速成的方法，所以效果不如前一种方法好，一是算法合预测合成的口型和牙齿，再怎么做也无法和真实口型相比，而且拍摄素材是不讲话光比划动作，除非是非常专业的演员，否则普通人很难不说话去做出来自然、恰当的动作，因此做出来的数字人会有比较明显的机械感，或者说不协调感感，肢体动作比较出戏，口型牙齿略显不自然，无法体现出不同人的不同气质特点。三款产品里，百度曦灵的数字人是唯一使用这种建模方法的产品。

另外，现在还有一种让照片说话的玩法，国外成名比较早的AI项目是D-ID，在其火爆之后，最近国内一些数字人产品也加入了这个功能，用的也是AI模拟口型的方法，让照片的中人物的嘴动起来说话，但由于效果有限，一般只作为附加小功能，其中硅基和闪剪的短视频产品都有这项功能。

再来说说私有专属数字人定制的流程，各家基本是大同小异的。一般是自己想办法拍摄一段符合要求的视频素材，提交给平台进行训练。拍摄过程并不复杂，就是在镜头前说话几分钟，但无论如何一定要重视，因为取材拍摄的质量直接决定最后数字人训练出来的效果。所以建议大家在拍摄的时候要苛求完美，妆容、服装搭配、打灯效果，还有录制时的神态与动作等都要追求完美，为了最后的效果多拍几遍是值得的。值得一提的是，风平智能还提供AI捏脸生成数字人的选项，就是通过AI技术融合出一个现实中不存的面容的数字人，可以很大程度上避开真人形象存在肖像使用权的问题。

综上来看，从建模方案上，百度曦灵由于采用简易的建模方式，所以数字人的效果相对较差一些，主要表现就是口型自然度和表情动作相对不融洽，不论是做短视频还是做直播，一般可以看出来是数字人。其余三家的数字人采用更为复杂但效果更好的建模方法，只要提供的视频素材足够优秀，建模出来的数字人上限就可以很高。另外的一个要点是声音，选用一款适合的AI声音或用真人语音驱动，才能让嘴型准确度达到更好的水平。

四款数字人平台都提供了一定数量的公用数字人，所有付费会员都可以直接使用。其中百度的公用数字人数目前大概有56个，全部数字人标准统一，模特质量都很高。硅基智能提供了51个，数量多但质量有些参差不齐，有些数字人像是充数的感觉。风平智能的公用数字人最少，仅为14个，不过建模标准相对统一，品质良好，14个人里面有11个面孔，重复率低是个亮点。

公用数字人最多的是闪剪，截稿时有多达84个，而且覆盖的类型非常丰富，不同职业服装、不同国家、不同姿势的都有，甚至连黑人建模的数字人都有，是四款产品里独树一帜的。

不过，我的观点是公用数字人的多少不是考量产品的主要指标，不建议大家做短视频、做直播使用公用数字人。原因很简单，因为公用数字人你能用他也能用，就存在一个撞脸问题，不利于品牌形象和IP的打造。还有更现实的问题，如果大家都用同一个数字人做直播，那么会直接增加被判违规封号的概率。因为逻辑上同一个人不可能同一时间、不同地点用不同的账号同时开不同内容的直播，很明显是有问题的，容易被平台识别为是录播，这会导致被踢下线，甚至被封号的可能性增高。