自研多模态驱动技术,「中科深智」要让虚拟人更具活力|虚实之间
温馨提示:这篇文章已超过1011天没有更新,请注意相关的内容是否还可用!
作为当前头部虚拟人技术公司之一,中科深智可以通过多模态驱动技术,让虚拟人更有活力地与人交互。根据创始人成维忠的描述,其积累的最大技术特点是:动作驱动+算法。团队也会不断通过算法优化,缩短虚拟人的生产周期,并降低成本。
作者|黄泽正
修订|肖 超
这是新声Pro「虚实之间」系列文章第7篇
元宇宙的火热带动了虚拟人的浪潮。一时间,壬申、哈酱、阿喜、柳夜熙、华智冰等虚拟人纷至沓来。
一种流行的说法是,「虚拟人将成为元宇宙中的UI」。即人们不必再操控菜单,而可以像在物理世界一样,通过跟其他虚拟人直接对话,甚至一个眼神,即可完成操作需求。
中科深智是当前受到资本青睐的虚拟人技术公司之一。公司成立于2016年4月,通过多模态驱动技术,让虚拟人更有活力地与人交互。中科深智认为在元宇宙中,不同场景需要不同的驱动技术,很难有某种单一动作和表情驱动技术能满足所有虚拟人动作和表情驱动问题。因此,中科深智打造了Motionverse多模态动作生成驱动引擎,该引擎融合了XR和AI技术,可以用传感器、语音、视频等多种方式让虚拟人动起来,随时与用户互动。
以Motionverse为中台,中科深智既推出了各类SDK,为各类元宇宙和虚拟人应用开发赋能,也能够快速推出针对特定场景的应用产品。比如,针对火热的虚拟人领域,中科深智先后推出了「创梦易自动播」、「云小七」等新型产品,切入实际应用场景。在变现方面,中科深智现阶段的现金流也比较健康,去年营收已达数千万元。
中科深智创始人兼CEO成维忠表示,元宇宙代指的是一个全新业态,即使不叫元宇宙,其中涉及的技术和业务也会往前发展,所以虚拟人在当前节点的爆发并非偶然。元宇宙概念的出现,在社会各界掀起了一波投资和创业热潮,但真正能付诸于应用的并不多,现阶段还需要技术公司去完成新生业态里的基础性工作。
进入虚拟赛道
成维忠先后就读于中国科学技术大学和复旦大学,也是国内移动增值业务、移动电商、移动营销等新兴行业的连续创业者。
中科深智创始人兼CEO成维忠
2014—2015年的VR浪潮为成维忠及其创业伙伴提供了思考未来的视角。
在2014年Facebook以20亿美金收购Oculus之后,国内外都在热烈讨论VR成为下一代计算平台的可能。成维忠认为,不论VR是否能真正承载起下一代计算平台的重担,社会各界对新计算平台的期待,至少透露出一个关键信息:上一代的移动互联网已经到达了高点,其想象空间已颇为有限。
对于成维忠团队来说,其以往进行的所有科技创新和商业变现,都是在广义的移动互联网范畴内。这意味着如果要有大的突破,要选择一条更具发展前景的创业道路,成维忠必须转战下一代计算平台。
结合当时的市场环境,短视频和直播的增长趋势非常迅猛,其内容表现形式和以往的图片、文字存在较大差异,比如图片可以通过PS轻松完成修改,短视频则因为需要拍摄视频或制作动画,后期编辑成本要高出许多。
内容需求的增长和编辑难度的增加,让成维忠判断:视频领域对工具的需求将日益增加。以此为契机,通过自身技术能力提供虚拟内容生产工具,将大有可为。
因此成维忠将中科深智的原点定位在:基于3D实时动画为各行各业提供内容生产工具,而内容生产工具将以软件和算法为主驱动。针对元宇宙,成维忠认为元宇宙的未来世界在视觉上是全景3D实时动画世界,这个世界必须靠各种3D内容和3D动画工具去支撑,否则现在流行的「边玩边赚(Play to Earn)」等模式难以为继。因此可以说,各类3D实时动画技术是元宇宙的基础设施。
在实时动画技术方面,中科深智的业务主要可分为三大板块:第一是做模型资产;第二是做基础渲染引擎以及动作物理引擎;第三是解决动作驱动问题。
创梦易自动播软件里自带的角色资产
成维忠说:「三大业务板块相辅相成,少一块你想要的效果都出不来,动作驱动更是我们的业务重点。尽管大家在直觉上会觉得模型资产更为重要,但实际上动作和表情的制作工作量占据任何3D动画作品的三分之二工作量。未来元宇宙不可能像现在游戏一样,搞几套动作循环播放,未来动作和表情必须千人千面,必须有个性,必须有语境,所以动作和表情驱动所占比重可能比3D动画更高。」
选择以软件、算法切入,则是由于虚拟内容的产业链条发展起来非常庞大,与中科深智的早期团队构成也有关。经过市场调研后,中科深智团队预判,要提供虚拟内容生产工具需要综合多项技术能力,包括引擎、人工智能、以及部分的硬件技术等。
而据「新声Pro」了解,成维忠本人曾涉足游戏行业,公司合伙人宋健也在图形图像相关行业有丰富的经验。在团队规模还较小的早期阶段,创始团队多元的技术背景助力了中科深智的起步。
另外,成维忠还特别提到了一部法国科幻电影《未来学大会》,这部电影讲述的是过气女明星怀特在事业遭遇挫折时,绝望地走进由精神学和药理学创造的幻想世界的故事,其中的一些情节与现在元宇宙「平行世界」的概念颇为相似。这部电影给了成维忠团队很大的信心,让他们坚信未来必然是虚拟世界和现实世界的融合。
形成技术壁垒
从确定公司在虚拟赛道的基本思路,到真正形成自身技术壁垒,中科深智克服了一系列困难。
首先在研发资金方面,由于早期虚拟内容生产工具赛道尚未出现,中科深智也没有基础的产品模型,要光凭概念打动VC进行投资,显然不切实际。在寻求融资未果后,中科深智创始团队只能自己投入资金用于前期开发,包括前期销售设备给动画、MCN公司以及高校所获得的收益,也都被投入了研发当中。
用成维忠自己的话说,「基本能省的钱都省了。一开始团队只有20余人,人事、财务、行政人员通通没有,全部是工程师。」据「新声Pro」了解,即便现在中科深智的人员已经扩张到了150余人,仍保持了自身重研发的基因,人员构成中有70%是研发人员,同时公司也吸引了一些技术专家。
在具体的研发过程中,会遇到多方面的问题,既包括硬件、软件、算法,还涉及到一些引擎方面的问题。成维忠将自己的研发过程比作拧螺丝,「拧一圈,这一圈的问题解决了,再拧个圈,发现遇到了更大的新问题。算法有新的问题,硬件有新的问题,软件也有新的问题。」
一系列技术难题决定了中科深智整体的研发链条较长,自掏腰包保研发的情况一直持续到2019年,公司推出第一代较为成熟的产品。经过不断的技术积累,中科深智在虚拟人风口到来时,也迎来了快速发展的契机。成维忠说:「其实之前市场也有需求,但当时公司技术不成熟,只能看着干着急,技术的进步让中科深智匹配了市场需求。」
中科深智为虚拟偶像“哈酱”提供虚拟直播技术和技术美术服务
最实际的例子是,如B站二次元虚拟偶像MOMO酱,哈酱,淘宝、天猫的商家等B端客户,都开始陆续使用中科深智的产品,进行虚拟直播。
成维忠认为,中科深智积累的最大技术特点是:多模态动作生成驱动技术,融合了XR和AI算法。这意味着,中科深智可以不断通过算法优化找寻最优解,缩短虚拟人生产周期,并降低成本。
据「新声Pro」了解,当前市场上很多虚拟IP实际使用的是传统CG技术,通过换头+录制完成营销,这样的好处是呈现效果逼真,且技术门槛较低。但弊端是无法实时驱动,只能做简单的代言,无法应用到更大的场景,如直播、综艺等场景。与之相比,中科深智的优势体现在实时渲染和实时驱动。
比如数据输入方式的不同,会导致虚拟人输出动作的精度和适用场景有差异。成维忠以电脑绘图举例,「在电脑绘图既可以使用手写板,也可以使用鼠标,这就是两种不同的输入方式。」
而在虚拟人领域,则会有语音输入、视频输入、传感器输入等不同的数据输入方式,为了达到良好的动作呈现效果,中科深智选择以多模态动作生成驱动技术,让虚拟人可以接受更多输入形式完成动作,从而能在更多场景落地。
成维忠表示,无论是哪种输入模式,对于中科深智的Motionverse引擎来说,只是输入的触发条件,最终输出的动作和表情都是算法生成的,随着数据集越来越庞大,输出的动作和表情也会越来越好。
另一方面,在中科深智形成自身竞争优势的同时,市场需求也在快速迭代。成维忠表示,「不同的客户会有多样化的需求,需要中科深智用不同的技术点满足,这倒逼了团队对产品进行打磨。」
对此成维忠的总结是,中科深智的底层技术是复用的。即其底层技术不止用于单个产品,而是适用于所有的产品线。
技术复用给公司带来的好处在于,在产品一侧,随着市场需求的变化,公司可以进行产品升级迭代;成本相对来说也更加可控。成维忠说:「跟2019年相比,随着技术进步,现在只要是跟数字人驱动相关的需求,公司基本都能满足。」
找寻更大的应用场景
在形成自身技术壁垒后,中科深智自然需要让技术匹配到到相应领域,以满足市场需求。由于做TO B业务,做技术创新和工具产品的思路从一开始就是确定的,中科深智寻找虚拟人应用场景的路径也十分顺畅。
成维忠在2019年就曾表示,虚拟人的应用场景有很多,从盈利角度来看,技术与变现效率并不直接画等号,关键还要匹配实际的市场需求。以日本市场为例,日本的虚拟人技术无疑走在世界前列,二次元文化也更加盛行。
但另一方面,和中国市场相比,日本并不具备大规模的游戏和电商市场,而相比于单纯的二次元消费,游戏和电商市场的变现效率显然要更高。
据成维忠透露,在经过广泛的市场调研,以及实际的项目接触后,他发现有很多的场景,虽然看起来很性感,但变现效率偏低。
以二次元虚拟主播为例,中科深智实际上早在2018年就开始与B站虚拟主播进行合作,当前也有较多虚拟主播使用中科深智的产品。但就普遍范围而言,中科深智暂未将二次元娱乐作为主要目标市场,因为UP主在软件工具方面能承受的投入相对较低,付费意愿不太强,这说明二次元娱乐UP主市场还需要有个成长时间。
相比来看,如淘宝、天猫、京东商家等B端用户,既有推出虚拟主播的现实需求,也具备更强的付费能力。真人带货主播受体力、劳动时长等客观条件制约,无法长时间进行高强度直播。
以家具品类为例,跟对真人主播有强烈需求的服装、美妆领域不同,在家具领域,主播无需展示上身效果,只需要进行家具尺寸介绍。但用户的观看需求又是实时存在且零碎的,如果由真人主播实时在线介绍,时间和资金成本都消耗更大。
针对现实的市场需求,中科深智推出了「创梦易自动播」、「云小七」等产品,可以让虚拟主播全年无休的滚动直播,据悉「创梦易自动播」产品每年的使用价格为1.8万元。用成维忠的话来说,「淘宝等电商平台相当于花1万8请了一位全年无休的主播。」横向对比来看,由阿里达摩院研发的虚拟主播产品,每年的使用价格要达到9.9万元。
根据中科深智提供的数据,其虚拟主播产品已经服务了超过2000家客户,占据主流电商平台虚拟主播将近70%的份额。接下来公司将在不增加客户额外成本的前提下,通过算法改进虚拟主播的动作和和表情等表现能力,然后逐步研究虚拟主播对客户成交数据的影响。
成维忠表示,中科深智的技术基本面已经形成,往后就是不断迭代的过程:「做算法的优化算法,做应用的根据业务场景去做产品。」
随着元宇宙浪潮兴起,成维忠认为,在未来的元宇宙中,一定会需要大量的虚拟人NPC为用户提供服务。而当前采取的普遍方法,还是类似于游戏的方式,设定好虚拟人的动作和反应,让其与人交互。
如此做的弊端是,由于虚拟人的反应是提前设定好的,且无法实时驱动,人与虚拟人之间的交互势必会非常生硬,无法还原人与人之间真实的交互状态。
在理想状态下,虚拟人应该能自如地、生动地表达自我,从而与真人产生交互。由此看来,虚拟人不仅需要AI深度学习,达到对答如流的效果,还需要匹配多模态的实时驱动技术,以达到生动呈现的效果。
这意味着,中科深智积累的虚拟人技术在未来还会有更大的应用场景。成维忠也表示:「元宇宙代表着未来的大趋势,中科深智也会在虚拟人领域继续加注。」据悉今年中科深智或将推出DeepArt LED屏拍摄和XR娱乐产品、3D快速动画制作产品「创梦易自动画」,并开放Motionverse的SDK。
九七分享吧所有文章来源于网络收集整理,如有侵权请联系QQ2387153712删除,如果这篇文章对你有帮助或者还不错的请给小编点个小赞(◠‿◠),小编每天整理文章不容易(ಥ_ಥ)!!!
还没有评论,来说两句吧...