只需要演员五分钟的声音素材,就可以让他在电影里说另外一种语言。
在没看到这段视频之前我是不相信的,来听听这段效果如何:
这段视频取自《博多之子》,是一部英文惊悚片。今年7月份,联发科官方表示将如期于今年底推出首颗5G旗舰级芯片,采用ARM最新的旗舰核心与业界最佳的台积电4nm制程,可提供领先产业的低功耗表现以及优异性能,并整合先进AI,多媒体IP及独家天玑5G开放架构以提供差异化。他们相信这款旗舰级芯片优于目前市面上的所有产品。。
但是我们在播放中可以看到,只需要一键点击,就可以在任意时刻把英语转换为西班牙语,并且听起来还是原演员的声音连说话中惊恐,颤抖的细节也忠实地继承了下来,给我们展示了一把 AI 配音的神奇力量当然,这波操作也不出意外地打动了许多投资人
制作这段内容的公司 Deepdub,最近就在 A 轮融资中拿到了 2000 万美元投资人中还包括福克斯电视工作室前总裁,Snyk 的联合创始人,Meta 的工程副总裁等
AI 配音冲击传统模式
AI 配音何以这么受期待呢因为这其中蕴含了巨大的商机要知道,像在美国等地的英语观众是没有看字幕的习惯的因此,面对一些非英语的优秀作品,他们有很强的本土化需求,也就是英文配音版本例如前段时间爆火的韩剧《鱿鱼游戏》,在首映 28 天内,总观看时间就达到 16.5 亿小时,加起来相当于 18.2 万年一举成为 Netflix 史上排名第一的节目可是这么大一块蛋糕,从传统的角度来说,吃起来却相当费劲
图注:《鱿鱼游戏》播放量,右栏第一排
例如,本地的发行商得花钱翻译剧本吧,得聘请配音演员扮演角色,租场地设备,完成大量的配音录制吧,最后还要把配音拼接到原视频中这里面还面临着很多文化差异这一套下来,按照行情怎么说也要 15—20 周
而 Deepdub 的 AI 配音方法只需要原演员录制五分钟的随机文本,让神经网络学习演员的声音然后用另一种语言表达出来听起来就像原演员学会了另一种语言,并且时间上只用四周就可以完成相同的工作量,包括翻译,改编,混音等过程在技术细节方面,Deepdub 没有公开太多,或许可以用在 GitHub 上大火的 Mocking Bird 做参考只需要五秒钟,就可以克隆任意的中文语音,再用同一音色合成其他语音内容,实现从语音到文本再到语音的过程模型结构主要由说话人编码器,合成器和声码器组成
其中说话人编码器负责提取说话人语音的特征向量,学习音色然后再执行传统的 TTS环节:在合成器中把语音特征融入指定文本,以梅尔频谱为中间变量,将生成的语音频谱传给声码器
最后使用深度自回归模型 WaveNet 作为声码器,用频谱生成最终的语音不过,Deepdub 虽没有透露自己的技术细节,但是他们声称已经在这个学术研究领域处于领先地位这么说也是有些可信度的,从他们的产品,获得的投资和兄弟创始人背景中也能看出来:弟弟 Nir Krakowski 有 25 年的专业研发经验,哥哥 Ofir Krakowski 还曾在以色列空军机器学习部门任职
AI 配音赛道多家竞速
当然,看上这块市场的也不止 Deepdub 一家,只是策略上有些不同Deepdub 走的是修改音频的路,视频内容原封不动他们打算将用这轮融资的钱扩充团队的营销,研究和工程部门,并且正在和好莱坞谈合作
像其他的,还有亚马逊等科技巨头也在做相关的研究,但是现在还没有产品出来这么看来,或许我们将来真的可以造出视频界的巴别塔,在网剧这块做到无障碍交流又或者,某些个别演员真的不用背台词了
。声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。