看这蓬松的头发,再加上帅气的动作,你以为你是在绿幕前拍大片。
不,不,不
这其实是AI带来的视频吗抠图后的效果
没想到,实时视频抠图现在可以细化到每一根头发。
换到阿尔法通道,再看一下不用说,Dove会买单的
这是来自字节跳动实习兄弟的最新研究:实时高分辨率视频抠图。
在没有任何辅助输入的情况下,把视频丢给这个叫RVM的AI,几分钟就能帮你高精度挖出人像,背景换成可以随意重新处理的绿屏。
不信这么丝滑我们亲自尝试了一波在线演示
相比之下,在目前的在线会议软件中,一旦头发遮住脸,人就会消失helliphellip
头发明显烧焦了。
难怪网友们都直言:
我无法想象你会把这种人工智能塞进手机。
目前,本文已入选WACV 2022。
你也可以试试
目前,RVM已经在GitHub上开源,给出了两种尝试的方式:
所以我们很快开始尝试。
我们先来看看效果:
让我们从不太难的事情开始。
RVM在画面中人物基本不动的时候可以说表现的非常好,这和手工抠图差不多。
如今,王冰冰进入东森,从未违抗。
所以我打开了我的大脑,变得简单多了,helliphellip
咳咳,言归正传当角色移动更多时会发生什么
对于多人舞蹈视频,RVM也很不错。
即使动来动去掉头发,也不影响它的抠图效果。
只有当角色被屏蔽时,缺陷才会出现。
与以前的方法MODNet相比,有了很大的进步。
但是,我们也发现,如果视频的背景比较暗,就会影响到RVM。
比如在这样昏暗的背景下,抠图的效果非常不理想。
可以看出博主哥哥的头发完全烧焦了。
而且身体的边界线不够清晰。
因此,如果你想尝试自己的视频,你必须选择一个光线充足的场景。
使用时间信息
那么这样的神奇的具体如何实现。
和往常一样,我们先看看试卷吧~
与此不同,在本文中,研究者构建了一个循环架构,该架构利用了视频的时间信息,在时间一致性和抠图质量上有了明显的提升。
从上图可以看出,RVM的网络架构包括三个部分:
用于提取单帧特征的特征提取编码器,
循环解码器,用于汇总时间信息,
用于高分辨率上采样的深度引导滤波模块。
其中循环机制的引入使得AI能够在连续的视频流中进行自我学习,从而知道哪些信息需要保留,哪些信息可以遗忘。
特别地,循环解码器使用多尺度ConvGRU来聚集时间信息。其定义如下:
在这个编解码网络中,AI将完成高分辨率视频的下采样,然后使用DGF对结果进行上采样。
此外,研究人员还提出了一种新的训练策略:利用抠图和语义分割对网络进行训练。
这样做的好处是:
首先,人像抠图与人像分割任务密切相关,因此AI必须学会从语义上理解场景,才能在定位人物时具有鲁棒性。
其次,现有的抠图数据集大多只提供真实的alpha通道和前景信息,因此必须合成背景图像但是前景和背景的光照往往不同,影响合成效果语义分割数据集的引入可以有效防止过度拟合
最后,语义分割数据集具有更丰富的训练数据。
经过这次训练,RVM与前辈相比有什么进步。
从效果对比中可以明显感觉到:
此外,与MODNet相比,RVM更轻,更快。
从下表可以看出,RVM的处理速度在1080p视频中最快,为512倍,288比BGMv2稍慢,4K视频比带FGF的MODNet稍慢研究人员分析,这是因为RVM不仅预测了阿尔法通道的前景
更直观的数据是,在NVIDIA GTX 1080Ti上,RVM可以处理76FPS的4K视频和104FPS的高清视频。
字节跳动的实习生
本文由林善川在字节跳动实习期间完成。
他毕业于华府大学,获学士和硕士学位,曾在Adobe,脸书等大公司实习。
2021年3月至6月,林善川在字节跳动实习我8月份刚加入微软
事实上,林善川此前凭借AI获得了CVPR 2021年最佳学生论文荣誉奖。
他将论文《Real—Time High—Resolution Background Matting》作为作品发表,提出了背景抠图V2方法。
该方法可以处理30帧/秒的4K视频和60帧/秒的高清视频。
值得一提的是,《背景抠图》不止一次获得CVPR此前,第一代背景抠图被列入CVPR 2020
此外,本文的第二部分是的研究型科学家杨清华大学,获香港中文大学博士学位
对了,除了可以在Colab上试用之外,还可以在网页版上实时感受到这款AI的效果。记下地址:
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。