当前位置：首页 >经济评论>

目前已被ECCV2022接收代码开源

来源：IT之家作者:苏婉蓉发布时间：2022-07-20 08:22

咦，好好的藤原百花怎么突然变成了大红版。

这只紫色的大手，是活着的灭霸吗

如果你以为以上效果只是后期给物体上色，那你就真的被AI骗了这些奇怪的颜色实际上代表了视频对象的分割但是有一点，这个效果真的是一时半会儿分辨不出来

无论是萌妹的飞发:

或者在毛巾和已经改变形状的物体之间来回移动:

AI目标的分割可以说是完美契合，仿佛颜色焊接在一起该方法不仅能高精度分割目标，还能处理超过1万帧的视频而且分段效果始终处于同一水平，视频后半段依然丝滑细腻

更令人惊讶的是，这种方法对GPU的要求很低研究人员表示，在实验过程中，这种方法消耗的GPU内存从未超过1.4GB，要知道，目前类似的基于注意力机制的方法，在普通消费级显卡上甚至无法处理时长超过1分钟的视频

这就是XMem，伊利诺伊大学香槟分校的学者最近提出的一种长视频目标分割方法目前已被ECCV 2022接收，代码开源如此丝滑的效果也吸引了众多网友在Reddit上观看，热度达到800+

网友们开玩笑说:

你为什么把你的手涂成紫色。

谁知道灭霸是否对计算机视觉有兴趣。

模仿人类记忆

目前，已有的视频对象分割方法很多，但要么处理速度慢，对GPU要求高，要么准确率低。

本文提出的方法可以说是兼顾了以上三个方面不仅可以快速分割长视频，帧数也可以达到20FPS，而且在普通的GPU上就可以完成

1968年，心理学家阿特金森和希弗林提出了多重存储模型根据这个模型，人的记忆可以分为三种模式:瞬时记忆，短时记忆和长时记忆

参考上述模型，研究人员还将AI框架分为三种记忆模式。它们是:

及时更新的瞬时记忆

高分辨率工作记忆

长期记忆。

其中，瞬时内存会每帧更新一次，记录画面中的图像信息当工作记忆饱和时，它会被压缩并转移到长时记忆中

当长时记忆饱和后，过时的特征就会伴随着时间被遗忘一般来说，这在处理了几千帧之后就会饱和这样一来，GPU内存就不会因为时间的推移而不足了

一般情况下，视频目标的分割会给出第一帧的图像和目标掩膜，然后模型会跟踪相关的目标，并为后续帧生成相应的掩膜。具体来说，XMem按如下方式处理单个帧:

整个AI框架由三个端到端的卷积网络组成。

查询编码器用于跟踪和提取查询的特定图像特征。

解码器负责获得存储器读取步骤的输出，以生成对象掩码。

值编码器可以组合图像的掩模和目标来提取新的记忆特征值。

最终值编码器提取的特征值将被添加到工作存储器中。

从实验结果来看，该方法在短视频和长视频中都实现了SOTA。

在处理长视频时，XMem的性能并不会伴随着帧数的增加而下降。

研究团队

他毕业于香港科技大学，目前在伊利诺伊大学香槟分校攻读博士学位研究方向是计算机视觉他已经收到了CVPR，NeurIPS，ECCV和其他顶级会议的几篇论文

他现在是伊利诺伊大学香槟分校的助理教授他毕业于苏黎世联邦理工学院，获得博士学位他的研究兴趣是机器学习和计算机视觉

论文地址:

GitHub:

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

责任编辑：中国金融新闻网

即时阅读

保险行业

百家点评

科技金融

比亚迪总市值首超9000亿元

EA提交新专利：玩家可用语音控制NPC

《绝地求生》PC版正式更名为《PUBG：Ba

荣耀X20手机包装盒曝光：售价或将定为169

小红书8月2日正式推行“号店一体”机制月销万

2021年7月份工业生产

任天堂回应玩家对SwitchOLED烧屏担忧：有这种可能性

莱克天狼星一体机，高效除

智能呼啦圈哪个牌子性价比

金融要闻

精彩公益发声：天猫动物品牌保

四川达古冰川首次发现荒漠猫：护珍稀动物成果显

壹大夫益生菌片好不好

首套百兆瓦级全人工地下储气库压缩空气储能项目

530亿元授信额度支持专精特新等企业发展第2

甘肃发布武威活动断层探测与地震危险性评价成果

省教育考试院部署江苏省2024年中职职教高考

银行业界

高通回应“英特尔为其代工芯片”：正在评估

IT之家8月1日消息英特尔在上月底的直播中高调公布了未来几年
华为P50/Pro系列官方保护壳渲染图曝

IT之家7月29日消息华为将于今晚19:30举行华为P50系
保持战略定力，保持稳定复苏态势

新华热评·新开局经济半年报丨保持战略定力，保持稳定复苏态势新

资讯排行

金融新闻网仅作为用户获取信息之目的,并不构成投资建议。市场有风险投资需谨慎

返回顶部

金融新闻网--金融行业的财经类权威网站!