当前位置：首页 >经济评论>

推理速度高可提升512倍评估和选择不同的可能行动

来源：IT之家作者:牧晓发布时间：2022-06-27 11:06

人类的预测力+ViT会产生什么样的化学反应使机器人的动作规划能力快速准确

这是李菲菲团队的最新研究——mask vit，通过MVM和mask视觉建模对Transformer进行预训练，从而建立视频预测模型。

结果表明，MaskViT不仅可以生成256*256的视频，而且机器人动作规划的推理速度提高了512倍。

让我们看看这是什么样的研究。

从人类身上寻找灵感

神经科学领域的研究表明，人类的认知和感知能力是由一种预测机制支持的这个世界的预测模型可以用来模拟，评估和选择不同的可能行动对于人类来说，这个过程快速而准确

如果机器人能被赋予类似的预测能力然后，他们可以在复杂和动态的环境中快速计划和执行各种任务

比如通过可视化模型进行预测控制可能是一种方式，但也需要更高的计算能力和精度于是，团队想到了最近的ViT架构，以及以何MAE为代表的基于MVM和掩蔽视觉建模的自监督预训练表示

可是，实现它仍然有许多技术挑战。

一方面，全局注意机制的复杂度与输入序列长度的平方成正比，导致视频处理的成本很高另一方面，视频预测任务和自回归掩模视觉预训练之间存在不一致性在实践中，模型必须从开始就预测完整的未来帧序列，这导致了较差的视频预测质量

基于这一背景，李菲菲团队提出了MaskVit，即通过掩蔽视觉建模对变压器进行预训练，从而建立视频预测模型。

有两个具体的设计决策。

首先，为了提高记忆和训练的效率，使用了两种类型的窗口注意:空间注意和时空注意第二，在训练过程中，掩模的标记比率是可变的在推理阶段，通过迭代细化生成视频，其中根据掩模调度函数逐渐降低掩模率

实验结果

研究小组在三个不同的数据集和四个不同的指标中评估了MaskViT结果表明，与之前的先进方法相比，MaskViT表现出了更好的性能，可以生成分辨率为256 × 256的视频

烧蚀实验也在BAIR进行。

随后，团队还演示了真实机器人使用MaskViT进行实时规划的效果。

推理速度最高可提升512倍。

研究人员表示，这项工作表明，我们可以通过使用具有最少领域知识的面具视觉建模的通用框架，赋予智能主体强大的预测模型但同时，它也有一定的局限性比如每一帧量化时都会出现闪烁伪像，尤其是在背景静态的RoboNet视频中

如果要扩大视频预测的规模，还是很有挑战性的，尤其是在摄像机运动很多的场景下未来，他们将探索将这种视频预测方法集成到更复杂的规划算法中值得一提的是，今年5月，何明凯的团队提出了视频版的MAE，发现最佳掩蔽率高达90%

纸质链接:

项目链接:

他明凯的论文:

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

责任编辑：中国金融新闻网

即时阅读

保险行业

百家点评

科技金融

比亚迪总市值首超9000亿元

EA提交新专利：玩家可用语音控制NPC

《绝地求生》PC版正式更名为《PUBG：Ba

荣耀X20手机包装盒曝光：售价或将定为169

小红书8月2日正式推行“号店一体”机制月销万

2021年7月份工业生产

任天堂回应玩家对SwitchOLED烧屏担忧：有这种可能性

莱克天狼星一体机，高效除

智能呼啦圈哪个牌子性价比

金融要闻

精彩公益发声：天猫动物品牌保

四川达古冰川首次发现荒漠猫：护珍稀动物成果显

壹大夫益生菌片好不好

首套百兆瓦级全人工地下储气库压缩空气储能项目

530亿元授信额度支持专精特新等企业发展第2

甘肃发布武威活动断层探测与地震危险性评价成果

省教育考试院部署江苏省2024年中职职教高考

银行业界

高通回应“英特尔为其代工芯片”：正在评估

IT之家8月1日消息英特尔在上月底的直播中高调公布了未来几年
华为P50/Pro系列官方保护壳渲染图曝

IT之家7月29日消息华为将于今晚19:30举行华为P50系
保持战略定力，保持稳定复苏态势

新华热评·新开局经济半年报丨保持战略定力，保持稳定复苏态势新

资讯排行

金融新闻网仅作为用户获取信息之目的,并不构成投资建议。市场有风险投资需谨慎

返回顶部

金融新闻网--金融行业的财经类权威网站!