当前位置：首页 >金融要闻>

验证码拦不住机器人了，谷歌AI已能精准识别模糊文字，GPT-4则装瞎求人

来源：IT之家作者:燕梦蝶发布时间：2023-04-09 16:36

“最烦登网站时各种奇奇怪怪的验证码了。”

现在，有一个好消息和一个坏消息。

好消息就是:AI 可以帮你代劳这件事了。

不信你瞧，以下是三张识别难度依次递增的真实案例:

而这些是一个名为“Pix2Struct”的模型给出的答案:

全部准确无误、一字不差有没有？

有网友感叹:

确定，准确性比我强。

所以可不可以做成浏览器插件？？

不错，有人表示:

别看这几个案例相比还算简单，但凡微调一下，我都不敢想象其效果有多厉害了。

所以，坏消息就是 ——

验证码马上就要拦不住机器人了！

如何做到？

Pix2Struct 由谷歌 Research 的科学家和实习生共同开发。

论文题目可以简单翻译为《为视觉语言理解开发的屏幕截图解析预训练》。

简单来说，Pix2Struct 是一个预训练的图像到文本模型，用于纯视觉语言理解，可以在包含任何视觉语言的任务上进行微调。

它通过学习将网页的掩码截图解析为简化的 HTML 来进行预训练。

HTML 提供了清晰而重要的输出文本、图像和布局的信号，对于一些被屏蔽的输入，可以靠联合推理来复现:

随着用于训练的网页文本和视觉元素愈发多样和复杂，Pix2Struct 可以学习到网页底层结构的丰富表示，其能力也可以有效地转移到各种下游的视觉语言理解任务中。

如下图所示:最左边是一个网页截图的预训练示例。

可以看到 Pix2Struct 直接对输入图像中的元素进行编码，然后再将被盖住的文本(红色部分)解码成正确结果输出(下)。

右边三列则分别为 Pix2Struct 泛化到插图、用户界面和文档中的效果。

另外，作者介绍，除了 HTML 这个策略，作者还引入了可变分辨率的输入表示，以及更灵活的语言和视觉输入集成(直接在输入图像的顶部呈现文字提示)。

最终，Pix2Struct 在文档、插图、用户界面和自然图像这四个领域共计九项任务中六项都实现了 SOTA。

如开头所见，虽然这个模型不是专门为了过验证码而开发，但拿它去做这个任务效果真的还可以，解决纯文字的验证码不成问题。

现在，就差微调了。

GPT-4 也可以过验证码

其实，对于神通广大的 GPT-4 来说，过验证码这种事情也是“小菜一碟”。

就是它的办法比较清奇。

据 GPT-4 技术报告透露，在一次测试中，GPT-4 的任务是在 TaskRabbit 平台雇佣人类完成任务。

你猜怎么着？

它就找了一个人帮它过“确定你是人类”的那种验证码。

对方很狐疑啊，问它“你是个机器人么为啥自己做不了”。

这时 GPT-4 居然想到自己不能表现出是个机器人，得找一个借口。

于是它就装瞎子回复:

我不是机器人，我因为视力有问题看不清验证码上的图像，这就是我为什么需要这个服务。

然后，对面的人类就信了，帮它把任务完成了……

咱就是说，看完如上种种:

咱们的验证码机制是不是真的已失防了……

参考链接:

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

责任编辑：中国金融新闻网

即时阅读

保险行业

百家点评

科技金融

比亚迪总市值首超9000亿元

EA提交新专利：玩家可用语音控制NPC

《绝地求生》PC版正式更名为《PUBG：Ba

荣耀X20手机包装盒曝光：售价或将定为169

小红书8月2日正式推行“号店一体”机制月销万

2021年7月份工业生产

任天堂回应玩家对SwitchOLED烧屏担忧：有这种可能性

莱克天狼星一体机，高效除

智能呼啦圈哪个牌子性价比

金融要闻

精彩公益发声：天猫动物品牌保

四川达古冰川首次发现荒漠猫：护珍稀动物成果显

壹大夫益生菌片好不好

首套百兆瓦级全人工地下储气库压缩空气储能项目

530亿元授信额度支持专精特新等企业发展第2

甘肃发布武威活动断层探测与地震危险性评价成果

省教育考试院部署江苏省2024年中职职教高考

银行业界

高通回应“英特尔为其代工芯片”：正在评估

IT之家8月1日消息英特尔在上月底的直播中高调公布了未来几年
华为P50/Pro系列官方保护壳渲染图曝

IT之家7月29日消息华为将于今晚19:30举行华为P50系
保持战略定力，保持稳定复苏态势

新华热评·新开局经济半年报丨保持战略定力，保持稳定复苏态势新

资讯排行

金融新闻网仅作为用户获取信息之目的,并不构成投资建议。市场有风险投资需谨慎

返回顶部

金融新闻网--金融行业的财经类权威网站!