当前位置：首页 >经济评论>

3分钟看完一篇论文，AI文本生成模型把今年NeurIPS2300+篇总结

来源：IT之家作者:夏冰发布时间：2021-11-27 12:06

今年 NeurIPS 大会论文已经放榜，终于可以学习一下大佬们的研究了。

不过，打开电脑，随便点开一篇，就是一大段密密麻麻的文字糊脸只是摘要就有这么长，还有 2300 多篇，这工作量实在劝退

能不能让论文们都做一道经典的语文题:用一句话概括全文内容还真可以

最近 Reddit 上的一位博主发布了一篇今年的 NeurIPS 大会论文汇总，其中的每篇论文下方都有一句由 AI 生成的高度凝练的总结。

而这款 AI 文本分析软件，其实就是东京工业大学团队开发的 Paper Digest。

它号称能帮你把论文阅读时间减少到 3 分钟。

除了总结论文内容以外，它还可以筛选出已经发布代码的论文。

同样，这次 NeurIPS 大会上的 200 多篇已发布代码的文章也被汇总了出来。

点击code，就可以直接跳转到相应的 GitHub 页面。

AI 如何做好概括题

那这个 AI 文本分析神器应该怎么用呢。

在这个搜索框里填上你要总结概括的论文的 DOI 号。

DOI 号就像论文的身份证号，是独一无二的。以随便打开的一篇论文为例，它长这样:

填完之后，点击Digest就开始总结了:

只需几秒钟，就会有一句话的总结输出，你也可以选择一个最合适反馈给 Paper Digest，帮他们丰富数据库。

除了输入 DOI 号，如果你有本地的论文 PDF 文件，也可以直接导入。

是不是很方便其实这样方便好用的模型还不止一种

比如，在一款免费学术搜索引擎 Semantic Scholar 里，也加入了一个类似的高度概括 AI:TLDR。

TLDR，其实就是太长不看的意思。

在 Semantic Scholar 上搜索论文时，带有 TLDR标志的就是 AI 生成的一句话总结。

具体到方法原理上，我们不妨以 TLDR 为例一起来看看。

举个例子，下图中上边的格子中是摘要，简介，结论中相对重要的段落和句子TLDR 会标记出突出的部分，然后组合成一个新的句子

它的训练逻辑也很容易理解简单来说，就是先确定一个标准答案，然后把标准答案打乱，再让 TLDR 尝试复原

这和人类提炼概括的过程也很像概括本身也需要忽视一些干扰，然后提取出最重要的部分

所以在训练之前要准备两个数据库，也就是标准答案:一个是 SciTLDR，它包含接近 2000 篇计算机科学相关论文，每篇论文都有一个最好的总结。

另一个是论文—标题对数据库由于标题中一般有很多重要的语句，对生成 TLDR 来说很有帮助

将这两个数据库分别加上控制码lt，TITLEgt，和lt，TLDRgt，之后进行混合，送入 BART 模型。

最后的 BART 模型是一个基于 Transformer 的预训练 sequence—to—sequence 去噪自编码器，它的训练步骤主要有两步:

首先用任意噪声破坏函数文本，相当于把标准答案打乱然后让模型学习重建原来的文本这整个学习策略就是 CATTS

来看看效果如何。

BART 和 CATTS 分别是原有模型和 CATTS 模型给出的总结。

从重合度看起来效果还是不错的。

即时阅读

保险行业

百家点评

科技金融

比亚迪总市值首超9000亿元

EA提交新专利：玩家可用语音控制NPC

《绝地求生》PC版正式更名为《PUBG：Ba

荣耀X20手机包装盒曝光：售价或将定为169

小红书8月2日正式推行“号店一体”机制月销万

2021年7月份工业生产

任天堂回应玩家对SwitchOLED烧屏担忧：有这种可能性

莱克天狼星一体机，高效除

智能呼啦圈哪个牌子性价比

金融要闻

精彩公益发声：天猫动物品牌保

四川达古冰川首次发现荒漠猫：护珍稀动物成果显

壹大夫益生菌片好不好

首套百兆瓦级全人工地下储气库压缩空气储能项目

530亿元授信额度支持专精特新等企业发展第2

甘肃发布武威活动断层探测与地震危险性评价成果

省教育考试院部署江苏省2024年中职职教高考

银行业界

高通回应“英特尔为其代工芯片”：正在评估

IT之家8月1日消息英特尔在上月底的直播中高调公布了未来几年
华为P50/Pro系列官方保护壳渲染图曝

IT之家7月29日消息华为将于今晚19:30举行华为P50系
保持战略定力，保持稳定复苏态势

新华热评·新开局经济半年报丨保持战略定力，保持稳定复苏态势新

资讯排行

金融新闻网仅作为用户获取信息之目的,并不构成投资建议。市场有风险投资需谨慎

返回顶部

金融新闻网--金融行业的财经类权威网站!