图像生成模型终于学会了拼单词,但秘诀是人物特征。
过去一年,伴随着DALL—E 2,Stable Diffusion等图像生成模型的发布,文本转图像模型生成的图像在分辨率,质量,文本保真度等方面都有了很大的提升,极大地推动了下游应用场景的发展,人人都成为了AI画师。
可是,相关研究表明,目前的模型生成技术仍然存在一个重大缺陷:它无法在图像中呈现可靠的可视化文本。
拼写错误:加利福尼亚:欢迎所有的梦想,加拿大:为了闪耀的心灵,科罗拉多:这是我们的天性,圣路易斯:一切触手可及。
最近,Google Research发表了一篇新论文,试图了解和提高图像生成模型渲染高质量视觉文本的能力。
研究者认为,当前文本到图像生成模型中文本呈现缺陷的主要原因是缺乏字符级的输入特征。
为了量化这种输入特征对模型生成的影响,本文设计了一系列控制实验来比较具有或不具有文本输入特征的文本编码器。
研究人员发现,在纯文本领域,字符感知模型在新的拼写任务中获得了巨大的性能增益。
将这种体验转移到视觉领域后,研究人员训练了一套图像生成模型实验结果表明,在一系列新的文本渲染任务中,字符感知模型优于字符盲模型
而且,字符感知模型在视觉拼写方面达到了更高的技术水平虽然训练样本数量少得多,但它对生僻字的准确率仍然比竞争模型高30%以上
角色感知模型
语言模型可以分为直接访问组成文本输入的字符的字符感知模型和不能访问的字符盲模型。
许多早期的神经语言模型直接对字符进行操作,而不是使用多字符标记作为标记。
后来的模型逐渐转向基于词汇的标记化他们中的一些人,如ELMo,仍然保留了角色意识,但其他人,如BERT,放弃了角色特征,以支持更有效的预训练
目前,最广泛使用的语言模型是字符盲的,它依赖于数据驱动的子词分割算法,如字节对编码,以生成子词块作为词汇。
尽管这些方法可以退回到不常用序列的字符级表示,但它们仍然在设计中将常用字符序列压缩成不可分割的单元。
本文的主要目的是试图理解和提高图像生成模型渲染高质量视觉文本的能力。
为此,研究人员首先孤立地研究了当前文本编码器的拼写能力从实验结果中可以发现,尽管字符盲文本编码器非常流行,但它们没有接收到关于其输入的字符级组成的直接信号,这导致了它们有限的拼写能力
研究人员还测试了不同规模,架构,输入表示,语言和调整方法的文本编码器的拼写能力。
本文首次记录了字符盲模型通过网络预训练诱导强拼写知识的神奇能力但实验结果表明,这种能力在英语以外的语言中并没有很好的推广,只有在参数超过100B时才能实现,因此对于大多数应用场景来说并不可行
另一方面,character—aware的文本编码器可以在更小的范围内实现强大的拼写能力。
当将这些发现应用于图像生成场景时,研究人员训练了一系列字符感知的文本到图像模型,并证明它们在现有和新文本渲染的评估中明显优于字符盲模型。
但对于纯字符级模型,虽然文字渲染的性能有所提升,但对于不涉及视觉文字的提示,图文对齐会有所下降。
为了缓解这一问题,研究人员建议将字符级和标记级输入表示相结合,以获得最佳性能。
WikiSpell基准测试
由于文本到图像生成模型依赖于文本编码器来生成解码表示,研究人员首先从Wiktionary中采样一些单词来创建WikiSpell基准,然后基于纯文本数据集的拼写评估任务来探索文本编码器的能力。
对于WikiSpell中的每个样本,模型的输入是一个单词,期望的输出是它的特定拼写。
由于本文只对研究一个词的出现频率与模型拼写能力之间的关系感兴趣,研究人员根据词在mC4语料库中出现的频率,将Wiktionary中的词分为五个不重叠的桶:最频繁的前1%的词,最频繁的1—10%的词,10—20%的词,20—30%的词,最低的50%。
然后从每个桶中平均提取1000个单词来创建测试集。
最后结合两部分建立一个10000字的训练集:从底部50%桶中均匀采样5000个字,另外5000个字按照它们在mC4中的频率按比例采样。
研究人员从训练集中排除任何被选入开发集或测试集的单词,因此评估结果总是针对被排除的单词。
除了英语,研究人员还评估了其他六种语言选择这些语言是为了涵盖影响模型学习拼写能力的各种特征每种语言的评估都重复了上述数据集构建过程
文本生成实验
研究人员使用WikiSpell benchmark在不同尺度上评估各种预训练的纯文本模型的性能,包括T5,MT5,byt 5,以及PaLM。
在纯英语和多语种的实验结果中可以发现,字符盲模型T5和mT5在包含Top—1%最常用词的桶上的性能要差很多。
这个结果似乎是反直觉的,因为模型通常在数据中频繁出现的例子上表现最好但由于子词词汇的训练方法,经常出现的词通常被表示为单个原子标签,事实上也是如此:在英语的前1%桶中,87%的词被T5词汇表示为子词标签
因此,低拼写准确度分数表明T5的编码器没有在其词汇表中保留足够的关于子词的拼写信息。
其次,对于字符盲模型,规模是影响拼写能力的重要因素T5和mT5是伴随着规模的增大而变好的,但是即使在XXL规模下,这些模型也没有表现出特别强的拼写能力
只有当字符盲模型达到PaLM的规模时,才开始看到近乎完美的拼写能力:540B参数的PaLM模型在英语所有频段都达到gt,99%的准确率,虽然它在提示里只看到了20个例子。
可是,PaLM在其他语言中的糟糕表现可能是因为这些语言的预训练数据少得多。
在ByT5上的实验表明,字符感知模型显示了更强的拼写能力ByT5在Base和大字号上的表现只是略微落后于XL和XXL,一个词的出现频率似乎对ByT5的拼写能力没有太大影响
ByT5的拼写性能远远优于T5,甚至相当于PaLM超过100个参数的英文性能,并超过PaLM在其他语言的性能。
所以可以看出,ByT5编码器保留了相当多的字符级信息,可以根据解码任务的需要,从这些冻结的参数中检索出这些信息。
文本基准
从2014年发布的COCO数据集到2022年的DrawBench基准,从FID FID,CLIP评分到人类偏好,如何评价文本到图像模型一直是一个重要的研究课题。
可是,目前在文本渲染和拼写评测方面缺乏相关的工作。
因此,研究人员提出了一种新的基准DrawText,旨在全面衡量从文本到图像模型的文本渲染质量。
文本基准由两部分组成,分别度量模型能力的不同维度:
1)DrawText拼写,通过渲染大量英文单词集的常用词进行评测,
研究人员从英语WikiSpell频率桶中提取了100个单词,并将其插入到标准模板中,从而构建了总共500个提示。
2)DrawText创意,通过视觉效果的文字渲染来评价。
视觉文本并不局限于像路牌这样的常见场景文字可以以多种形式出现,比如涂鸦,绘画,雕刻,雕塑等等
如果图像生成模型支持灵活和准确的文本渲染,这将使设计人员能够使用这些模型来开发创造性的字体,徽标,布局等。
为了测试图像生成模型支持这些用例的能力,研究人员与一名专业图形设计师合作,构建了175个不同的提示,这些提示需要以一系列创造性的风格和设置来呈现文本。
许多提示超出了当前模型的能力,最先进的模型将显示拼写错误,丢弃或重复的单词。
图像生成实验
实验结果表明,在用于比较的九种图像生成模型中,无论模型大小如何,字符感知模型都优于其他模型,尤其是在生僻字方面。
Imagen—AR展示了避免裁剪的好处虽然训练时间长了6.6倍,但仍然比角色感知模型表现差
模型之间的另一个明显区别是,它们是否在多个样本中一直拼错一个给定的单词。
从实验结果可以看出,无论取多少样本,T5模型都存在很多拼写错误研究人员认为,这表明文本编码器缺乏字符知识
相比之下,ByT5模型基本上只有零星误差。
这种观察可以通过测量所有四个图像样本中模型的一贯正确或一贯错误的比率(0/4)来量化。
你可以看到一个鲜明的对比,尤其是在常用词上,即ByT5模型从不失败,而T5模型在10%甚至更多的词上失败。
参考资料:
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。