自动文本到图像合成,其中训练模型以仅从文本描述生成图像,是一项具有挑战性的任务。它的研究为机器学习 (ML) 模型如何捕获视觉属性并将它们与文本相关联提供了丰富的见解。与指导图像创建的其他类型的输入相比,例如草图、对象蒙版或鼠标轨迹,描述性句子等,都是一种更直观、更灵活的视觉概念表达方式。因此,强大的自动文本到图像生成系统也可以成为快速内容创建的有用工具,并且可以应用于许多其他创意应用程序.
更先进的图像合成结果通常是使用生成对抗 *** (GAN) 实现的,该 *** 训练两个模型——一个生成器,试图创建逼真的图像,以及一个鉴别器,它试图确定图像是真实的还是真实的或者捏造的。许多文本到图像生成模型是使用文本输入进行调节以生成语义相关图像的GAN 。这是非常具有挑战性的,尤其是在提供长而含糊的描述时。此外,GAN 训练容易出现模式崩溃,这是训练过程中常见的失败案例,其中生成器学习仅产生一组有限的输出,因此鉴别器无法学习识别伪造图像的鲁棒策略。为了减轻模式崩溃,一些 *** 使用迭代细化图像的多阶段细化 *** 。然而,这样的系统需要多阶段训练,这比简单的单阶段端到端模型效率低。其他努力依赖于分层 *** ,在最终合成逼真的图像之前首先对对象布局进行建模。这需要使用标记的分割数据,这可能很难获得。
在“文本到图像生成的跨模态对比学习”中,Google提出了跨模态对比生成对抗 *** (XMC-GAN),它通过学习使用模态间(图像-文本)和模态内(图像-文本)更大化图像和文本之间的互信息来解决文本到图像的生成问题。这种 *** 有助于判别更稳健和判别力更强的特征,因此 XMC-GAN 即使进行单阶段训练也不太容易出现模式崩溃。重要的是,与之前的多阶段或分层 *** 相比,XMC-GAN 通过简单的单阶段生成实现了更先进的性能。它是端到端可训练的,只需要图像文本对(与标记分割或边界框数据相反)。
对比损失文本到图像合成系统的目标是生成清晰、逼真的场景,对其条件文本描述具有高语义保真度。为了实现这一点,Google建议更大化对应对之间的信息:
(1)带有描述场景的句子的图像(真实或生成);
(2) 生成的图像和具有相同描述的真实图像;
(3) 图像的区域(真实的或生成的)以及与之相关的单词或短语。
在 XMC-GAN 中,这是使用对比损失来强制执行的。与其他 GAN 类似,XMC-GAN 包含一个用于合成图像的生成器,以及一个被训练作为真实图像和生成图像之间的评论者的鉴别器。三组数据导致了该系统中的对比损失——真实图像、描述这些图像的文本以及根据文本描述生成的图像。生成器和鉴别器的单个损失函数是从整幅图像和全文描述计算的损失的组合,与从带有相关单词或短语的细分图像计算的损失相结合。然后,对于每批训练数据,Google计算余弦相似度每个文本描述和真实图像之间的得分,同样,每个文本描述和生成的图像批次之间的得分。目标是匹配对(文本到图像和真实图像到生成的图像)?具有高相似度得分,而不匹配对具有低得分。强制执行这样的对比损失允许鉴别器学习更健壮和鉴别性的特征。
Google提出的 XMC-GAN 文本到图像合成模型中的模态间和模态内对比学习。
Google将 XMC-GAN 应用于三个具有挑战性的数据集——之一个是MS-COCO 图像的MS-COCO描述 *** ,另外两个是用Localized Narratives注释的数据集,其中一个涵盖了 MS-COCO 图像(Google称之为LN-COCO) 和另一个描述开放图像数据 (LN-OpenImages)。Google发现 XMC-GAN 在每个方面都达到了更先进的水平。XMC-GAN 生成的图像描绘的场景比使用其他技术生成的图像质量更高。在 MS-COCO 上,XMC-GAN 将更先进的Fréchet 初始距离(FID) 分数从 24.7 提高到 9.3,并且非常受人类评估者的青睐。
MS-COCO上生成图像的选定定性结果
类似地,与其他三种更先进的 *** (CP-GAN、SD-GAN、和OP-GAN)对比如下。
MS-COCO对图像质量和文本对齐的人工评估,注释者从更好到最差对生成的图像进行排名(匿名和顺序随机化)
XMC-GAN 还可以很好地推广到具有挑战性的 Localized Narratives 数据集。Google之前的系统TReCS,使用鼠标轨迹输入处理本地化叙事的文本到图像生成,以提高图像生成质量。尽管没有收到鼠标轨迹注释,但 XMC-GAN 在 LN-COCO 上的图像生成方面能够显着优于 TReCS,将更先进的 FID 从 48.7 提高到 14.1。将鼠标轨迹和其他附加输入合并到端到端模型(如 XMC-GAN)中将在未来的工作中进行研究。
此外,Google还在 LN-OpenImages 上进行训练和评估,这比 MS-COCO 更具挑战性,因为数据集更大,图像涵盖更广泛的主题范围并且更复杂(平均 8.4 个对象)。据Google所知,XMC-GAN 是之一个在开放图像上训练和评估的文本到图像合成模型。XMC-GAN 能够生成高质量的结果,并在这项非常具有挑战性的任务上设定了 26.9 的强大基准 FID 分数。
Open Images 上真实生成图像的随机样本
由周四发布的“网络垃圾”(Webspam)报告可知,谷歌搜索在 2021 年过滤的垃圾网站数量、竟是 2020 年的六倍。据悉,作为 Alphabet 旗下子公司,Google 有一套名为 SpamBrian 的人工智能垃圾过滤系统,并且可在超过 99% 情况下实现“不受垃圾所困扰”(spam-fr...
美国总统拜登警告美国企业主管立即加强其公司的网络防御,准备应对潜在的来自俄罗斯的网络攻击,以报复使该国经济陷入瘫痪的制裁。拜登在一份白宫声明中写道,”根据不断变化的情报,政府正在重申以前的警告,即俄罗斯可能对美国进行恶意的网络攻击。” “我的政府将继续使用一切工具来阻止、破坏,并在必要时回应针对关...
位于乌克兰的Setapp开发商MacPaw已经创建了一个Mac应用程序,供用户了解他们的数据是否被保存在俄罗斯服务器上,依照该国法律可以被当局读取。总部位于乌克兰基辅的MacPaw已经告诉用户,尽管俄罗斯入侵该国,但这家乌克兰公司开发的软件作品Setapp、CleanMyMac X等将继续提供支持。...
为了迎接今年 5 月首个周四的“世界密码日”的到来,USA Today 觉得很有必要继续提醒大家提升安全意识。首先是尽量为工作、娱乐、网银、网购等各种在线活动配备强密码,且需避免使用同一个密码,以免所有账号被攻击者一锅端。 资料图(来自:Bitwarden) 业内知名开源密码器(US News &...
5月5日,SentinelLabs 发布报告,显示他们曾在知名防病毒产品Avast 和 AVG (2016 年被 Avast 收购)中发现了两个存在时间长达近10年之久的严重漏洞。 这两个漏洞被跟踪为 CVE-2022-26522 和 CVE-2022-26523,存在于名为 aswArPot.s...
BlackMatter勒索软件团伙袭击了爱荷华州的一家农业企业“新合作社”,并要求590万美元的赎金。 周一,几名安全研究人员最先关注了对这次黑客攻击事件,该公司也坦诚自己遭到了网络攻击,并相应地关闭了自己的系统。这是继5月份REvil团伙对JBS发起勒索软件攻击之后,对农业行业的又一次重大打击。研...