当前位置:首页 > 网络黑客 > 正文内容

怎么把文字变成图片(如何把文字放到图片上面)

访客3年前 (2021-12-12)网络黑客423

自动文本到图像合成,其中训练模型以仅从文本描述生成图像,是一项具有挑战性的任务。它的研究为机器学习 (ML) 模型如何捕获视觉属性并将它们与文本相关联提供了丰富的见解。与指导图像创建的其他类型的输入相比,例如草图、对象蒙版或鼠标轨迹,描述性句子等,都是一种更直观、更灵活的视觉概念表达方式。因此,强大的自动文本到图像生成系统也可以成为快速内容创建的有用工具,并且可以应用于许多其他创意应用程序.

更先进的图像合成结果通常是使用生成对抗 *** (GAN) 实现的,该 *** 训练两个模型——一个生成器,试图创建逼真的图像,以及一个鉴别器,它试图确定图像是真实的还是真实的或者捏造的。许多文本到图像生成模型是使用文本输入进行调节以生成语义相关图像的GAN 。这是非常具有挑战性的,尤其是在提供长而含糊的描述时。此外,GAN 训练容易出现模式崩溃,这是训练过程中常见的失败案例,其中生成器学习仅产生一组有限的输出,因此鉴别器无法学习识别伪造图像的鲁棒策略。为了减轻模式崩溃,一些 *** 使用迭代细化图像的多阶段细化 *** 。然而,这样的系统需要多阶段训练,这比简单的单阶段端到端模型效率低。其他努力依赖于分层 *** ,在最终合成逼真的图像之前首先对对象布局进行建模。这需要使用标记的分割数据,这可能很难获得。

在“文本到图像生成的跨模态对比学习”中,Google提出了跨模态对比生成对抗 *** (XMC-GAN),它通过学习使用模态间(图像-文本)和模态内(图像-文本)更大化图像和文本之间的互信息来解决文本到图像的生成问题。这种 *** 有助于判别更稳健和判别力更强的特征,因此 XMC-GAN 即使进行单阶段训练也不太容易出现模式崩溃。重要的是,与之前的多阶段或分层 *** 相比,XMC-GAN 通过简单的单阶段生成实现了更先进的性能。它是端到端可训练的,只需要图像文本对(与标记分割或边界框数据相反)。

文本到图像合成

对比损失文本到图像合成系统的目标是生成清晰、逼真的场景,对其条件文本描述具有高语义保真度。为了实现这一点,Google建议更大化对应对之间的信息:

(1)带有描述场景的句子的图像(真实或生成);

(2) 生成的图像和具有相同描述的真实图像;

(3) 图像的区域(真实的或生成的)以及与之相关的单词或短语。

在 XMC-GAN 中,这是使用对比损失来强制执行的。与其他 GAN 类似,XMC-GAN 包含一个用于合成图像的生成器,以及一个被训练作为真实图像和生成图像之间的评论者的鉴别器。三组数据导致了该系统中的对比损失——真实图像、描述这些图像的文本以及根据文本描述生成的图像。生成器和鉴别器的单个损失函数是从整幅图像和全文描述计算的损失的组合,与从带有相关单词或短语的细分图像计算的损失相结合。然后,对于每批训练数据,Google计算余弦相似度每个文本描述和真实图像之间的得分,同样,每个文本描述和生成的图像批次之间的得分。目标是匹配对(文本到图像和真实图像到生成的图像)?具有高相似度得分,而不匹配对具有低得分。强制执行这样的对比损失允许鉴别器学习更健壮和鉴别性的特征。

Google提出的 XMC-GAN 文本到图像合成模型中的模态间和模态内对比学习。

Google将 XMC-GAN 应用于三个具有挑战性的数据集——之一个是MS-COCO 图像的MS-COCO描述 *** ,另外两个是用Localized Narratives注释的数据集,其中一个涵盖了 MS-COCO 图像(Google称之为LN-COCO) 和另一个描述开放图像数据 (LN-OpenImages)。Google发现 XMC-GAN 在每个方面都达到了更先进的水平。XMC-GAN 生成的图像描绘的场景比使用其他技术生成的图像质量更高。在 MS-COCO 上,XMC-GAN 将更先进的Fréchet 初始距离(FID) 分数从 24.7 提高到 9.3,并且非常受人类评估者的青睐。

MS-COCO上生成图像的选定定性结果

类似地,与其他三种更先进的 *** (CP-GAN、SD-GAN、和OP-GAN)对比如下。

MS-COCO对图像质量和文本对齐的人工评估,注释者从更好到最差对生成的图像进行排名(匿名和顺序随机化)

XMC-GAN 还可以很好地推广到具有挑战性的 Localized Narratives 数据集。Google之前的系统TReCS,使用鼠标轨迹输入处理本地化叙事的文本到图像生成,以提高图像生成质量。尽管没有收到鼠标轨迹注释,但 XMC-GAN 在 LN-COCO 上的图像生成方面能够显着优于 TReCS,将更先进的 FID 从 48.7 提高到 14.1。将鼠标轨迹和其他附加输入合并到端到端模型(如 XMC-GAN)中将在未来的工作中进行研究。

此外,Google还在 LN-OpenImages 上进行训练和评估,这比 MS-COCO 更具挑战性,因为数据集更大,图像涵盖更广泛的主题范围并且更复杂(平均 8.4 个对象)。据Google所知,XMC-GAN 是之一个在开放图像上训练和评估的文本到图像合成模型。XMC-GAN 能够生成高质量的结果,并在这项非常具有挑战性的任务上设定了 26.9 的强大基准 FID 分数。

Open Images 上真实生成图像的随机样本

扫描二维码推送至手机访问。

版权声明:本文由黑客技术发布,如需转载请注明出处。

本文链接:https://w-123.com/110171.html

“怎么把文字变成图片(如何把文字放到图片上面)” 的相关文章

犯罪集团持有超过 250 亿美元加密货币 它们来自众多非法来源

伦敦的大都会警察局(MPS)进行了英国有史以来最大的加密货币扣押,从一个涉嫌洗钱的人那里拿走了价值1.8亿英镑的加密货币。同时吗,美国司法部查封了与2016年Bitfinex黑客事件有关的价值36亿美元比特币,这是目前有史以来最大的加密货币或法币被盗资产的回收。 这些故事很重要,不仅因为它们允许对加...

Clearview AI 被指违反澳大利亚隐私法 已收集至少 30 亿人面部数据

澳大利亚信息专员发现,Clearview AI 在许多方面违反了澳大利亚的隐私法。在此前的双边调查中发现,该公司的面部识别工具未经同意并以不公平的方式收集澳大利亚人的敏感信息。由澳大利亚信息专员办公室(OAIC)和英国信息专员办公室(ICO)进行的调查发现,Clearview AI 的面部识别工具不...

微软将在 5 个 Office 应用程序中默认阻止互联网下载的宏程序

微软今天宣布,它将默认阻止5个Office应用程序中VBA宏脚本的执行,这是近年来影响最大的变化之一。从2022年4月初开始,Access、Excel、PowerPoint、Visio和Word用户将不能在他们从互联网上下载的不受信任的文件中启用宏脚本。 安全研究人员多年来一直要求作出这一改变,这将...

乌克兰银行和政府网站疑遭网络攻击而陷入瘫痪

东欧国家数字转型部负责人表示,由于大规模分布式拒绝服务(DDoS)攻击,多个乌克兰政府网站于周三下线了。DDoS攻击通过使用大量的请求来提供网页进而使网站陷入瘫痪。Mykhailo Fedorov在Telegram上表示,一些银行网站也被关闭了。 乌克兰外交部、部长内阁和议会网站在周三早些时候仍无...

SushiSwap 承认 MISO 平台遭到软件供应链攻击 损失超过 300 万美元

SushiSwap 首席技术官表示,该公司的 MISO 平台近日受到了软件供应链的攻击。SushiSwap 是一个社区驱动的去中心化金融(DeFi)平台,方便用户交换、赚取、借出、借用和利用加密货币资产。今年早些时候,Sushi 的最新产品 Minimal Initial SushiSwap Off...

美国国土安全部推出“黑客 DHS ”漏洞赏金计划

据The Record报道,美国国土安全部(DHS)当地时间周二宣布,该机构的负责人已经启动了一项漏洞赏金计划,允许黑客报告其系统中的漏洞,以换取金钱奖励。 美国国土安全部部长亚历杭德罗·马约卡斯(Alejandro Mayorkas)在出席彭博科技峰会时说:“我们不仅关注保护和加强私营部门和整个...

评论列表

孤鱼颜于
2年前 (2022-07-04)

)带有描述场景的句子的图像(真实或生成);(2) 生成的图像和具有相同描述的真实图像;(3) 图像的区域(真实的或生成的)以及与之相关的单词或短语。在 XMC-GAN 中,这是使用对比损失来强制执行的。与其他 GAN

南殷友欢
2年前 (2022-07-03)

是真实的还是真实的或者捏造的。许多文本到图像生成模型是使用文本输入进行调节以生成语义相关图像的GAN 。这是非常具有挑战性的,尤其是在提供长而含糊的描述时。此外,GAN 训练容易出现模式崩溃,这是训练过程中常见的失败案例,其中生成器学习仅产生一组有限的输出,因此鉴别器无

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。