比较图像生成功能及其更新。
来自 Pexels 的 Andrea Piacquadio
1.pathways auto regressive Text-to-Image(Parti)是一种文本到图像模型,可以从文本描述中生成“高保真的照片级真实感”[3]图像。
2.Parti 基于神经网络,使用序列到序列(Seq2Seq)架构(“类似于机器翻译,以图像标记序列作为目标输出,而不是另一种语言的文本标记”)[1]。
3.Parti 可以从文本描述中生成物体、场景和人物的图像。
4.Parti 可以在不同的数据集上进行训练,并可用于各种应用程序,它可以为不属于训练数据的新图像生成文本到图像的映射。
谷歌人工智能关于 Parti 的推文[6]
5.Parti 正在去往 Github 的路上,可以在这里找到(关于目前正在发布的内容的更多细节):【https://github.com/google-research/parti
6.它在大型文本-图像对语料库上进行训练,以学习文本和图像之间的映射。
7.该建模方法高效且可扩展,可应用于各种任务,如图像字幕和视觉问答。
8.当谈到视觉读写技能的发展时,Patri 可以用来增强解决问题和批判性思维的技能。
9.Parti 的编码器-解码器已经调整到 20B 参数[3],新的“MS-COCO 上最先进的零炮 FID 分数为 7.23,微调的 FID 分数为 3.22”[1]。
10.Parti 在 Lingvo 中实现,并在 TPU v4 硬件上使用 GSPMD 进行缩放,以进行训练和推理,从而获得 20B 参数模型[2]。
来自[4]
Imagen 是谷歌开发的文本到图像扩散模型。它允许用户使用文本查询来搜索图像。
Imagen 的工作原理是将文本查询与用相似关键字标记的图像进行匹配。然后,它使用各种算法来确定用户的最佳结果。
使用 Imagen 的好处包括使用自然语言搜索图像的能力、查找相似图像的能力和发现新图像的能力。
使用 Imagen 的缺点包括它不能精确地回答您的特定查询。
你可以做一些事情来改善你的图片效果。首先,确保你使用了正确的关键词。第二,当你搜索的时候,尽量具体。
归本帖作者所有:冬天的卡普里。
1.Imagen 的文本到图像扩散模型从文本输入开始,然后由文本到图像引擎处理。
2.然后,该引擎从库存图像数据库中提取相关图像,并从头开始生成新图像。
3.对图像进行一系列变换,例如缩放、旋转和平移,以创建一组扩散变换图像。
4.然后,转换后的图像通过一个选择函数,该函数选择最佳图像来表示文本输入。
5.然后,所选择的图像再次被扩散变换,并通过第二选择函数。
6.然后输出最终图像。
由这篇文章的作者拥有:一个机器人在沙滩上与人类交谈。
使用 Wombo,你只需输入一个提示,然后选择你希望它从中获得灵感的艺术风格(你不必选择一种风格,但可以选择),然后使用他们的网站或移动应用程序“开始创作”[5]。
如果您想要根据您的图像“训练”模型的输出,您可以上传一个。因此,您可以根据您希望照片对模型施加的影响量来预期输出。
1.允许企业根据其输入标准轻松创建带有图像的营销和广告材料;这种方法将使企业更容易创建包含文本和图像的有凝聚力的活动,从而定制营销内容以瞄准其受众。
2.使企业能够创建更具吸引力和视觉吸引力的内容;像这样的方法可以帮助企业更好地从竞争对手中脱颖而出,并抓住目标受众的注意力。
3.帮助企业更好地与受众建立联系,创造更加个性化的联系。
4.允许企业创建更吸引人和视觉上更吸引人的内容来吸引和留住客户,例如更好地传达他们的信息和更好地传达他们的品牌身份。
就这样了,伙计们。我们调查了 Parti,Imagen 和 Wombo。如果这里有任何事情或各种话题需要我解答,请给我发消息。
参考:
[1]研究:https://arxiv.org/abs/2206.10789
[2] Parti 网址:https://Parti . research . Google
[3]Parti Github:【https://github.com/google-research/parti
[4] Imagen 网址:https://Imagen . research . Google
[5] Wombo 网址: https://www.wombo.art
[6]谷歌人工智能关于 Parti 的推文:https://bit.ly/3nDemaH