图片由 Zeta Alpha 提供。
随着我们离开 ICLR 会议,接近 2022 年的赤道,很难想象人工智能的世界会变得更加活跃。再一次,我们很难从大量有趣的内容中只选择最热门的故事和研究。让我们从一些新闻开始:
- 谷歌最近的一篇论文展示了该公司几位知名研究人员和工程师,描绘了机器学习碳足迹的未来前景。由于数量级的训练和推断效率的提高,与运行 ML 模型相关的排放将趋于平稳并最终减少。该论文还鼓励所有研究人员在其所有出版物中公布碳足迹数据,以获得对该问题的更准确理解。
- LAION-5B:开放大规模多模态数据集的新时代是最大规模的图文对数据集,拥有近60 亿个样本。也许你应该在点击下载按钮之前检查一下你的可用存储空间,数据集大小高达 240TB。
- lucidrains/dalle 2-py torch:虽然 DALLE2 的代码还不可用,但是 luci drains 已经为 god you 提供了该模型的开源实现,您可以随意摆弄。
每个月,我们都会分析最新的研究文献,并选择 10 篇你应该知道的论文。这次涵盖的主题包括对抗性攻击、偏见、扩散模型、信息检索等等。
乔纳森·何、蒂姆·萨利曼斯、阿列克谢·格里岑科、陈伟霆、穆罕默德·诺鲁齐和大卫·j·弗利特。
❓为什么→ 如果你在关注这个博客系列(你应该这样做),你应该听说过扩散模型。这些模特在过去的一年里表现出色。超越甘斯成为图像生成镇中最酷的孩子,最近成为使 DALL E 2 不可否认地令人印象深刻的酱料中的关键成分。嗯,现在扩散模型从图像升级到视频。这可能是 DALL E 3 将激光目光投向的方向吗?
💡关键见解→ 扩散是一种生成性建模范式,允许您通过迭代逆转扩散过程(即在每一步添加可微分噪声)从噪声样本中生成数据(图像、声音、文本)此视频包含全面的解释。该作品是第一个成功应用扩散模型生成视频的作品。
神经网络的架构是一个标准的 U-NET-一个用于建模视觉的常见架构,它结合了卷积层和注意力层,适合于包括帧或时间维度。这是在只有 16 帧和小分辨率(64x64)的短视频上训练的,它们使用无分类器指导来实现文本条件生成。这个过程非常类似于图像上的扩散模型;但是为了将这种方法扩展到更长的视频,新的梯度调节方法,这让他们能够内插或外推视频的新帧,作为一个条件扩散过程。
由此产生的视频并不十分逼真,但仍然是一个实质性的进步:亲自检查一下!
来源:https://arxiv.org/pdf/2204.03458.pdf
图像生成方面的另一项相关工作是 VQGAN-CLIP:使用自然语言指导的开放域图像生成和编辑,如果不是因为达尔·2⁷抢了它的风头,它将会成为最大的亮点。
作者:Andy Zeng、黄芷晴、Stefan Welker、Krzysztof Choromanski、Federico Tombari、Aveek Purohit、Michael Ryoo、Vikas Sindhwani、李炯楷、Vincent Vanhoucke 和 Pete Florence。
❓为什么→ 单峰性有时被认为是生成语言模型的弱点(从现在开始是 LMs ),通过查看文本,你对世界的了解就只有这么多。但也许它不需要在图像上接受训练来回答关于图像的问题,也许它只是可以与另一个看过图像的模型进行交互。
💡关键见解→ 本文是关于让基础模型在不同模态(视频、图像、音频、文本……)上接受训练,通过结构化对话进行交互,以增强这些模型的零镜头和少量镜头多模态能力。这种想法背后的动机是,从不同数据形态学习的模型将学习关于世界的不同和互补信息,这些信息可以在零射击设置中利用,而不需要一起微调所有模型。
这种交互发生在一个对话框中,因此这个框架被命名为“苏格拉底模型”,概括地说,它有点像下面这样。想象一下,你想回答关于视频的复杂问题,视觉语言模型(VLM)可以为视频的每一帧生成字幕,包含视频中的地点和对象等信息。然后,可以提示 LM 生成场景的第一人称(以自我为中心)摘要,并回答关于它的复杂问题。这种通过文本的基本交互可以扩展到音频和图像等其他形式。
本文中的许多结果很难用现有的方法进行比较,因为还没有真正的基准来衡量这样一个系统的能力。因此,这更像是一篇“嘿,这是可能的”的论文,而不是一篇“这远远超过了现有的方法”的论文。尽管如此,这仍然代表了一个潜在的有影响力的研究方向,尤其是考虑到当前机器学习的化的趋势。
来源:https://Socratic models . github . io
Deepmind 最近还发布了 🦩火烈鸟:一个用于少量镜头学习的视觉语言模型(以及 explainer 博客帖子),展示了他们的零镜头和少量镜头表现,将是苏格拉底模型的自然匹配。
作者:Shafi Goldwasser、Michael P. Kim、Vinod Vaikuntanathan 和/或 Zamir。
❓为什么→ 从头开始学习 ML 算法可能很难,这就是为什么将模型的实现和训练外包给第三方越来越受欢迎。什么会出错?
💡关键见解→ 本文理论性很强,但要点很简单。作者证明,第三方可以训练并提供一个分类模型,该模型对常规数据表现得不可检测,但具有计算上不可检测的后门,通过该后门,对手可以向任何输入添加不可检测的扰动(一个数字签名),以将输出更改为任何期望的错误分类。
想象一下,有人向你的银行出售一个信用评分模型,该模型输出一个关于是否应该批准贷款的二元预测。银行托管并运行这个模型,他们可以看到它所做的一切。尽管如此,他们无法发现它有一个后门,让任何对手申请人引入一个数字签名,这将确保输出是积极的。
看看更平凡的例子,即使是目前非常流行的公共预训练模型也可能包含无法检测的后门,使对手能够操纵推理!可以想象,这也对开箱即用的特别可解释方法产生了一些怀疑,这些方法可能包含这样的后门,也使它们不可信或不可靠。
该文件展示了问题的正式设置,并调查了各种级别的安全性,这是相当迷人的。目前还不清楚这一切在多大程度上是可行的;然而,随着模型变得越来越复杂,其内在的可解释性也越来越差,ML 模型的这些基本安全问题需要认真考虑。
基兰·a·墨菲和达尼·s·巴塞特。
❓为什么→ 纳夫塔利·蒂什比(Naftali Tishby)倡导的信息瓶颈原理是一个强有力的透镜,通过它人们可以理解神经网络(NNs)中的学习。这种观点能阐明复杂数据的什么?
💡关键见解→ 表征学习可以从信息论的角度来理解。概括地说,表示服从于准确性和复杂性之间不可避免的权衡;学习目标可以根据涉及输入、输出和潜在表征的交互信息来定义。Tishby 在 20 世纪 90 年代后期正式提出了这一原则,后来应用它来提高我们对深 NNs 的理解,这仍然是今天争论的话题。
这种方法的核心思想是,学习任何有意义的数据都需要约束,因为*学习需要遗忘。*现在谈到本文,建议将复杂的交互分解成各种瓶颈,以便更容易地对复杂的交互进行建模。这很有趣,因为这篇论文很大程度上源于物理学背景,所以它的动机是让模型学习输入呈现的可理解的交互。
实际上,这意味着一堆 VAEs⁴为一个输入的不同分区并行运行。作者展示了这种方法如何在逆向工程逻辑门,分解图像,并在物理学中模拟凝聚态物质。
这是约束是一种强大的归纳偏向工作的另一个例子,因此它并不真的期望在大多数领域内的基准测试中击败现有的模型,但它仍然是健壮和可解释的学习的一个迷人的方向。
来源:https://arxiv.org/pdf/2204.07576.pdf
Michele Bevilacqua、Giuseppe Ottaviano、Patrick Lewis、Wen-tau Yih、Sebastian Riedel 和 Fabio Petroni。
❓为什么→ 语言模型+信息检索从我们看到的 2022 年就已经是热门话题了。在这两个领域的交叉点上,概念上的障碍正在被打破,下一代通用搜索引擎正在从中出现。
💡关键见解→ 最近,我们在我们的博客系列和播客中讨论了差异化搜索 Index⁵ (DSI)论文:让一个 LM 直接输出给定查询的文档 id,这非常有效。在某种意义上,本文构建了一个相关的系统,它利用 LMs 进行检索,克服了 DSI 的一些限制,如可伸缩性,轻松地建立了一个新的最先进的性能基准,如 KILT benchmark⁶.
在常规索引中,预先计算并显式存储文档特征,如字数或密集嵌入,这样,给定一个查询,可以计算得分作为段落相关性的代理。在这种情况下,自回归文本到文本 LM(又名类似 GPT)为段落学习独特的 n 元语法作为它们的标识符。在推断时,给定一个查询,LM 输出约束搜索中最可能的 n 元语法,使得每个 n 元语法得到一个似然性分数,该分数可以被解释为段落相关性的度量,从而导致可扩展的检索。嗯,实际上还有相当多的细节来完成这项工作,但它确实很好地实现了苏格兰短裙的艺术水平。
来源:https://arxiv.org/pdf/2204.10628.pdf
经过几年基于交叉编码器或密集检索的神经信息检索,脱离这些范例的可能性是令人兴奋的!
作者:Thomas Wang,,Daniel Hesslow,Teven Le Scao,Hyung Won Chung,Iz Beltagy,Julien Launay 和 Colin Raffel。
❓为什么→ 最近的历史告诉我们,训练大规模的 LMs 可以产生变革性的见解,例如在语言任务中出现令人印象深刻的零命中率表现(例如 GPT-3)。但当只有部分图片公开时,这些见解有些有限,这正是 BigScience 大放异彩的地方。
💡key insights→big science是一项由 Huggingface 带头的社区驱动的工作,用于训练大规模多语言语言模型,这导致了几个出版物详细介绍了它的设计、迭代和来自开源精神的训练,因此社区可以从实际细节中学习到训练一个大规模 LM 到底需要什么。这一系列研究的见解已在最近几个月发表,这是调查建筑+学习目标选择问题的最新版本。
作者比较了架构和训练目标的组合:因果/非因果解码器或编码器-解码器,以及自回归与掩蔽语言建模。TL;对于零和少数镜头性能,通常的仅解码器自回归语言建模是架构和训练目标的最佳选择。
来源:https://arxiv.org/pdf/2204.05832.pdf
7 .。OPT:打开预先训练好的变形金刚语言模型 | 代码 | 博文
作者:Susan Zhang,Stephen Roller,Naman Goyal 等人
❓为什么→ F̶a̶c̶e̶b̶o̶o̶k̶ Meta 在 BigScience 之前完全开源了他们的 GPT-3 版本,BigScience 正在公开培训一个类似但多语言的模型,预计将在未来几个月内发布。
💡关键见解→ 老实说,关于它已经没有太多可以说的了,这几乎是 GPT-3 的克隆,具有巨大的吸引力,它是最大的完全公开的预训练语言模型。
通过浏览 GitHub 库你会发现最有趣的花絮,其中包含代码、部署、训练和运行该模型的指令,以及详细的报告和训练该模型的幕后情况。
兰德尔·巴勒斯特里罗、莱昂·博图和扬·勒昆。
❓为什么→ 聚合性能指标非常有用,因为它们让我们可以通过查看单个量化分数(如平均性能)来比较各种模型的性能。虽然这种实践广泛而有用,但它可能会掩盖与手头任务高度相关的定性行为。换句话说,两个平均性能相当的模型仍可能呈现出显著不同的故障模式,因此,全面了解一个模型的行为非常重要,尤其是当它将被部署并对实际的现实世界决策产生影响时。
💡关键见解→ML 模型中的偏差通常被认为是由训练数据引起的;然而,已经表明,它可能会作为其他选择的结果出现,这些选择可能看起来是无害的,如选择损失/度量、修剪、数据扩充等。本文展示了某些正则化技术如何在一小组类中极大地损害性能,而在总体性能指标(如平均精度)上几乎检测不到。
本文探讨了这一现象,通过训练一个图像分类器与不同的数据增强技术,如随机裁剪或颜色抖动影响每类性能。例如,严重的颜色抖动对检测篮球的准确性有负面影响,而斑马纹检测保持不变;或者随机种植对“线虫”来说是一个很好的补充,但如果过度,对狮子来说就太可怕了。经过深入的经验和理论分析,本文最后呼吁新的无偏正则化方法。
像这样的结果是实实在在的证据,证明欺骗我们自己认为我们理解一个算法执行得有多好是多么容易;提醒一下,不要只看表层指标,深入了解是非常重要的,特别是当模型将在那里部署时。此外,本文还呼吁设计无偏差正则化方法。
来源:https://arxiv.org/pdf/2204.03632.pdf
Nico Lang、Walter Jetz、Konrad Schindler 和 Jan Dirk Wegner。
❓为什么→ 这篇论文有点随意,很酷,也很有趣。
💡关键见解→ 树冠高度相当于植被的高度,可以通过树木顶端的海拔减去它们所在地面的海拔来计算。事实证明,全球范围内的林冠高度是全球碳循环的一个显著量,因此在全球范围内更准确地建模是研究环境现象(如森林砍伐、气候变化或生物多样性建模)的关键。
但是精确地绘制世界各地的树有多高是很困难的。全球生态系统动力学调查(GEDI) 是一项旨在收集激光雷达数据以测量全球垂直森林结构的任务,但它仅限于仅占地球表面 4%的稀疏测量,而且,连续测量是不可能的,这使得研究进化成为不可能。相比之下,光学卫星图像,如来自哨兵-2 的图像很容易获得。这项工作提出用深度学习融合这两个数据源,开发一个地球树冠高度的概率模型。
来源:https://arxiv.org/pdf/2204.08322.pdf
其他最近的工作将引起环保人士的兴趣是机器学习和深度学习——生态学家的评论和机器学习培训的碳足迹将趋于平稳,然后收缩(谷歌对自己的未来充满希望)。
鉴于本月有趣的数据集和基准测试工作的数量,我们决定将它们归入这个 TL;DR 列表👇
通过对 1,600 多项语言任务的上下文指令进行基准归纳,自然指令 v2 →旨在测量模型对给定自然语言指令的各种未知任务的归纳。
Winoground:探索视觉语言组合的视觉和语言模型 →类似于 Winograd 模式挑战,但对于图像语言对:需要世界知识来消除歧义的模糊问题。
海量:100 万例多语言自然语言理解数据集,包含 51 种不同类型的语言 →新的多样化多语言 NLU 基准。
参考文献:
【1】《U-Net:生物医学图像分割的卷积网络》Olaf Ronnenberger 等人 2015。
【2】《论基金会模式的机遇与风险》Rishi Bommasani 等人
[3]《信息瓶颈法》Naftali Tishby 等 1999。
[4]“自动编码变分贝叶斯”Diederik P. Kingma 等人 2013
【5】《变压器记忆作为差异化搜索索引》易泰等 2022
[6]《苏格兰短裙:知识密集型语言任务的标杆》法比奥·彼得罗尼等著 2020。
[7]“具有剪辑潜在性的分层文本条件图像生成”,Aditya Ramesh 等人,2022。