Search code, repositories, users, issues, pull requests...

💡简单地提示 LMs 输出推理步骤，而不是直接回答，可以极大地提高性能。又见后续作品如星。

2️⃣

💡DeepMind 引入了一个经过视觉+语言训练的“简单”单一模型，为各种多模态任务设定了艺术状态

3️⃣ 用语言模型解决定量推理问题(Minerva)

💡在数学数据上训练的大型 LM 可以在定量推理任务上实现强大的性能，包括在数学数据集上的最先进的性能。

4️⃣ 数据分布特性驱动变形金刚 中涌现的情境学习

💡大规模的前期培训在哪些方面推动了情境学习？训练数据分布需要突发性和大量罕见情况。

5️⃣ 训练语言模型跟随指令与人类反馈(instructgpt)

💡OpenAI 使用人类在回路中的强化学习(RLHF)来使用从人类贴标机收集的数据微调 GPT-3。由此产生的模型称为 InstructGPT，在一系列 NLP 任务上优于 GPT-3。

2.扩散模型

来源:https://arxiv.org/pdf/2209.00796.pdf

当然，如果有什么东西值得获得 2022 年最酷的城市儿童的桂冠，那一定是文本到图像生成模型，其中大多数都是由扩散模型驱动的:OpenAI 的 DALL E 2，谷歌的 Imagen，或稳定扩散。

作为成熟的早期标志——从它们流行到现在还不到两年！—建模技术现在已经超出了 2D 静止图像生成的范畴，并被应用于 3D 场景合成、视频生成和分子对接等领域。正如我们在 2017 年的《变形金刚》中看到的那样，一个研究想法成为主流所需的时间正在不断缩短。

1️⃣ 具有深度语言理解的真实感文本到图像扩散模型【imagen】

💡Imagen，一种使用扩散模型进行文本到图像合成的简单方法。

2️⃣ 物体场景再现变压器 (OSRT)

💡一种高效的以 3D 为中心的模型，其中通过新颖的视图合成自然地呈现各个对象。

3️⃣ 去噪扩散复原模型【ddrm】

💡使用预训练的去噪扩散概率模型(DDPMs)进行超分辨率、去模糊、修补和着色，而无需特定问题的监督训练。

4️⃣ 柔性扩散建模长视频

💡DDPMs 应用于视频领域。为了捕捉帧之间的长期依赖性，他们提出了一种可以根据视频帧的任何子集灵活调整的架构。

5️⃣

💡能量引导的随机微分方程(EGSDE)采用在源域和目标域上预训练的能量函数来指导预训练 SDE 的推理过程，以获得真实可信的不成对图像到图像(I2I)。

3.自我监督学习

来源:https://openreview.net/pdf?id=iBBcRUlOAPR

自我监督学习(SSL)已经成为现代人工智能的一个重要组成部分，它现在已经以这样或那样的方式融入到大多数研究中。2018 年，NLP 首次在深度学习领域领先于 BERT，计算机视觉后来也加入了 SSL 的行列，并取得了 SimCLR 等成功技术。

我们的语义地图的这个区域大量代表了计算机视觉的新 SSL 技术:从无监督的视频中学习，数据增强对图像的影响……但可以说，最重要的是 DeepMind 的 Chinchilla:一项关于语言模型的预训练预算应该在模型参数上花费多少以及在更大的训练语料库中花费多少的研究(发现大多数大型 LMs 都太大或训练不足)，从而产生了 Chinchilla，一个 70B 参数的 LM，它通过更长时间的训练胜过其更大的对手。

最后，我们也不能错过用于信息检索的全新(部分)SSL 技术，比如可区分的搜索索引。

虽然 SSL 现在如此普遍，但它经常被归为无关紧要的脚注。所有这些研究都证明，在这个领域还有许多未开发的石头和新的见解有待发现。

1️⃣ 计算优化大型语言模型训练的实证分析 【龙猫】

💡最好在更多的令牌上训练更小的语言模型。DeepMind 展示了这一点，他们的 70B 龙猫模型优于更大的模型，如地鼠(280B)，GPT-3 (175B)或威震天-图灵 NLG (530B)。

2️⃣

💡在视频上做精致的预训练视频表示。3 个要点:高屏蔽率是最好的，这种技术即使在小数据集上也能很好地工作，当涉及到自我监督的视频分割时，质量>数量。

3️⃣ 质而不量:论数据集设计与剪辑鲁棒性的互动

💡CLIP 预处理数据源之间相互作用的系统研究。令人惊讶(？)混合多个数据源并不一定会产生更好的模型，这一点被我们对玩具模型的理论分析所佐证。

4️⃣

💡数据扩充(DA)及其如何影响模型参数的分析研究。例如，给定手边的损失，普通 DAs 需要数万个样本来正确估计损失并使模型训练收敛。

5️⃣ 变压器内存作为可微分搜索索引

💡给定一个查询作为提示，单个转换器被训练成直接输出文档标识符自回归。NeurIPS 上还展示了后续工作，例如一个用于文档检索的神经语料库索引器。

4.图形神经网络

来源:https://openreview.net/pdf?id=H_xAgRM7I5N

等方差、3D 分子生成、偏微分方程……图形神经网络(GNNs)已经存在了一段时间，虽然它们没有像变形金刚或扩散模型那样获得名人级的知名度，但在过去几年中，它们的规模稳步增长，扩展到了药物设计、微分方程求解或推理等应用领域。

这种异构的景观是有意义的，因为正如几何深度学习蓝图中所概述的那样，在某种程度上，GNNs 是对 NNs 的一种新的抽象，以从关于如何将任意问题投射到正确架构的第一原则中解锁思维，通过利用对称性和不变性来逃离维度的诅咒。例如，这是找到计算解决偏微分方程的正确表示或预测有机分子形状以更有效地设计新药的关键。👇

1️⃣ 零拍摄 3D 药物设计草图生成 (沙漠)

💡由预训练技术驱动的零剂量药物设计方法。现有的基于深度学习的药物设计方法通常依赖于稀缺的实验数据或缓慢的对接模拟。DESERT 将设计过程分为草图绘制和生成阶段，在保持高精度的同时加快了生成速度。

2️⃣ 扭转扩散为分子构象体生成

💡经由扭转角上的扩散过程的药物样分子构象异构体生成经由 hypertorus 上的扩散建模和外部到内部评分模型的快速和准确的构象异构体生成，同时比先前的基于扩散的方法快几个数量级。

3️⃣ 磁铁:网格不可知神经 PDE 求解器

💡一种新的网格不可知的架构，预测在 PDE 域的任何空间连续点的 PDE 解，并在不同的网格和分辨率上推广。

4️⃣

💡消息传递神经网络是模拟原子间势的一种强有力的方法，但它们效率很低。MACE 以高度并行的方式引入了高阶消息传递，在各种基准测试中实现了 SOTA。

5️⃣ 通过连接子图预处理的少量关系推理 (CSR)

💡CSR 可以通过对知识图的自我监督预训练，直接对目标少发任务做出预测。

5.强化学习

来源:https://openreview.net/pdf?id=rc8o_j8I8PX

让代理成为更高效的学习者是 RL 研究人员仍在努力解决的一个关键问题，今年的 NeurIPS 包含了许多关于如何实现这一目标的建议。例如，使用离线学习和大规模模仿学习来克服最初的低效探索阶段，改进信用分配技术以更好地导航稀疏奖励景观，或者使用预训练的语言模型来引导具有人类先验的策略。其他感兴趣的点通常围绕鲁棒性和再现性，这与挑战性开放式设置的效率密切相关。

最后，RL 还看到了在芯片设计等领域的成功应用，并有相当多的论文涉及该主题(说真的，查看“更像这样！”).

1️⃣ 利用自然语言和程序抽象向机器灌输人类的归纳偏见

💡元学习代理可以通过与来自语言描述和程序归纳的表示进行共同训练来学习人类的归纳偏差。

2️⃣ MineDojo:用互联网规模的知识构建开放式的具身代理

💡利用大型预训练模型自动标记带有动作的视频，以创建用于离线学习的大规模数据集，仅使用来自《我的世界》的视频数据。

3️⃣

💡RL 代理比人类更善于在硅片设计上分配组件。

4️⃣ 明智地花费思考时间:用虚拟资料片 加速 MCTS

💡MCTS 通过在更困难的州分配更高的计算预算来提高效率。

5️⃣ 轨迹平衡:改进了 GFlowNets 中的信用分配

💡生成流网络的一个新的训练目标，解决了信用分配的问题(轨迹中的什么行为对最终奖励最负责？)导致更快的收敛和更好地拟合目标分布。

6.受大脑启发的

来源:https://openreview.net/pdf?id=dqO59nI_R9A

别忘了 NeurIPS 也是神经科学相关文献的发源地；毕竟，我们的大脑是神经信息处理系统 T21，它引发了许多现代人工神经网络。

这个多样化的领域涉及到从大脑成像技术(如 fMRI)中的大量学习，反向投影学习的替代方法预示着我们对神经元、尖峰神经网络等的了解会更好！

1️⃣ 通过预测编码在任意图拓扑上学习

💡反向传播不允许在具有循环或反向连接的网络上进行训练，而循环或反向连接被认为是类脑计算中必不可少的。他们展示了预测编码(PC)，一种大脑皮层中的信息处理理论，如何用于对任意图形拓扑进行推理和学习。

2️⃣ 理论上可证明的尖峰神经网络

💡自连接脉冲神经网络逼近能力和计算效率的理论研究。

3️⃣