NeRF研究QQ大群(300+成员):706949479
全部 | 动态 | 编辑 | 快速 | 泛化 | 人体 | 视频 | 光照 | 重建 | 纹理 | 语义 | 姿态-SLAM | 其他
- 使用基于体素的轨迹感知预训练增强无人机跟踪, RAL2022 | [code]
基于 Siamese 网络的目标跟踪显着提升了高度机动无人机 (UAV) 的自动化能力。 然而,前沿的跟踪框架往往依赖于模板匹配,这使得它在面对连续帧中的多个对象视图时陷入困境。 此外,一般的图像级预训练主干可能会过度适应整体表示,导致在无人机跟踪中学习对象级属性时出现错位。 为了解决这些问题,这项工作提出了 TRTrack,这是一个全面的框架,可以充分利用无人机跟踪的立体表示。 具体来说,提出了一种新的预训练范式方法。 通过轨迹感知重建训练(TRT),在不增加任何参数的情况下,增强了主干提取立体结构特征的能力。 因此,提出了一种创新的分层自注意力 Transformer 来捕获局部细节信息和全局结构知识。 为了优化相关图,我们提出了一种新的空间相关细化(SCR)模块,它提高了对远程空间依赖性进行建模的能力。 三个具有挑战性的无人机基准测试的综合实验表明,所提出的 TRTrack 在精度和效率方面都实现了卓越的无人机跟踪性能。 现实环境中的定量测试充分证明了我们工作的有效性。
- 用于高质量视图合成的稀疏 RGB-D 图像的神经辐射场, TPAMI2022 | [code]
最近提出的神经辐射场 (NeRF) 使用作为多层感知器 (MLP) 制定的连续函数来模拟 3D 场景的外观和几何形状。 这使得新视图的逼真合成成为可能,即使对于具有视图依赖外观的场景也是如此。 此后,许多后续工作以不同方式扩展了 NeRF。 然而,该方法的一个基本限制仍然是它需要从密集放置的视点捕获大量图像以进行高质量合成,并且当捕获的视图数量不足时,结果的质量会迅速下降。 为了解决这个问题,我们提出了一种新的基于 NeRF 的框架,该框架能够仅使用一组稀疏的 RGB-D 图像进行高质量的视图合成,这些图像可以在当前的消费设备上使用相机和 LiDAR 传感器轻松捕获。 首先,从捕获的 RGB-D 图像重建场景的几何代理。 然后可以使用重建场景的渲染以及精确的相机参数来预训练网络。 最后,使用少量真实捕获的图像对网络进行微调。 我们进一步引入了一个补丁鉴别器,以在微调期间在新颖的视图下监督网络,并在提高合成质量之前引入 3D 颜色。 我们证明了我们的方法可以从少至 6 个 RGB-D 图像生成 3D 场景的任意新颖视图。 大量实验表明,与现有的基于 NeRF 的方法相比,我们的方法有所改进,包括旨在减少输入图像数量的方法。
- 从神经辐射场中移除对象 | [code]
神经辐射场 (NeRFs) 正在成为一种无处不在的场景表示,可实现新颖的视图合成。 NeRF 将越来越多地与其他人共享。 不过,在共享 NeRF 之前,可能需要删除个人信息或难看的物体。 使用当前的 NeRF 编辑框架不容易实现这种删除。 我们提出了一个框架,用于从 RGB-D 序列创建的 NeRF 表示中删除对象。 我们的 NeRF 修复方法利用了最近在 2D 图像修复方面的工作,并以用户提供的掩码为指导。 我们的算法以基于置信度的视图选择程序为基础。 它选择在创建 NeRF 时使用哪些单独的 2D 修复图像,以便生成的修复 NeRF 是 3D 一致的。 我们表明我们的 NeRF 编辑方法对于以多视图连贯方式合成合理的修复是有效的。 我们使用一个新的且仍然具有挑战性的数据集来验证我们的方法来完成 NeRF 修复任务。
- iLabel:揭示神经领域中的对象, RAL2022 | [code]
经过自我监督训练以有效表示 3D 场景的几何形状和颜色的神经场往往会自动将其分解为连贯且准确的类似物体的区域,这些区域可以通过稀疏标记交互来揭示以产生 3D 语义场景分割。 我们的实时 iLabel 系统从手持式 RGB-D 相机获取输入,需要零先验训练数据,并以“开放集”方式工作,语义类别由用户即时定义。 iLabel 的底层模型是一个简单的多层感知器 (MLP),从头开始训练以学习单个 3D 场景的神经表示。 该模型不断更新并实时可视化,使用户能够专注于交互以实现极其高效的语义分割。 一个房间规模的场景可以准确地标记为 10 多个语义类别,只需大约 100 次点击,耗时不到 5 分钟。 定量标记的准确性随着点击次数的增加而显着增加,并迅速超越标准的预训练语义分割方法。 我们还展示了 iLabel 的分层标签变体和“免提”模式,用户只需为自动生成的位置提供标签名称。
- 紧凑型神经辐射场的掩蔽小波表示 |
[code]
神经辐射场 (NeRF) 已经证明了神经渲染中基于坐标的神经表示(神经场或隐式神经表示)的潜力。 然而,使用多层感知器 (MLP) 来表示 3D 场景或对象需要大量的计算资源和时间。 最近有关于如何通过使用额外的数据结构(例如网格或树)来减少这些计算效率低下的研究。 尽管性能很有前途,但显式数据结构需要大量内存。 在这项工作中,我们提出了一种在不损害具有附加数据结构的优势的情况下减小大小的方法。 详细地说,我们建议在基于网格的神经场上使用小波变换。 基于网格的神经场是为了快速收敛,而其效率已经在高性能标准编解码器中得到证明的小波变换是为了提高网格的参数效率。 此外,为了在保持重建质量的同时实现更高的网格系数稀疏性,我们提出了一种新颖的可训练掩蔽方法。 实验结果表明,非空间网格系数,例如小波系数,能够获得比空间网格系数更高的稀疏度,从而产生更紧凑的表示。 通过我们提出的掩码和压缩管道,我们在 2 MB 的内存预算内实现了最先进的性能。 我们的代码可通过此 https 网址获得。
- NeRF-Art:文本驱动的神经辐射场程式化 |
[code]
作为 3D 场景的强大表示,神经辐射场 (NeRF) 可以从多视图图像中合成高质量的新视图。 然而,对 NeRF 进行样式化仍然具有挑战性,尤其是在模拟外观和几何形状同时发生变化的文本引导样式时。 在本文中,我们介绍了 NeRF-Art,这是一种文本引导的 NeRF 风格化方法,它通过简单的文本提示来操纵预训练的 NeRF 模型的风格。 与以前缺乏足够的几何变形和纹理细节或需要网格来指导风格化的方法不同,我们的方法可以将 3D 场景转换为以所需几何形状和外观变化为特征的目标样式,而无需任何网格引导。 这是通过引入一种新颖的全局-局部对比学习策略,结合方向约束来同时控制目标风格的轨迹和强度来实现的。 此外,我们采用权重正则化方法来有效抑制在几何样式化过程中转换密度场时容易出现的混浊伪影和几何噪声。 通过对各种风格的广泛实验,我们证明了我们的方法在单视图风格化质量和跨视图一致性方面是有效且稳健的。 代码和更多结果可以在我们的项目页面中找到:这个 https URL。
- 4K-NeRF:超高分辨率下的高保真神经辐射场 |
[code]
在本文中,我们提出了一个新颖而有效的框架,名为 4K-NeRF,以神经辐射场 (NeRF) 的方法为基础,在超高分辨率的具有挑战性的场景中追求高保真视图合成。 基于 NeRF 的方法的渲染过程通常依赖于像素方式,在这种方式中,射线(或像素)在训练和推理阶段都被独立处理,限制了其描述细微细节的表现能力,尤其是在提升到极高的分辨率时。 我们通过更好地探索光线相关性来解决这个问题,以增强受益于使用几何感知局部上下文的高频细节。 特别是,我们使用视图一致编码器在较低分辨率空间中有效地建模几何信息,并通过视图一致解码器恢复精细细节,条件是编码器估计的光线特征和深度。 联合训练与基于补丁的采样进一步促进了我们的方法,将来自面向感知的正则化的监督纳入像素明智的损失之外。 与现代 NeRF 方法的定量和定性比较表明,我们的方法可以显着提高渲染质量以保留高频细节,在 4K 超高分辨率场景下实现最先进的视觉质量。 代码可在 \url{this https URL}
- 图像生成器的扩散引导域自适应 | [code]
能否将文本到图像扩散模型用作训练目标,让 GAN 生成器适应另一个领域? 在本文中,我们展示了无分类器指导可以用作评论家,并使生成器能够从大规模文本到图像扩散模型中提取知识。 生成器可以有效地转移到文本提示指示的新域中,而无需访问目标域中的真实样本。 我们通过大量实验证明了我们方法的有效性和可控性。 尽管没有经过训练来最小化 CLIP 损失,但我们的模型在短提示上获得了同样高的 CLIP 分数和显着降低的 FID,并且在长而复杂的提示上在定性和定量上都优于基线。 据我们所知,所提出的方法是首次尝试将大规模预训练扩散模型和蒸馏采样结合起来用于文本驱动的图像生成器域自适应,并提供了以前无法实现的质量。 此外,我们将我们的工作扩展到基于 3D 风格的生成器和 DreamBooth 指南。
- Ref-NPR:基于参考的非真实感辐射场 | [code]
现有的 3D 场景风格化方法采用任意风格参考来将纹理和颜色作为风格进行传输,而无需建立有意义的语义对应关系。 我们提出了基于参考的非真实感辐射场,即 Ref-NPR。 它是一种可控的场景风格化方法,利用辐射场对 3D 场景进行风格化,并以单个风格化的 2D 视图作为参考。 为了获得不错的结果,我们提出了一种基于程式化参考视图的光线配准过程,以在新颖的视图中获得伪光线监督,并利用内容图像中的语义对应来填充具有感知相似风格的遮挡区域。 结合这些操作,Ref-NPR 使用单个参考生成非真实感和连续的新颖视图序列,同时在遮挡区域获得合理的程式化。 实验表明,Ref-NPR 在视觉质量和语义对应方面明显优于其他场景和视频风格化方法。 代码和数据将公开。
- NeRDi:以语言引导扩散作为一般图像先验的单视图 NeRF 合成 | [code]
2D 到 3D 重建是一个病态问题,但由于人类多年来积累的 3D 世界先验知识,因此擅长解决这个问题。 受此观察的驱动,我们提出了 NeRDi,这是一种单视图 NeRF 合成框架,具有来自 2D 扩散模型的一般图像先验。 将单视图重建制定为图像条件 3D 生成问题,我们通过在输入视图约束下使用预训练图像扩散模型最小化其任意视图渲染上的扩散损失来优化 NeRF 表示。 我们利用现成的视觉语言模型,并引入两部分语言指导作为扩散模型的条件输入。 这本质上有助于提高多视图内容的一致性,因为它缩小了以单视图输入图像的语义和视觉特征为条件的一般图像先验范围。 此外,我们引入了基于估计深度图的几何损失,以正则化 NeRF 的底层 3D 几何。 DTU MVS 数据集上的实验结果表明,与在此数据集上训练的现有方法相比,我们的方法可以合成更高质量的新视图。 我们还展示了我们在野外图像的零样本 NeRF 合成中的普遍性。
- GARF:几何感知广义神经辐射场 | [code]
神经辐射场 (NeRF) 彻底改变了自由视点渲染任务,并取得了令人瞩目的成果。 然而,效率和准确性问题阻碍了其广泛应用。 为了解决这些问题,我们提出了几何感知广义神经辐射场 (GARF) 和几何感知动态采样 (GADS) 策略,以在不进行逐场景优化的情况下对未见场景执行实时新颖视图渲染和无监督深度估计。 与大多数现有的广义 NeRF 不同,我们的框架仅使用少量输入图像就可以在像素尺度和几何尺度上推断出看不见的场景。 更具体地说,我们的方法通过编码器-解码器结构和有助于避免遮挡的点级可学习多视图特征融合模块来学习新视图合成的共同属性。 为了在广义模型中保留场景特征,我们引入了一个无监督深度估计模块来推导粗几何,将光线采样间隔缩小到估计表面的邻近空间,并在期望最大位置采样,构成几何感知动态采样策略( GADS)。 此外,我们引入了多级语义一致性损失 (MSC) 来帮助提供更多信息的表示学习。 对室内和室外数据集的大量实验表明,与最先进的广义 NeRF 方法相比,GARF 将样本减少了 25% 以上,同时提高了渲染质量和 3D 几何估计。
- 用于相机重定位的快速轻量级场景回归器 |
[code]
涉及先前 3D 重建的相机重定位在许多混合现实和机器人应用中起着至关重要的作用。 对于一些存储和/或通信带宽有限的应用程序,直接根据预建 3D 模型估计相机姿势可能非常昂贵。 尽管最近的场景和绝对姿态回归方法在有效的相机定位方面变得流行,但它们中的大多数都是计算资源密集型的,并且难以获得具有高精度约束的实时推理。 本研究提出了一种简单的场景回归方法,只需要一个多层感知器网络来映射场景坐标,即可实现准确的相机姿态估计。 所提出的方法使用稀疏描述符来回归场景坐标,而不是密集的 RGB 图像。 使用稀疏特征有几个优点。 首先,拟议的回归网络比以前的研究报告的要小得多。 这使我们的系统高效且可扩展。 其次,预建的 3D 模型提供了最可靠和稳健的 2D-3D 匹配。 因此,向它们学习可以导致对等效特征的认识并显着提高泛化性能。 提供了对我们的方法的详细分析和使用现有数据集的广泛评估,以支持所提出的方法。 可在此 https URL 获取实施细节
- StegaNeRF:在神经辐射场中嵌入不可见信息 |
[code]
神经渲染的最新进展意味着通过共享 NeRF 模型权重广泛分布视觉数据的未来。 然而,虽然常见的视觉数据(图像和视频)具有明确或巧妙地嵌入所有权或版权信息的标准方法,但对于新兴的 NeRF 格式,该问题仍未得到探索。 我们介绍了 StegaNeRF,这是一种在 NeRF 渲染中嵌入隐写信息的方法。 我们设计了一个优化框架,允许从 NeRF 渲染的图像中准确提取隐藏信息,同时保留其原始视觉质量。 我们在几个潜在的部署场景下对我们的方法进行了实验评估,并进一步讨论了通过我们的分析发现的见解。 StegaNeRF 标志着对将可定制、不可察觉和可恢复的信息灌输到 NeRF 渲染的新问题的初步探索,同时对渲染图像的影响最小。 项目页面:此 https 网址。
- QFF:神经场表示的量化傅立叶特征 | [code]
多层感知器 (MLP) 学习高频的速度很慢。 最近的方法对空间箱中的特征进行编码以提高学习细节的速度,但是以更大的模型尺寸和连续性损失为代价。 相反,我们建议在通常用于位置编码的傅里叶特征的容器中对特征进行编码。 我们称这些为量化傅立叶特征 (QFF)。 作为一种自然的多分辨率和周期性表示,我们的实验表明,使用 QFF 可以为多种应用带来更小的模型尺寸、更快的训练和更高质量的输出,包括神经图像表示 (NIR)、神经辐射场 (NeRF) 和符号距离函数 (SDF) 建模。 QFF 易于编码,计算速度快,并且可以作为许多神经场表示之外的简单补充。
- 3D-TOGO:走向文本引导的跨类别 3D 对象生成, AAAI2023 | [code]
文本引导的 3D 对象生成旨在生成由用户定义的标题描述的 3D 对象,这为可视化我们想象的内容铺平了道路。 尽管一些工作致力于解决这一具有挑战性的任务,但这些工作要么使用一些明确的 3D 表示(例如,网格),这些表示缺乏纹理并且需要后期处理来渲染照片般逼真的视图; 或者需要对每个案例进行单独耗时的优化。 在这里,我们首次尝试通过新的 3D-TOGO 模型实现通用文本引导的跨类别 3D 对象生成,该模型集成了文本到视图生成模块和视图到 3D 生成模块。 文本到视图生成模块旨在生成给定输入字幕的目标 3D 对象的不同视图。 提出了先验指导、标题指导和视图对比学习,以实现更好的视图一致性和标题相似性。 同时,views-to-3D 生成模块采用 pixelNeRF 模型,以从先前生成的视图中获取隐式 3D 神经表示。 我们的 3D-TOGO 模型以具有良好纹理的神经辐射场形式生成 3D 对象,并且不需要对每个单独的字幕进行时间成本优化。 此外,3D-TOGO可以通过输入的字幕控制生成的3D对象的类别、颜色和形状。 在最大的 3D 对象数据集(即 ABO)上进行了大量实验,以验证 3D-TOGO 可以根据 PSNR、SSIM、LPIPS 和 CLIP 等 98 个不同类别的输入字幕更好地生成高质量的 3D 对象。 得分,与文本 NeRF 和 Dreamfields 相比。
- LatentSwap3D:3D 图像 GAN 的语义编辑 |
[code]
最近的 3D 感知 GAN 依靠体积渲染技术来解开物体的姿势和外观,事实上生成整个 3D 体积而不是从潜在代码生成单视图 2D 图像。 复杂的图像编辑任务可以在基于标准 2D 的 GAN(例如,StyleGAN 模型)中作为对潜在维度的操作来执行。 然而,据我们所知,对于 3D 感知 GAN 模型,仅部分探索了类似的属性。 这项工作旨在通过展示现有方法的局限性并提出 LatentSwap3D 来填补这一空白,LatentSwap3D 是一种与模型无关的方法,旨在在预训练的 3D 感知 GAN 的潜在空间中启用属性编辑。 我们首先根据随机森林分类器的特征重要性排名,确定控制目标属性的模型的潜在空间中最相关的维度。 然后,为了应用转换,我们将正在编辑的图像的前 K 个最相关的潜在维度与显示所需属性的图像交换。 尽管它很简单,但 LatentSwap3D 以一种分离的方式提供了卓越的语义编辑,并且在质量和数量上都优于其他方法。 我们在各种 3D 感知生成模型(如 pi-GAN、GIRAFFE、StyleSDF、MVCGAN、EG3D 和 VolumeGAN)以及各种数据集(如 FFHQ、AFHQ、Cats、MetFaces 和 CompCars)上展示了我们的语义编辑方法。 可以找到项目页面:\url{this https URL}。
- DiffRF:渲染引导的 3D 辐射场扩散 | [code]
我们介绍了 DiffRF,这是一种基于去噪扩散概率模型的 3D 辐射场合成新方法。 虽然现有的基于扩散的方法对图像、潜在代码或点云数据进行操作,但我们是第一个直接生成体积辐射场的方法。 为此,我们提出了一种直接在显式体素网格表示上运行的 3D 去噪模型。 然而,由于从一组姿势图像生成的辐射场可能不明确且包含伪影,因此获取地面真实辐射场样本并非易事。 我们通过将去噪公式与渲染损失配对来解决这一挑战,使我们的模型能够学习有利于良好图像质量的偏差先验,而不是试图复制像浮动伪影这样的拟合错误。 与 2D 扩散模型相比,我们的模型学习多视图一致先验,支持自由视图合成和准确的形状生成。 与 3D GAN 相比,我们基于扩散的方法自然可以在推理时启用条件生成,例如掩蔽完成或单视图 3D 合成。
- NeuWigs:用于体积头发捕捉和动画的神经动态模型 | [code]
人发的捕捉和动画是为虚拟现实创建逼真化身的两个主要挑战。 这两个问题都非常具有挑战性,因为头发具有复杂的几何形状和外观,并且表现出具有挑战性的运动。 在本文中,我们提出了一种两阶段方法,该方法独立于头部对头发进行建模,以数据驱动的方式应对这些挑战。 第一阶段,状态压缩,通过一种新颖的自动编码器作为跟踪器策略,学习包含运动和外观的 3D 头发状态的低维潜在空间。 为了在外观学习中更好地分离头发和头部,我们结合使用多视图头发分割蒙版和可区分的体积渲染器。 第二阶段学习一种新颖的毛发动力学模型,该模型根据发现的潜在代码执行时间毛发转移。 为了在驱动我们的动力学模型时加强稳定性,我们在压缩阶段使用 3D 点云自动编码器来对头发状态进行去噪。 我们的模型在新颖的视图合成方面优于现有技术,并且能够创建新颖的头发动画,而无需依赖头发观察作为驱动信号。 项目页面在此 https URL。
- SparseFusion:蒸馏 View-conditioned Diffusion 用于 3D 重建 | [code]
我们提出了 SparseFusion,这是一种稀疏视图 3D 重建方法,它统一了神经渲染和概率图像生成方面的最新进展。 现有方法通常建立在具有重新投影特征的神经渲染上,但无法生成看不见的区域或处理大视点变化下的不确定性。 替代方法将其视为(概率)2D 合成任务,虽然它们可以生成似是而非的 2D 图像,但它们无法推断出一致的底层 3D。 然而,我们发现 3D 一致性和概率图像生成之间的这种权衡并不需要存在。 事实上,我们表明几何一致性和生成推理可以在模式搜索行为中互补。 通过从视图条件潜在扩散模型中提取 3D 一致场景表示,我们能够恢复一个合理的 3D 表示,其渲染既准确又逼真。 我们评估了 CO3D 数据集中 51 个类别的方法,并表明它在失真和感知指标方面优于现有方法,用于稀疏视图新视图合成。
- 用于快速多视图视频合成的混合神经体素 | [code]
由于现实世界环境的复杂性和高度动态的运动,从现实世界的多视图输入合成高保真视频具有挑战性。 以前基于神经辐射场的作品已经展示了动态场景的高质量重建。 但是,在真实场景中训练此类模型非常耗时,通常需要数天或数周。 在本文中,我们提出了一种名为 MixVoxels 的新方法,以更好地表示具有快速训练速度和有竞争力的渲染质量的动态场景。 拟议的 MixVoxels 将 4D 动态场景表示为静态和动态体素的混合,并使用不同的网络对其进行处理。 这样,静态体素所需模态的计算可以由轻量级模型处理,这从本质上减少了计算量,特别是对于许多以静态背景为主的日常动态场景。 为了分离这两种体素,我们提出了一个新的变化场来估计每个体素的时间方差。 对于动态体素,我们设计了一种内积时间查询方法来有效地查询多个时间步长,这对于恢复高动态运动至关重要。 因此,通过对输入 300 帧视频的动态场景进行 15 分钟的训练,MixVoxels 实现了比以前的方法更好的 PSNR。 此 https 网址提供代码和训练模型
- Score Jacobian Chaining:为 3D 生成提升预训练的 2D 扩散模型 | [code]
扩散模型学习预测梯度矢量场。 我们建议对学习到的梯度应用链式法则,并通过可微分渲染器的雅可比矩阵反向传播扩散模型的分数,我们将其实例化为体素辐射场。 此设置将多个摄像机视点的 2D 分数聚合为 3D 分数,并将预训练的 2D 模型重新用于 3D 数据生成。 我们确定了此应用程序中出现的分布不匹配的技术挑战,并提出了一种新颖的估计机制来解决它。 我们在几个现成的扩散图像生成模型上运行我们的算法,包括最近发布的在大规模 LAION 数据集上训练的稳定扩散。
- 光场的神经子空间, TVCG2022 | [code]
我们引入了一个框架,用于用神经子空间的新概念来紧凑地表示光场内容。 虽然最近提出的神经光场表示通过将光场编码到单个神经网络中实现了很好的压缩结果,但统一设计并未针对光场中展示的复合结构进行优化。 此外,将光场的每一部分编码到一个网络中对于需要快速传输和解码的应用来说并不理想。 我们认识到这个问题与子空间学习的联系。 我们提出了一种使用几个小型神经网络的方法,专门研究特定光场段的神经子空间。 此外,我们在这些小型网络中提出了一种自适应权重共享策略,提高了参数效率。 实际上,该策略通过利用神经网络的分层结构,能够以协调一致的方式跟踪附近神经子空间之间的相似性。 此外,我们开发了一种软分类技术来提高神经表征的颜色预测准确性。 我们的实验结果表明,我们的方法在各种光场场景上比以前的方法更好地重建了光场。 我们进一步展示了其在具有不规则视点布局和动态场景内容的编码光场上的成功部署。
- 3D-LDM:使用潜在扩散模型生成神经隐式 3D 形状 | [code]
扩散模型在图像生成方面显示出巨大的潜力,在生成多样性方面击败了 GAN,具有可比的图像质量。 然而,它们在 3D 形状上的应用仅限于点或体素表示,这些表示在实践中不能准确地表示 3D 表面。 我们提出了一种用于在自动解码器的潜在空间中运行的 3D 形状的神经隐式表示的扩散模型。 这使我们能够生成多样化和高质量的 3D 表面。 我们还表明,我们可以根据图像或文本调节我们的模型,以使用 CLIP 嵌入实现图像到 3D 生成和文本到 3D 生成。 此外,将噪声添加到现有形状的潜在代码中可以让我们探索形状变化。
- SinGRAF:学习单个场景的 3D 生成辐射场 | [code]
生成模型在合成逼真的 3D 对象方面显示出巨大的潜力,但它们需要大量的训练数据。 我们介绍了 SinGRAF,这是一种 3D 感知生成模型,使用单个场景的一些输入图像进行训练。 经过训练后,SinGRAF 会生成此 3D 场景的不同实现,在改变场景布局的同时保留输入的外观。 为此,我们以 3D GAN 架构的最新进展为基础,并在训练期间引入了一种新颖的渐进式补丁辨别方法。 通过几个实验,我们证明了 SinGRAF 产生的结果在质量和多样性方面都大大优于最接近的相关作品。
- NeAF:学习用于点法线估计的神经角度场, AAAI2023 |
[code]
非结构化点云的法线估计是 3D 计算机视觉中的一项重要任务。 当前的方法通过将局部补丁映射到法向量或使用神经网络学习局部表面拟合来取得令人鼓舞的结果。 然而,这些方法不能很好地推广到看不见的场景,并且对参数设置很敏感。 为了解决这些问题,我们提出了一个隐式函数来学习球坐标系中每个点法线周围的角度场,称为神经角度场(NeAF)。 我们不是直接预测输入点的法线,而是预测地面实况法线和随机采样的查询法线之间的角度偏移。 这种策略推动网络观察更多不同的样本,从而以更稳健的方式获得更高的预测精度。 为了在推理时从学习的角度场预测法线,我们在单位球形空间中随机采样查询向量,并将具有最小角度值的向量作为预测法线。 为了进一步利用 NeAF 学到的先验知识,我们建议通过最小化角度偏移来细化预测的法向量。 合成数据和真实扫描的实验结果显示,在广泛使用的基准下,与最先进的技术相比有了显着改进。
- SNAF:具有神经衰减场的稀疏视图 CBCT 重建 | [code]
锥形束计算机断层扫描(CBCT)已广泛应用于临床实践,尤其是牙科诊所,而捕获时X射线的辐射剂量一直是CBCT成像中长期关注的问题。 已经提出了几项研究工作来从稀疏视图 2D 投影重建高质量的 CBCT 图像,但目前最先进的技术存在伪影和缺乏精细细节的问题。 在本文中,我们提出了通过学习神经衰减场来进行稀疏视图 CBCT 重建的 SNAF,我们发明了一种新颖的视图增强策略来克服稀疏输入视图数据不足带来的挑战。 我们的方法在高重建质量(30+ PSNR)方面实现了卓越的性能,只有 20 个输入视图(比临床收集少 25 倍),优于最先进的技术。 我们进一步进行了综合实验和消融分析,以验证我们方法的有效性。
- NeRFInvertor:用于单次真实图像动画的高保真 NeRF-GAN 反演 | [code]
基于 Nerf 的生成模型在生成具有一致 3D 几何形状的高质量图像方面表现出了令人印象深刻的能力。 尽管成功合成了从潜在空间随机采样的假身份图像,但由于所谓的反转问题,采用这些模型生成真实主体的面部图像仍然是一项具有挑战性的任务。 在本文中,我们提出了一种通用方法来对这些 NeRF-GAN 模型进行微调,以便仅通过单个图像实现真实对象的高保真动画。 给定域外真实图像的优化潜代码,我们在渲染图像上使用 2D 损失函数来减少身份差距。 此外,我们的方法利用显式和隐式 3D 正则化,使用优化潜在代码周围的域内邻域样本来消除几何和视觉伪影。 我们的实验证实了我们的方法在跨不同数据集的多个 NeRF-GAN 模型上真实、高保真和 3D 一致的真实面孔动画的有效性。
- 使用 RGBXY 导数和最佳传输的可微分渲染, ToG2022 | [code]
传统的可微分渲染方法通常很难在逆渲染优化中收敛,尤其是当初始对象和目标对象位置不太接近时。 受拉格朗日流体模拟的启发,我们提出了一种新颖的可微分渲染方法来解决这个问题。 我们将每个屏幕空间像素与像素中心覆盖的可见 3D 几何点相关联,并计算几何点而不是像素的导数。 我们将关联的几何点称为像素的点代理。 对于每个点代理,我们计算其 5D RGBXY 导数,测量其 3D RGB 颜色和 2D 投影屏幕空间位置如何相对于场景参数发生变化。 此外,为了捕获全局和远程对象运动,我们利用基于最佳传输的像素匹配来设计更复杂的损失函数。 我们已经进行了实验来评估我们提出的方法在各种逆向渲染应用程序中的有效性,并证明了与最先进的基线相比更优越的收敛行为。
- 用于实时全局照明的高效光探测器, SIGGRAPH-Asia2022 | [code]
再现基于物理的全局照明 (GI) 效果一直是许多实时图形应用程序的长期需求。 为了实现这一目标,许多最近的引擎采用了在预计算阶段烘焙的某种形式的光探测器。 不幸的是,由于探针存储、表示或查询的限制,预计算探针产生的 GI 效果相当有限。 在本文中,我们提出了一种基于探针的 GI 渲染的新方法,该方法可以在复杂场景中生成广泛的 GI 效果,包括具有多次反弹的光泽反射。 我们工作背后的关键贡献包括基于梯度的搜索算法和神经图像重建方法。 搜索算法旨在将探针的内容重新投影到任何查询视点,而不会引入视差误差,并快速收敛到最优解。 基于专用神经网络和多个 G 缓冲区的神经图像重建方法试图从由于分辨率有限或(潜在的)探头采样率低而导致的低质量输入中恢复高质量图像。 这种神经方法使光探针的生成变得高效。 此外,采用时间重投影策略和时间损失来提高动画序列的时间稳定性。 由于基于梯度的搜索算法的快速收敛速度和神经网络的轻量级设计,即使对于高分辨率 (1920×1080) 输出,整个流水线也实时运行(>30 帧/秒)。 已经对多个复杂场景进行了广泛的实验,以证明我们的方法优于最先进的方法。
- LaplacianFusion:详细的 3D 衣服人体重建, SIGGRAPH-Asia2022 | [code]
我们提出了 LaplacianFusion,这是一种从输入深度或 3D 点云序列重建详细且可控的 3D 穿衣人体形状的新颖方法。 我们方法的关键思想是使用拉普拉斯坐标,即已用于网格编辑的众所周知的微分坐标,来表示输入扫描中包含的局部结构,而不是之前使用的隐式 3D 函数或顶点位移。 我们的方法使用 SMPL 重建一个可控的基础网格,并学习一个表面函数来预测表示基础网格表面细节的拉普拉斯坐标。 对于给定的姿势,我们首先构建并细分一个基础网格,这是一个变形的 SMPL 模板,然后使用表面函数估计网格顶点的拉普拉斯坐标。 姿势的最终重建是通过将估计的拉普拉斯坐标作为一个整体进行整合而获得的。 实验结果表明,我们基于拉普拉斯坐标的方法比以前的方法成功地重建了视觉上更令人愉悦的形状细节。 该方法还支持各种表面细节操作,例如细节传输和增强。
- QuadStream:一种用于新视点重建的基于 Quad 的场景流架构, ToG2022 | [code]
通过网络将渲染的 3D 内容流式传输到手机或 VR/AR 耳机等瘦客户端设备,将高保真图形带到通常由于热量、功率或成本限制而无法实现的平台。 流式 3D 内容必须以对延迟和潜在网络丢失都具有鲁棒性的表示形式进行传输。 在存在遮挡事件的情况下,传输视频流并重新投影以纠正不断变化的视点失败; 在功率有限的移动 GPU 上无法在客户端流式传输场景几何体和执行高质量渲染。 为了平衡消除遮挡稳健性和最小客户端工作量这两个相互竞争的目标,我们引入了 QuadStream,这是一种新的流媒体内容表示,它通过允许客户端有效地渲染新颖的视图而没有由消除遮挡事件引起的伪影来减少运动到光子的延迟。 受视频编解码器设计的传统宏块方法的启发,我们将从视图单元中的位置看到的场景分解为一系列四边形代理,或来自多个视图的视图对齐四边形。 通过在光栅化 G-Buffer 上操作,我们的方法独立于场景本身的表示; 生成的 QuadStream 是场景的近似几何表示,可以由瘦客户端重建以呈现当前视图和附近的相邻视图。 我们的技术贡献是一种有效的并行四边形生成、合并和打包策略,用于覆盖场景中潜在客户移动的代理视图; 一种打包和编码策略,允许将具有深度信息的掩码四边形作为帧相干流传输; 以及一种高效的渲染方法,用于将我们的 QuadStream 表示渲染为瘦客户端上的全新视图。 我们表明,与视频数据流方法和基于几何的流媒体相比,我们的方法实现了卓越的质量。
- DINER:基于深度感知图像的神经辐射场 | [code]
我们提出了基于深度感知图像的神经辐射场 (DINER)。 给定一组稀疏的 RGB 输入视图,我们预测深度和特征图以指导重建体积场景表示,使我们能够在新视图下渲染 3D 对象。 具体来说,我们提出了将深度信息纳入特征融合和高效场景采样的新技术。 与之前的最先进技术相比,DINER 实现了更高的合成质量,并且可以处理具有更大视差的输入视图。 这使我们能够在不改变捕获硬件要求的情况下更完整地捕获场景,并最终在新视图合成过程中实现更大的视点变化。 我们通过合成人头和一般物体的新视图来评估我们的方法,并观察到与以前的现有技术相比,定性结果有了显着改善,感知指标也有所增加。 该代码将公开用于研究目的。
- 从单目视频重建手持物体, SIGGRAPH-Asia2022 | [code]
本文提出了一种从单目视频中重建手持物体的方法。 与许多最近通过训练有素的网络直接预测对象几何形状的方法相比,所提出的方法不需要任何关于对象的先验知识,并且能够恢复更准确和详细的对象几何形状。 关键思想是手部运动自然地提供了对象的多个视图,并且可以通过手部姿势跟踪器可靠地估计该运动。 然后,可以通过解决多视图重建问题来恢复对象几何形状。 我们设计了一种基于隐式神经表示的方法来解决重建问题,并解决手部姿势估计不精确、手部相对运动和小物体的几何优化不足等问题。 我们还提供了一个新收集的具有 3D ground truth 的数据集来验证所提出的方法。 数据集和代码将发布在 https://dihuangdh.github.io/hhor。
- Dr.3D:将 3D GAN 应用于艺术绘画, SIGGRAPH-Asia2022 | [code]
虽然 3D GAN 最近展示了多视图一致图像和 3D 形状的高质量合成,但它们主要限于照片般逼真的人像。 本文旨在将 3D GAN 扩展到一种不同但有意义的视觉形式:艺术肖像画。 然而,由于绘图中存在不可避免的几何歧义,将现有的 3D GAN 扩展到绘图具有挑战性。 为了解决这个问题,我们提出了 Dr.3D,这是一种新颖的适应方法,可以将现有的 3D GAN 适应艺术绘画。 Dr.3D 配备了三个新组件来处理几何模糊:变形感知 3D 合成网络、姿势估计和图像合成的交替适应以及几何先验。 实验表明,我们的方法可以成功地将 3D GAN 应用于绘图,并实现多视图一致的绘图语义编辑。
- 用于交互式自由视点视频的高效神经辐射场, SIGGRAPH-Asia2022 | [code]
本文旨在解决高效制作交互式自由视点视频的挑战。 最近的一些工作为神经辐射场配备了图像编码器,使它们能够跨场景进行泛化。 在处理动态场景时,他们可以简单地将每个视频帧视为一个单独的场景,并进行新颖的视图合成以生成自由视点视频。 但是,它们的渲染过程很慢,不能支持交互式应用程序。 一个主要因素是他们在推断辐射场时在空白空间中采样大量点。 我们提出了一种称为 ENeRF 的新颖场景表示,用于快速创建交互式自由视点视频。 具体来说,给定一帧的多视图图像,我们首先构建级联成本量来预测场景的粗略几何形状。 粗糙的几何体允许我们在场景表面附近采样几个点,从而显着提高渲染速度。 这个过程是完全可微的,使我们能够从 RGB 图像中共同学习深度预测和辐射场网络。 对多个基准的实验表明,我们的方法表现出有竞争力的性能,同时比以前的可推广辐射场方法至少快 60 倍。
- NeuLighting:使用不受约束的照片集重新照明的自由视点户外场景的神经照明, SIGGRAPH-Asia2022 | [code]
我们提出了 NeuLighting,这是一个新的框架,用于从一组稀疏的、不受约束的野外照片集中重新照明自由视点户外场景。 我们的框架将所有场景组件表示为由 MLP 参数化的连续函数,这些函数将 3D 位置和照明条件作为输入和输出反射率以及必要的室外照明属性。 与通常利用具有可控且一致的室内照明的训练图像的对象级重新照明方法不同,我们专注于更具挑战性的室外情况,其中所有图像都是在任意未知照明下捕获的。 我们方法的关键包括将每幅图像的光照压缩为解缠结的潜在向量的神经光照表示,以及一种新的自由视点重新光照方案,该方案对图像间的任意光照变化具有鲁棒性。 光照表示具有压缩性,可以解释各种光照,并且可以很容易地输入到基于查询的 NeuLighting 框架中,从而能够在任何一种新型光照下进行高效的阴影效果评估。 此外,为了产生高质量的投射阴影,我们根据场景几何形状和太阳方向估计太阳能见度图以指示阴影区域。 由于灵活且可解释的神经照明表示,我们的系统支持使用许多不同的照明源进行户外重新照明,包括自然图像、环境地图和延时视频。 新视角和照明下的高保真渲染证明了我们的方法相对于最先进的重新照明解决方案的优越性。
- 用于全频着色的轻量级神经基函数, SIGGRAPH-Asia2022 | [code]
基函数既提供了紧凑表示的能力,又提供了高效计算的特性。 因此,它们普遍用于渲染以执行全频着色。 然而,包括球谐函数 (SH)、小波和球面高斯函数 (SG) 在内的常用基函数都有其自身的局限性,例如 SH 的低频、小波的旋转不变性以及 SG 不支持多乘积等。 在本文中,我们提出了神经基函数,这是一组隐式和数据驱动的基函数,它规避了所有所需属性的限制。 我们首先引入了一个表示神经网络,它将任何一般的 2D 球面函数(例如环境光照、BRDF 和可见性)作为输入并将其投影到潜在空间上作为我们的神经基函数的系数。 然后,我们设计了几个执行不同类型计算的轻量级神经网络,为我们的基函数提供了不同的计算属性,例如双/三乘积积分和旋转。 我们通过将神经基函数集成到全频着色应用程序中来展示我们的神经基函数的实用性,表明我们的方法不仅在同等质量下实现了比小波高 10 × -40 × 的压缩率,而且还渲染了全频 实时照明效果,没有上述经典基础功能的限制。
- DeepMVSHair:来自稀疏视图的深层头发建模, SIGGRAPH-Asia2022 | [code]
我们提出了 DeepMVSHair,这是第一个基于深度学习的多视图发束重建方法。 我们管道的关键组件是 HairMVSNet,这是一种可区分的神经架构,它将空间头发结构隐含地表示为连续的 3D 头发生长方向场。 具体来说,给定一个 3D 查询点,我们根据观察到的 2D 结构特征确定其占用值和方向。 利用来自每个输入视图的查询点的像素对齐特征,我们利用视图感知转换器编码器将各向异性结构特征聚合为集成表示,该表示被解码以在查询点产生 3D 占用和方向。 HairMVSNet 有效地收集多视图头发结构特征并基于这种隐式表示保留高频细节。 在 HairMVSNet 的指导下,我们的头发生长算法产生的结果忠实于输入的多视图图像。 我们提出了一种新颖的图像引导多视图链变形算法,以进一步丰富建模细节。 大量实验表明,我们的稀疏视图方法的结果与最先进的密集多视图方法的结果相当,并且明显优于单视图和稀疏视图方法的结果。 此外,我们的方法比以前的多视图头发建模方法快一个数量级。
- 一种轻松教授变形金刚多视图几何的方法 | [code]
变形金刚是强大的视觉学习者,这在很大程度上是因为它们明显缺乏手动指定的先验。 由于 3D 形状和视点的近乎无限可能的变化(需要灵活性)以及射影几何的精确性质(遵守刚性法则),这种灵活性在涉及多视图几何的任务中可能会出现问题。 为了解决这个难题,我们提出了一种“轻触”方法,引导视觉变形金刚学习多视图几何,但允许它们在需要时摆脱束缚。 我们通过使用极线来引导 Transformer 的交叉注意力图来实现这一点,惩罚极线外的注意力值并鼓励沿着这些线的更高注意力,因为它们包含几何上合理的匹配。 与以前的方法不同,我们的建议在测试时不需要任何相机姿势信息。 我们专注于姿势不变的对象实例检索,由于查询和检索图像之间的视点存在巨大差异,因此标准 Transformer 网络在这方面存在困难。 在实验上,我们的方法在对象检索方面优于最先进的方法,而且在测试时不需要姿势信息。
- Fast-SNARF:一种用于关节神经场的快速变形器 | [code]
神经场彻底改变了刚性场景的 3D 重建和新颖视图合成领域。 使这种方法适用于关节物体(例如人体)的一个关键挑战是对静止姿势(规范空间)和变形空间之间的 3D 位置的变形进行建模。 我们提出了一种新的神经场连接模块 Fast-SNARF,它通过迭代求根找到规范空间和姿势空间之间的准确对应关系。 Fast-SNARF 是我们之前工作 SNARF 功能的直接替代品,同时显着提高了其计算效率。 我们对 SNARF 进行了多项算法和实现改进,产生了 150 倍的加速。 这些改进包括基于体素的对应搜索、预计算线性混合蒙皮函数以及使用 CUDA 内核的高效软件实现。 Fast-SNARF 可以在没有对应的变形观察(例如 3D 网格)的情况下,高效地同时优化形状和蒙皮权重。 由于变形图的学习是许多 3D 人体化身方法中的重要组成部分,并且由于 Fast-SNARF 提供了一种计算高效的解决方案,我们相信这项工作代表了向实际创建 3D 虚拟人迈出的重要一步。
- NeRF 在 360° 图像上的非均匀采样策略, BMVC2022 | [code]
近年来,随着神经辐射场 (NeRF) 的出现,使用透视图像进行新视图合成的性能得到了显着提高。 本研究提出了两种有效构建 360{\textdegree} 全向图像 NeRF 的新技术。 由于ERP格式的360{\textdegree}图像在高纬度地区存在空间畸变和360{\textdegree}广视角的特点,NeRF的一般光线采样策略是无效的。 因此,NeRF 的视图合成精度有限,学习效率不高。 我们为 NeRF 提出了两种非均匀光线采样方案以适应 360{\textdegree} 图像——失真感知光线采样和内容感知光线采样。 我们分别使用室内和室外场景的 Replica 和 SceneCity 模型创建了评估数据集 Synth360。 在实验中,我们表明我们的提议在准确性和效率方面都成功地构建了 360{\textdegree} 图像 NeRF。 该提案广泛适用于 NeRF 的高级变体。 DietNeRF、AugNeRF 和 NeRF++ 结合所提出的技术进一步提高了性能。 此外,我们展示了我们提出的方法提高了 360{\textdegree} 图像中真实世界场景的质量。 Synth360:这个 https 网址。
- 通过伪多视图优化的高保真 3D GAN 反演 |
[code]
我们提出了一个高保真 3D 生成对抗网络 (GAN) 反演框架,可以在保留输入图像的特定细节的同时合成逼真的新视图。 由于高保真 3D 反演中的几何纹理权衡,高保真 3D GAN 反演本质上具有挑战性,其中对单个视图输入图像的过度拟合通常会在潜在优化期间损坏估计的几何形状。 为了解决这一挑战,我们提出了一种新的管道,它建立在具有可见性分析的伪多视图估计之上。 我们保留可见部分的原始纹理,并对被遮挡的部分使用生成先验。 广泛的实验表明,我们的方法比最先进的方法实现了有利的重建和新颖的视图合成质量,即使对于具有分布外纹理的图像也是如此。 拟议的管道还支持使用反向潜代码和 3D 感知纹理修改进行图像属性编辑。 我们的方法可以从单个图像进行高保真 3D 渲染,这有望用于 AI 生成的 3D 内容的各种应用。
- ResNeRF:用于室内场景新视图合成的几何引导残余神经辐射场 | [code]
我们代表 ResNeRF,这是一种用于室内场景新颖视图合成的新颖几何引导两阶段框架。请注意,良好的几何形状将极大地提高新视图合成的性能,并且为了避免几何模糊问题,我们建议基于从场景几何形状估计的基本密度和参数化的残差密度来表征场景的密度分布几何。在第一阶段,我们专注于基于 SDF 表示的几何重建,这将导致场景的良好几何表面和清晰的密度。在第二阶段,残差密度是基于第一阶段学习的SDF来学习的,用于编码更多关于外观的细节。通过这种方式,我们的方法可以更好地学习具有几何先验的密度分布,用于高保真新视图合成,同时保留 3D 结构。在具有许多观察较少和无纹理区域的大型室内场景上进行的实验表明,凭借良好的 3D 表面,我们的方法实现了新视图合成的最先进性能。
- RUST:来自未定图像的潜在神经场景表示 | [code]
从 2D 观察中推断 3D 场景的结构是计算机视觉中的一项基本挑战。最近流行的基于神经场景表示的方法已经取得了巨大的影响,并已应用于各种应用程序。这个领域剩下的主要挑战之一是训练一个单一的模型,它可以提供潜在的表示,有效地泛化到单个场景之外。 Scene Representation Transformer (SRT) 在这个方向上显示出希望,但将其扩展到更大的不同场景集是具有挑战性的,并且需要准确定位的地面实况数据。为了解决这个问题,我们提出了 RUST(Really Unposed Scene representation Transformer),这是一种仅在 RGB 图像上训练的新颖视图合成的无姿势方法。我们的主要见解是,可以训练一个姿势编码器,它可以窥视目标图像并学习潜在姿势嵌入,解码器将其用于视图合成。我们对学习到的潜在姿势结构进行了实证研究,并表明它允许有意义的测试时间相机转换和准确的显式姿势读出。或许令人惊讶的是,RUST 实现了与获得完美相机姿势的方法相似的质量,从而释放了大规模训练摊销神经场景表示的潜力。
- 通过神经渲染的无监督连续语义适应 | [code]
越来越多的应用程序依赖于数据驱动模型,这些模型被部署用于跨一系列场景的感知任务。由于训练和部署数据之间的不匹配,在新场景上调整模型对于获得良好性能通常至关重要。在这项工作中,我们研究了语义分割任务的持续多场景适应,假设在部署期间没有可用的地面实况标签,并且应该保持先前场景的性能。我们建议通过融合分割模型的预测,然后使用视图一致的渲染语义标签作为伪标签来调整模型,为每个场景训练一个语义 NeRF 网络。通过与分割模型的联合训练,Semantic-NeRF 模型有效地实现了 2D-3D 知识迁移。此外,由于其紧凑的尺寸,它可以存储在长期记忆中,随后用于从任意角度渲染数据以减少遗忘。我们在 ScanNet 上评估了我们的方法,我们的方法优于基于体素的基线和最先进的无监督域适应方法。
- ShadowNeuS:Shadow Ray 监督的神经 SDF 重建 | [code]
通过监督场景和多视图图像平面之间的相机光线,NeRF 为新视图合成任务重建神经场景表示。另一方面,光源和场景之间的阴影光线还有待考虑。因此,我们提出了一种新颖的阴影射线监督方案,可以优化沿射线的样本和射线位置。通过监督阴影光线,我们在多种光照条件下成功地从单视图纯阴影或 RGB 图像重建场景的神经 SDF。给定单视图二进制阴影,我们训练神经网络重建不受相机视线限制的完整场景。通过进一步模拟图像颜色和阴影光线之间的相关性,我们的技术还可以有效地扩展到 RGB 输入。我们将我们的方法与之前关于从单视图二值阴影或 RGB 图像重建形状的挑战性任务的工作进行比较,并观察到显着的改进。代码和数据将被发布。
- 动态神经肖像, WACV2023 | [code]
我们提出了动态神经肖像,这是一种解决全头重现问题的新方法。我们的方法通过明确控制头部姿势、面部表情和眼睛注视来生成逼真的视频肖像。我们提出的架构不同于现有方法,后者依赖基于 GAN 的图像到图像转换网络将 3D 人脸渲染转换为逼真的图像。相反,我们在具有可控动力学的基于 2D 坐标的 MLP 上构建我们的系统。我们采用基于 2D 的表示而不是最近的 3D 类 NeRF 系统的直觉源于这样一个事实,即视频肖像是由单目固定摄像机拍摄的,因此,只有一个场景的视点可用。首先,我们将我们的生成模型设置为表达式混合形状,尽管如此,我们表明我们的系统也可以成功地由音频功能驱动。我们的实验表明,所提出的方法比最近基于 NeRF 的重演方法快 270 倍,我们的网络在分辨率高达 1024 x 1024 时达到 24 fps 的速度,同时在视觉质量方面优于之前的工作。
- ScanNeRF:神经辐射场的可扩展基准, WACV2023 | [code]
在本文中,我们提出了第一个用于评估神经辐射场 (NeRF) 和一般情况下的神经渲染 (NR) 框架的真实基准思想。我们设计并实施了一个有效的管道,可以毫不费力地扫描大量真实物体。我们的扫描站的硬件预算不到 500 美元,仅需 5 分钟即可收集大约 4000 张扫描对象的图像。这样的平台用于构建 ScanNeRF,这是一个以多个训练/验证/测试拆分为特征的数据集,旨在对现代 NeRF 方法在不同条件下的性能进行基准测试。因此,我们评估了三个尖端的 NeRF 变体,以突出它们的优点和缺点。该数据集可在我们的项目页面上找到,还有一个在线基准,以促进开发越来越好的 NeRF。
- DiffusionSDF:有符号距离函数的条件生成模型 | [code]
概率扩散模型在图像合成、修复和文本到图像任务方面取得了最先进的结果。然而,它们仍处于生成复杂 3D 形状的早期阶段。这项工作提出了 DiffusionSDF,一种用于形状补全、单视图重建和真实扫描点云重建的生成模型。我们使用神经符号距离函数 (SDF) 作为我们的 3D 表示,通过神经网络参数化各种信号(例如,点云、2D 图像)的几何形状。神经 SDF 是隐式函数,扩散它们相当于学习它们的神经网络权重的反转,我们使用自定义调制模块解决了这个问题。广泛的实验表明,我们的方法能够从部分输入进行现实的无条件生成和条件生成。这项工作将扩散模型的领域从学习 2D 显式表示扩展到 3D 隐式表示。
- 沉浸式神经图形基元 | [code]
神经辐射场 (NeRF),特别是它通过即时神经图形基元的扩展,是一种用于视图合成的新型渲染方法,它使用真实世界的图像来构建照片般逼真的沉浸式虚拟场景。尽管有潜力,但关于 NeRF 和虚拟现实 (VR) 结合的研究仍然很少。目前,还没有集成到可用的典型 VR 系统中,并且尚未评估 NeRF 实现的 VR 性能和适用性,例如,针对不同的场景复杂性或屏幕分辨率。在本文中,我们提出并评估了一个基于 NeRF 的框架,该框架能够在沉浸式 VR 中渲染场景,允许用户自由移动头部来探索复杂的现实世界场景。我们通过对三个不同的 NeRF 场景进行基准测试来评估我们的框架,这些场景涉及它们在不同场景复杂性和分辨率下的渲染性能。利用超分辨率,我们的方法可以产生每秒 30 帧的帧速率,每只眼睛的分辨率为 1280x720 像素。我们讨论了我们框架的潜在应用,并在线提供了一个开源实现。
- BAD-NeRF:束调整的去模糊神经辐射场 | [code]
神经辐射场 (NeRF) 最近受到了相当大的关注,因为它在给定一组姿势相机图像的情况下,在逼真的 3D 重建和新颖的视图合成方面具有令人印象深刻的能力。早期的工作通常假设输入图像质量很好。然而,图像退化(例如低光条件下的图像运动模糊)在现实场景中很容易发生,这将进一步影响 NeRF 的渲染质量。在本文中,我们提出了一种新颖的束调整去模糊神经辐射场 (BAD-NeRF),它可以对严重的运动模糊图像和不准确的相机姿势具有鲁棒性。我们的方法对运动模糊图像的物理图像形成过程进行建模,并联合学习 NeRF 的参数并恢复曝光时间内的相机运动轨迹。在实验中,我们表明,通过直接对真实物理图像形成过程进行建模,BAD-NeRF 在合成数据集和真实数据集上都实现了优于先前工作的性能。
- Peekaboo:文本到图像扩散模型是零样本分割器 | [code]
最近基于扩散的生成模型与视觉语言模型相结合,能够根据自然语言提示创建逼真的图像。虽然这些模型是在大型互联网规模的数据集上训练的,但这种预训练模型并没有直接引入任何语义定位或基础。大多数当前的定位或接地方法都依赖于边界框或分割掩码形式的人工注释定位信息。例外是一些无监督方法,它们利用面向本地化的体系结构或损失函数,但它们需要单独训练。在这项工作中,我们探索了现成的扩散模型,在没有接触此类定位信息的情况下进行训练,如何能够在没有特定于分段的重新训练的情况下建立各种语义短语。引入了推理时间优化过程,能够生成以自然语言为条件的分割掩码。我们评估了我们在 Pascal VOC 数据集上进行无监督语义分割的提案 Peekaboo。此外,我们评估了 RefCOCO 数据集上的引用分割。总之,我们提出了第一个零样本、开放词汇、无监督(无定位信息)、语义基础技术,利用基于扩散的生成模型,无需重新训练。我们的代码将公开发布。
- OReX:使用神经场从 Planner 横截面重建对象 | [code]
从平面横截面重建 3D 形状是一项受到医学成像和地理信息学等下游应用启发的挑战。输入是在空间平面的稀疏集合上完全定义的输入/输出指示函数,输出是指示函数对整个体积的插值。以前解决这个稀疏和病态问题的工作要么产生低质量的结果,要么依赖于额外的先验,例如目标拓扑、外观信息或输入法线方向。在本文中,我们介绍了 OReX,一种仅从切片重建 3D 形状的方法,以神经场作为插值先验。在输入平面上训练一个简单的神经网络以接收 3D 坐标并返回查询点的内部/外部估计。这个先验在诱导平滑性和自相似性方面很有用。这种方法的主要挑战是高频细节,因为神经先验过度平滑。为了缓解这种情况,我们提供了一种迭代估计架构和一种分层输入采样方案,鼓励从粗到精的训练,允许在后期阶段关注高频。此外,我们识别并分析了源自网格提取步骤的常见波纹状效果。我们通过调整输入输入/输出边界周围指示函数的空间梯度来缓解它,从根本上解决问题。
- PANeRF:基于少样本输入的改进神经辐射场的伪视图增强 | [code]
近年来开发了神经辐射场 (NeRF) 方法,该技术在合成复杂场景的新视图方面具有广阔的应用前景。然而,NeRF 需要密集的输入视图,通常有数百个,以生成高质量图像。随着输入视图数量的减少,NeRF 对未见视点的渲染质量趋于急剧下降。为了克服这一挑战,我们提出了 NeRF 的伪视图增强,该方案通过考虑少镜头输入的几何形状来扩展足够数量的数据。我们首先通过利用扩展的伪视图来初始化 NeRF 网络,这可以有效地减少渲染看不见的视图时的不确定性。随后,我们通过使用包含精确几何和颜色信息的稀疏视图输入来微调网络。通过各种设置下的实验,我们验证了我们的模型忠实地合成了高质量的新视图图像,并且优于现有的多视图数据集方法。
- ActiveRMAP:用于主动映射和规划的辐射场 | [code]
通过离线/在线映射方法,可以从一组 2D 图像中对场景进行高质量的 3D 重建。在本文中,我们从隐式表示的角度探索主动映射,最近在各种应用中产生了令人信服的结果。最流行的隐式表示之一——神经辐射场 (NeRF),首先展示了使用多层感知器的照片级真实感渲染结果,并将有前途的离线 3D 重建作为辐射场的副产品。最近,研究人员还将这种隐式表示应用于在线重建和定位(即隐式 SLAM 系统)。然而,将隐式表示用于主动视觉任务的研究仍然非常有限。在本文中,我们对将神经辐射场应用于主动映射和规划问题特别感兴趣,这些问题是主动系统中紧密耦合的任务。我们首次提出了一个仅使用 RGB 的主动视觉框架,该框架使用辐射场表示以在线方式进行主动 3D 重建和规划。具体来说,我们将此联合任务制定为迭代双阶段优化问题,我们交替优化辐射场表示和路径规划。实验结果表明,与其他离线方法相比,所提出的方法取得了有竞争力的结果,并且优于使用 NeRF 的主动重建方法。
- 零 NeRF:零重叠注册 | [code]
我们提出了零 NeRF,这是一种投影表面配准方法,据我们所知,它提供了第一个能够在具有最小或零视觉对应的场景表示之间对齐的通用解决方案。为此,我们加强了部分和完整重建的可见表面之间的一致性,这使我们能够约束被遮挡的几何体。我们使用 NeRF 作为我们的表面表示和 NeRF 渲染管道来执行此对齐。为了证明我们方法的有效性,我们从对面的现实世界场景中注册了无法使用现有方法准确注册的无限小重叠,并将这些结果与广泛使用的注册方法进行了比较。
- FLNeRF:神经辐射场中的 3D 面部地标估计 | [code]
本文介绍了在不使用 2D 图像、深度图或点云等中间表示的情况下直接预测神经辐射场 (NeRF) 上的 3D 面部地标的第一项重要工作。我们的 3D 从粗到细的人脸地标 NeRF (FLNeRF) 模型有效地从整个面部的 NeRF 中采样,并具有个人面部特征以获得准确的地标。为了缓解可用数据中面部表情的有限数量,局部和非线性 NeRF 扭曲被应用于精细的面部特征以模拟大范围的情绪,包括夸张的面部表情(例如,吹脸颊、张大嘴巴、眨眼) ), 用于训练 FLNeRF。通过这种表达增强,我们的模型可以预测 3D 地标,而不仅限于数据中给出的 20 个离散表达。强大的 3D NeRF 面部标志有助于许多下游任务。例如,我们修改 MoFaNeRF 以在 NeRF 上使用面部特征点启用高质量的面部编辑和交换,从而允许更直接的控制和更广泛的复杂表情。实验表明,使用地标的改进模型取得了相当好的结果。
- SPARF:来自稀疏和嘈杂姿势的神经辐射场 | [code]
神经辐射场 (NeRF) 最近已成为合成逼真新颖视图的有力代表。虽然表现出令人印象深刻的性能,但它依赖于具有高精度相机姿势的密集输入视图的可用性,从而限制了其在现实场景中的应用。在这项工作中,我们引入了稀疏姿态调整辐射场 (SPARF),以应对仅在少量宽基线输入图像(低至 3 张)且相机姿态嘈杂的情况下进行新视图合成的挑战。我们的方法利用多视图几何约束来共同学习 NeRF 并改进相机姿势。通过依赖于输入视图之间提取的像素匹配,我们的多视图对应目标强制优化场景和相机姿势以收敛到全局和几何精确的解决方案。我们的深度一致性损失进一步鼓励重建的场景从任何角度来看都是一致的。我们的方法在多个具有挑战性的数据集的稀疏视图机制中设置了一个新的技术状态。
- Tensor4D:用于高保真动态重建和渲染的高效神经 4D 分解 | [code]
我们介绍了 Tensor4D,这是一种高效而有效的动态场景建模方法。我们解决方案的关键是一种高效的 4D 张量分解方法,使动态场景可以直接表示为 4D 时空张量。为了解决伴随的内存问题,我们首先将 4D 张量投影到三个时间感知体积,然后是九个紧凑的特征平面,从而分层分解 4D 张量。通过这种方式,可以以紧凑且高效的方式同时捕获随时间变化的空间信息。当应用 Tensor4D 进行动态场景重建和渲染时,我们进一步将 4D 场分解为不同的尺度,以便从粗到细学习结构运动和动态细节变化。我们的方法的有效性在合成场景和真实场景中都得到了验证。大量实验表明,我们的方法能够从稀疏视图摄像机装置甚至单目摄像机实现高质量的动态重建和渲染。代码和数据集将在此 https URL 上发布。
- NeRF-RPN:NeRF 中对象检测的通用框架 | [code]
本文介绍了第一个重要的目标检测框架 NeRF-RPN,它直接在 NeRF 上运行。给定预训练的 NeRF 模型,NeRF-RPN 旨在检测场景中对象的所有边界框。通过利用包含多尺度 3D 神经体积特征的新型体素表示,我们证明可以直接回归 NeRF 中对象的 3D 边界框,而无需在任何视点渲染 NeRF。 NeRF-RPN 是一个通用框架,可用于检测没有类标签的对象。我们用各种骨干架构、RPN 头部设计和损失函数对 NeRF-RPN 进行了实验。所有这些都可以以端到端的方式进行训练,以估计高质量的 3D 边界框。为了促进 NeRF 对象检测的未来研究,我们构建了一个新的基准数据集,其中包含经过仔细标记和清理的合成数据和真实数据。请单击此 https URL 以可视化我们的 NeRF-RPN 的 3D 区域提案。代码和数据集将可用。
- 束调整神经辐射场的局部到全局配准 |
[code]
Neural Radiance Fields (NeRF) 实现了逼真的新视图合成;然而,精确相机位姿的要求限制了它的应用。尽管存在用于联合学习神经 3D 表示和注册相机帧的分析综合扩展,但如果初始化不当,它们很容易受到次优解决方案的影响。我们提出了 L2G-NeRF,这是一种用于束调整神经辐射场的局部到全局配准方法:首先,逐像素灵活对齐,然后逐帧约束参数对齐。通过优化光度重建误差的深度网络以无监督的方式学习逐像素局部对齐。使用可微分参数估计求解器对逐像素对应执行逐帧全局对齐以找到全局变换。对合成数据和真实世界数据的实验表明,我们的方法在高保真重建和解决大型相机姿态失调方面优于当前最先进的方法。我们的模块是一个易于使用的插件,可以应用于 NeRF 变体和其他神经领域应用程序。此 https URL 提供了代码和补充材料。
- SegNeRF:具有神经辐射场的 3D 部分分割 | [code]
神经辐射场 (NeRF) 的最新进展在生成任务(如新视图合成和 3D 重建)方面表现出色。基于神经辐射场的方法能够通过完全依赖姿势图像隐含地表示 3D 世界。然而,它们很少在 3D 零件分割等判别任务领域进行探索。在这项工作中,我们试图通过提出 SegNeRF 来弥合这一差距:一种将语义场与通常的辐射场集成在一起的神经场表示。 SegNeRF 继承了之前作品执行新视图合成和 3D 重建的能力,并能够从少量图像中进行 3D 部分分割。我们在 PartNet 上进行的广泛实验表明,SegNeRF 能够同时预测来自摆姿势图像的几何形状、外观和语义信息,即使对于看不见的物体也是如此。预测的语义场允许 SegNeRF 实现 2D 新视图分割的平均 mIoU 为 30.30%,3D 部分分割的平均 mIoU 为 37.46%,与基于点的方法相比,仅使用少量姿势图像具有竞争力的性能。此外,SegNeRF 能够从野外拍摄的物体的单个图像及其相应的部分分割生成显式 3D 模型。
- 通过 Bootstrapped Radiance Field Inversion 从单个图像中获取形状、姿势和外观 | [code]
神经辐射场 (NeRF) 与 GAN 相结合代表了从单一视图进行 3D 重建领域的一个有前途的方向,因为它们能够有效地对任意拓扑进行建模。然而,该领域最近的工作主要集中在已知确切地面真实姿势的合成数据集上,而忽略了姿势估计,这对于某些下游应用程序(例如增强现实 (AR) 和机器人技术)很重要。我们为自然图像引入了一个有原则的端到端重建框架,其中没有准确的地面真实姿势。我们的方法从对象的单个图像中恢复 SDF 参数化的 3D 形状、姿势和外观,而无需在训练期间利用多个视图。更具体地说,我们利用无条件 3D 感知生成器,我们对其应用混合反演方案,在该方案中,模型会产生对解决方案的初步猜测,然后通过优化对其进行细化。我们的框架可以在短短 10 步内对图像进行反渲染,使其能够在实际场景中使用。我们在各种真实和综合基准测试中展示了最先进的结果。
- 恢复神经隐式表面重建的精细细节 | [code]
最近关于隐式神经表征的工作取得了重大进展。使用体绘制学习隐式神经表面在没有 3D 监督的多视图重建中得到了普及。然而,由于几何和外观表示的潜在模糊性,准确地恢复精细细节仍然具有挑战性。在本文中,我们提出了 D-NeuS,一种能够恢复精细几何细节的基于体积渲染的神经隐式表面重建方法,它通过两个额外的损失函数扩展了 NeuS,旨在提高重建质量。首先,我们鼓励来自 alpha 合成的渲染表面点具有零符号距离值,从而减轻将 SDF 转换为体积渲染密度所产生的几何偏差。其次,我们在表面点上施加多视图特征一致性,这是通过沿射线从采样点插值 SDF 零交叉得出的。广泛的定量和定性结果表明,我们的方法重建了具有细节的高精度表面,并且优于现有技术。
- Neural Puppeteer:基于关键点的动态形状神经渲染, ACCV2022 |
[code]
我们介绍了 Neural Puppeteer,这是一种用于铰接形状的高效神经渲染管道。通过逆向渲染,我们可以单独从多视图 2D 轮廓预测 3D 关键点,而不需要纹理信息。此外,我们可以使用一个相同的训练模型轻松预测同一类形状的 3D 关键点,并更容易地从合成数据的训练中进行概括,我们通过成功地将零样本合成应用于现实世界的实验来证明这一点。我们通过将模型拟合到不同动物和人类的合成视频来展示我们方法的灵活性,并获得优于我们基线的定量结果。我们的方法将 3D 关键点与各个局部特征向量和全局潜在代码结合使用,以有效表示时变和铰接的形状,例如人类和动物。与之前的工作相比,我们不在 3D 域中进行重建,而是将 3D 特征投影到 2D 相机中,并根据这些投影特征对 2D RGB-D 图像进行重建,这比体积渲染要快得多。我们的合成数据集将公开可用,以进一步发展不断发展的动物姿势和形状重建领域。
- DynIBaR:基于神经动态图像的渲染, - | [code]
我们解决了从描述复杂动态场景的单目视频中合成新视图的问题。基于随时间变化的神经辐射场(又名动态 NeRF)的最先进方法已在该任务上显示出令人印象深刻的结果。然而,对于具有复杂物体运动和不受控制的摄像机轨迹的长视频,这些方法可能会产生模糊或不准确的渲染,从而阻碍它们在现实世界中的应用。我们提出了一种新方法来解决这些限制,而不是在 MLP 的权重内对整个动态场景进行编码,方法是采用基于体积图像的渲染框架,该框架通过以场景运动感知方式聚合附近视图的特征来合成新视点.我们的系统保留了先前方法在建模复杂场景和视图相关效果方面的优势,而且还能够从具有复杂场景动态和不受约束的相机轨迹的长视频中合成照片般逼真的新颖视图。我们展示了对动态场景数据集的最先进方法的显着改进,并将我们的方法应用于具有挑战性相机和物体运动的野外视频,在这些视频中,先前的方法无法产生高质量的渲染。我们的项目网页位于此 http URL。
- 折射物体的神经辐射场采样, SIGGRAPH-Asia2022 |
[code]
最近,神经辐射场 (NeRF) 中的可微分体绘制得到了广泛的关注,其变体取得了许多令人印象深刻的结果。然而,现有的方法通常假设场景是一个均匀的体积,因此光线沿着直线路径投射。在这项工作中,场景是一个具有分段恒定折射率的异质体积,如果它与不同的折射率相交,路径将弯曲。对于折射物体的新视图合成,我们基于 NeRF 的框架旨在从具有折射物体轮廓的多视图姿势图像中优化有界体积和边界的辐射场。为了解决这个具有挑战性的问题,场景的折射率是从轮廓中重建的。给定折射率,我们扩展了 NeRF 中的分层和分层采样技术,以允许沿着由 Eikonal 方程跟踪的弯曲路径绘制样本。结果表明,我们的框架在数量和质量上都优于最先进的方法,在感知相似性度量上表现出更好的性能,并且在几个合成和真实场景的渲染质量上有明显改善。
- 大尺度室内场景实时全向漫游, SIGGRAPH-Asia2022 | [code]
神经辐射场 (NeRF) 最近在新视图合成方面取得了令人瞩目的成果。然而,之前关于 NeRF 的工作主要集中在以对象为中心的场景。由于位置编码容量有限,它们在面向外的和大规模场景中会遭受明显的性能下降。为了缩小差距,我们以几何感知的方式探索辐射场。我们从从多个 360° 图像中学习的全向神经辐射场估计显式几何。依靠恢复的几何形状,我们使用自适应分而治之的策略来缩小和微调辐射场,进一步提高渲染速度和质量。基线之间的定量和定性比较说明了我们在大型室内场景中的主要性能,并且我们的系统支持实时 VR 漫游。
- Magic3D:高分辨率文本到 3D 内容创建 | [code]
DreamFusion 最近展示了预训练的文本到图像扩散模型在优化神经辐射场 (NeRF) 方面的实用性,实现了卓越的文本到 3D 合成结果。然而,该方法有两个固有的局限性:(a) NeRF 的优化极其缓慢和 (b) NeRF 上的低分辨率图像空间监督,导致处理时间长的低质量 3D 模型。在本文中,我们通过使用两阶段优化框架来解决这些限制。首先,我们使用低分辨率扩散先验获得粗糙模型,并使用稀疏 3D 哈希网格结构进行加速。使用粗略表示作为初始化,我们进一步优化了带纹理的 3D 网格模型,该模型具有与高分辨率潜在扩散模型交互的高效可微分渲染器。我们的方法被称为 Magic3D,可以在 40 分钟内创建高质量的 3D 网格模型,比 DreamFusion 快 2 倍(据报道平均需要 1.5 小时),同时还实现了更高的分辨率。用户研究表明 61.7% 的评分者更喜欢我们的方法而不是 DreamFusion。连同图像调节生成功能,我们为用户提供了控制 3D 合成的新方法,为各种创意应用开辟了新途径。
- AligNeRF:通过对齐感知训练的高保真神经辐射场 | [code]
神经辐射场 (NeRF) 是将 3D 场景建模为连续函数的强大表示。尽管 NeRF 能够渲染具有视图相关效果的复杂 3D 场景,但很少有人致力于探索其在高分辨率设置中的局限性。具体来说,现有的基于 NeRF 的方法在重建高分辨率真实场景时面临着一些限制,包括大量的参数、未对齐的输入数据和过度平滑的细节。在这项工作中,我们对使用高分辨率数据训练 NeRF 进行了首次试点研究,并提出了相应的解决方案:1)将多层感知器(MLP)与卷积层结合,可以编码更多的邻域信息,同时减少参数总数; 2) 一种新的训练策略来解决由移动物体或小相机校准误差引起的未对准问题; 3)高频感知损失。我们的方法几乎是免费的,没有引入明显的训练/测试成本,而在不同数据集上的实验表明,与当前最先进的 NeRF 模型相比,它可以恢复更多的高频细节。项目页面:\url{此 https URL。}
- 3DLatNav:导航用于语义感知 3D 对象操作的生成潜在空间 | [code]
3D 生成模型最近成功地以点云的形式生成逼真的 3D 对象。然而,大多数模型在没有广泛的语义属性标签或其他参考点云的情况下不提供操纵组件对象部分的形状语义的可控性。此外,除了执行简单的潜在向量运算或插值的能力之外,还缺乏对 3D 形状的部分级语义如何在其相应的生成潜在空间中进行编码的理解。在本文中,我们提出了 3DLatNav;一种导航预训练生成潜在空间以实现 3D 对象的受控部分级语义操作的新方法。首先,我们提出了一种使用 3D 形状的潜在表示的部分级弱监督形状语义识别机制。然后,我们将该知识转移到预训练的 3D 对象生成潜在空间,以解开纠缠的嵌入,以线性子空间的形式表示对象组成部分的不同形状语义,尽管在训练期间部分级标签不可用。最后,我们利用那些已识别的子空间来表明,通过将所提出的框架应用于任何预训练的 3D 生成模型,可以实现可控的 3D 对象部分操作。通过两个新的定量指标来评估部分级操作的一致性和定位准确性,我们表明 3DLatNav 在识别编码 3D 对象的部分级形状语义的潜在方向方面优于现有的无监督潜在解缠结方法。通过对最先进的生成模型进行多项消融研究和测试,我们表明 3DLatNav 可以在输入点云上实现受控的部分级语义操作,同时保留对象的其他特征和真实性。
- RenderDiffusion:用于 3D 重建、修复和生成的图像扩散 | [code]
扩散模型目前在条件和无条件图像生成方面都达到了最先进的性能。然而,到目前为止,图像扩散模型不支持 3D 理解所需的任务,例如视图一致的 3D 生成或单视图对象重建。在本文中,我们将 RenderDiffusion 作为第一个用于 3D 生成和推理的扩散模型,可以仅使用单眼 2D 监督进行训练。我们方法的核心是一种新颖的图像去噪架构,它在每个去噪步骤中生成并渲染场景的中间三维表示。这在扩散过程中强制实施了一个强大的归纳结构,为我们提供了一个 3D 一致的表示,同时只需要 2D 监督。可以从任何视点渲染生成的 3D 表示。我们在 ShapeNet 和 Clevr 数据集上评估 RenderDiffusion,并展示了在生成 3D 场景和从 2D 图像推断 3D 场景方面的竞争性能。此外,我们基于扩散的方法允许我们使用 2D 修复来编辑 3D 场景。我们相信,我们的工作有望在对大量图像集进行训练时实现大规模的完整 3D 生成,从而避免对大型 3D 模型集进行监督的需要。
- DINER:无序不变的隐式神经表征 | [code]
隐式神经表示 (INR) 将信号的属性表征为相应坐标的函数,它成为解决逆问题的利器。然而,INR 的容量受到网络训练中频谱偏差的限制。在本文中,我们发现通过重新排列输入信号的坐标可以在很大程度上解决这种与频率相关的问题,为此我们提出了无序不变的隐式神经表示 (DINER),方法是将哈希表扩充为传统的 INR 骨架。鉴于离散信号共享相同的属性直方图和不同的排列顺序,哈希表可以将坐标投影到相同的分布中,映射信号可以使用后续的 INR 网络更好地建模,从而显着减轻频谱偏差。实验不仅揭示了 DINER 对不同 INR 主干(MLP 与 SIREN)和各种任务(图像/视频表示、相位检索和折射率恢复)的泛化,而且还显示了优于最先进技术的优势算法的质量和速度。
- 用于形状引导生成 3D 形状和纹理的 Latent-NeRF | [code]
近年来,文本引导图像生成发展迅速,激发了文本引导形状生成方面的重大突破。最近,已经表明,使用分数蒸馏,可以成功地通过文本引导 NeRF 模型生成 3D 对象。我们将分数蒸馏调整为公开可用且计算效率高的潜在扩散模型,该模型将整个扩散过程应用于预训练自动编码器的紧凑潜在空间中。由于 NeRF 在图像空间中运行,因此通过潜在分数蒸馏来引导它们的简单解决方案需要在每个引导步骤中编码到潜在空间。相反,我们建议将 NeRF 带入潜在空间,从而产生 Latent-NeRF。分析我们的 Latent-NeRF,我们表明虽然文本到 3D 模型可以产生令人印象深刻的结果,但它们本质上是不受约束的,并且可能缺乏引导或执行特定 3D 结构的能力。为了协助和指导 3D 生成,我们建议使用 Sketch-Shape 来指导我们的 Latent-NeRF:一种定义所需对象的粗略结构的抽象几何体。然后,我们提出了将这种约束直接集成到 Latent-NeRF 中的方法。这种文本和形状指导的独特组合可以增强对生成过程的控制。我们还表明,潜在分数蒸馏可以成功地直接应用于 3D 网格。这允许在给定的几何体上生成高质量的纹理。我们的实验验证了我们不同形式的指导的力量和使用潜在渲染的效率。可通过此 https 网址实现
- AsyncNeRF:从具有时间姿态函数的异步 RGB-D 序列中学习大规模辐射场 | [code]
大规模辐射场是用于智能交通应用(如自动驾驶或无人机送货)的有前途的测绘工具。但对于大型场景,由于感测范围有限,紧凑型同步 RGB-D 相机并不适用,使用单独的 RGB 和深度传感器不可避免地导致序列不同步。受最近不需要已知内在或外在参数的自校准辐射场训练方法的成功启发,我们提出了第一个自校准 RGB 和深度帧之间的不匹配的解决方案。我们利用重要的特定领域事实,即 RGB 和深度帧实际上是从同一轨迹采样的,并开发了一种称为时间-姿势函数的新型隐式网络。将它与大规模辐射场相结合会产生一种级联两个隐式表示网络的架构。为了验证其有效性,我们构建了一个多样化且逼真的数据集,涵盖各种 RGB-D 不匹配场景。通过对该数据集进行全面的基准测试,我们展示了我们的方法在不同场景中的灵活性以及优于适用的先前对应方法的卓越性能。代码、数据和模型将公开提供。
- NeXT:通过 Multi-skip Transformer 实现高质量的神经辐射场, ECCV2022 |
[code]
神经辐射场 (NeRF) 方法通过神经网络表示场景,在新颖的视图合成方面表现出令人印象深刻的性能。然而,大多数现有的基于 NeRF 的方法(包括其变体)将每个样本点单独视为输入,同时忽略了来自相应射线的相邻样本点之间的内在关系,从而阻碍了重建性能。为了解决这个问题,我们探索了一种全新的方案,即 NeXT,引入了一个多跳跃变换器来捕获射线级查询中各个样本点之间的丰富关系。具体来说,提出了射线标记化以将每条射线表示为一系列点嵌入,并将其作为我们提出的 NeXT 的输入。这样,通过内置的自注意力机制捕获样本点之间的关系,以促进重建。此外,我们提出的 NeXT 可以很容易地与其他基于 NeRF 的方法结合,以提高它们的渲染质量。在三个数据集上进行的大量实验表明,NeXT 大大优于所有以前的最先进的工作。特别是,拟议的 NeXT 在 Blender 数据集上的 PSNR 超过了强大的 NeRF 基线 2.74 dB。该代码可在 https://github.com/Crishawy/NeXT 获得。
- 用于 3D 场景重建的定向射线距离函数, ECCV2022 | [code]
我们提出了一种从单个看不见的图像重建全 3D 场景的方法。我们训练了真实的非水密场景扫描数据集。我们的方法使用预测距离函数,因为这些函数在处理复杂拓扑和大空间方面显示出前景。我们确定并分析了预测此类图像条件距离函数的两个关键挑战,这些距离函数阻碍了它们在真实 3D 场景数据上的成功。首先,我们展示了从图像预测传统场景距离需要对大感受野进行推理。其次,我们分析表明,经过训练以预测这些距离函数的网络的最佳输出不符合所有距离函数属性。我们提出了一种替代距离函数,即定向射线距离函数 (DRDF),它可以解决这两个挑战。我们表明,在 Matterport3D、3DFront 和 ScanNet 上从单个图像进行 3D 重建时,经过训练以预测 DRDF 的深度网络在数量和质量上优于所有其他方法。 (项目页面:https://nileshkulkarni.github.io/scene_drdf)
- ParticleNeRF:动态场景中在线神经辐射场的基于粒子的编码 | [code]
神经辐射场 (NeRFs) 从图像中学习隐式表示(通常是静态的)环境。我们的论文扩展了 NeRFs 以在线方式处理动态场景。我们建议 ParticleNeRF 适应环境几何形状的变化,每 350 毫秒学习一个新的最新表示。与其他 NeRF 框架相比,ParticleNeRF 可以以更高的保真度表示动态环境的当前状态。为实现这一目标,我们引入了一种新的基于粒子的参数编码,它允许中间 NeRF 特征——现在耦合到空间中的粒子——随动态几何移动。这可以通过将光度重建损失反向传播到粒子的位置来实现。位置梯度被解释为粒子速度,并使用基于位置的动力学 (PBS) 物理系统集成到位置中。将 PBS 引入 NeRF 公式使我们能够为粒子运动添加碰撞约束,并创造未来机会将其他运动先验添加到系统中,例如刚体和可变形体
- 基于时间相干性的大规模场景分布式光线追踪, ToG2022 | [code]
分布式光线追踪算法在渲染海量场景时被广泛使用,其中数据利用率和负载均衡是提高性能的关键。一项基本观察是射线在时间上是相干的,这表明时间信息可用于提高计算效率。在本文中,我们使用时间相干性来优化分布式光线追踪的性能。首先,我们提出了一种基于时间一致性的调度算法来指导任务/数据分配和调度。然后,我们提出了一个虚拟门户结构来预测基于前一帧的光线辐射率,并将辐射率低的光线发送到预先计算的简化模型进行进一步追踪,这可以大大降低遍历复杂度和网络数据传输的开销.该方法在大小高达 355 GB 的场景中得到验证。与以前的算法相比,我们的算法可以实现高达 81% 的加速,并且均方误差非常小。
- QRF:具有量子辐射场的隐式神经表示 | [code]
现实世界场景的逼真渲染对于包括混合现实 (MR) 和虚拟现实 (VR) 在内的广泛应用来说是一项巨大的挑战。神经网络长期以来一直在求解微分方程的背景下进行研究,之前已被引入作为照片级渲染的隐式表示。然而,使用经典计算的逼真渲染具有挑战性,因为它需要耗时的光线行进,并且由于维数灾难而遭受计算瓶颈。在本文中,我们提出了量子辐射场 (QRF),它集成了量子电路、量子激活函数和量子体积渲染,用于隐式场景表示。结果表明,QRF不仅发挥了量子计算速度快、收敛快、并行度高等优势,而且保证了体绘制的高质量。
- 3D常见宠物:现实生活中可变形类别的动态新视角合成 | [code]
从稀疏视图中获得对象的逼真重建本质上是模棱两可的,只能通过学习合适的重建先验来实现。早期关于稀疏刚性对象重建的工作成功地从大型数据集(如 CO3D)中学习了这样的先验。在本文中,我们将这种方法扩展到动态对象。我们以猫和狗作为代表性示例,并介绍 Common Pets in 3D (CoP3D),这是一组众包视频,展示了大约 4,200 种不同的宠物。 CoP3D 是首批用于“野外”非刚性 3D 重建基准测试的大型数据集之一。我们还提出了 Tracker-NeRF,这是一种从我们的数据集中学习 4D 重建的方法。在测试时,给定一个看不见的物体的少量视频帧,Tracker-NeRF 预测其 3D 点的轨迹并生成新视图、插值视点和时间。 CoP3D 的结果揭示了比现有基线更好的非刚性新视图合成性能。
- 基于学习的复杂室内场景逆渲染与可微蒙特卡洛光线追踪, SIGGRAPH-Asia2022 | [code]
我们提出了一种基于学习的方法,用于使用可区分的蒙特卡洛光线追踪对复杂的室内场景进行逆向渲染。我们的方法将单个室内场景 RGB 图像作为输入,并自动推断其底层表面反射率、几何形状和空间变化的照明。这使我们能够对场景进行逼真的编辑,例如插入多个复杂的虚拟对象并使用全局照明忠实地编辑表面材质。
- 深度外观预过滤, ToG2022 | [code]
复杂场景的基于物理的渲染可能成本高得令人望而却步,并且复杂性在渲染图像上的分布可能是无限且不均匀的。理想的细节层次 (LoD) 方法的目标是使渲染成本独立于 3D 场景的复杂性,同时保持场景的外观。然而,由于依赖近似模型和其他启发式方法,当前的预过滤 LoD 方法在它们可以支持的外观方面受到限制。我们提出了第一个全面的多尺度 LoD 框架,用于预过滤具有复杂几何形状和材料(例如 Disney BRDF)的 3D 环境,同时保持与光线追踪参考相关的外观。使用场景的多尺度层次结构,我们执行数据驱动的预过滤步骤以获得每个尺度的外观相位函数和方向覆盖掩码。我们方法的核心是一种新颖的神经表示,它将这些信息编码成一种紧凑的潜在形式,这种形式很容易在基于物理的渲染器中解码。一旦场景被烘焙出来,我们的方法在渲染时不需要原始几何体、材质或纹理。我们证明我们的方法与最先进的预过滤方法相比具有优势,并且可以为复杂场景节省大量内存。
- 用于机器人操纵的神经抓取距离场 | [code]
我们将抓取学习制定为一个神经场,并提出神经抓取距离场 (NGDF)。这里,输入是机器人末端执行器的 6D 姿态,输出是到物体有效抓握的连续流形的距离。与预测一组离散候选抓握的当前方法相比,基于距离的 NGDF 表示很容易被解释为成本,并且最小化该成本会产生成功的抓握姿势。这种抓取距离成本可以直接合并到轨迹优化器中,与其他成本(如轨迹平滑度和碰撞避免)进行联合优化。在优化过程中,随着各种成本的平衡和最小化,抓取目标可以平滑变化,因为学习到的抓取域是连续的。在使用 Franka 手臂的模拟基准测试中,我们发现使用 NGDF 的联合抓取和规划比基线执行成功率高出 63%,同时泛化到看不见的查询姿势和看不见的物体形状。项目页面:此 https 网址。
- nerf2nerf:神经辐射场的成对配准 | [code]
我们引入了一种神经场成对配准技术,该技术扩展了经典的基于优化的局部配准(即 ICP)以在神经辐射场 (NeRF) 上运行——从校准图像集合训练的神经 3D 场景表示。 NeRF 不分解照明和颜色,因此为了使配准不受照明影响,我们引入了“表面场”的概念——从预训练的 NeRF 模型中提取的场,该模型测量点在表面上的可能性物体的表面。然后,我们将 nerf2nerf 注册作为一种稳健的优化,迭代地寻求对齐两个场景的表面场的刚性转换。我们通过引入预训练的 NeRF 场景数据集来评估我们的技术的有效性——我们的合成场景可以对经典配准技术进行定量评估和比较,而我们的真实场景则证明了我们的技术在现实场景中的有效性。其他结果位于:此 https 网址
- HyperSound:使用超网络生成音频信号的隐式神经表示 | [code]
隐式神经表征 (INR) 是一个快速发展的研究领域,它提供了表示多媒体信号的替代方法。 INR 最近的应用包括图像超分辨率、高维信号压缩或 3D 渲染。然而,这些解决方案通常侧重于视觉数据,将它们适应音频领域并非易事。此外,它需要为每个数据样本单独训练模型。为了解决这个限制,我们提出了 HyperSound,这是一种利用超网络为训练时看不见的音频信号生成 INR 的元学习方法。我们表明,我们的方法可以重建声波,其质量可与其他最先进的模型相媲美。
- 基于注意力的神经元胞自动机, NeurIPS2022 | [code]
元胞自动机 (CA) 最近的扩展结合了现代深度学习的关键思想,极大地扩展了它们的能力并催生了一个新的神经元元自动机 (NCA) 技术家族。受基于 Transformer 的架构的启发,我们的工作提出了一类新的基于注意力的 NCA,使用空间局部化但全局组织的自注意力方案形成。我们介绍了此类的一个实例,名为 Vision Transformer Cellular Automata (ViTCA)。我们展示了跨六个基准数据集的去噪自动编码的定量和定性结果,将 ViTCA 与 U-Net、基于 U-Net 的 CA 基线 (UNetCA) 和 Vision Transformer (ViT) 进行了比较。在比较配置为类似参数复杂性的架构时,ViTCA 架构在所有基准测试和几乎每个评估指标上都产生了卓越的性能。我们对 ViTCA 的各种架构配置进行了消融研究,分析了它对细胞状态的影响,并调查了它的归纳偏差。最后,我们通过线性探针在其聚合细胞状态隐藏表示上检查其学习表示,与我们的 U-Net、ViT 和 UNetCA 基线相比,平均产生更好的结果。
- GARF:用于高保真重建和姿态估计的高斯激活辐射场, ECCV2022 | [code]
尽管神经辐射场 (NeRF) 在现实世界场景的逼真新颖视图合成中显示出令人信服的结果,但大多数现有方法都需要准确的先验相机姿势。尽管存在联合恢复辐射场和相机姿态的方法 (BARF),但它们依赖于繁琐的从粗到细的辅助位置嵌入来确保良好的性能。我们提出了高斯激活神经辐射场 (GARF),这是一种新的无位置嵌入神经辐射场架构 - 采用高斯激活 - 在高保真重建和姿态估计方面优于当前最先进的技术。
- 使用表面信号参数化学习神经隐式表示 | [code]
神经隐式表面表示最近已成为显式 3D 对象编码的流行替代方法,例如多边形网格、列表点或体素。虽然重要的工作已经提高了这些表示的几何保真度,但很少有人关注它们的最终外观。传统的显式对象表示通常将 3D 形状数据与辅助表面映射图像数据耦合,例如漫反射颜色纹理和法线贴图中的精细几何细节,通常需要将 3D 表面映射到平面上,即表面参数化;另一方面,由于缺乏可配置的表面参数化,隐式表示不能轻易地进行纹理化。受这种数字内容创作方法的启发,我们设计了一种神经网络架构,该架构隐式编码适合外观数据的底层表面参数化。因此,我们的模型与现有的具有外观数据的基于网格的数字内容保持兼容。受到最近将紧凑网络过度拟合到单个 3D 对象的工作的启发,我们提出了一种新的权重编码神经隐式表示,它扩展了神经隐式表面的能力,以实现纹理映射的各种常见和重要应用。我们的方法优于合理的基线和最先进的替代方法。
- gCoRF:生成合成辐射场, 3DV2022 | [code]
对象的 3D 生成模型可通过 3D 控制实现逼真的图像合成。现有方法将场景建模为全局场景表示,忽略了场景的组成方面。除了支持可概括的 3D 推理之外,组合推理还可以支持各种编辑应用程序。在本文中,我们提出了一个组合生成模型,其中对象的每个语义部分都表示为仅从野外 2D 数据中学习的独立 3D 表示。我们从全局生成模型 (GAN) 开始,学习使用 2D 分割掩码的监督将其分解为不同的语义部分。然后,我们学习合成独立采样的部分,以创建连贯的全局场景。不同的部分可以独立采样,同时保持物体的其余部分固定。我们在各种对象和部件上评估我们的方法,并演示编辑应用程序。
- 深入研究 Radiance Grid 以进行实时视图合成并保留细节, ECCV2022 | [code]
神经辐射场 (NeRF) [31] 系列在表示场景和合成高质量新颖视图方面令人印象深刻。然而,大多数以前的作品都无法保留纹理细节并且训练速度慢。最近的一种方法 SNeRG [11] 表明,将经过训练的 NeRF 烘焙为稀疏神经辐射网格可以实现实时视图合成,同时略微降低渲染质量。在本文中,我们深入研究了 Radiance Grid 表示并提出了一系列改进,这些改进共同提高了速度和质量方面的性能。首先,我们提出了一种分层稀疏辐射网格 (HrSRG) 表示,它对信息空间具有更高的体素分辨率,对其他空间具有更少的体素。 HrSRG 利用受 [30, 55] 启发的分层体素网格构建过程,并且可以在不占用过多内存的情况下以高分辨率描述场景。此外,我们表明直接优化体素网格会在渲染图像中产生出奇的好纹理细节。这种直接优化是内存友好的,并且需要比传统 NeRF 少多个数量级的时间,因为它只涉及一个微型 MLP。最后,我们发现阻止精细细节恢复的一个关键因素是由相机姿势错误引起的图像中未对齐的 2D 像素。我们建议使用感知损失来增加对错位的容忍度,从而提高渲染图像的视觉质量。
- NeX360:基于神经基础扩展的实时全方位视图合成, TPAMI2022 | [code]
我们介绍了 NeX,这是一种基于多平面图像 (MPI) 增强的新颖视图合成的新方法,可以实时再现视图相关的效果。与传统的 MPI 不同,我们的技术将每个像素参数化为从神经网络学习的球形基函数的线性组合,以对视图相关的效果进行建模,并使用混合隐式-显式建模策略来改进精细细节。此外,我们还展示了 NeX 的扩展,它利用知识蒸馏来为无限 360 ∘ 场景训练多个 MPI。我们的方法在几个基准数据集上进行了评估:NeRF-Synthetic 数据集、Light Field 数据集、Real Forward-Facing 数据集、Space 数据集以及 Shiny,我们的新数据集包含更具挑战性的视图相关效果,例如彩虹反射在 CD 上。我们的方法在 PSNR、SSIM 和 LPIPS 上优于其他实时渲染方法,可以实时渲染无界 360 ∘ 场景。
- NeRFPlayer:具有分解神经辐射场的可流式动态场景表示 | [code]
在 VR 中自由地在真实世界的 4D 时空空间中进行视觉探索一直是一项长期的追求。当仅使用几个甚至单个 RGB 相机来捕捉动态场景时,这项任务特别有吸引力。为此,我们提出了一个能够快速重建、紧凑建模和流式渲染的高效框架。首先,我们建议根据时间特征分解 4D 时空空间。 4D 空间中的点与属于三个类别的概率相关联:静态区域、变形区域和新区域。每个区域都由一个单独的神经场表示和规范化。其次,我们提出了一种基于混合表示的特征流方案,用于有效地对神经场进行建模。我们的方法,创造了 NeRFPlayer,在单手持相机和多相机阵列捕获的动态场景上进行评估,在质量和速度方面实现与最近最先进的方法相当或更优的渲染性能,实现重建每帧 10 秒,实时渲染。
- Vox-Fusion:基于体素的神经隐式表示的密集跟踪和映射 |
[code]
在这项工作中,我们提出了一个名为 Vox-Fusion 的密集跟踪和映射系统,它将神经隐式表示与传统的体积融合方法无缝融合。我们的方法受到最近开发的隐式映射和定位系统的启发,并进一步扩展了这一思想,使其可以自由应用于实际场景。具体来说,我们利用基于体素的神经隐式表面表示来编码和优化每个体素内的场景。此外,我们采用基于八叉树的结构来划分场景并支持动态扩展,使我们的系统能够像以前的作品一样在不知道环境的情况下跟踪和映射任意场景。此外,我们提出了一个高性能的多进程框架来加速该方法,从而支持一些需要实时性能的应用程序。评估结果表明,我们的方法可以实现比以前的方法更好的准确性和完整性。我们还展示了我们的 Vox-Fusion 可用于增强现实和虚拟现实应用程序。我们的源代码可通过此 https 网址公开获得。
- 通过辐射贴图提升点云渲染 | [code]
近年来,由于其高质量,我们见证了基于 NeRF 的图像渲染的快速发展。然而,点云渲染在某种程度上较少被探索。与遭受密集空间采样的基于 NeRF 的渲染相比,点云渲染自然计算密集度较低,这使其能够部署在移动计算设备中。在这项工作中,我们专注于通过紧凑的模型设计提高点云渲染的图像质量。我们首先分析体绘制公式在点云上的适应性。基于分析,我们将 NeRF 表示简化为空间映射函数,每个像素只需要一次评估。此外,受光线行进的启发,我们将嘈杂的原始点云校正为光线与表面之间的估计交点作为查询坐标,这可以避免空间频率崩溃和邻点干扰。由光栅化、空间映射和细化阶段组成,我们的方法在点云渲染上实现了最先进的性能,以显着的优势优于之前的工作,模型尺寸更小。我们在 NeRF-Synthetic 上获得了 31.74 的 PSNR,在 ScanNet 上获得了 25.88,在 DTU 上获得了 30.81。代码和数据将很快发布。
- 用于 3D 视频合成的流式辐射场, NeurIPS2022 | [code]
我们提出了一种基于显式网格的方法,用于有效地重建流辐射场,用于真实世界动态场景的新视图合成。我们不是训练一个结合所有帧的单一模型,而是用增量学习范式来制定动态建模问题,其中训练每帧模型差异以补充当前帧上基础模型的适应性。通过利用简单而有效的窄带调整策略,所提出的方法实现了一个可行的框架,用于处理高训练效率的动态视频序列。通过使用基于模型差异的压缩,可以显着减少使用显式网格表示引起的存储开销。我们还引入了一种有效的策略来进一步加速每一帧的模型优化。对具有挑战性的视频序列的实验表明,我们的方法能够以具有竞争力的渲染质量实现每帧 15 秒的训练速度,比最先进的隐式方法实现 1000 倍的加速。此 https 网址提供了代码。
- EpipolarNVS:利用对极几何进行单图像新视图合成, BMVC2022 | [code]
新视图合成 (NVS) 可以通过不同的方法来解决,具体取决于一般设置:单个源图像到短视频序列、精确或嘈杂的相机姿势信息、基于 3D 的信息(如点云等)。最具挑战性的场景,我们在这项工作中所处的场景,只考虑一个独特的源图像来从另一个角度生成一个新颖的图像。然而,在这种棘手的情况下,最新的基于学习的解决方案往往难以集成相机视点转换。事实上,外部信息通常通过低维向量按原样传递。甚至可能会发生这样的情况,当参数化为欧拉角时,这样的相机姿势会通过单热表示进行量化。这种普通的编码选择阻止了学习的架构在连续的基础上(从相机姿势的角度)推断新的视图。我们声称它存在一种优雅的方式来通过利用 3D 相关概念(例如对极约束)更好地编码相对相机姿势。因此,我们引入了一种创新方法,将视点变换编码为 2D 特征图像。这种相机编码策略为网络提供了关于相机如何在两个视图之间的空间中移动的有意义的见解。通过将相机姿势信息编码为有限数量的彩色对极线,我们通过实验证明我们的策略优于普通编码。
- NeRF-SLAM:具有神经辐射场的实时密集单目 SLAM | [code]
我们提出了一种新颖的几何和光度学 3D 映射管道,用于从单目图像进行准确和实时的场景重建。为实现这一目标,我们利用了密集单眼 SLAM 和实时分层体积神经辐射场的最新进展。我们的见解是,密集的单目 SLAM 通过提供准确的姿态估计和具有相关不确定性的深度图,提供正确的信息以实时拟合场景的神经辐射场。通过我们提出的基于不确定性的深度损失,我们不仅实现了良好的光度精度,而且还实现了很高的几何精度。事实上,我们提出的管道实现了比竞争方法更好的几何和光度精度(PSNR 提高了 179%,L1 深度提高了 86%),同时实时工作并且仅使用单目图像。
- Compressing Explicit Voxel Grid Representations:快速的 NeRFs 也变小了 | [code]
由于其固有的紧凑性,NeRF 彻底改变了逐场景辐射场重建的世界。 NeRF 的主要限制之一是它们在训练和推理时的渲染速度都很慢。最近的研究重点是优化表示场景的显式体素网格 (EVG),它可以与神经网络配对以学习辐射场。这种方法显着提高了训练和推理时间的速度,但代价是占用大量内存。在这项工作中,我们提出了 Re:NeRF,这是一种专门针对 EVG-NeRF 可压缩性的方法,旨在减少 NeRF 模型的内存存储,同时保持相当的性能。我们在四种流行的基准测试中使用三种不同的 EVG-NeRF 架构对我们的方法进行了基准测试,展示了 Re:NeRF 广泛的可用性和有效性。
- 将多维天气和气候数据压缩到神经网络中 | [code]
天气和气候模拟会产生数 PB 的高分辨率数据,研究人员随后会对这些数据进行分析,以了解气候变化或恶劣天气。我们提出了一种压缩这种多维天气和气候数据的新方法:训练基于坐标的神经网络以过度拟合数据,并将生成的参数作为原始基于网格的数据的紧凑表示。虽然压缩比范围从 300 倍到超过 3,000 倍,但我们的方法在加权 RMSE、MAE 方面优于最先进的压缩器 SZ3。它可以忠实地保存重要的大型大气结构,并且不引入人工制品。当使用生成的神经网络作为 790 倍压缩数据加载器来训练 WeatherBench 预测模型时,其 RMSE 增加不到 2%。三个数量级的压缩使高分辨率气候数据的访问民主化,并实现了许多新的研究方向。
- NeARportation:远程实时神经渲染框架, VRST22 | [code]
虽然逼真外观的呈现在沉浸在增强虚拟环境中起着重要作用,但显示真实物体的逼真外观仍然是一个具有挑战性的问题。摄影测量学的最新发展促进了将真实物体纳入虚拟空间。然而,照片般逼真的摄影测量需要专用的测量环境,并且需要在测量成本和质量之间进行权衡。此外,即使使用逼真的外观测量,渲染质量和帧速率之间也存在权衡。没有任何框架可以解决这些权衡问题并轻松地实时提供照片般逼真的外观。我们的 NeARportation 框架结合了服务器-客户端双向通信和神经渲染来解决这些权衡问题。服务器上的神经渲染接收客户端的头部姿势并生成具有逼真外观再现的新视图图像,并将其流式传输到客户端的显示器上。通过将我们的框架应用于立体显示器,我们确认它可以根据用户的头部运动以每秒 35-40 帧 (fps) 的速度在全高清立体视频上显示高保真外观。
- 具有超分辨声向的神经声场分解 | [code]
声场分解使用来自有限数量麦克风的信号作为输入来预测任意方向的波形。声场分解是下游任务的基础,包括源定位、源分离和空间音频再现。传统的声场分解方法(例如 Ambisonics)具有有限的空间分解分辨率。本文提出了一种基于学习的神经声场分解 (NeSD) 框架,允许使用来自任意位置的几个麦克风的麦克风胶囊的录音进行具有精细空间方向分辨率的声场分解。 NeSD 系统的输入包括麦克风信号、麦克风位置和查询的方向。 NeSD 的输出包括波形和查询位置的存在概率。我们分别用不同的神经网络对 NeSD 系统进行建模,包括全连接、时间延迟和循环神经网络。我们表明,NeSD 系统在语音、音乐和声音事件数据集的声场分解和源定位方面优于传统的 Ambisonics 和 DOANet 方法。此 https URL 提供了演示。
- 神经辐射场场景重建探索:合成、真实世界和动态场景 | [code]
该项目介绍了使用神经辐射场 (NeRF) 方法对合成和真实世界场景进行 3D 场景重建的探索。我们主要利用神经图形基元多分辨率哈希编码的训练和渲染时间的减少,来重建静态视频游戏场景和现实世界场景,比较和观察重建细节和局限性。此外,我们使用动态场景的神经辐射场 (D-NeRF) 探索动态场景重建。最后,我们扩展了 D-NeRF 的实现,最初仅限于处理合成场景,也可以处理真实世界的动态场景。
- 用于学习 3D LiDAR 数据场景先验的生成范围成像, WACV2023 | [code]
3D LiDAR 传感器对于自主移动机器人的强大视觉是必不可少的。然而,部署基于 LiDAR 的感知算法通常会由于与训练环境的域差距而失败,例如角度分辨率不一致和属性缺失。现有的研究通过学习域间映射解决了这个问题,而可迁移性受到训练配置的限制,并且训练容易受到称为光线下降的特殊有损噪声的影响。为了解决这个问题,本文提出了一种适用于数据级域迁移的 LiDAR 距离图像生成模型。受 LiDAR 测量基于逐点距离成像这一事实的启发,我们训练了一个基于隐式图像表示的生成对抗网络以及可微的射线下落效应。与基于点和基于图像的最先进的生成模型相比,我们展示了我们模型的保真度和多样性。我们还展示了上采样和恢复应用程序。此外,我们介绍了用于 LiDAR 语义分割的 Sim2Real 应用程序。我们证明了我们的方法作为一个逼真的光线滴模拟器是有效的,并且优于最先进的方法。
- HDHumans:高保真数字人类的混合方法 | [code]
逼真的数字人类头像在图形中非常重要,因为它们可以在全球范围内实现沉浸式通信,改善游戏和娱乐体验,并且对 AR 和 VR 设置特别有益。然而,当前的头像生成方法要么在高保真新视图合成、对新动作的泛化、宽松衣服的再现方面存在不足,要么无法以现代显示器提供的高分辨率渲染角色。为此,我们提出了 HDHumans,这是第一个用于 HD 人物角色合成的方法,它共同产生准确且时间连贯的 3D 变形表面和任意新颖视图和训练时未看到的运动的高度逼真的图像。在技术核心,我们的方法将经典的变形字符模板与神经辐射场 (NeRF) 紧密集成。我们的方法经过精心设计,以实现经典表面变形和 NeRF 之间的协同作用。首先,模板引导 NeRF,它允许合成高度动态和清晰的角色的新视图,甚至可以合成新的动作。其次,我们还利用 NeRF 产生的密集点云通过 3D 到 3D 监督进一步改善变形表面。在合成质量和分辨率以及 3D 表面重建的质量方面,我们在数量和质量上都优于最先进的技术。
- 通过多视图未校准光度立体和渐变 SDF 进行高质量 RGB-D 重建, WACV2023 | [code]
在许多应用中,对精细重建的需求很高。然而,大多数现有的 RGB-D 重建方法依赖于预先计算的准确相机位姿来恢复详细的表面几何形状,其中在优化不同数量时需要调整表面的表示。在本文中,我们提出了一种新颖的基于多视图 RGB-D 的重建方法,该方法通过利用梯度符号距离场 (gradient-SDF) 来处理相机位姿、光照、反照率和表面法线估计。所提出的方法使用特定的基于物理的模型来制定图像渲染过程,并使用其体积表示来优化实际表面上的表面数量,而不是仅估计实际表面附近的表面数量的其他工作。为了验证我们的方法,我们研究了两个用于自然光和点光源应用的基于物理的图像形成模型。在合成数据集和真实世界数据集上的实验结果表明,所提出的方法可以比现有技术更忠实地恢复表面的高质量几何形状,并进一步提高估计相机位姿的准确性。
- 从单个图像进行机器人对象操作的神经场, ICRA2023 | [code]
我们为对象渲染、3D 重建和抓取姿势预测提供了一个统一且紧凑的表示,可以在几秒钟内从单个图像中推断出来。我们通过利用神经辐射场 (NeRF) 文献的最新进展来实现这一点,这些文献学习类别级先验并以最少的数据和时间对新对象进行微调。我们的见解是,我们可以学习紧凑的形状表示并从中提取有意义的附加信息,例如抓取姿势。我们相信这是第一个使用单个视点(仅 RGB)直接从基于 NeRF 的表示中检索抓取姿势的工作,而不是通过辅助网络和/或表示。与现有技术相比,我们的方法小两到三个数量级,同时在视图重建和抓取方面实现了相当的性能。伴随我们的方法,我们还提出了一个新的渲染鞋数据集,用于训练 sim-2-real NeRF 方法,该方法具有不同宽度的抓手的抓取姿势。
- TANGO:通过光照分解实现文本驱动的真实感和强大的 3D 风格化, NeurIPS2022 |
[code]
通过程式化创建 3D 内容是计算机视觉和图形研究中一个有前途但具有挑战性的问题。在这项工作中,我们专注于对任意拓扑的给定表面网格的逼真外观渲染进行风格化。受最近对比语言-图像预训练 (CLIP) 模型的跨模态监督激增的启发,我们提出了 TANGO,它根据文本提示以逼真的方式转移给定 3D 形状的外观风格。从技术上讲,我们建议将外观风格分解为空间变化的双向反射率分布函数、局部几何变化和照明条件,通过基于球形高斯的可微分渲染器通过监督 CLIP 损失来共同优化它们。因此,TANGO 通过自动预测反射效果来实现逼真的 3D 风格转换,即使是对于裸露的、低质量的网格,也无需对特定任务的数据集进行培训。大量实验表明,TANGO 在逼真的质量、3D 几何的一致性和对低质量网格进行样式化时的鲁棒性方面优于现有的文本驱动 3D 样式转换方法。我们的代码和结果可在我们的项目网页 https URL 上找到。
- 坐标并不孤单——码本先验有助于隐式神经 3D 表示, NeurIPS2022 | [code]
隐式神经 3D 表示在表面或场景重建和新颖的视图合成中取得了令人印象深刻的结果,这通常使用基于坐标的多层感知器 (MLP) 来学习连续的场景表示。然而,现有的方法,例如神经辐射场 (NeRF) 及其变体,通常需要密集的输入视图(即 50-150)才能获得不错的结果。为了重温对大量校准图像的过度依赖并丰富基于坐标的特征表示,我们探索将先验信息注入基于坐标的网络,并引入一种新颖的基于坐标的模型 CoCo-INR,用于隐式神经 3D 表示。我们方法的核心是两个注意力模块:码本注意力和坐标注意力。前者从先验码本中提取包含丰富几何和外观信息的有用原型,后者将这些先验信息传播到每个坐标中,并丰富其对场景或物体表面的特征表示。在先验信息的帮助下,与使用较少可用校准图像的当前方法相比,我们的方法可以渲染具有更逼真外观和几何形状的 3D 视图。在包括 DTU 和 BlendedMVS 在内的各种场景重建数据集以及完整的 3D 头部重建数据集 H3DS 上的实验证明了我们提出的方法在较少输入视图下的鲁棒性和精细的细节保留能力。
- 用于鲁棒姿态估计的神经辐射场的并行反演, ICRA2023 | [code]
我们提出了一种基于快速神经辐射场 (NeRF) 的并行优化方法,用于估计 6-DoF 目标姿势。给定单个观察到的目标 RGB 图像,我们可以通过最小化从快速 NeRF 模型渲染的像素与观察图像中的像素之间的残差来预测相机的平移和旋转。我们将基于动量的相机外部优化程序集成到 Instant Neural Graphics Primitives 中,这是最近异常快速的 NeRF 实现。通过在姿态估计任务中引入并行蒙特卡罗采样,我们的方法克服了局部最小值并在更广泛的搜索空间中提高了效率。我们还展示了采用更强大的基于像素的损失函数来减少错误的重要性。实验表明,我们的方法可以在合成和真实世界的基准测试中实现改进的泛化性和鲁棒性。
- 神经接触场:使用触觉感应跟踪外部接触 | [code]
我们提出了神经接触场,一种将神经场和触觉传感结合在一起的方法,以解决跟踪对象与环境之间的外部接触的问题。了解外部接触发生在哪里是迈向可以主动控制它以促进下游操作任务的方法的第一步。用于定位环境接触的先前工作通常假定接触类型(例如点或线),不捕获接触/非接触过渡,并且仅适用于基本几何形状的对象。神经接触场是第一种无需对接触类型做出任何假设即可跟踪任意多模态外部接触的方法。我们的主要见解是估计物体形状潜在空间中任何 3D 点的接触概率,给定基于视觉的触觉输入,该输入感知外部接触引起的局部运动。在实验中,我们发现神经接触场能够定位多个接触块,而无需对接触的几何形状做出任何假设,并在看不见的环境配置中捕获具有看不见的形状的已知类别对象的接触/非接触转换。除了神经接触场之外,我们还发布了模拟外部接触交互的 YCB-Extrinsic-Contact 数据集,以便在该领域进行进一步研究。项目存储库:此 https 网址
- S3-NeRF:单一视点下阴影和阴影的神经反射场, NeurIPS2022 |
[code]
在本文中,我们解决了多视图场景重建的“双重问题”,其中我们利用在不同点光源下捕获的单视图图像来学习神经场景表示。与只能恢复 2.5D 场景表示(即可见表面的法线/深度图)的现有单视图方法不同,我们的方法学习神经反射场来表示场景的 3D 几何和 BRDF。我们的方法不依赖于多视图照片一致性,而是利用两个信息丰富的单目线索,即阴影和阴影来推断场景几何。对多个具有挑战性的数据集的实验表明,我们的方法能够从单视图图像中恢复场景的 3D 几何图形,包括可见和不可见部分。由于神经反射场表示,我们的方法对深度不连续性具有鲁棒性。它支持新视图合成和重新照明等应用程序。我们的代码和模型可以在这个 https URL 上找到。
- 动力学增强神经对象的微分物理模拟 | [code]
我们提出了一种可微分管道,用于模拟将其几何形状表示为参数化为深度网络的连续密度场的对象的运动。这包括神经辐射场 (NeRFs) 和其他相关模型。从密度场,我们估计物体的动力学特性,包括它的质量、质心和惯性矩阵。然后,我们引入了一种基于密度场的可微接触模型,用于计算碰撞产生的法向力和摩擦力。这允许机器人从运动物体的静止图像和视频中自主构建视觉和动态准确的物体模型。生成的动态增强神经对象 (DANO) 使用现有的可微分模拟引擎 Dojo 进行模拟,并与其他标准模拟对象(例如指定为 URDF 的球体、平面和机器人)交互。机器人可以使用这种模拟来优化神经物体的抓取和操纵轨迹,或者通过基于梯度的真实到模拟传输来改进神经物体模型。我们演示了从肥皂在桌子上滑动的真实视频中学习一块肥皂的摩擦系数的管道。我们还通过从合成数据中与熊猫机器人手臂的交互来了解斯坦福兔子的摩擦系数和质量,并在模拟中优化熊猫手臂的轨迹,以将兔子推到目标位置。
- LB-NERF:用于透明介质的光弯曲神经辐射场, ICIP2022 | [code]
神经辐射场 (NeRFs) 已被提出作为新颖的视图合成方法,并且由于其多功能性已被用于解决各种问题。 NeRF 可以使用假设直线光路的神经渲染来表示 3D 空间中的颜色和密度。但是,场景中具有不同折射率的介质,例如透明介质,会引起光的折射,打破了光路直线的假设。因此,不能在多视图图像中一致地学习 NeRF。为了解决这个问题,本研究提出了一种方法,通过引入光折射效应作为与源自相机中心的直线的偏移量来学习跨多个视点的一致辐射场。实验结果定量和定性地验证了在考虑透明物体的折射时,我们的方法可以比传统的 NeRF 方法更好地插入视点。
- IBL-NeRF:基于图像的神经辐射场照明公式 | [code]
我们提出了 IBL-NeRF,它将大规模室内场景的神经辐射场 (NeRF) 分解为内在成分。以前的 NeRF 逆向渲染方法转换隐式体积以适应显式几何的渲染管道,并使用环境照明近似分割、孤立对象的视图。相比之下,我们的逆渲染扩展了原始的 NeRF 公式,以捕捉场景体积内照明的空间变化,以及表面属性。具体来说,将不同材质的场景分解为基于图像的渲染的内在组件,即反照率、粗糙度、表面法线、辐照度和预过滤辐射度。所有组件都被推断为来自 MLP 的神经图像,可以对大规模的一般场景进行建模。通过采用基于图像的 NeRF 公式,我们的方法继承了合成图像的卓越视觉质量和多视图一致性。我们展示了在具有复杂对象布局和灯光配置的场景上的性能,这些在以前的任何作品中都无法处理。
- ExAug:通过几何经验增强的机器人条件导航策略 | [code]
机器学习技术依赖于庞大而多样的数据集进行泛化。计算机视觉、自然语言处理和其他应用程序通常可以重用公共数据集来训练许多不同的模型。然而,由于物理配置的差异,利用公共数据集在新机器人平台上训练机器人控制策略或执行新任务具有挑战性。在这项工作中,我们提出了一个新颖的框架 ExAug,以从不同环境中的多个数据集中增强不同机器人平台的体验。 ExAug 利用了一个简单的原理:通过以点云的形式提取 3D 信息,我们可以创建更复杂和结构化的增强,利用生成合成图像和几何感知惩罚,这在相同情况下适用于不同的机器人,具有不同的尺寸、转弯半径和摄像头位置。在有障碍物的室内和室外环境中,在两个带有三个不同摄像头的新机器人平台上评估训练后的策略。
- 基于显着性感知动态路由策略的遥感图像轻量级无级超分辨率 |
[code]
基于深度学习的算法极大地提高了遥感图像(RSI)超分辨率(SR)的性能。然而,增加网络深度和参数会导致计算和存储的巨大负担。直接减少现有模型的深度或宽度会导致性能大幅下降。我们观察到,一个 RSI 中不同区域的 SR 难度差异很大,现有方法使用相同的深度网络处理图像中的所有区域,造成计算资源的浪费。此外,现有的 SR 方法通常预先定义整数尺度因子,不能进行无级 SR,即单个模型可以处理任何潜在的尺度因子。在每个比例因子上重新训练模型会浪费大量的计算资源和模型存储空间。为了解决上述问题,我们提出了一种显着性感知动态路由网络(SalDRN),用于 RSI 的轻量级和无级 SR。首先,我们引入视觉显着性作为区域级 SR 难度的指标,并将轻量级显着性检测器集成到 SalDRN 中以捕获像素级视觉特征。然后,我们设计了一种显着性感知动态路由策略,该策略采用路径选择开关根据子图像块的 SR 难度自适应地选择适当深度的特征提取路径。最后,我们提出了一种新颖的轻量级无级上采样模块,其核心是隐式特征函数,用于实现从低分辨率特征空间到高分辨率特征空间的映射。综合实验验证,SalDRN 可以在性能和复杂性之间取得良好的折衷。代码位于 \url{this https URL}。
- NOCaL:里程计和相机内在学的免校准半监督学习 | [code]
有许多新兴的成像技术可以使机器人技术受益。然而,对定制模型、校准和低级处理的需求是它们采用的主要障碍。在这项工作中,我们展示了 NOCaL、神经里程计和使用光场的校准,这是一种半监督学习架构,能够在没有校准的情况下解释以前看不见的相机。 NOCaL 学习估计相机参数、相对姿势和场景外观。它采用在大量现有摄像机和场景上预训练的场景渲染超网络,并使用小型监督训练集来适应以前看不见的摄像机来强制度量尺度。我们使用传统相机在渲染和捕获的图像上演示 NOCaL,演示免校准里程计和新颖的视图合成。这项工作是朝着自动解释一般相机几何形状和新兴成像技术迈出的关键一步。
- 重新审视多视图光度立体, WACV2023 | [code]
多视图光度立体 (MVPS) 是从图像中详细和精确地 3D 采集对象的首选方法。尽管 MVPS 的流行方法可以提供出色的结果,但它们通常执行起来很复杂,并且仅限于各向同性的材料对象。为了解决这些限制,我们提出了一种简单实用的 MVPS 方法,该方法适用于各向同性以及其他对象材料类型,例如各向异性和光泽。本文提出的方法利用深度神经网络中不确定性建模的优势,实现光度立体 (PS) 和多视图立体 (MVS) 网络预测的可靠融合。然而,与最近提出的最先进技术相反,我们引入了神经体积渲染方法,用于可靠地融合 MVS 和 PS 测量。引入神经体绘制的优势在于它有助于对具有不同材料类型的对象进行可靠建模,而现有的 MVS 方法、PS 方法或两者都可能失败。此外,它允许我们处理神经 3D 形状表示,最近在许多几何处理任务中显示出出色的结果。我们建议的新损失函数旨在使用最确定的 MVS 和 PS 网络预测以及加权神经体积渲染成本来拟合隐式神经函数的零水平集。当在几个基准数据集上进行广泛测试时,所提出的方法显示了最先进的结果。
- 通过隐式神经表示的测试时间训练实现可控风格迁移 | [code]
我们提出了一个基于隐式神经表示的可控风格迁移框架,该框架通过测试时训练以像素方式控制风格化输出。与传统的图像优化方法经常遇到不稳定的收敛和需要密集训练且泛化能力有限的基于学习的方法不同,我们提出了一个模型优化框架,该框架在测试时通过显式损失函数来优化神经网络以进行风格迁移。在经过一次测试时间训练后,由于基于 INR 的模型的灵活性,我们的框架可以以像素方式精确控制风格化图像,并自由调整图像分辨率,无需进一步优化或训练。我们演示了几个应用程序。
- 具有可学习位置特征的可扩展神经视频表示, NeurIPS2022 |
[code]
使用基于坐标的神经表示 (CNR) 的复杂信号的简洁表示已经取得了很大进展,最近的几项工作集中在扩展它们以处理视频。在这里,主要挑战是如何(a)减轻训练 CNR 时的计算效率低下,以(b)实现高质量的视频编码,同时(c)保持参数效率。为了同时满足 (a)、(b) 和 (c) 的所有要求,我们提出了具有可学习位置特征 (NVP) 的神经视频表示,这是一种新颖的 CNR,通过引入“可学习位置特征”可以有效地将视频摊销为潜在代码。具体来说,我们首先提出了一种基于设计 2D 潜在关键帧的 CNR 架构,以学习每个时空轴上的常见视频内容,这极大地改善了所有这三个要求。然后,我们建议利用现有强大的图像和视频编解码器作为潜在代码的计算/内存高效压缩过程。我们展示了 NVP 在流行的 UVG 基准上的优越性;与现有技术相比,NVP 不仅训练速度快 2 倍(不到 5 分钟),而且编码质量也超过了 34.07→34.57(用 PSNR 指标衡量),即使使用的参数减少了 8 倍以上。我们还展示了 NVP 的有趣属性,例如视频修复、视频帧插值等。
- NeuralRoom:用于室内场景重建的几何约束神经隐式表面 | [code]
我们提出了一种称为 NeuralRoom 的新型神经表面重建方法,用于直接从一组 2D 图像重建房间大小的室内场景。最近,由于其高质量的结果和简单性,隐式神经表示已成为从多视图图像重建表面的有前途的方法。然而,隐式神经表示通常不能很好地重建室内场景,因为它们存在严重的形状-辐射度模糊性。我们假设室内场景由纹理丰富和平坦的无纹理区域组成。在纹理丰富的区域,多视图立体可以获得准确的结果。在平坦区域,正态估计网络通常能获得较好的正态估计。基于上述观察,我们通过可靠的几何先验来减少隐式神经表面可能的空间变化范围,以减轻形状-辐射度的模糊性。具体来说,我们使用多视图立体结果来限制 NeuralRoom 优化空间,然后使用可靠的几何先验来指导 NeuralRoom 训练。然后,NeuralRoom 将生成一个神经场景表示,该表示可以渲染与输入训练图像一致的图像。此外,我们提出了一种称为扰动残差限制的平滑方法来提高平坦区域的准确性和完整性,该方法假设局部表面中的采样点应该与观测中心具有相同的法线和相似的距离。在 ScanNet 数据集上的实验表明,我们的方法可以重建室内场景的无纹理区域,同时保持细节的准确性。我们还将 NeuralRoom 应用于更高级的多视图重建算法,并显着提高了它们的重建质量。
- CUF:连续上采样滤波器 | [code]
神经领域已迅速被用于表示 3D 信号,但它们在更经典的 2D 图像处理中的应用相对有限。在本文中,我们考虑了图像处理中最重要的操作之一:上采样。在深度学习中,可学习的上采样层已广泛用于单图像超分辨率。我们建议将上采样内核参数化为神经域。这种参数化导致了一个紧凑的架构,与竞争的任意尺度超分辨率架构相比,参数数量减少了 40 倍。当对大小为 256x256 的图像进行上采样时,我们表明我们的架构比竞争的任意尺度超分辨率架构效率高 2x-10 倍,并且在实例化为单尺度模型时比亚像素卷积更有效。在一般情况下,这些增益随目标规模的平方呈多项式增长。我们在标准基准上验证了我们的方法,表明可以在不牺牲超分辨率性能的情况下实现这种效率提升。
- GeoAug:具有几何约束的 Few-Shot NeRF 的数据增强, ECCV2022 | [code]
神经辐射场 (NeRF) 通过学习仅具有姿势 RGB 图像的隐式体积表示,显示出渲染特定场景新视图的非凡能力。尽管 NeRF 令人印象深刻且简单,但在训练图像很少的情况下,它通常会收敛到几何不正确的次优解决方案。我们在此提出 GeoAug:一种用于 NeRF 的数据增强方法,它丰富了基于多视图几何约束的训练数据。 GeoAug 提供用于训练的随机人工(新姿势、RGB 图像)对,其中 RGB 图像来自附近的训练视图。新姿势的渲染被扭曲到具有深度图和相对姿势的附近训练视图,以匹配 RGB 图像监督。我们的方法通过在训练期间引入更多数据来降低过度拟合的风险,同时还为深度图提供了额外的隐式监督。在实验中,我们的方法显着提高了以少量训练视图为条件的神经辐射场的性能。
- 逼真的神经域随机化, ECCV2022 | [code]
合成数据是人工监督的可扩展替代方案,但它需要克服模拟到真实领域的差距。虚拟世界和现实世界之间的这种差异可以通过两种看似相反的方法来解决:提高模拟的真实性或完全通过域随机化来超越真实性。在本文中,我们展示了神经渲染方面的最新进展实现了一种新的统一方法,我们称之为逼真的神经域随机化 (PNDR)。我们建议学习神经网络的组合,它充当基于物理的光线追踪器,仅从场景几何中生成高质量的渲染。我们的方法是模块化的,由用于材料、照明和渲染的不同神经网络组成,因此可以在可微的管道中随机化不同的关键图像生成组件。一旦经过训练,我们的方法可以与其他方法相结合,用于在线生成照片般逼真的图像增强,并且比通过传统的光线追踪更有效。我们通过两个下游任务证明了 PNDR 的有用性:6D 对象检测和单目深度估计。我们的实验表明,使用 PNDR 进行训练可以泛化到新场景,并且在现实世界传输方面明显优于现有技术。
- AniFaceGAN:用于视频头像的动画 3D 感知人脸图像生成, NeurIPS2022 |
[code]
尽管 2D 生成模型在人脸图像生成和动画方面取得了长足进步,但它们在从不同相机视点渲染图像时经常会遇到不希望的伪影,例如 3D 不一致。这可以防止他们合成与真实动画无法区分的视频动画。最近,3D 感知 GAN 扩展了 2D GAN,通过利用 3D 场景表示来明确解开相机姿势。这些方法可以很好地保持生成图像在不同视图中的 3D 一致性,但它们无法实现对其他属性的细粒度控制,其中面部表情控制可以说是面部动画最有用和最理想的方法。在本文中,我们提出了一种可动画的 3D 感知 GAN,用于多视图一致的人脸动画生成。关键思想是将 3D-aware GAN 的 3D 表示分解为模板字段和变形字段,其中前者用规范表达式表示不同的身份,后者表征每个身份的表达变化。为了通过变形实现对面部表情的有意义的控制,我们在 3D 感知 GAN 的对抗训练期间提出了生成器和参数 3D 面部模型之间的 3D 级模仿学习方案。这有助于我们的方法实现具有强烈视觉 3D 一致性的高质量动画人脸图像生成,即使仅使用非结构化 2D 图像进行训练。广泛的实验证明了我们优于以前的工作的性能。项目页面:此 https 网址
- 从单目视频中重建个性化语义面部 NeRF 模型, SIGGRAPH-Asia2022 |
[code]
我们提出了一种用神经辐射场定义的人头语义模型。 3D 一致的头部模型由一组解耦和可解释的基础组成,并且可以由低维表达系数驱动。由于神经辐射场强大的表示能力,所构建的模型可以表示复杂的面部属性,包括头发、着装等,这些属性是传统网格混合形状无法表示的。为了构建个性化的语义面部模型,我们建议将基础定义为几个多级体素字段。以短的单目 RGB 视频作为输入,我们的方法可以在 10 到 20 分钟内构建主体的语义面部 NeRF 模型,并且可以在给定的表情系数和视图方向下在数十毫秒内渲染出照片般逼真的人头图像。通过这种新颖的表示,我们将其应用于面部重定向和表情编辑等许多任务。实验结果证明了其强大的表示能力和训练/推理速度。我们的项目页面中提供了演示视频和发布的代码:此 https 网址
- LION:用于 3D 形状生成的潜在点扩散模型, NeurIPS2022 |
[code]
去噪扩散模型 (DDM) 在 3D 点云合成中显示出可喜的结果。为了推进 3D DDM 并使它们对数字艺术家有用,我们需要 (i) 高生成质量,(ii) 操作和应用的灵活性,例如条件合成和形状插值,以及 (iii) 输出平滑表面或网格的能力。为此,我们介绍了用于 3D 形状生成的分层潜在点扩散模型 (LION)。 LION 被设置为具有分层潜在空间的变分自动编码器 (VAE),该分层潜在空间将全局形状潜在表示与点结构潜在空间相结合。对于生成,我们在这些潜在空间中训练两个分层 DDM。与直接在点云上运行的 DDM 相比,分层 VAE 方法提高了性能,而点结构的潜在模型仍然非常适合基于 DDM 的建模。在实验上,LION 在多个 ShapeNet 基准上实现了最先进的生成性能。此外,我们的 VAE 框架使我们能够轻松地将 LION 用于不同的相关任务:LION 在多模态形状去噪和体素条件合成方面表现出色,并且可以适应文本和图像驱动的 3D 生成。我们还演示了形状自动编码和潜在形状插值,并使用现代表面重建技术增强了 LION 以生成平滑的 3D 网格。我们希望 LION 凭借其高质量的生成、灵活性和表面重建功能,为处理 3D 形状的艺术家提供强大的工具。项目页面和代码:此 https 网址。
- GraspNeRF:使用通用 NeRF 对透明和镜面物体进行基于多视图的 6-DoF 抓取检测 | [code]
在这项工作中,我们解决了透明和镜面物体的 6 自由度抓取检测问题,这是基于视觉的机器人系统中一个重要但具有挑战性的问题,因为深度相机无法感知其几何形状。我们首次提出了一种基于多视图 RGB 的 6 自由度抓取检测网络 GraspNeRF,该网络利用可泛化的神经辐射场 (NeRF) 在杂乱中实现与材料无关的物体抓取。与现有的基于 NeRF 的 3-DoF 抓取检测方法依赖于密集捕获的输入图像和耗时的每个场景优化相比,我们的系统可以使用稀疏 RGB 输入执行零样本 NeRF 构建并可靠地检测 6-DoF 抓取,两者都是实时的。所提出的框架以端到端的方式联合学习可泛化的 NeRF 和抓取检测,优化抓取的场景表示结构。对于训练数据,我们生成了一个大规模逼真的域随机合成数据集,用于在杂乱的桌面场景中抓取,从而可以直接转移到现实世界。我们在合成和现实世界环境中的广泛实验表明,我们的方法在所有实验中显着优于所有基线,同时保持实时。
- X-NeRF:多场景 360 的显式神经辐射场∘ RGB-D 视图不足, WACV2023 |
[code]
神经辐射场 (NeRFs) 尽管在新颖的视图合成方面表现出色,但通常需要密集的输入视图。许多论文分别为每个场景训练一个模型,很少有人探索将多模态数据纳入这个问题。在本文中,我们关注一个很少讨论但很重要的设置:我们能否训练一个模型来表示多个场景、360∘ 视图和 RGB-D 图像不足?我们将不足的视图称为少数极其稀疏且几乎不重叠的视图。为了解决这个问题,提出了一种完全显式的方法 X-NeRF,它学习一般的场景完成过程而不是基于坐标的映射。给定一些不足的 RGB-D 输入视图,X-NeRF 首先将它们转换为稀疏点云张量,然后应用 3D 稀疏生成卷积神经网络 (CNN) 将其完成到可以快速进行体积渲染的显式辐射场在推理期间不运行网络。为了避免过度拟合,除了常见的渲染损失之外,我们还应用了感知损失以及通过点云上的随机旋转来增强视图。在我们的环境中,所提出的方法显着优于以前的隐式方法,表明所提出的问题和方法的巨大潜力。此 https 网址提供了代码和数据。
- 具有动态学习神经隐式表示的多对象导航 | [code]
理解和映射新环境是任何自主导航代理的核心能力。虽然经典机器人通常使用 SLAM 变体以独立的方式估计地图,这些变体保持拓扑或度量表示,但导航的端到端学习在神经网络中保留了某种形式的记忆。网络通常充满归纳偏差,其范围从矢量表示到鸟瞰度量张量或拓扑结构。在这项工作中,我们建议构建具有两个神经隐式表示的神经网络,它们在每一集期间动态学习并映射场景的内容:(i)语义查找器预测先前看到的查询对象的位置; (ii) Occupancy and Exploration Implicit Representation 封装了有关探索区域和障碍物的信息,并使用一种新颖的全局读取机制进行查询,该机制直接从函数空间映射到可用的嵌入空间。这两种表示都由经过强化学习 (RL) 训练的代理利用,并在每一集期间在线学习。我们评估了多对象导航上的代理,并展示了使用神经隐式表示作为记忆源的巨大影响。
- CLIP-Fields:机器人记忆的弱监督语义场 | [code]
我们提出了 CLIP-Fields,这是一种隐式场景模型,可以在没有直接人工监督的情况下进行训练。该模型学习从空间位置到语义嵌入向量的映射。然后,该映射可用于各种任务,例如分割、实例识别、空间语义搜索和视图定位。最重要的是,映射可以通过仅来自网络图像和网络文本训练模型(如 CLIP、Detic 和 Sentence-BERT)的监督进行训练。与 Mask-RCNN 之类的基线相比,我们的方法在 HM3D 数据集上的少量实例识别或语义分割方面表现优于仅一小部分示例。最后,我们展示了使用 CLIP-Fields 作为场景记忆,机器人可以在现实环境中执行语义导航。我们的代码和演示可在此处获得:https://mahis.life/clip-fields/
- 神经形状变形先验, NeurIPS2022 | [code]
我们提出了神经形状变形先验,这是一种新的形状操作方法,可以根据用户提供的手柄运动来预测非刚性物体的网格变形。最先进的方法将此问题视为优化任务,其中输入源网格被迭代变形以根据手工制作的正则化器(如 ARAP)最小化目标函数。在这项工作中,我们基于形状的基本几何特性来学习变形行为,同时利用包含各种非刚性变形的大规模数据集。具体来说,给定源网格和描述部分表面变形的手柄的所需目标位置,我们预测在 3D 空间中定义的连续变形场以描述空间变形。为此,我们引入了基于变压器的变形网络,将形状变形表示为局部表面变形的组合。它学习一组锚定在 3D 空间中的局部潜在代码,从中我们可以学习一组局部表面的连续变形函数。我们的方法可以应用于具有挑战性的变形,并且可以很好地推广到看不见的变形。我们使用 DeformingThing4D 数据集在实验中验证了我们的方法,并与经典的基于优化的方法和最近的基于神经网络的方法进行了比较。
- 动态人脸合成的可控辐射场, 3DV2022 | [code]
最近关于 3D 感知图像合成的工作利用神经渲染的进步取得了令人瞩目的成果。然而,面部动态的 3D 感知合成并没有受到太多关注。在这里,我们研究如何明确控制表现出非刚性运动(例如,面部表情变化)的面部动力学的生成模型合成,同时确保 3D 感知。为此,我们提出了一种可控辐射场(CoRF):1)通过在基于样式的生成器的分层潜在运动空间中嵌入运动特征来实现运动控制; 2)为了确保背景、运动特征和特定主题属性(如光照、纹理、形状、反照率和身份)的一致性,结合了人脸解析网络、头部回归器和身份编码器。在头部图像/视频数据上,我们表明 CoRF 具有 3D 感知能力,同时能够编辑身份、查看方向和运动。
- 神经过程的连续条件视频合成 |
[code]
我们为多个条件视频合成任务提出了一个统一模型,包括视频预测和视频帧插值。我们表明,条件视频合成可以表述为一个神经过程,它将输入时空坐标映射到给定上下文时空坐标和像素值的目标像素值。具体来说,我们将坐标的隐式神经表示馈送到基于 Transformer 的非自回归条件视频合成模型中。我们的任务特定模型优于以前在多个数据集上进行视频插值的工作,并与最先进的视频预测模型具有竞争力的性能。重要的是,该模型能够以任意高帧速率进行插值或预测,即连续合成。我们的源代码可在此 https 网址上找到。
- SiNeRF:用于联合姿势估计和场景重建的正弦神经辐射场, BMVC2022 |
[code]
NeRFmm 是处理联合优化任务的神经辐射场 (NeRF),即同时重建真实场景和注册相机参数。尽管 NeRFmm 产生了精确的场景合成和姿势估计,但它仍然难以在具有挑战性的场景中超越全注释基线。在这项工作中,我们发现联合优化中存在系统的次优性,并进一步确定了它的多个潜在来源。为了减少潜在源的影响,我们提出了利用正弦激活进行辐射映射的正弦神经辐射场 (SiNeRF) 和用于有效选择射线批次的新型混合区域采样 (MRS)。定量和定性的结果表明,与NeRFmm相比,SiNeRF在图像合成质量和姿态估计精度方面实现了全面的显着提升。此 https 网址提供了代码。
- NerfAcc:一个通用的 NeRF 加速工具箱 |
[code]
我们提出了 NerfAcc,一个用于高效体积渲染辐射场的工具箱。我们以 Instant-NGP 中提出的技术为基础,并将这些技术扩展为不仅支持有界静态场景,还支持动态场景和无界场景。 NerfAcc 带有一个用户友好的 Python API,并为大多数 NeRF 的即插即用加速做好了准备。提供了各种示例来展示如何使用此工具箱。可在此处找到代码:此 https 网址。
- 通过神经渲染在静态视频中进行自我监督的 3D 人体姿态估计 | [code]
从 2D 图像推断 3D 人体姿势是计算机视觉领域中一个具有挑战性且长期存在的问题,具有许多应用,包括运动和医学的运动捕捉、虚拟现实、监视或步态分析。我们提供了一种从包含单个人和静态背景的 2D 视频中估计 3D 姿势的方法的初步结果,而无需任何手动地标注释。我们通过制定一个简单而有效的自我监督任务来实现这一点:我们的模型需要重建视频的随机帧,给定来自另一个时间点的帧和变换后的人体形状模板的渲染图像。对于优化至关重要,我们基于光线投射的渲染管道是完全可区分的,能够仅基于重建任务进行端到端训练。
- MVSPlenOctree:从多视图立体中快速和通用地重建 PlenOctree 中的辐射场, ACMMM2022 | [code]
我们提出了 MVSPlenOctree,这是一种新方法,可以有效地重建辐射场以进行视图合成。与以前特定场景的辐射场重建方法不同,我们提出了一个通用管道,可以通过从数十个稀疏展开的图像中进行多视图立体 (MVS) 推断来有效地重建 360 度可渲染的辐射场。我们的方法利用基于方差的统计特征进行 MVS 推理,并将其与基于图像的渲染和体积渲染相结合以进行辐射场重建。我们首先训练一个 MVS 机器来推理场景的密度和外观。然后,基于 PlenOctree 的空间层次结构和从粗到细的密集采样机制,我们设计了一种鲁棒高效的 PlenOctree 重建采样策略,可以鲁棒地处理遮挡。一个 360 度可渲染的辐射场可以在 MVS Machine 的 PlenOctree 中以有效的单次前向传递进行重建。我们在真实世界的 DTU、LLFF 数据集和合成数据集上训练了我们的方法。我们通过评估在训练中看不到的 DTU 数据集的测试集来验证其普遍性。总之,我们的辐射场重建方法既高效又通用,可以在几秒钟内重建一个粗略的 360 度可渲染辐射场,在几分钟内重建一个密集的辐射场。更多详情请访问项目页面:https://derry-xing.github.io/projects/MVSPlenOctree。
- ParseMVS:学习用于稀疏多视图立体视觉的原始感知表面表示, ACMMM2022 | [code]
多视图立体视觉 (MVS) 通过从密集采样的图像中找到密集的照片一致对应关系来恢复 3D 表面。在本文中,我们从稀疏采样的视图(最多减少一个数量级的图像)解决具有挑战性的 MVS 任务,这在应用程序中更实用且更具成本效益。主要挑战来自严重遮挡和高度倾斜的补丁引入的显着对应模糊性。另一方面,这种模糊性可以通过结合来自全局结构的几何线索来解决。有鉴于此,我们提出 ParseMVS,通过学习 Primitive-A waR e S urface rE 表示来提升稀疏 MVS。特别是,除了了解全局结构之外,我们的新颖表示还允许保留精细细节,包括几何、纹理和可见性。更具体地说,整个场景被解析为多个几何图元。在它们中的每一个上,几何定义为沿基元法线方向的位移,以及沿每个视图方向的纹理和可见性。一个无监督的神经网络被训练来通过逐渐增加所有输入图像之间的照片一致性和渲染一致性来学习这些因素。由于表面属性在每个图元的 2D 空间中局部更改,ParseMVS 可以在优化局部细节的同时保留全局图元结构,处理“不完整”和“不准确”问题。我们通过实验证明,在不同的采样稀疏度下,尤其是在极端稀疏的 MVS 设置下,ParseMVS 在完整性和总体得分方面始终优于最先进的表面重建方法。除此之外,ParseMVS 在压缩、鲁棒性和效率方面也显示出巨大的潜力。
- 通过相邻几何引导体积完成的自监督多视图立体, ACMMM2022 | [code]
现有的自我监督多视图立体(MVS)方法在很大程度上依赖于几何推断的光度一致性,因此受到低纹理或非朗伯外观的影响。在本文中,我们观察到相邻几何具有某些共性,可以帮助推断具有挑战性或低置信度区域的正确几何。然而,由于缺乏训练数据和确保视图之间一致性的必要性,在非监督 MVS 方法中利用此类属性仍然具有挑战性。为了解决这些问题,我们提出了一种新颖的几何推理训练方案,通过选择性地掩盖具有丰富纹理的区域,其中几何可以很好地恢复并用于监督信号,然后引导一个精心设计的成本体积完成网络来学习如何恢复几何被屏蔽的区域。在推理过程中,我们然后屏蔽低置信区域,并使用成本体积完成网络进行几何校正。为了处理成本体积金字塔的不同深度假设,我们为完成网络设计了一个三分支体积推理结构。此外,通过将平面视为一种特殊的几何形状,我们首先从伪标签中识别平面区域,然后通过平面法线一致性通过高置信度标签校正低置信度像素。在 DTU 和 Tanks & Temples 上进行的大量实验证明了所提出框架的有效性和最先进的性能。
- 面向 DIBR 的视图合成的几何翘曲误差感知 CNN, ACMMM2022 | [code]
基于深度图像渲染(DIBR)的面向视图合成是一种重要的虚拟视图生成技术。它根据深度图将参考视图图像扭曲到目标视点,而不需要许多可用的视点。然而,在 3D 翘曲过程中,像素被翘曲到分数像素位置,然后四舍五入(或插值)到整数像素,导致几何翘曲错误并降低图像质量。这在某种程度上类似于图像超分辨率问题,但具有不固定的小数像素位置。为了解决这个问题,我们提出了一个几何翘曲误差感知 CNN (GWEA) 框架来增强面向 DIBR 的视图合成。首先,利用 DIBR 模块中保留的几何翘曲误差,开发了一种基于可变形卷积的几何翘曲误差感知对齐 (GWEA-DCA) 模块。在可变形卷积中学习的偏移量可以解释几何翘曲误差,以促进从小数像素到整数像素的映射。此外,鉴于翘曲图像中的像素由于翘曲误差的强度不同而具有不同的质量,进一步开发了注意力增强视图混合(GWEA-AttVB)模块,以自适应地融合来自不同翘曲图像的像素。最后,基于部分卷积的空洞填充和细化模块填充剩余的空洞并提高整体图像的质量。实验表明,我们的模型可以合成比现有方法更高质量的图像,并且还进行了消融研究,验证了每个提出的模块的有效性。
- ReFu:细化和融合未观察到的视图以保留细节的单图像 3D 人体重建 | [code]
单图像 3D 人体重建旨在在给定单个图像的情况下重建人体的 3D 纹理表面。虽然基于隐式函数的方法最近实现了合理的重建性能,但它们仍然存在局限性,从未观察的角度显示表面几何形状和纹理质量下降。作为回应,为了生成逼真的纹理表面,我们提出了 ReFu,这是一种从粗到细的方法,可以细化投影的背面视图图像并融合细化的图像以预测最终的人体。为了抑制在投影图像和重建网格中引起噪声的扩散占用,我们建议通过同时利用 2D 和 3D 监督和基于占用的体渲染来训练占用概率。我们还引入了一种细化架构,该架构可以生成具有前后扭曲的保留细节的背面视图图像。大量实验表明,我们的方法从单个图像中实现了 3D 人体重建的最先进性能,从未观察到的视图中显示出增强的几何和纹理质量。
- NeRF2Real:使用神经辐射场的视觉引导双足运动技能的 Sim2real 转移 | [code]
我们提出了一个系统,用于将 sim2real 方法应用于具有逼真视觉效果的“野外”场景,以及依赖于使用 RGB 相机的主动感知的策略。给定一个使用通用电话收集的静态场景的短视频,我们学习场景的接触几何和使用神经辐射场 (NeRF) 进行新视图合成的功能。我们通过叠加其他动态对象(例如机器人自己的身体、球)的渲染来增强静态场景的 NeRF 渲染。然后使用物理模拟器中的渲染引擎创建模拟,该模拟从静态场景几何(根据 NeRF 体积密度估计)和动态对象的几何和物理属性(假设已知)计算接触动力学。我们证明我们可以使用这个模拟来学习基于视觉的全身导航和推球策略,用于具有驱动头戴式 RGB 摄像头的 20 自由度类人机器人,并且我们成功地将这些策略转移到真实机器人。此 https 网址提供项目视频
- 从单幅图像中进行 3D 人脸绑定的不确定性感知半监督学习, ACMMM2022 | [code]
我们提出了一种通过动作单元 (AU)、视点和光线方向从单个输入图像中装配 3D 面的方法。现有的人脸合成和动画 3D 方法严重依赖 3D 可变形模型(3DMM),该模型建立在 3D 数据之上,无法提供直观的表情参数,而 AU 驱动的 2D 方法无法处理头部姿势和光照效果。我们通过以半监督方式将最近的 3D 重建方法与 2D AU 驱动方法相结合来弥补差距。建立在自动编码 3D 人脸重建模型的基础上,该模型在没有任何监督的情况下将深度、反照率、视点和光线解耦,我们进一步将表达式与深度和反照率的身份解耦,并使用新的条件特征转换模块和预训练的批评家进行 AU 强度估计和图像分类.新颖的目标函数是使用未标记的野外图像和带有 AU 标签的室内图像设计的。我们还利用不确定性损失将可能变化的图像 AU 区域建模为合成的输入噪声,并对有噪声的 AU 强度标签进行建模以估计 AU 评论家的强度。在四个数据集上进行的人脸编辑和动画实验表明,与六种最先进的方法相比,我们提出的方法在表情一致性、身份相似性和姿势相似性方面具有优越性和有效性。
- 强化神经辐射场的多尺度表示, BMVC2022 | [code]
神经辐射场 (NeRF) 最近成为从多视图 (MV) 图像中表示对象的新范例。然而,它无法处理多尺度 (MS) 图像和相机姿态估计错误,这通常是从日常商品相机捕获的多视图图像的情况。虽然最近提出的 Mip-NeRF 可以处理 NeRF 的多尺度成像问题,但它不能处理相机姿态估计误差。另一方面,新提出的 BARF 可以解决 NeRF 的相机位姿问题,但如果图像本质上是多尺度的,则会失败。本文提出了一种强大的多尺度神经辐射场表示方法,以同时克服两个现实世界的成像问题。我们的方法通过利用场景刚性的基本原理,使用受 NeRF 启发的方法来处理多尺度成像效果和相机姿态估计问题。为了减少由于光线空间中的多尺度图像造成的令人不快的混叠伪影,我们利用了 Mip-NeRF 多尺度表示。对于鲁棒相机位姿的联合估计,我们在神经体绘制框架中提出了基于图神经网络的多重运动平均。我们通过示例证明,为了从日常获取的多视图图像中准确地表示对象,拥有精确的相机姿态估计是至关重要的。如果不考虑相机姿态估计中的鲁棒性度量,通过圆锥截头体对多尺度混叠伪影进行建模可能会适得其反。我们在基准数据集上进行了广泛的实验,以证明我们的方法比最近的 NeRF 启发的方法在这种现实设置中提供了更好的结果。
- 使用树结构从辐射场估计神经反射场 | [code]
我们提出了一种新方法,用于在未知光照下从一组姿势多视图图像中估计对象的神经反射场 (NReF)。 NReF 以分离的方式表示对象的 3D 几何和外观,并且很难仅从图像中估计。我们的方法通过利用神经辐射场(NeRF)作为代理表示来解决这个问题,我们从中进行进一步的分解。高质量的 NeRF 分解依赖于良好的几何信息提取以及良好的先验项来正确解决不同组件之间的歧义。为了从辐射场中提取高质量的几何信息,我们重新设计了一种新的基于射线投射的表面点提取方法。为了有效地计算和应用先验项,我们将不同的先验项转换为从辐射场提取的表面上的不同类型的滤波操作。然后,我们采用两种类型的辅助数据结构,即高斯 KD-tree 和八叉树,以支持在训练期间快速查询表面点和高效计算表面过滤器。基于此,我们设计了一个多级分解优化流程,用于从神经辐射场估计神经反射场。大量实验表明,我们的方法在不同数据上优于其他最先进的方法,并且能够实现高质量的自由视图重新照明以及材料编辑任务。
- 通过学习一致性场实现高效的神经场景图, BMVC2022 |
[code]
神经辐射场 (NeRF) 从新颖的视图实现照片般逼真的图像渲染,神经场景图 (NSG) \cite{ost2021neural} 将其扩展到具有多个对象的动态场景(视频)。然而,为每个图像帧计算繁重的光线行进成为一个巨大的负担。在本文中,利用视频中相邻帧之间的显着冗余,我们提出了一个特征重用框架。然而,从天真地重用 NSG 特征的第一次尝试中,我们了解到,将跨帧一致的对象内在属性与瞬态属性分开是至关重要的。我们提出的方法,\textit{基于一致性场的 NSG (CF-NSG)},重新定义了神经辐射场以额外考虑 \textit{一致性场}。通过解开表示,CF-NSG 充分利用了特征重用方案,并以更可控的方式执行扩展程度的场景操作。我们凭经验验证,CF-NSG 通过使用比 NSG 少 85% 的查询大大提高了推理效率,而渲染质量没有显着下降。代码将在以下位置提供:此 https 网址
- ViewFool:评估视觉识别对对抗性观点的鲁棒性, NeurIPS2022 | [code]
最近的研究表明,视觉识别模型对分布变化缺乏鲁棒性。然而,目前的工作主要考虑模型对 2D 图像转换的鲁棒性,而较少探索 3D 世界中的视点变化。一般来说,视点变化在各种实际应用(例如自动驾驶)中很普遍,因此评估视点鲁棒性势在必行。在本文中,我们提出了一种称为 ViewFool 的新方法来寻找误导视觉识别模型的对抗性视点。通过将现实世界中的物体编码为神经辐射场 (NeRF),ViewFool 在熵正则化器下表征了不同对抗视点的分布,这有助于处理真实相机姿态的波动并减轻真实物体与其神经之间的现实差距申述。实验验证了常见的图像分类器极易受到生成的对抗性视点的影响,这也表现出很高的跨模型可迁移性。基于 ViewFool,我们引入了 ImageNet-V,这是一种新的分布外数据集,用于对图像分类器的视点鲁棒性进行基准测试。对具有不同架构、目标函数和数据增强的 40 个分类器的评估结果显示,在 ImageNet-V 上进行测试时模型性能显着下降,这为利用 ViewFool 作为一种有效的数据增强策略来提高视点鲁棒性提供了可能性。
- 用于手术记录的新视图合成 | [code]
在手术室记录手术是医疗教育和评估的基本任务之一。然而,由于目标在手术过程中被医生或护士的头部或手严重遮挡,因此难以记录描绘手术的区域。我们使用了一个记录系统,该系统在手术灯中嵌入了多个摄像头,假设至少有一个摄像头正在无遮挡地记录目标。在本文中,我们提出 Conditional-BARF (C-BARF) 通过合成来自相机的新颖视图图像来生成无遮挡图像,旨在生成具有平滑相机姿态转换的视频。据我们所知,这是第一个解决从手术场景的多个图像合成新颖视图图像的问题的工作。我们使用三种不同类型手术的原始数据集进行实验。我们的实验表明,我们可以成功地从嵌入在手术灯中的多个摄像头记录的图像中合成新的视图。
- 一种基于关键点的音频驱动自由视角说话头合成增强方法 | [code]
音频驱动的说话头合成是一项具有挑战性的任务,近年来越来越受到关注。虽然现有的基于 2D 标志或 3D 人脸模型的方法可以为任意身份合成准确的嘴唇同步和有节奏的头部姿势,但它们仍然存在局限性,例如嘴部映射中的切割感和缺乏皮肤高光。与周围的人脸相比,变形区域是模糊的。提出了一种基于关键点的增强(KPBE)方法用于音频驱动的自由视图说话头合成,以提高生成视频的自然度。首先,使用现有方法作为后端来合成中间结果。然后我们使用关键点分解从后端输出和源图像中提取视频合成控制参数。之后,将控制参数合成为源关键点和驱动关键点。使用基于运动场的方法从关键点表示生成最终图像。通过关键点表示,我们克服了嘴巴映射中的切割感和缺乏皮肤高光的问题。实验表明,我们提出的增强方法在平均意见得分方面提高了谈话头视频的质量。
- 用于将图像转换为任意比例的简单插件 | [code]
现有的超分辨率模型通常专门针对一个尺度,从根本上限制了它们在实际场景中的使用。在本文中,我们的目标是开发一个通用插件,可以插入到现有的超分辨率模型中,方便地增强它们对任意分辨率图像缩放的能力,因此被称为 ARIS。我们做出以下贡献:(i)我们提出了一个基于transformer的插件模块,它使用空间坐标作为查询,通过交叉注意迭代地关注低分辨率图像特征,并为查询的空间位置输出视觉特征,类似于图像的隐式表示; (ii) 我们引入了一种新颖的自我监督训练方案,该方案利用一致性约束来有效地增强模型将图像上采样到看不见的尺度的能力,即不提供真实的高分辨率图像; (iii) 在不失一般性的情况下,我们将提出的 ARIS 插件模块注入到多个现有模型中,即 IPT、SwinIR 和 HAT,表明生成的模型不仅可以在固定比例因子上保持其原始性能,而且可以外推到看不见的模型尺度,在标准基准上大大优于现有的任何尺度超分辨率模型,例如Urban100、DIV2K等
- 用于实时、开放集场景理解的特征真实神经融合 | [code]
机器人的一般场景理解需要灵活的语义表示,以便可以识别、分割和分组训练时可能不知道的新物体和结构。我们提出了一种算法,该算法在实时 SLAM 期间将来自标准预训练网络的一般学习特征融合到高效的 3D 几何神经场表示中。融合的 3D 特征图继承了神经域几何表示的连贯性。这意味着在运行时交互的少量人类标签使对象甚至对象的一部分能够以开放集的方式稳健而准确地分割。
- XDGAN:2D 空间中的多模态 3D 形状生成 | [code]
由于二维卷积架构的效率,二维图像的生成模型最近在质量、分辨率和速度方面取得了巨大进步。然而,由于大多数当前的 3D 表示依赖于自定义网络组件,因此很难将此进展扩展到 3D 领域。本文解决了一个核心问题:是否可以直接利用 2D 图像生成模型来生成 3D 形状?为了回答这个问题,我们提出了 XDGAN,这是一种有效且快速的方法,用于将 2D 图像 GAN 架构应用于 3D 对象几何图形的生成,并结合附加的表面属性,如颜色纹理和法线。具体来说,我们提出了一种将 3D 形状转换为紧凑的 1 通道几何图像并利用 StyleGAN3 和图像到图像转换网络在 2D 空间中生成 3D 对象的新方法。生成的几何图像可以快速转换为 3D 网格,实现实时 3D 对象合成、可视化和交互式编辑。此外,使用标准 2D 架构有助于将更多 2D 进步带入 3D 领域。我们定量和定性地表明,我们的方法在各种任务中非常有效,例如 3D 形状生成、单视图重建和形状操作,同时与最近的 3D 生成模型相比明显更快、更灵活。
- 一种基于神经表面重建的鲁棒对象抓取的 Real2Sim2Real 方法 | [code]
最近基于 3D 的操作方法要么使用 3D 神经网络直接预测抓取姿势,要么使用从形状数据库中检索到的类似对象来解决抓取姿势。然而,前者在使用新的机器人手臂或看不见的物体进行测试时面临着普遍性挑战;后者假设数据库中存在类似的对象。我们假设最近的 3D 建模方法为构建评估场景的数字副本提供了途径,该评估场景提供物理模拟并支持稳健的操作算法学习。我们建议使用最先进的神经表面重建方法(Real2Sim 步骤)从现实世界的点云中重建高质量的网格。由于大多数模拟器采用网格进行快速模拟,因此重建的网格无需人工即可生成抓取姿势标签。生成的标签可以训练在真实评估场景中表现稳健的抓取网络(Sim2Real 步骤)。在合成和真实实验中,我们表明 Real2Sim2Real 管道的性能优于使用大型数据集训练的基线抓取网络和基于检索的重建的抓取采样方法。 Real2Sim2Real 管道的好处来自 1) 将场景建模和抓取采样解耦为子问题,以及 2) 可以使用最新的 3D 学习算法和基于网格的物理模拟技术以足够高的质量解决这两个子问题。
- 用于实时、开放集场景理解的特征真实神经融合 | [code]
机器人的一般场景理解需要灵活的语义表示,以便可以识别、分割和分组训练时可能不知道的新物体和结构。我们提出了一种算法,该算法在实时 SLAM 期间将来自标准预训练网络的一般学习特征融合到高效的 3D 几何神经场表示中。融合的 3D 特征图继承了神经域几何表示的连贯性。这意味着在运行时交互的少量人类标签使对象甚至对象的一部分能够以开放集的方式稳健而准确地分割。
- 神经匹配字段:视觉对应匹配字段的隐式表示, NeurIPS2022 |
[code]
现有的语义对应管道通常包括提取高级语义特征以保持对类内变化和背景杂波的不变性。然而,这种架构不可避免地会导致低分辨率匹配字段,该字段还需要临时插值过程作为将其转换为高分辨率的后处理,这肯定会限制匹配结果的整体性能。为了克服这个问题,受隐式神经表示最近成功的启发,我们提出了一种新的语义对应方法,称为神经匹配场 (NeMF)。然而,4D 匹配场的复杂性和高维性是主要障碍,我们提出了一种成本嵌入网络来处理粗略的成本量,以作为通过以下全连接网络建立高精度匹配场的指导。然而,学习高维匹配字段仍然具有挑战性,主要是由于计算复杂性,因为简单的穷举推理需要从 4D 空间中的所有像素中查询以推断像素级对应关系。为了克服这个问题,我们提出了充分的训练和推理程序,在训练阶段,我们随机抽取匹配的候选者,在推理阶段,我们在测试时迭代地执行基于 PatchMatch 的推理和坐标优化。通过这些结合,在语义对应的几个标准基准上获得了具有竞争力的结果。此 https URL 提供了代码和预训练的权重。
- IR-MCL:基于隐式表示的在线全球本地化 |
[code]
确定移动机器人的状态是机器人导航系统的重要组成部分。在本文中,我们解决了使用 2D LiDAR 数据估计机器人在室内环境中的姿势的问题,并研究了现代环境模型如何改进黄金标准 Monte-Carlo 定位 (MCL) 系统。我们提出了一个神经占用场(NOF)来使用神经网络隐式表示场景。借助预训练网络,我们可以通过体绘制合成 2D LiDAR 扫描以获取任意机器人姿势。基于隐式表示,我们可以获得合成扫描与实际扫描之间的相似度作为观察模型,并将其集成到 MCL 系统中以执行准确的定位。我们在五个自记录数据集和三个公开可用数据集的序列上评估我们的方法。我们表明,我们可以使用我们的方法准确有效地定位机器人,超过最先进方法的定位性能。实验表明,所呈现的隐式表示能够预测更准确的 2D LiDAR 扫描,从而为我们的基于粒子滤波器的定位提供改进的观察模型。我们方法的代码发布在:this https URL。
- SelfNeRF:来自单目自旋转视频的人类快速训练 NeRF | [code]
在本文中,我们提出了 SelfNeRF,一种有效的基于神经辐射场的新型视图合成方法,用于人类表现。给定人类表演者的单目自旋转视频,SelfNeRF 可以从头开始训练并在大约 20 分钟内获得高保真结果。最近的一些工作利用神经辐射场进行动态人体重建。然而,这些方法中的大多数都需要多视图输入并且需要数小时的训练,因此仍然难以实际使用。为了解决这个具有挑战性的问题,我们引入了一种基于多分辨率哈希编码的表面相对表示,可以大大提高训练速度并聚合帧间信息。在几个不同数据集上的广泛实验结果证明了 SelfNeRF 对具有挑战性的单目视频的有效性和效率。
- 从单目视频中捕捉和动画身体和服装 | [code]
虽然最近的工作已经显示出从单个图像、视频或一组 3D 扫描中提取穿衣服的 3D 人体化身的进展,但仍然存在一些限制。大多数方法使用整体表示来对身体和服装进行联合建模,这意味着对于虚拟试穿等应用,服装和身体不能分开。其他方法分别对身体和衣服进行建模,但它们需要从从 3D/4D 扫描仪或物理模拟获得的大量 3D 衣服人体网格中进行训练。我们的洞察是身体和服装有不同的造型要求。虽然基于网格的参数 3D 模型可以很好地表示身体,但隐式表示和神经辐射场更适合捕捉服装中存在的各种形状和外观。基于这一见解,我们提出了 SCARF(分段穿衣化身辐射场),这是一种将基于网格的身体与神经辐射场相结合的混合模型。将网格与可微分光栅器相结合将网格集成到体积渲染中,使我们能够直接从单目视频优化 SCARF,而无需任何 3D 监督。混合建模使 SCARF 能够(i)通过改变身体姿势(包括手部关节和面部表情)为穿着衣服的身体化身制作动画,(ii)合成化身的新视图,以及(iii)在虚拟试穿中在化身之间转移衣服应用程序。我们证明了 SCARF 重建的服装比现有方法具有更高的视觉质量,服装随着身体姿势和体形的变化而变形,并且服装可以在不同主体的化身之间成功转移。代码和模型可在此 https 网址获得。
- 在杂乱的环境中学习感知感知敏捷飞行 | [code]
最近,神经控制策略的性能优于现有的基于模型的规划和控制方法,可在最短的时间内通过杂乱的环境自主导航四旋翼飞行器。然而,它们没有感知意识,这是基于视觉的导航的关键要求,因为相机的视野有限和四旋翼的驱动不足。我们提出了一种学习神经网络策略的方法,该策略可在杂乱的环境中实现感知感知、最短时间飞行。我们的方法通过利用特权学习作弊框架结合了模仿学习和强化学习 (RL)。使用 RL,我们首先训练具有全状态信息的感知感知教师策略,以便在最短时间内通过杂乱的环境。然后,我们使用模仿学习将其知识提炼成基于视觉的学生策略,该策略仅通过相机感知环境。我们的方法将感知和控制紧密结合,在计算速度(快 10 倍)和成功率方面显示出显着优势。我们使用物理四旋翼和硬件在环仿真以高达 50 公里/小时的速度展示了闭环控制性能。
- 用于自监督入住预测的可区分光线投射, ECCV2022 |
[code]
安全自动驾驶的运动规划需要了解自我车辆周围的环境如何随时间演变。场景中可驱动区域的以自我为中心的感知不仅随着环境中演员的运动而变化,而且随着自我车辆本身的运动而变化。为大规模规划(例如以自我为中心的自由空间)提出的自我监督表示混淆了这两种运动,使得该表示难以用于下游运动规划器。在本文中,我们使用几何占用作为自由空间等依赖于视图的表示的自然替代方案。占用图自然地将环境的运动与自我车辆的运动分开。然而,人们无法直接观察场景的完整 3D 占用情况(由于遮挡),因此难以用作学习信号。我们的主要见解是使用可微分光线投射将未来占用预测“渲染”到未来的 LiDAR 扫描预测中,这可以与自监督学习的地面实况扫描进行比较。可微光线投射的使用允许占用率作为预测网络中的内部表示出现。在没有地面实况占用的情况下,我们定量评估了光线投射 LiDAR 扫描的预测,并显示了多达 15 个 F1 点的改进。对于下游运动规划器,紧急占用可以直接用于引导不可驱动区域,与以自由空间为中心的运动规划器相比,这种表示相对减少了高达 17% 的物体碰撞次数。
- 用于新视图合成的自我改进多平面到层图像, WACV2023 |
[code]
我们提出了一种用于轻量级小说视图合成的新方法,该方法可以推广到任意前向场景。最近的方法在计算上很昂贵,需要逐场景优化,或者产生内存昂贵的表示。我们首先用一组正面平行的半透明平面来表示场景,然后以端到端的方式将它们转换为可变形层。此外,我们采用前馈细化程序,通过聚合来自输入视图的信息来纠正估计的表示。我们的方法在处理新场景时不需要微调,并且可以不受限制地处理任意数量的视图。实验结果表明,我们的方法在常用指标和人工评估方面超过了最近的模型,在推理速度和推断分层几何的紧凑性方面具有显着优势,请参阅此 https URL
- 用于隐式场景重建的不确定性驱动的主动视觉 | [code]
多视图隐式场景重建方法由于能够表示复杂的场景细节而变得越来越流行。最近的努力致力于改进输入信息的表示并减少获得高质量重建所需的视图数量。然而,也许令人惊讶的是,关于选择哪些视图以最大限度地提高场景理解的研究在很大程度上仍未得到探索。我们提出了一种用于隐式场景重建的不确定性驱动的主动视觉方法,该方法利用体积渲染在场景中累积的占用不确定性来选择下一个要获取的视图。为此,我们开发了一种基于占用的重建方法,该方法使用 2D 或 3D 监督准确地表示场景。我们在 ABC 数据集和野外 CO3D 数据集上评估了我们提出的方法,并表明:(1)我们能够获得高质量的最先进的占用重建; (2) 我们的视角条件不确定性定义有效地推动了下一个最佳视图选择的改进,并且优于强大的基线方法; (3) 我们可以通过对视图选择候选执行基于梯度的搜索来进一步提高形状理解。总体而言,我们的结果突出了视图选择对于隐式场景重建的重要性,使其成为进一步探索的有希望的途径。
- NARF22:用于配置感知渲染的神经铰接辐射场, IROS2022 | [code]
铰接物体对机器人的感知和操作提出了独特的挑战。它们增加的自由度数量使得定位等任务在计算上变得困难,同时也使得现实世界数据集收集的过程无法扩展。为了解决这些可扩展性问题,我们提出了神经铰接辐射场 (NARF22),这是一个使用完全可微分、配置参数化神经辐射场 (NeRF) 作为提供铰接对象高质量渲染的方法的管道。 NARF22 在推理时不需要明确了解对象结构。我们提出了一种两阶段的基于部件的训练机制,即使底层训练数据只有一个配置表示,它也允许对象渲染模型在配置空间中很好地泛化。我们通过在通过 Fetch 移动操作机器人收集的真实关节工具数据集上训练可配置渲染器来展示 NARF22 的功效。我们通过配置估计和 6 自由度姿态细化任务展示了该模型对基于梯度的推理方法的适用性。项目网页位于:此 https URL。
- 密集单目 SLAM 的概率体积融合 | [code]
我们提出了一种利用深度密集单目 SLAM 和快速不确定性传播从图像中重建 3D 场景的新方法。所提出的方法能够密集、准确、实时地对场景进行 3D 重建,同时对来自密集单目 SLAM 的极其嘈杂的深度估计具有鲁棒性。与以前的方法不同,要么使用 ad-hoc 深度滤波器,要么从 RGB-D 相机的传感器模型估计深度不确定性,我们的概率深度不确定性直接来自 SLAM 中底层束调整问题的信息矩阵。我们表明,由此产生的深度不确定性提供了一个很好的信号来加权深度图以进行体积融合。如果没有我们的深度不确定性,生成的网格会很嘈杂并带有伪影,而我们的方法会生成准确的 3D 网格,并且伪影要少得多。我们提供了具有挑战性的 Euroc 数据集的结果,并表明我们的方法比直接融合来自单目 SLAM 的深度的准确度提高了 92%,与最佳竞争方法相比提高了 90%。
- SinGRAV:从单个自然场景中学习生成辐射量 | [code]
我们提出了一个用于一般自然场景的 3D 生成模型。由于缺乏表征目标场景的必要 3D 数据量,我们建议从单个场景中学习。我们的关键见解是,一个自然场景通常包含多个组成部分,其几何、纹理和空间排列遵循一些清晰的模式,但在同一场景中的不同区域仍然表现出丰富的变化。这表明将生成模型的学习本地化在大量局部区域上。因此,我们利用具有空间局部性偏差的多尺度卷积网络来学习单个场景中多个尺度的局部区域的统计信息。与现有方法相比,我们的学习设置绕过了从许多同质 3D 场景中收集数据以学习共同特征的需要。我们创造了我们的方法 SinGRAV,用于从单个自然场景中学习生成辐射体积。我们展示了 SinGRAV 从单个场景生成合理多样的变化的能力,SingGRAV 相对于最先进的生成神经场景方法的优点,以及 SinGRAV 在各种应用中的多功能性,涵盖 3D 场景编辑、合成和动画。代码和数据将被发布以促进进一步的研究。
- IntrinsicNeRF:学习用于可编辑新视图合成的内在神经辐射场 |
[code]
我们提出了被称为 IntrinsicNeRF 的内在神经辐射场,它将内在分解引入到基于 NeRF 的~\cite{mildenhall2020nerf} 神经渲染方法中,并且可以在现有的逆向渲染结合神经渲染方法的同时在房间规模的场景中执行可编辑的新视图合成~ \cite{zhang2021physg, zhang2022modeling} 只能用于特定对象的场景。鉴于内在分解本质上是一个模棱两可且约束不足的逆问题,我们提出了一种新颖的距离感知点采样和自适应反射率迭代聚类优化方法,该方法使具有传统内在分解约束的 IntrinsicNeRF 能够以无监督的方式进行训练,从而在时间上一致的内在分解结果。为了解决场景中相似反射率的不同相邻实例被错误地聚集在一起的问题,我们进一步提出了一种从粗到细优化的层次聚类方法,以获得快速的层次索引表示。它支持引人注目的实时增强现实应用,例如场景重新着色、材质编辑和照明变化。 Blender 对象和副本场景的大量实验表明,即使对于具有挑战性的序列,我们也可以获得高质量、一致的内在分解结果和高保真新视图合成。项目网页上提供了代码和数据:此 https 网址。
- 使用辐射场传播的无监督多视图对象分割, NeurIPS2022 | [code]
我们提出了辐射场传播 (RFP),这是一种在重建过程中分割 3D 对象的新方法,仅给出场景的未标记多视图图像。 RFP 源自新兴的基于神经辐射场的技术,该技术将语义与外观和几何形状联合编码。我们方法的核心是一种新颖的传播策略,用于具有双向光度损失的单个对象的辐射场,能够将场景无监督地划分为对应于不同对象实例的显着或有意义的区域。为了更好地处理具有多个对象和遮挡的复杂场景,我们进一步提出了一种迭代期望最大化算法来细化对象掩码。据我们所知,RFP 是第一个在没有任何监督、注释或其他线索(如 3D 边界框和对象类别的先验知识)的情况下处理神经辐射场 (NeRF) 的 3D 场景对象分割的无监督方法。实验表明,RFP 实现了可行的分割结果,比以前的无监督图像/场景分割方法更准确,并且可与现有的基于 NeRF 监督的方法相媲美。分段对象表示支持单独的 3D 对象编辑操作。
- MonoNHR:单眼神经人类渲染器 | [code]
由于不可见区域中缺乏信息以及可见区域中像素的深度模糊性,现有的神经人类渲染方法难以处理单个图像输入。在这方面,我们提出了单目神经人类渲染器 (MonoNHR),这是一种新颖的方法,可以仅在给定单个图像的情况下渲染任意人的鲁棒自由视点图像。 MonoNHR 是第一个(i)在单目设置中呈现在训练期间从未见过的人类受试者,以及(ii)在没有几何监督的情况下以弱监督方式训练的方法。首先,我们建议解开 3D 几何和纹理特征,并根据 3D 几何特征调整纹理推断。其次,我们引入了一个 Mesh Inpainter 模块,该模块利用人类结构先验(例如对称性)来修复被遮挡的部分。在 ZJU-MoCap、AIST 和 HUMBI 数据集上的实验表明,我们的方法明显优于最近适应单目情况的方法。
- NeRF:3D 视觉中的神经辐射场,综合评论 | [code]
神经辐射场 (NeRF) 是一种具有隐式场景表示的新型视图合成,已经席卷了计算机视觉领域。作为一种新颖的视图合成和 3D 重建方法,NeRF 模型在机器人技术、城市测绘、自主导航、虚拟现实/增强现实等领域都有应用。自 Mildenhall 等人的原始论文以来,已发表了 250 多份预印本,其中 100 多份最终被一级计算机视觉会议接受。鉴于 NeRF 的受欢迎程度和当前对该研究领域的兴趣,我们认为有必要对过去两年的 NeRF 论文进行全面调查,我们将其组织成基于架构和基于应用程序的分类法。我们还介绍了基于 NeRF 的新颖视图合成理论,以及关键 NeRF 模型的性能和速度的基准比较。通过创建这项调查,我们希望向 NeRF 介绍新的研究人员,为该领域有影响力的工作提供有益的参考,并通过我们的讨论部分激发未来的研究方向。
- 通过对极约束不带姿势相机的结构感知 NeRF |
[code]
用于逼真的新视图合成的神经辐射场 (NeRF) 需要通过运动结构 (SfM) 方法预先获取相机姿势。这种两阶段策略使用不方便并且会降低性能,因为姿势提取中的错误会传播到视图合成。我们将姿势提取和视图合成集成到一个端到端的过程中,这样它们就可以相互受益。为了训练 NeRF 模型,只给出了 RGB 图像,没有预先知道的相机姿势。相机位姿是通过极线约束获得的,其中不同视图中的相同特征具有根据提取的位姿从本地相机坐标转换而来的相同世界坐标。对极约束与像素颜色约束联合优化。姿势由基于 CNN 的深度网络表示,其输入是相关帧。这种联合优化使 NeRF 能够感知场景的结构,从而提高泛化性能。在各种场景上进行的大量实验证明了所提出方法的有效性。此 https 网址提供了代码。
- SCI:用于生物医学数据的频谱集中隐式神经压缩 | [code]
海量医疗数据的海量采集和爆炸式增长,需要有效压缩以实现高效存储、传输和共享。现成的视觉数据压缩技术已被广泛研究,但针对自然图像/视频量身定制,因此在具有不同特征的医学数据上表现出有限的性能。新兴的隐式神经表示 (INR) 正在获得动力,并展示了以特定于目标数据的方式拟合各种视觉数据的高前景,但迄今为止还没有涵盖各种医疗数据的通用压缩方案。为了解决这个问题,我们首先对 INR 的频谱集中特性进行了数学解释,并对面向压缩的 INR 架构的设计进行了分析洞察。此外,我们设计了一个漏斗形神经网络,能够覆盖广泛的复杂医疗数据并实现高压缩比。在此设计的基础上,我们在给定预算下通过优化进行压缩,并提出了一种自适应压缩方法SCI,该方法将目标数据自适应地划分为与所采用的INR的集中频谱包络匹配的块,并在给定压缩比下分配具有高表示精度的参数.实验表明 SCI 优于传统技术的性能以及在各种医学数据中的广泛适用性。
- 使用几何感知鉴别器改进 3D 感知图像合成, NeurIPS2022 |
[code]
3D 感知图像合成旨在学习一个生成模型,该模型可以渲染逼真的 2D 图像,同时捕捉体面的底层 3D 形状。一种流行的解决方案是采用生成对抗网络 (GAN),并用 3D 渲染器替换生成器,其中通常使用带有神经辐射场 (NeRF) 的体积渲染。尽管合成质量有所提高,但现有方法无法获得适度的 3D 形状。我们认为,考虑到 GAN 公式中的两人游戏,仅使生成器具有 3D 感知能力是不够的。换句话说,取代生成机制只能提供生成 3D 感知图像的能力,但不能保证,因为生成器的监督主要来自鉴别器。为了解决这个问题,我们提出 GeoD 通过学习几何感知鉴别器来改进 3D 感知 GAN。具体来说,除了从 2D 图像空间中区分真假样本外,还要求鉴别器从输入中获取几何信息,然后将其用作生成器的指导。这种简单而有效的设计有助于学习更准确的 3D 形状。对各种生成器架构和训练数据集的广泛实验验证了 GeoD 优于最先进的替代方案。此外,我们的方法被注册为一个通用框架,这样一个更有能力的鉴别器(即,除了域分类和几何提取之外,还有第三个新的视图合成任务)可以进一步帮助生成器获得更好的多视图一致性。
- 了解体素网格 NeRF 模型的纯 CLIP 指导 | [code]
我们使用 CLIP 探索文本到 3D 对象生成的任务。具体来说,我们在不访问任何数据集的情况下使用 CLIP 进行指导,我们将这种设置称为纯 CLIP 指导。虽然之前的工作采用了这种设置,但没有系统研究防止 CLIP 中产生对抗性生成的机制。我们说明了不同的基于图像的增强如何防止对抗性生成问题,以及生成的结果如何受到影响。我们测试了不同的 CLIP 模型架构,并表明集成不同的模型进行指导可以防止更大模型中的对抗性生成并产生更清晰的结果。此外,我们实现了一个隐式体素网格模型,以展示神经网络如何提供额外的正则化层,从而产生更好的几何结构和生成对象的连贯性。与之前的工作相比,我们以更高的记忆效率和更快的训练速度获得了更连贯的结果。
- 从图像对中提取样式以进行全局正向和反向色调映射, CVMP2022 | [code]
许多图像增强或编辑操作,例如正向和反向色调映射或颜色分级,没有唯一的解决方案,而是有一系列解决方案,每个解决方案代表不同的风格。尽管如此,现有的基于学习的方法试图学习一个独特的映射,而忽略了这种风格。在这项工作中,我们展示了有关风格的信息可以从图像对的集合中提取并编码为 2 维或 3 维向量。这不仅为我们提供了有效的表示,而且为编辑图像样式提供了可解释的潜在空间。我们将一对图像之间的全局颜色映射表示为自定义归一化流,以像素颜色的多项式为条件。我们表明,这样的网络在低维空间中编码图像风格方面比 PCA 或 VAE 更有效,并且让我们获得接近 40 dB 的准确度,这比现有技术提高了大约 7-10 dB方法。
- 神经隐式曲面的球面引导训练 | [code]
近年来,通过神经隐函数进行表面建模已成为多视图 3D 重建的主要技术之一。然而,最先进的方法依赖于隐式函数来模拟整个场景体积,导致在具有薄物体或高频细节的区域中降低重建保真度。为了解决这个问题,我们提出了一种与辅助显式形状表示一起联合训练神经隐式表面的方法,该辅助显式形状表示充当表面引导。在我们的方法中,这种表示封装了场景的表面区域,使我们能够通过仅对该区域的体积进行建模来提高隐式函数训练的效率。我们建议使用一组可学习的球形基元作为可学习的表面指导,因为它们可以使用其梯度与神经表面函数一起有效地训练。我们的训练管道包括使用隐函数的梯度对球体中心的迭代更新,然后将后者微调到场景的更新表面区域。我们表明,对训练过程的这种修改可以插入到几种流行的隐式重建方法中,从而提高多个 3D 重建基准的结果质量。
- 迈向多时空尺度广义 PDE 建模 | [code]
偏微分方程 (PDE) 是描述复杂物理系统模拟的核心。他们昂贵的解决方案技术引起了人们对基于深度神经网络的代理的兴趣增加。然而,训练这些代理人的实际效用取决于他们模拟复杂的多尺度时空现象的能力。已经提出了各种神经网络架构来针对此类现象,最着名的是傅里叶神经算子(FNO),它通过不同傅里叶模式的参数化对局部\和全局空间信息进行自然处理,以及通过以下方式处理局部和全局信息的 U-Nets下采样和上采样路径。然而,跨不同方程参数或不同时间尺度的泛化仍然是一个挑战。在这项工作中,我们对涡流和速度函数形式的流体力学问题的各种 FNO 和 U-Net 方法进行了全面比较。对于 U-Net,我们从计算机视觉中转移了最近的架构改进,最显着的是来自对象分割和生成建模。我们进一步分析了使用 FNO 层来提高 U-Net 架构的性能而不显着降低计算性能的设计考虑因素。最后,我们展示了使用单个代理模型泛化到不同 PDE 参数和时间尺度的有希望的结果。
- MonoNeuralFusion:具有几何先验的在线单目神经 3D 重建 | [code]
从单目视频重建高保真 3D 场景仍然具有挑战性,特别是对于完整和细粒度的几何重建。先前具有神经隐式表示的 3D 重建方法已显示出完整场景重建的有希望的能力,但它们的结果通常过于平滑且缺乏足够的几何细节。本文介绍了一种新颖的神经隐式场景表示法,用于从单目视频中进行高保真在线 3D 场景重建的体积渲染。对于细粒度重建,我们的关键见解是将几何先验纳入神经隐式场景表示和神经体绘制,从而产生基于体绘制优化的有效几何学习机制。受益于此,我们提出了 MonoNeuralFusion 来从单目视频执行在线神经 3D 重建,从而在动态 3D 单目扫描期间有效地生成和优化 3D 场景几何图形。与最先进方法的广泛比较表明,我们的 MonoNeuralFusion 在数量和质量上始终生成更好的完整和细粒度的重建结果。
- 时间相关 PDE 的隐式神经空间表示 | [code]
数值求解偏微分方程 (PDE) 通常需要空间和时间离散化。传统方法(例如,有限差分、有限元、平滑粒子流体动力学)经常采用显式空间离散化,例如网格、网格和点云,其中每个自由度对应于空间中的一个位置。虽然这些明确的空间对应对于建模和理解来说是直观的,但这些表示对于准确性、内存使用或适应性而言不一定是最佳的。在这项工作中,我们探索隐式神经表示作为替代空间离散化,其中空间信息隐式存储在神经网络权重中。通过隐式神经空间表示,受 PDE 约束的时间步长转化为更新神经网络权重,它自然地与常用的优化时间积分器集成。我们通过涉及大弹性变形、湍流流体和多尺度现象的示例验证了我们在各种经典 PDE 上的方法。虽然计算速度比传统表示慢,但我们的方法表现出更高的准确性、更低的内存消耗和动态自适应分配的自由度,而无需复杂的重新划分网格。
- 具有隐式神经表示的连续 PDE 动态预测 | [code]
有效的数据驱动 PDE 预测方法通常依赖于固定的空间和/或时间离散化。这增加了现实世界应用的限制,例如需要在任意时空位置进行灵活外推的天气预报。我们通过引入一种新的数据驱动方法 DINo 来解决这个问题,该方法使用空间连续函数的连续时间动态对 PDE 的流进行建模。这是通过在由学习的 ODE 时间驱动的小潜在空间中通过隐式神经表示独立于其离散化嵌入空间观察来实现的。这种对时间和空间的分离和灵活处理使 DINo 成为第一个结合以下优点的数据驱动模型。它在任意空间和时间位置外推;它可以从稀疏的不规则网格或流形中学习;在测试时,它会推广到新的网格或分辨率。在代表性 PDE 系统的各种具有挑战性的泛化场景中,DINo 的表现优于替代神经 PDE 预测器。
- SymmNeRF:学习探索单视图视图合成的对称先验, ACCV2022 |
[code]
我们研究了从单个图像中对对象进行新视图合成的问题。现有方法已经证明了单视图视图合成的潜力。但是,它们仍然无法恢复精细的外观细节,尤其是在自闭区域。这是因为单个视图仅提供有限的信息。我们观察到人造物体通常表现出对称的外观,这会引入额外的先验知识。受此启发,我们研究了将对称性显式嵌入场景表示的潜在性能增益。在本文中,我们提出了 SymmNeRF,这是一种基于神经辐射场 (NeRF) 的框架,在引入对称先验的情况下结合了局部和全局条件。特别是,SymmNeRF 将像素对齐的图像特征和相应的对称特征作为 NeRF 的额外输入,其参数由超网络生成。由于参数以图像编码的潜在代码为条件,因此 SymmNeRF 与场景无关,可以推广到新场景。对合成数据集和真实世界数据集的实验表明,SymmNeRF 可以合成具有更多细节的新颖视图,而不管姿势变换如何,并且在应用于看不见的对象时表现出良好的泛化性。代码位于:此 https URL。
- 面向多边形几何的通用表示学习, GeoInformatica | [code]
空间数据的神经网络表示学习是地理人工智能 (GeoAI) 问题的普遍需求。近年来,在点、折线和网络的表示学习方面取得了许多进展,而在多边形,尤其是复杂的多边形几何形状方面进展甚微。在这项工作中,我们专注于开发一种通用的多边形编码模型,该模型可以将多边形几何体(有或没有孔,单面或多面体)编码到嵌入空间中。结果嵌入可以直接用于(或微调)下游任务,例如形状分类、空间关系预测等。为了实现模型的泛化性保证,我们确定了一些理想的属性:循环原点不变性、平凡顶点不变性、部分置换不变性和拓扑感知。我们探索了两种不同的编码器设计:一种是在空间域中派生所有表示;另一个利用谱域表示。对于空间域方法,我们提出了 ResNet1D,这是一种基于 CNN 的 1D 多边形编码器,它使用圆形填充来实现简单多边形上的循环原点不变性。对于谱域方法,我们开发了基于非均匀傅里叶变换 (NUFT) 的 NUFTspec,它自然地满足了所有所需的属性。我们对两个任务进行了实验:1)基于MNIST的形状分类; 2)基于两个新数据集——DBSR-46K和DBSR-cplx46K的空间关系预测。我们的结果表明,NUFTspec 和 ResNet1D 的性能优于多个现有的基线,具有显着的优势。虽然 ResNet1D 在形状不变几何修改后模型性能下降,但由于 NUFT 的性质,NUFTspec 对这些修改非常稳健。
- 具有三层采样和全景表示的城市级增量神经映射 | [code]
神经隐式表示最近引起了机器人界的广泛关注,因为它们具有表现力、连续性和紧凑性。然而,基于稀疏 LiDAR 输入的城市规模增量隐式密集映射仍然是一个未充分探索的挑战。为此,我们成功构建了第一个具有全景表示的城市规模增量神经映射系统,该系统由环境级和实例级建模组成。给定一个稀疏的 LiDAR 点云流,它维护一个动态生成模型,将 3D 坐标映射到有符号距离场 (SDF) 值。为了解决在城市尺度空间中表示不同层次几何信息的困难,我们提出了一种定制的三层采样策略来动态采样全局、局部和近地表域。同时,为了实现高保真映射,引入了特定类别的先验以更好地对几何细节进行建模,从而实现全景表示。我们评估了公共 SemanticKITTI 数据集,并使用定量和定性结果证明了新提出的三层采样策略和全景表示的重要性。代码和数据将公开。
- 360FusionNeRF:具有联合引导的全景神经辐射场 | [code]
我们提出了一种基于神经辐射场 (NeRF) 从单个 360 度全景图像合成新视图的方法。类似设置中的先前研究依赖于多层感知的邻域插值能力来完成由遮挡引起的缺失区域,这导致其预测中的伪影。我们提出了 360FusionNeRF,这是一个半监督学习框架,我们在其中引入几何监督和语义一致性来指导渐进式训练过程。首先,将输入图像重新投影到 360 度图像,并在其他相机位置提取辅助深度图。除了 NeRF 颜色指导之外,深度监督还改进了合成视图的几何形状。此外,我们引入了语义一致性损失,鼓励对新视图进行逼真的渲染。我们使用预训练的视觉编码器(例如 CLIP)提取这些语义特征,CLIP 是一种视觉转换器,通过自然语言监督从网络挖掘出的数亿张不同的 2D 照片进行训练。实验表明,我们提出的方法可以在保留场景特征的同时产生未观察到的区域的合理完成。在跨各种场景进行训练时,360FusionNeRF 在转移到合成 Structured3D 数据集(PSNR
5%,SSIM3% LPIPS13%)、真实世界的 Matterport3D 数据集(PSNR3%)时始终保持最先进的性能, SSIM3% LPIPS9%) 和 Replica360 数据集 (PSNR8%, SSIM2% LPIPS~18%)。 - Orbeez-SLAM:具有 ORB 特征和 NeRF 实现映射的实时单目视觉 SLAM | [code]
一种可以通过视觉信号执行复杂任务并与人类合作的空间人工智能备受期待。为了实现这一点,我们需要一个无需预训练即可轻松适应新场景并实时为下游任务生成密集地图的视觉 SLAM。由于其组件的内在限制,以前的基于学习和非基于学习的视觉 SLAM 都不能满足所有需求。在这项工作中,我们开发了一个名为 Orbeez-SLAM 的视觉 SLAM,它成功地与隐式神经表示 (NeRF) 和视觉里程计合作来实现我们的目标。此外,Orbeez-SLAM 可以与单目相机配合使用,因为它只需要 RGB 输入,使其广泛适用于现实世界。我们在各种具有挑战性的基准上验证了它的有效性。结果表明,我们的 SLAM 比强基线快 800 倍,并具有出色的渲染结果。
- 通过控制屏障功能和神经辐射场增强基于视觉的控制器的安全性 | [code]
为了在复杂的环境中导航,机器人必须越来越多地使用高维视觉反馈(例如图像)进行控制。然而,依靠高维图像数据做出控制决策会引发重要问题;特别是,我们如何证明视觉反馈控制器的安全性?控制障碍函数 (CBF) 是在状态反馈设置中验证反馈控制器安全性的强大工具,但由于需要预测未来的观察结果以评估障碍函数,CBF 传统上不太适合视觉反馈控制.在这项工作中,我们利用神经辐射场 (NeRFs) 的最新进展来解决这个问题,神经辐射场 (NeRFs) 学习 3D 场景的隐式表示并可以从以前看不见的相机视角渲染图像,为基于 CBF 的单步视觉预测提供控制器。这种新颖的组合能够过滤掉不安全的行为并进行干预以保护安全。我们在实时模拟实验中展示了我们的控制器的效果,它成功地防止了机器人采取危险行动。
- 自主隐式重建的高效视图路径规划 | [code]
隐式神经表示已显示出用于 3D 场景重建的巨大潜力。最近的工作通过学习用于视图路径规划的信息增益,将其应用于自主 3D 重建。虽然有效,但信息增益的计算成本很高,并且与使用体积表示的计算相比,使用 3D 点的隐式表示的碰撞检查要慢得多。在本文中,我们建议 1)利用神经网络作为信息增益场的隐式函数逼近器,以及 2)将隐式细粒度表示与粗略的体积表示相结合以提高效率。随着效率的进一步提高,我们提出了一种基于基于图的规划器的新颖的信息路径规划。与具有隐式和显式表示的自主重建相比,我们的方法证明了重建质量和规划效率的显着提高。我们将该方法部署在真实的无人机上,结果表明我们的方法可以规划信息丰富的视图并重建高质量的场景。
- WaterNeRF:水下场景的神经辐射场 | [code]
水下成像是海洋机器人执行的一项关键任务,其应用范围广泛,包括水产养殖、海洋基础设施检查和环境监测。然而,水柱效应,例如衰减和反向散射,会极大地改变水下捕获图像的颜色和质量。由于不同的水条件和这些影响的范围依赖性,恢复水下图像是一个具有挑战性的问题。这会影响下游感知任务,包括深度估计和 3D 重建。在本文中,我们推进了神经辐射场 (NeRF) 的最新技术,以实现基于物理的密集深度估计和颜色校正。我们提出的方法 WaterNeRF 估计了基于物理的水下图像形成模型的参数,从而产生了混合数据驱动和基于模型的解决方案。在确定场景结构和辐射场后,我们可以生成退化和校正的水下图像的新视图,以及场景的密集深度。我们在真实的水下数据集上定性和定量地评估所提出的方法。
- 神经全局照明:动态区域光下的交互式间接照明预测, TVCG2022 | [code]
我们提出了神经全局照明,这是一种在具有动态视点和区域照明的静态场景中快速渲染全全局照明的新方法。我们方法的关键思想是利用深度渲染网络来模拟从每个着色点到全局照明的复杂映射。为了有效地学习映射,我们提出了一种对神经网络友好的输入表示,包括每个着色点的属性、视点信息和组合照明表示,该表示能够与紧凑的神经网络进行高质量的拟合。为了合成高频全局光照效果,我们通过位置编码将低维输入转换为高维空间,并将渲染网络建模为深度全连接网络。此外,我们将屏幕空间神经缓冲区提供给我们的渲染网络,以将屏幕空间中的对象之间的全局信息共享到每个着色点。我们已经证明了我们的神经全局照明方法可以渲染各种场景,这些场景表现出复杂的全频全局照明效果,例如多次反射光泽互反射、渗色和焦散。
- 烘焙特征:通过渲染特征图加速体积分割 | [code]
最近提出了一些方法,即仅使用彩色图像和专家监督以稀疏语义注释像素的形式将 3D 体积密集分割成类。虽然令人印象深刻,但这些方法仍然需要相对大量的监督,并且在实践中分割对象可能需要几分钟。这样的系统通常只优化它们在它们适合的特定场景上的表示,而不利用来自先前看到的图像的任何先验信息。在本文中,我们建议使用在现有大型数据集上训练的模型提取的特征来提高分割性能。我们通过体积渲染特征图并监督从每个输入图像中提取的特征,将这种特征表示烘焙到神经辐射场 (NeRF) 中。我们表明,通过将这种表示烘焙到 NeRF 中,我们使后续的分类任务变得更加容易。我们的实验表明,与现有方法相比,我们的方法在广泛的场景中以更少的语义注释实现了更高的分割精度。
- Local_INN:使用可逆神经网络的隐式地图表示和定位 | [code]
机器人定位是使用地图和传感器测量找到机器人姿势的逆问题。近年来,可逆神经网络(INNs)成功地解决了各个领域的模糊逆问题。本文提出了一个用 INN 解决本地化问题的框架。我们设计了一个 INN,它在正向路径中提供隐式地图表示并在反向路径中提供定位。通过在评估中对潜在空间进行采样,Local_INN 输出具有协方差的机器人位姿,可用于估计不确定性。我们表明 Local_INN 的本地化性能与当前的方法相当,但延迟要低得多。我们使用训练集外部的姿势从 Local_INN 显示详细的 2D 和 3D 地图重建。我们还提供了一个使用 Local_INN 的全局定位算法来解决绑架问题。
- NeRF-Loc:神经辐射场内基于变换器的对象定位 | [code]
神经辐射场 (NeRFs) 已成功用于场景表示。最近的工作还开发了使用基于 NeRF 的环境表示的机器人导航和操纵系统。由于对象定位是许多机器人应用的基础,为了进一步释放 NeRF 在机器人系统中的潜力,我们研究了 NeRF 场景中的对象定位。我们提出了一个基于转换器的框架 NeRF-Loc 来提取 NeRF 场景中对象的 3D 边界框。 NeRF-Loc 将预先训练的 NeRF 模型和相机视图作为输入,并生成标记的 3D 对象边界框作为输出。具体来说,我们设计了一对并行的转换器编码器分支,即粗流和细流,对目标对象的上下文和细节进行编码。然后将编码特征与注意力层融合在一起,以减轻模糊性,从而实现准确的对象定位。我们将我们的方法与传统的基于变压器的方法进行了比较,我们的方法取得了更好的性能。此外,我们还展示了第一个基于 NeRF 样本的对象定位基准 NeRFLocBench。
- SG-SRNs:超像素引导的场景表示网络, SignalProcessingLetters | [code]
最近,场景表示网络(SRNs)由于其连续且轻量级的场景表示能力,在计算机视觉领域引起了越来越多的关注。然而,SRN 通常在低纹理图像区域上表现不佳。为了解决这个问题,我们在本文中提出了超像素引导的场景表示网络,称为 SG-SRN,由主干模块 (SRN)、超像素分割模块和超像素正则化模块组成。在所提出的方法中,除了新颖的视图合成任务外,表示感知的超像素分割掩码生成任务由所提出的超像素分割模块实现。然后,超像素正则化模块利用超像素分割掩码以局部平滑的方式引导要学习的主干,并优化局部区域的场景表示,以自监督的方式间接缓解低纹理区域的结构失真.在我们构建的数据集和公共 Synthetic-NeRF 数据集上的广泛实验结果表明,所提出的 SG-SRN 实现了显着更好的 3D 结构表示性能。
- PNeRF:用于不确定 3D 视觉映射的概率神经场景表示, ICRA2023 | [code]
最近,神经场景表示在视觉上表示 3D 场景提供了非常令人印象深刻的结果,但是,它们的研究和进展主要局限于计算机图形中虚拟模型的可视化或计算机视觉中的场景重建,而没有明确考虑传感器和姿势的不确定性。然而,在机器人应用中使用这种新颖的场景表示需要考虑神经图中的这种不确定性。因此,本文的目的是提出一种用不确定的训练数据训练 {\em 概率神经场景表示} 的新方法,该方法可以将这些表示包含在机器人应用程序中。使用相机或深度传感器获取图像包含固有的不确定性,此外,用于学习 3D 模型的相机姿势也不完善。如果将这些测量值用于训练而不考虑其不确定性,则生成的模型不是最优的,并且生成的场景表示可能包含诸如模糊和几何不均匀等伪影。在这项工作中,通过关注以概率方式使用不确定信息进行训练,研究了将不确定性整合到学习过程中的问题。所提出的方法涉及使用不确定性项显式增加训练似然性,使得网络的学习概率分布相对于训练不确定性最小化。将会显示,除了更精确和一致的几何形状之外,这会导致更准确的图像渲染质量。已经对合成数据集和真实数据集进行了验证,表明所提出的方法优于最先进的方法。结果表明,即使在训练数据有限的情况下,所提出的方法也能够呈现新颖的高质量视图。
- 感觉怎么样? 用于越野车辆可穿越性的自我监督成本图学习 | [code]
估计越野环境中的地形可穿越性需要推理机器人与这些地形之间的复杂交互动力学。然而,对于这些交互,构建准确的物理模型或创建信息标签以有监督的方式学习模型具有挑战性。我们提出了一种方法,该方法通过以自我监督的方式将外部感知环境信息与本体感知地形交互反馈相结合来学习预测可遍历性成本图。此外,我们提出了一种将机器人速度纳入成本图预测管道的新方法。我们在具有挑战性的越野地形的大型自主全地形车 (ATV) 上的多个短距离和大规模导航任务中验证了我们的方法,并证明了在单独的大型地面机器人上易于集成。我们的短尺度导航结果表明,使用我们学习的成本图可以使导航整体更顺畅,并为机器人提供对机器人与不同地形类型(如草地和砾石)之间相互作用的更细粒度的理解。我们的大规模导航试验表明,在 400 米到 3150 米的具有挑战性的越野路线中,与基于占用的导航基线相比,我们可以将干预次数减少多达 57%。
- 具有通道调谐的面向边缘的隐式神经表示 | [code]
隐式神经表示,将图像表示为连续函数而不是离散网格形式,广泛用于图像处理。尽管其表现出色,但在恢复给定信号的清晰形状(例如图像边缘)方面仍然存在限制。在本文中,我们提出了梯度幅度调整算法,该算法计算图像的梯度以训练隐式表示。此外,我们提出了面向边缘的表示网络(EoREN),它可以通过拟合梯度信息(面向边缘的模块)来重建具有清晰边缘的图像。此外,我们添加了 Channel-tuning 模块来调整给定信号的分布,从而解决了拟合梯度的长期问题。通过分离两个模块的反向传播路径,EoREN 可以在不妨碍梯度作用的情况下学习图像的真实颜色。我们定性地证明了我们的模型可以重建复杂的信号,并通过定量结果证明了我们模型的一般重建能力。
- 来自单个压缩光场测量的快速视差估计 | [code]
来自光场的丰富空间和角度信息允许开发多种视差估计方法。然而,光场的获取需要较高的存储和处理成本,限制了该技术在实际应用中的使用。为了克服这些缺点,压缩传感 (CS) 理论允许开发光学架构来获取单个编码光场测量。该测量使用需要高计算成本的优化算法或深度神经网络进行解码。从压缩光场进行视差估计的传统方法需要首先恢复整个光场,然后进行后处理步骤,因此需要很长时间。相比之下,这项工作通过省略传统方法中所需的恢复步骤,从单个压缩测量中提出了一种快速的视差估计。具体来说,我们建议联合优化用于获取单个编码光场快照的光学架构和用于估计视差图的卷积神经网络 (CNN)。在实验上,所提出的方法估计的视差图与使用深度学习方法重建的光场获得的视差图相当。此外,所提出的方法在训练和推理方面比从重建光场估计视差的最佳方法快 20 倍。
- FNeVR:面部动画的神经体积渲染 | [code]
人脸动画是计算机视觉中最热门的话题之一,在生成模型的帮助下取得了可喜的成绩。然而,由于复杂的运动变形和复杂的面部细节建模,生成身份保持和照片般逼真的图像仍然是一个关键挑战。为了解决这些问题,我们提出了一个人脸神经体绘制 (FNeVR) 网络,以在一个统一的框架中充分挖掘 2D 运动扭曲和 3D 体绘制的潜力。在 FNeVR 中,我们设计了一个 3D 面部体积渲染 (FVR) 模块来增强图像渲染的面部细节。具体来说,我们首先使用精心设计的架构提取 3D 信息,然后引入正交自适应光线采样模块以实现高效渲染。我们还设计了一个轻量级的姿势编辑器,使 FNeVR 能够以简单而有效的方式编辑面部姿势。大量实验表明,我们的 FNeVR 在广泛使用的 Talking Head 基准测试中获得了最佳的整体质量和性能。
- PREF:可预测性正则化神经运动场, ECCV2022(oral) | [code]
了解动态场景中的 3D 运动对于许多视觉应用至关重要。最近的进展主要集中在估计一些特定元素的活动,如人类。在本文中,我们利用神经运动场来估计多视图设置中所有点的运动。由于颜色相似的点和颜色随时间变化的点的模糊性,使用多视图数据对动态场景的运动进行建模具有挑战性。我们建议将估计的运动规范化为可预测的。如果先前帧的运动是已知的,那么不久的将来的运动应该是可预测的。因此,我们通过首先调节潜在嵌入的估计运动,然后通过采用预测器网络来强制嵌入的可预测性来引入可预测性正则化。与最先进的基于神经运动场的动态场景表示方法相比,所提出的框架 PREF(Predictability REgularized Fields)实现了同等或更好的结果,同时不需要场景的先验知识。
- wildNeRF:使用稀疏单目数据捕获的野外动态场景的完整视图合成 | [code]
我们提出了一种新的神经辐射模型,该模型可以以自我监督的方式进行训练,用于动态非结构化场景的新视图合成。我们的端到端可训练算法可在几秒钟内学习高度复杂的真实静态场景,并在几分钟内学习具有刚性和非刚性运动的动态场景。通过区分静态像素和以运动为中心的像素,我们从一组稀疏的图像中创建高质量的表示。我们对现有基准进行了广泛的定性和定量评估,并在具有挑战性的 NVIDIA 动态场景数据集上设置了最先进的性能指标。此外,我们在具有挑战性的现实世界数据集(例如 Cholec80 和 SurgicalActions160)上评估我们的模型性能。
- Loc-NeRF:使用神经辐射场进行蒙特卡罗定位 |
[code]
我们提出了 Loc-NeRF,这是一种基于实时视觉的机器人定位方法,它结合了蒙特卡洛定位和神经辐射场 (NeRF)。我们的系统使用预训练的 NeRF 模型作为环境地图,并且可以使用 RGB 相机作为机器人上唯一的外部感受器实时定位自身。虽然神经辐射场已经在计算机视觉和图形中看到了视觉渲染的重要应用,但它们在机器人技术中的用途有限。现有的基于 NeRF 的定位方法需要良好的初始姿势猜测和大量计算,这使得它们对于实时机器人应用不切实际。通过使用 Monte Carlo 定位作为使用 NeRF 地图模型估计姿态的主力,Loc-NeRF 能够比现有技术更快地执行定位,并且不依赖于初始姿态估计。除了对合成数据进行测试外,我们还使用 Clearpath Jackal UGV 收集的真实数据运行我们的系统,并首次展示了使用神经辐射场执行实时全局定位的能力。我们通过此 https 网址公开我们的代码。
- 密度感知 NeRF 集成:量化神经辐射场中的预测不确定性 | [code]
我们表明,如果考虑到密度感知认知不确定性项,则集成有效地量化了神经辐射场 (NeRFs) 中的模型不确定性。在先前的工作中研究的朴素集成只是简单地平均渲染的 RGB 图像,以量化由观察到的场景的相互矛盾的解释引起的模型不确定性。相比之下,由于缺乏关于训练期间未观察到的场景部分的知识,我们还考虑了沿单个射线的终止概率来识别认知模型的不确定性。我们在已建立的 NeRF 不确定性量化基准中实现了新的最先进的性能,优于需要对 NeRF 架构和训练机制进行复杂更改的方法。我们进一步证明了 NeRF 不确定性可用于次佳视图选择和模型细化。
- NeRF-SOS:复杂场景上的任意视图自监督对象分割 |
[code]
神经体积表示已经显示了多层感知器 (MLP) 可以使用多视图校准图像进行优化以表示场景几何和外观的潜力,而无需明确的 3D 监督。对象分割可以基于学习到的辐射场丰富许多下游应用。然而,引入手工分割来定义复杂现实世界场景中的感兴趣区域并非易事且成本高昂,因为它需要每个视图注释。本文针对复杂的现实世界场景使用 NeRF 进行对象分割的自监督学习探索。我们的框架称为带有自监督对象分割 NeRF-SOS 的 NeRF,它结合了对象分割和神经辐射场来分割场景中任何视图中的对象。通过在外观和几何级别上提出一种新颖的协作对比损失,NeRF-SOS 鼓励 NeRF 模型从其密度场和自我监督的预训练 2D 视觉特征中提取紧凑的几何感知分割簇。自监督对象分割框架可以应用于各种 NeRF 模型,这些模型既可以产生逼真的渲染结果,又可以在室内和室外场景中提供令人信服的分割图。 LLFF、Tank & Temple 和 BlendedMVS 数据集的广泛结果验证了 NeRF-SOS 的有效性。它始终超越其他基于 2D 的自我监督基线,并预测比现有监督对应物更精细的语义掩码。请参阅我们项目页面上的视频以获取更多详细信息:此 https URL。
- MeSLAM:基于神经域的内存高效 SLAM, SMC2022 | [code]
由于长期机器人操作中地图大小的增加,现有的同时定位和映射 (SLAM) 方法的可扩展性有限。此外,为定位和规划任务处理此类地图会导致车载所需的计算资源增加。为了解决长期操作中的内存消耗问题,我们开发了一种新颖的实时 SLAM 算法 MeSLAM,它基于神经场隐式地图表示。它将提议的全局映射策略(包括神经网络分布和区域跟踪)与外部里程计系统相结合。因此,该算法能够有效地训练代表不同地图区域的多个网络,并在大规模环境中准确地跟踪姿势。实验结果表明,所提出的方法的准确性与最先进的方法相当(在 TUM RGB-D 序列上平均为 6.6 cm),并且优于基线 iMAP*。此外,所提出的 SLAM 方法在最先进的 SLAM 方法中提供了最紧凑的地图,没有细节失真(1.9 MB 可存储 57 m3)。
- 通过神经动画网格进行人体性能建模和渲染 | [code]
我们最近看到了照片真实人体建模和渲染的神经进步的巨大进步。但是,将它们集成到现有的基于网格的管道中以用于下游应用程序仍然具有挑战性。在本文中,我们提出了一种综合神经方法,用于从密集的多视图视频中对人类表演进行高质量的重建、压缩和渲染。我们的核心直觉是将传统的动画网格工作流程与新型高效神经技术联系起来。我们首先介绍了一种用于在几分钟内生成高质量表面的神经表面重建器。它将截断有符号距离场 (TSDF) 的隐式体积渲染与多分辨率哈希编码结合在一起。我们进一步提出了一种混合神经跟踪器来生成动画网格,它将显式非刚性跟踪与自监督框架中的隐式动态变形相结合。前者将粗略的变形提供回规范空间,而后者隐含的进一步使用我们的重构器中的 4D 哈希编码来预测位移。然后,我们讨论使用获得的动画网格的渲染方案,范围从动态纹理到各种带宽设置下的流明图渲染。为了在质量和带宽之间取得复杂的平衡,我们提出了一种分层解决方案,首先渲染覆盖表演者的 6 个虚拟视图,然后进行遮挡感知神经纹理混合。我们展示了我们的方法在各种基于网格的应用程序和各种平台上逼真的自由视图体验中的有效性,即通过移动 AR 将虚拟人类表演插入真实环境或使用 VR 耳机沉浸式观看才艺表演。
- LATITUDE:在城市规模的 NeRF 中使用截断动态低通滤波器进行机器人全局定位, ICRA2023 |
[code]
神经辐射场 (NeRFs) 在表示具有高分辨率细节和高效内存的复杂 3D 场景方面取得了巨大成功。然而,当前基于 NeRF 的姿态估计器没有初始姿态预测,并且在优化过程中容易出现局部最优。在本文中,我们提出了 LATITUDE:使用截断动态低通滤波器进行全局定位,它在城市规模的 NeRF 中引入了两阶段定位机制。在位置识别阶段,我们通过训练后的 NeRF 生成的图像训练回归器,为全局定位提供初始值。在姿态优化阶段,我们通过直接优化切平面上的姿态来最小化观察图像和渲染图像之间的残差。为了避免收敛到局部最优,我们引入了截断动态低通滤波器 (TDLF) 用于从粗到细的姿态配准。我们在合成数据和真实世界数据上评估我们的方法,并展示其在大规模城市场景中高精度导航的潜在应用。代码和数据将在此 https 网址上公开提供。
- 使用成像声纳的神经隐式表面重建 | [code]
我们提出了一种使用成像声纳(也称为前视声纳(FLS))对物体进行密集 3D 重建的技术。与以前将场景几何建模为点云或体积网格的方法相比,我们将几何表示为神经隐函数。此外,给定这样的表示,我们使用可微分体积渲染器来模拟声波的传播以合成成像声纳测量。我们在真实和合成数据集上进行实验,并表明我们的算法从多视图 FLS 图像中重建高保真表面几何图形的质量比以前的技术高得多,并且不会受到相关的内存开销的影响。
- 使用神经辐射场进行主动机器人 3D 重建的不确定性引导策略, RAL2022 | [code]
在本文中,我们解决了物体的主动机器人 3D 重建问题。特别是,我们研究了带有手持摄像头的移动机器人如何选择有利数量的视图来有效地恢复对象的 3D 形状。与该问题的现有解决方案相反,我们利用流行的基于神经辐射场的对象表示,最近在各种计算机视觉任务中显示出令人印象深刻的结果。然而,使用这种表示直接推断对象的显式 3D 几何细节并不简单,这使得密集 3D 重建的次佳视图选择问题具有挑战性。本文介绍了一种基于光线的体积不确定性估计器,它计算颜色样本沿物体隐式神经表示的每条光线的权重分布的熵。我们表明,使用所提出的估计器给出一个新颖的视图,可以推断出底层 3D 几何的不确定性。然后,我们提出了一个下一个最佳视图选择策略,该策略由基于神经辐射场的表示中基于射线的体积不确定性指导。令人鼓舞的合成数据和真实世界数据的实验结果表明,本文提出的方法可以启用一个新的研究方向,即使用隐式 3D 对象表示来解决机器人视觉应用中的下一个最佳视图问题,将我们的方法与现有的方法区分开来依赖于显式 3D 几何建模的方法。
- 医学影像分割的隐式神经表示, MICCAI2022 | [code]
医学成像中的 3D 信号(例如 CT 扫描)通常被参数化为体素的离散网格。例如,现有的最先进的器官分割方法学习离散的分割图。不幸的是,这些方法的内存需求随着空间分辨率的增加而呈立方增长,这使得它们不适合处理高分辨率扫描。为了克服这个问题,我们设计了一个隐式器官分割网络 (IOSNet),它利用连续的隐式神经表示并具有几个有用的属性。首先,IOSNet 解码器内存大致恒定且独立于空间分辨率,因为它将分割图参数化为连续函数。其次,IOSNet 的收敛速度比基于离散体素的方法快得多,因为它能够准确地分割器官而不受器官大小的影响,从而在不需要任何辅助技巧的情况下缓解大小不平衡问题。第三,由于其连续学习表示,IOSNet 自然支持超分辨率(即在推理过程中以任意分辨率采样)。此外,尽管使用了一个简单的轻量级解码器,IOSNet 始终优于离散专业分割架构 UNet。因此,我们的方法表明隐式神经表示非常适合医学成像应用,尤其是处理高分辨率 3D 医学扫描。
- ActiveNeRF:通过不确定性估计学习在哪里看 |
[code]
最近,神经辐射场 (NeRF) 在重建 3D 场景和从一组稀疏的 2D 图像合成新视图方面显示出令人鼓舞的性能。尽管有效,但 NeRF 的性能很大程度上受训练样本质量的影响。由于场景中的姿势图像有限,NeRF 无法很好地泛化到新颖的视图,并且可能会在未观察到的区域中崩溃为琐碎的解决方案。这使得 NeRF 在资源受限的情况下变得不切实际。在本文中,我们提出了一种新颖的学习框架 ActiveNeRF,旨在对输入预算受限的 3D 场景进行建模。具体来说,我们首先将不确定性估计纳入 NeRF 模型,以确保在少量观察下的稳健性,并提供对 NeRF 如何理解场景的解释。在此基础上,我们建议使用基于主动学习方案的新捕获样本来补充现有的训练集。通过评估给定新输入的不确定性减少情况,我们选择带来最多信息增益的样本。通过这种方式,可以用最少的额外资源提高新视图合成的质量。大量实验验证了我们的模型在真实场景和合成场景上的性能,尤其是在训练数据较少的情况下。代码将在 \url{this https URL} 发布。
- iDF-SLAM:具有神经隐式映射和深度特征跟踪的端到端 RGB-D SLAM | [code]
我们提出了一种新颖的端到端 RGB-D SLAM iDF-SLAM,它采用基于特征的深度神经跟踪器作为前端,采用 NeRF 风格的神经隐式映射器作为后端。神经隐式映射器是即时训练的,虽然神经跟踪器是在 ScanNet 数据集上进行预训练的,但它也会随着神经隐式映射器的训练进行微调。在这样的设计下,我们的 iDF-SLAM 能够学习使用特定场景的特征进行相机跟踪,从而实现 SLAM 系统的终身学习。跟踪器和映射器的训练都是自我监督的,没有引入地面真实姿势。我们在 Replica 和 ScanNet 数据集上测试了 iDF-SLAM 的性能,并将结果与最近的两个基于 NeRF 的神经 SLAM 系统进行了比较。所提出的 iDF-SLAM 在场景重建和相机跟踪的竞争性能方面展示了最先进的结果。
- 3DMM-RF:用于 3D 人脸建模的卷积辐射场 | [code]
面部 3D 可变形模型是具有无数应用的主要计算机视觉主题,并且在过去二十年中得到了高度优化。深度生成网络的巨大改进为改进此类模型创造了各种可能性,并引起了广泛的兴趣。此外,神经辐射领域的最新进展正在彻底改变已知场景的新视图合成。在这项工作中,我们提出了一个面部 3D 可变形模型,它利用了上述两者,并且可以准确地建模对象的身份、姿势和表情,并在任意光照下渲染它。这是通过利用强大的基于深度样式的生成器来克服神经辐射场的两个主要弱点,即它们的刚性和渲染速度来实现的。我们引入了一种基于样式的生成网络,它一次性合成所有且仅合成神经辐射场所需的渲染样本。我们创建了一个巨大的面部渲染标记合成数据集,并在这些数据上训练网络,以便它可以准确地建模和概括面部身份、姿势和外观。最后,我们证明该模型可以准确地拟合任意姿势和光照的“in-the-wild”人脸图像,提取人脸特征,并用于在可控条件下重新渲染人脸。
- DevNet:通过密度体积构建的自监督单目深度学习, ECCV2022 | [code]
单目图像的自监督深度学习通常依赖于时间相邻图像帧之间的 2D 像素级光度关系。然而,它们既没有充分利用 3D 逐点几何对应,也没有有效地解决由遮挡或照明不一致引起的光度翘曲的模糊性。为了解决这些问题,这项工作提出了密度体积构建网络 (DevNet),这是一种新颖的自我监督单目深度学习框架,可以考虑 3D 空间信息,并利用相邻相机平截头体之间更强的几何约束。我们的 DevNet 不是直接从单个图像中回归像素值,而是将相机平截头体划分为多个平行平面,并预测每个平面上的逐点遮挡概率密度。最终的深度图是通过沿相应光线对密度进行积分来生成的。在训练过程中,引入了新的正则化策略和损失函数来减轻光度模糊和过拟合。在没有明显扩大模型参数大小或运行时间的情况下,DevNet 在 KITTI-2015 室外数据集和 NYU-V2 室内数据集上都优于几个具有代表性的基线。特别是,在深度估计任务中,KITTI-2015 和 NYU-V2 上的 DevNet 的均方根偏差降低了约 4%。此 https 网址提供了代码。
- 明确可控的 3D 感知肖像生成 | [code]
与成本高昂的传统头像创建流程相比,当代生成方法直接从照片中学习数据分布。虽然大量工作扩展了无条件生成模型并实现了一定程度的可控性,但确保多视图一致性仍然具有挑战性,尤其是在大姿势中。在这项工作中,我们提出了一个生成 3D 感知肖像的网络,同时可以根据有关姿势、身份、表情和照明的语义参数进行控制。我们的网络使用神经场景表示来建模 3D 感知肖像,其生成由支持显式控制的参数化面部模型引导。虽然通过对比具有部分不同属性的图像可以进一步增强潜在的解缠结,但在为表情制作动画时,非面部区域(例如头发和背景)仍然存在明显的不一致。我们通过提出一种体积混合策略来解决这个问题,在该策略中,我们通过混合动态和静态区域来形成复合输出,其中两部分从联合学习的语义场中分割出来。我们的方法在广泛的实验中优于现有技术,当从自由视角观看时,可以在自然光下生成逼真的肖像,并具有生动的表达。它还展示了对真实图像和域外数据的泛化能力,在实际应用中显示出巨大的前景。
- StructNeRF:具有结构提示的室内场景的神经辐射场 | [code]
神经辐射场 (NeRF) 使用密集捕获的输入图像实现照片般逼真的视图合成。然而,在给定稀疏视图的情况下,NeRF 的几何形状受到极大限制,导致新视图合成质量显着下降。受自监督深度估计方法的启发,我们提出了 StructNeRF,这是一种针对具有稀疏输入的室内场景的新颖视图合成的解决方案。 StructNeRF 利用自然嵌入在多视图输入中的结构提示来处理 NeRF 中的无约束几何问题。具体来说,它分别处理纹理和非纹理区域:提出了一种基于块的多视图一致光度损失来约束纹理区域的几何形状;对于非纹理平面,我们明确将它们限制为 3D 一致平面。通过密集的自监督深度约束,我们的方法提高了 NeRF 的几何和视图合成性能,而无需对外部数据进行任何额外的训练。对几个真实世界数据集的广泛实验表明,StructNeRF 在数量和质量上都超过了用于室内场景的最先进的方法。
- 学习用于视图合成的统一 3D 点云 | [code]
基于 3D 点云表示的视图合成方法已证明是有效的。然而,现有方法通常仅从单个源视图合成新视图,并且将它们泛化以处理多个源视图以追求更高的重建质量并非易事。在本文中,我们提出了一种新的基于深度学习的视图合成范式,它从不同的源视图中学习统一的 3D 点云。具体来说,我们首先通过根据深度图将源视图投影到 3D 空间来构建子点云。然后,我们通过自适应融合子点云联合上定义的局部邻域中的点来学习统一的 3D 点云。此外,我们还提出了一个 3D 几何引导图像恢复模块来填充孔洞并恢复渲染新视图的高频细节。三个基准数据集的实验结果表明,我们的方法在数量上和视觉上都在很大程度上优于最先进的视图合成方法。
- 用于稀疏视图计算机断层扫描的自监督坐标投影网络 | [code]
在目前的工作中,我们提出了一种自监督坐标投影网络(SCOPE),通过解决逆断层扫描成像问题,从单个 SV 正弦图重建无伪影的 CT 图像。与最近使用隐式神经表示网络 (INR) 解决类似问题的相关工作相比,我们的重要贡献是一种有效且简单的重投影策略,该策略将断层扫描图像重建质量提高到有监督的深度学习 CT 重建工作之上。所提出的策略受到线性代数和逆问题之间简单关系的启发。为了求解欠定线性方程组,我们首先引入INR,通过图像连续性先验来约束解空间并获得粗解。其次,我们建议生成密集视图正弦图,提高线性方程组的秩并产生更稳定的 CT 图像解空间。我们的实验结果表明,重投影策略显着提高了图像重建质量(PSNR 至少 +3 dB)。此外,我们将最近的哈希编码集成到我们的 SCOPE 模型中,这极大地加速了模型训练。最后,我们在并行和扇形 X 射线束 SVCT 重建任务中评估 SCOPE。实验结果表明,所提出的 SCOPE 模型在数量和质量上都优于两种最新的基于 INR 的方法和两种流行的监督 DL 方法。
- CU-Net:高效的点云颜色上采样网络 | [code]
增强现实、虚拟现实和远程呈现场景需要点云上采样。尽管几何上采样被很好地研究以致密点云坐标,但颜色的上采样在很大程度上被忽略了。在本文中,我们提出了第一个深度学习点云颜色上采样模型 CU-Net。利用基于稀疏卷积的特征提取器和基于神经隐函数的颜色预测模块,CU-Net 实现了线性时间和空间复杂度。因此,理论上保证 CU-Net 比大多数具有二次复杂度的现有方法更有效。实验结果表明,CU-Net 可以实时为具有近百万个点的照片般逼真的点云着色,同时具有比基线更好的视觉质量。此外,CU-Net 可以适应任意的上采样率和看不见的对象。我们的源代码将很快向公众发布。
- PixTrack:使用 NeRF 模板和特征度量对齐的精确 6DoF 对象姿势跟踪 | [code]
我们提出了 PixTrack,这是一个基于视觉的对象姿态跟踪框架,使用新颖的视图合成和深度特征度量对齐。我们的评估表明,我们的方法可以对 RGB 图像中的对象进行高度准确、稳健且无抖动的 6DoF 姿态估计,而无需任何数据注释或轨迹平滑。我们的方法在计算上也很高效,可以轻松进行多对象跟踪,而无需更改我们的方法,并且只使用 CPU 多处理。
- 具有深度神经表示的隐式全波形反演 | [code]
全波形反演(FWI)通常代表最先进的地下结构和物理参数成像方法,然而,其实施通常面临巨大挑战,例如建立一个良好的初始模型以摆脱局部最小值,以及评估反演结果的不确定性。在本文中,我们提出了使用连续和隐式定义的深度神经表示的隐式全波形反演(IFWI)算法。与对初始模型敏感的 FWI 相比,IFWI 受益于深度学习优化增加的自由度,从而允许从随机初始化开始,这大大降低了非唯一性和陷入局部最小值的风险。理论和实验分析均表明,在给定随机初始模型的情况下,IFWI 能够收敛到全局最小值,并生成具有精细结构的地下高分辨率图像。此外,IFWI 的不确定性分析可以很容易地通过使用各种深度学习方法近似贝叶斯推理来执行,本文通过添加 dropout 神经元对其进行分析。此外,IFWI具有一定的鲁棒性和较强的泛化能力,在各种二维地质模型的实验中得到了体现。通过适当的设置,IFWI也可以很好地适用于多尺度联合地球物理反演。
- 具有学习几何先验的 3D 纹理形状恢复 | [code]
从部分扫描中恢复 3D 纹理形状对于许多实际应用至关重要。现有方法已经证明了隐式函数表示的有效性,但它们存在严重遮挡和不同对象类型的部分输入,这极大地阻碍了它们在现实世界中的应用价值。本技术报告介绍了我们通过结合学习几何先验来解决这些限制的方法。为此,我们从学习的姿势预测中生成一个 SMPL 模型,并将其融合到部分输入中,以添加人体的先验知识。我们还提出了一种新颖的完整性感知边界框自适应,用于处理不同级别的尺度和部分扫描的局部性。
- SIRA:来自单个图像的可重新点亮的头像 | [code]
从单个图像中恢复人头的几何形状,同时分解材料和照明是一个严重不适定的问题,需要解决先验信息。基于 3D 可变形模型 (3DMM) 的方法,以及它们与可微渲染器的组合,已显示出可喜的结果。然而,3DMM 的表现力是有限的,它们通常会产生过度平滑且与身份无关的 3D 形状,仅限于面部区域。最近已经通过使用多层感知器参数化几何形状的神经场获得了高度准确的全头重建。这些表示的多功能性也被证明对于解开几何、材料和照明是有效的。然而,这些方法需要几十个输入图像。在本文中,我们介绍了 SIRA,这是一种从单个图像重建具有高保真几何形状和分解光和表面材料的人头头像的方法。我们的关键成分是两个基于神经场的数据驱动统计模型,可解决单视图 3D 表面重建和外观分解的模糊性。实验表明,SIRA 在 3D 头部重建中获得了最先进的结果,同时它成功地解开了全局照明、漫反射和镜面反射率。此外,我们的重建适用于基于物理的外观编辑和头部模型重新照明。
- 神经特征融合领域:自监督 2D 图像表示的 3D 蒸馏, 3DV2022(oral) |
[code]
我们提出了神经特征融合场 (N3F),这是一种在将密集 2D 图像特征提取器应用于可重构为 3D 场景的多张图像分析时改进密集 2D 图像特征提取器的方法。给定一个图像特征提取器,例如使用自我监督进行预训练,N3F 使用它作为教师来学习在 3D 空间中定义的学生网络。 3D 学生网络类似于提取所述特征的神经辐射场,并且可以使用通常的可微渲染机器进行训练。因此,N3F 很容易适用于大多数神经渲染公式,包括 vanilla NeRF 及其对复杂动态场景的扩展。我们表明,我们的方法不仅能够在不使用手动标签的情况下在特定场景的神经领域的上下文中实现语义理解,而且在自我监督的 2D 基线上持续改进。这通过考虑不同序列中的各种任务(例如 2D 对象检索、3D 分割和场景编辑)来证明,包括 EPIC-KITCHENS 基准测试中的以自我为中心的长视频。
- MotionDiffuse:使用扩散模型的文本驱动人体运动生成 |
[code]
人体运动建模对于许多现代图形应用程序很重要,这些应用程序通常需要专业技能。为了消除外行的技能障碍,最近的动作生成方法可以直接生成以自然语言为条件的人体动作。然而,通过各种文本输入实现多样化和细粒度的运动生成仍然具有挑战性。为了解决这个问题,我们提出了 MotionDiffuse,这是第一个基于扩散模型的文本驱动的运动生成框架,它展示了现有方法的几个所需属性。 1)概率映射。 MotionDiffuse 不是确定性的语言-运动映射,而是通过一系列注入变化的去噪步骤生成运动。 2)现实综合。 MotionDiffuse 擅长对复杂的数据分布进行建模并生成生动的运动序列。 3) 多级操作。 MotionDiffuse 响应身体部位的细粒度指令,以及带有时变文本提示的任意长度运动合成。我们的实验表明,MotionDiffuse 在文本驱动的运动生成和动作条件的运动生成方面具有令人信服的优势,从而优于现有的 SoTA 方法。定性分析进一步证明了 MotionDiffuse 对综合运动生成的可控性。主页:此 https 网址
- 使用有符号射线距离函数 (SRDF) 的多视图重建 | [code]
在本文中,我们解决了多视图 3D 形状重建的问题。尽管最近与隐式形状表示相关的可微渲染方法提供了突破性的性能,但它们的计算量仍然很大,并且通常在估计的几何形状上缺乏精度。为了克服这些限制,我们研究了一种新的计算方法,它建立在一种新的体积形状表示上,就像最近的可微渲染方法一样,但用深度图参数化以更好地实现形状表面。与此表示相关的形状能量评估给定彩色图像的 3D 几何形状,不需要外观预测,但在优化时仍然受益于体积积分。在实践中,我们提出了一种隐式形状表示,SRDF,它基于我们通过沿相机光线的深度参数化的有符号距离。相关的形状能量考虑了深度预测一致性和光度一致性之间的一致性,这在体积表示中的 3D 位置。可以考虑各种照片一致性先验,例如基于中值的基线,或更详细的标准,如学习函数。该方法保留了深度图的像素精度,并且是可并行化的。我们在标准数据集上的实验表明,它提供了关于最近使用隐式形状表示的方法以及传统的多视图立体方法的最先进的结果。
- Dual-Space NeRF:在不同空间中学习动画化身和场景照明, 3DV2022 | [code]
在规范空间中对人体进行建模是捕捉和动画的常见做法。但是当涉及到神经辐射场 (NeRF) 时,仅仅在标准空间中学习一个静态的 NeRF 是不够的,因为即使场景照明是恒定的,当人移动时身体的照明也会发生变化。以前的方法通过学习每帧嵌入来缓解光照的不一致性,但这种操作并不能推广到看不见的姿势。鉴于光照条件在世界空间中是静态的,而人体在规范空间中是一致的,我们提出了一种双空间 NeRF,它在两个独立的空间中使用两个 MLP 对场景光照和人体进行建模。为了弥合这两个空间,以前的方法主要依赖于线性混合蒙皮 (LBS) 算法。然而,动态神经领域的 LBS 的混合权重是难以处理的,因此通常用另一个 MLP 来记忆,这不能推广到新的姿势。尽管可以借用 SMPL 等参数网格的混合权重,但插值操作会引入更多伪影。在本文中,我们建议使用重心映射,它可以直接泛化到看不见的姿势,并且出人意料地取得了比具有神经混合权重的 LBS 更好的结果。 Human3.6M 和 ZJU-MoCap 数据集的定量和定性结果显示了我们方法的有效性。
- FoV-NeRF:虚拟现实的中心凹神经辐射场, TVCG2022 | [code]
随着消费者显示器和商业 VR 平台的兴起,虚拟现实 (VR) 正变得无处不在。这种显示需要低延迟和高质量的合成图像渲染,同时减少计算开销。神经渲染的最新进展表明,有望通过基于图像的虚拟或物理环境表示来解锁 3D 计算机图形的新可能性。具体来说,神经辐射场 (NeRF) 表明,可以在不损失与视图相关的效果的情况下实现 3D 场景的照片般逼真的质量和连续视图变化。虽然 NeRF 可以显着受益于 VR 应用的渲染,但它面临着由高视场、高分辨率和立体/以自我为中心的观看带来的独特挑战,通常会导致渲染图像的低质量和高延迟。在 VR 中,这不仅会损害交互体验,还可能导致疾病。为了解决 VR 中的六自由度、以自我为中心和立体 NeRF 的这些问题,我们提出了第一个注视条件 3D 神经表示和视图合成方法。我们将视觉和立体敏锐度的人类心理物理学纳入 3D 风景的以自我为中心的神经表示中。然后,我们共同优化延迟/性能和视觉质量,同时相互桥接人类感知和神经场景合成,以实现感知上高质量的沉浸式交互。我们进行了客观分析和主观研究,以评估我们方法的有效性。我们发现我们的方法显着减少了延迟(与 NeRF 相比减少了高达 99% 的时间),而不会损失高保真渲染(在感知上与全分辨率地面实况相同)。所提出的方法可能是迈向未来实时捕捉、传送和可视化远程环境的 VR/AR 系统的第一步。
- 跨光谱神经辐射场, 3DV2022 | [code]
我们提出了 X-NeRF,这是一种基于神经辐射场公式的学习交叉光谱场景表示的新方法,该方法给定从具有不同光谱灵敏度的相机捕获的图像。 X-NeRF 在训练期间优化跨光谱的相机姿势,并利用归一化跨设备坐标 (NXDC) 从任意视点呈现不同模态的图像,这些图像对齐并具有相同的分辨率。对 16 个具有彩色、多光谱和红外图像的前向场景进行的实验证实了 X-NeRF 在建模交叉光谱场景表示方面的有效性。
- 克隆:用于占用网格辅助神经表示的相机-激光雷达融合 | [code]
本文提出了 CLONeR,它通过允许对从稀疏输入传感器视图观察到的大型户外驾驶场景进行建模,显着改进了 NeRF。这是通过将 NeRF 框架内的占用和颜色学习解耦为分别使用 LiDAR 和相机数据训练的单独的多层感知器 (MLP) 来实现的。此外,本文提出了一种在 NeRF 模型旁边构建可微分 3D 占用网格图 (OGM) 的新方法,并利用此占用网格改进沿射线的点采样,以在度量空间中进行体积渲染。
- NerfCap:使用动态神经辐射场捕获人类表现, TVCG2022 | [code]
本文解决了从稀疏的多视图或单目视频中捕捉人类表演的挑战。给定表演者的模板网格,以前的方法通过将模板网格非刚性地注册到具有 2D 轮廓或密集光度对齐的图像来捕获人体运动。然而,详细的表面变形无法从轮廓中恢复,而光度对齐则受到视频外观变化引起的不稳定性的影响。为了解决这些问题,我们提出了 NerfCap,这是一种基于表演者动态神经辐射场 (NeRF) 表示的新型表演捕捉方法。具体来说,通过优化变形场和规范 NeRF 的外观模型,从模板几何初始化规范 NeRF 并注册到视频帧。为了捕捉大型身体运动和详细的表面变形,NerfCap 将线性混合蒙皮与嵌入式图形变形相结合。与受限于固定拓扑和纹理的基于网格的方法相比,NerfCap 能够灵活地捕捉视频中复杂的几何形状和外观变化,并合成更逼真的图像。此外,NerfCap 可以通过将合成视频与输入视频进行匹配,以自我监督的方式进行端到端的预训练。各种数据集的实验结果表明,NerfCap 在表面重建精度和新视图合成质量方面都优于先前的工作。
- 训练和调整生成神经辐射场以进行属性条件 3D 感知人脸生成 |
[code]
基于生成神经辐射场 (GNeRF) 的 3D 感知 GAN 已经实现了令人印象深刻的高质量图像生成,同时保持了强大的 3D 一致性。最显着的成就是在人脸生成领域。然而,这些模型中的大多数都专注于提高视图一致性而忽略了解耦方面,因此这些模型无法提供对生成的高质量语义/属性控制。为此,我们引入了一个使用特定属性标签作为输入的条件 GNeRF 模型,以提高 3D 感知生成模型的可控性和解开能力。我们利用预训练的 3D 感知模型作为基础,并集成了一个双分支属性编辑模块 (DAEM),该模块利用属性标签来提供对生成的控制。此外,我们提出了一种 TRIOT (TRAining as Init, and Optimizing for Tuning) 方法来优化潜在向量,以进一步提高属性编辑的精度。在广泛使用的 FFHQ 上进行的大量实验表明,我们的模型在保留非目标区域的同时,可以产生具有更好视图一致性的高质量编辑。该代码可在此 https 网址上找到。
- Voxurf:基于体素的高效准确的神经表面重建 | [code]
神经表面重建旨在基于多视图图像重建准确的 3D 表面。以前基于神经体绘制的方法大多训练完全隐式模型,并且它们需要对单个场景进行数小时的训练。最近的努力探索了显式体积表示,它通过在可学习的体素网格中记忆重要信息来大大加速优化过程。然而,这些基于体素的方法通常难以重建细粒度几何。通过实证研究,我们发现高质量的表面重建取决于两个关键因素:构建连贯形状的能力和颜色几何依赖性的精确建模。特别是后者是精细细节准确重建的关键。受这些发现的启发,我们开发了 Voxurf,这是一种基于体素的高效和准确的神经表面重建方法,它包括两个阶段:1)利用可学习的特征网格来构建色场并获得连贯的粗略形状,以及 2)使用捕获精确的颜色几何依赖性的双色网络优化详细的几何图形。我们进一步引入了分层几何特征,以实现跨体素的信息共享。我们的实验表明,Voxurf 同时实现了高效率和高质量。在 DTU 基准上,与最先进的方法相比,Voxurf 实现了更高的重建质量,训练速度提高了 20 倍。
- 神经小说演员:学习人类演员的广义动画神经表示 | [code]
我们提出了一种新方法,用于从一组稀疏的多人多视图图像中学习广义的可动画神经人类表示。学习到的表示可用于从一组稀疏的相机中合成任意人的新颖视图图像,并使用用户的姿势控制进一步对它们进行动画处理。虽然现有方法可以推广到新人或使用用户控制合成动画,但它们都不能同时实现这两者。我们将这一成就归功于为共享的多人人体模型使用 3D 代理,并进一步将不同姿势的空间扭曲到共享的规范姿势空间,在该空间中,我们学习了一个神经领域并预测了人和与姿势相关的变形,以及从输入图像中提取的特征的外观。为了应对身体形状、姿势和服装变形的巨大变化的复杂性,我们设计了具有解开几何和外观的神经人体模型。此外,我们利用 3D 代理的空间点和表面点的图像特征来预测与人和姿势相关的属性。实验表明,我们的方法在这两项任务上都显着优于现有技术。视频和代码可在此 https 网址上找到。
- DreamBooth:为主题驱动生成微调文本到图像的扩散模型 | [code]
大型文本到图像模型在人工智能的演进中实现了显着的飞跃,能够从给定的文本提示中对图像进行高质量和多样化的合成。然而,这些模型缺乏模仿给定参考集中对象的外观并在不同上下文中合成它们的新颖再现的能力。在这项工作中,我们提出了一种“个性化”文本到图像扩散模型的新方法(专门针对用户的需求)。给定主题的几张图像作为输入,我们微调预训练的文本到图像模型(Imagen,尽管我们的方法不限于特定模型),以便它学会将唯一标识符与该特定主题绑定.一旦对象被嵌入模型的输出域中,唯一标识符就可以用于合成在不同场景中情境化的对象的完全新颖的真实感图像。通过利用嵌入在模型中的语义先验和新的自生类特定先验保存损失,我们的技术能够在参考图像中没有出现的不同场景、姿势、视图和照明条件下合成主体。我们将我们的技术应用于几个以前无懈可击的任务,包括主题重新上下文化、文本引导视图合成、外观修改和艺术渲染(同时保留主题的关键特征)。项目页面:此 https 网址
- E-NeRF:来自移动事件相机的神经辐射场 | [code]
从理想图像估计神经辐射场 (NeRFs) 已在计算机视觉领域得到广泛研究。大多数方法假设最佳照明和缓慢的相机运动。这些假设在机器人应用中经常被违反,其中图像包含运动模糊并且场景可能没有合适的照明。这可能会导致下游任务(例如场景的导航、检查或可视化)出现重大问题。为了缓解这些问题,我们提出了 E-NeRF,这是第一种从快速移动的事件摄像机中以 NeRF 形式估计体积场景表示的方法。我们的方法可以在非常快速的运动和高动态范围条件下恢复 NeRF,在这种情况下,基于帧的方法会失败。我们展示了仅通过提供事件流作为输入来渲染高质量帧是可能的。此外,通过结合事件和帧,我们可以估计在严重运动模糊下比最先进的方法质量更高的 NeRF。我们还表明,在只有很少的输入视图可用的情况下,结合事件和帧可以克服 NeRF 估计的失败情况,而无需额外的正则化。
- FurryGAN:高质量的前景感知图像合成, ECCV2022 |
[code]
前景感知图像合成旨在生成图像及其前景蒙版。一种常见的方法是将图像公式化为前景图像和背景图像的蒙版混合。这是一个具有挑战性的问题,因为它很容易达到一个简单的解决方案,即任一图像压倒另一个图像,即蒙版完全满或空,前景和背景没有有意义地分离。我们展示了 FurryGAN 的三个关键组件:1)将前景图像和合成图像都强加为逼真,2)将掩码设计为粗略和精细掩码的组合,以及 3)通过辅助掩码预测器引导生成器鉴别器。我们的方法使用非常详细的 alpha 蒙版生成逼真的图像,这些蒙版以完全无人监督的方式覆盖头发、毛皮和胡须。
- SCONE:通过体积积分优化未知环境中的表面覆盖率 | [code]
下一个最佳视图计算 (NBV) 是机器人技术中长期存在的问题,包括识别下一个信息量最大的传感器位置,以有效且准确地重建 3D 对象或场景。像大多数当前方法一样,我们考虑来自深度传感器的 NBV 预测。依赖于场景体积表示的基于学习的方法适用于路径规划,但不能很好地适应场景的大小,并且精度低于使用基于表面的表示的方法。然而,后者将相机限制在少数姿势。为了获得这两种表示的优点,我们表明我们可以通过蒙特卡罗积分在体积表示上最大化表面度量。我们的方法可扩展到大型场景并处理自由相机运动:它将由深度传感器(如激光雷达系统)收集的任意大点云以及相机姿势作为输入来预测 NBV。我们在由大型复杂 3D 场景组成的新数据集上展示了我们的方法。
- Vox-Surf:基于体素的隐式表面表示 | [code]
虚拟内容创建和交互在 AR 和 VR 等现代 3D 应用中发挥着重要作用。从真实场景中恢复详细的 3D 模型可以显着扩展其应用范围,并且已经在计算机视觉和计算机图形学界进行了数十年的研究。我们提出了 Vox-Surf,一种基于体素的隐式表面表示。我们的 Vox-Surf 将空间划分为有限的有界体素。每个体素在其角顶点中存储几何和外观信息。由于从体素表示继承而来的稀疏性,Vox-Surf 几乎适用于任何场景,并且可以从多个视图图像中轻松训练。我们利用渐进式训练过程逐步提取重要体素进行进一步优化,从而只保留有效体素,这大大减少了采样点的数量并提高了渲染速度。精细体素也可以视为碰撞检测的边界体积。实验表明,与其他方法相比,Vox-Surf 表示可以以更少的内存和更快的渲染速度学习精细的表面细节和准确的颜色。我们还表明,Vox-Surf 在场景编辑和 AR 应用中可以更实用。
- 通过多平面图像的 3D 对象运动估计动态场景的时间视图合成, ISMAR2022 |
[code]
在低计算设备上以图形方式渲染高帧率视频的挑战可以通过对未来帧的定期预测来解决,以增强虚拟现实应用程序中的用户体验。这是通过时间视图合成 (TVS) 的问题来研究的,其目标是在给定前一帧以及前一帧和下一帧的头部姿势的情况下预测视频的下一帧。在这项工作中,我们考虑了用户和对象都在移动的动态场景的 TVS。我们设计了一个框架,将运动解耦为用户和对象运动,以在预测下一帧的同时有效地使用可用的用户运动。我们通过隔离和估计过去帧中的 3D 对象运动然后外推来预测对象的运动。我们使用多平面图像 (MPI) 作为场景的 3D 表示,并将对象运动建模为 MPI 表示中对应点之间的 3D 位移。为了在估计运动时处理 MPI 中的稀疏性,我们结合了部分卷积和掩蔽相关层来估计对应点。然后将预测的对象运动与给定的用户或相机运动集成以生成下一帧。使用遮蔽填充模块,我们合成由于相机和物体运动而未覆盖的区域。我们为包含 800 个全高清分辨率视频的动态场景 TVS 开发了一个新的合成数据集。我们通过对我们的数据集和 MPI Sintel 数据集的实验表明,我们的模型优于文献中的所有竞争方法。
- LoRD:用于高保真动态人体建模的局部 4D 隐式表示, ECCV2022 | [code]
4D 隐式表示的最新进展集中在使用低维潜在向量全局控制形状和运动,这容易丢失表面细节和累积跟踪误差。尽管许多深度局部表示已显示出可用于 3D 形状建模的有希望的结果,但它们的 4D 对应物尚不存在。在本文中,我们提出了一种新颖的用于动态服装人体的局部 4D 隐式表示,名为 LoRD,以填补这一空白,它兼具 4D 人体建模和局部表示的优点,并能够通过详细的表面变形进行高保真重建,例如衣服褶皱。特别是,我们的关键见解是鼓励网络学习局部部分级表示的潜在代码,能够解释局部几何和时间变形。为了在测试时进行推断,我们首先在每个时间步估计体内骨骼运动以跟踪局部部位,然后根据不同类型的观察数据通过自动解码优化每个部位的潜在代码。大量实验表明,该方法具有很强的表示 4D 人体的能力,并且在实际应用中优于最先进的方法,包括从稀疏点进行 4D 重建、非刚性深度融合,无论是定性还是定量。
- 从单目视频中对动画 3D 人体进行神经捕获, ECCV2022 | [code]
我们提出了一种从单目视频输入构建可动画 3D 人体表示的新颖范例,这样它就可以以任何看不见的姿势和视图进行渲染。我们的方法基于动态神经辐射场 (NeRF),该动态神经辐射场 (NeRF) 由作为几何代理的基于网格的参数化 3D 人体模型装配。以前的方法通常依赖多视图视频或准确的 3D 几何信息作为附加输入;此外,大多数方法在推广到看不见的姿势时质量会下降。我们认为,泛化的关键是用于查询动态 NeRF 的良好输入嵌入:良好的输入嵌入应该定义全体积空间中的单射映射,由姿态变化下的表面网格变形引导。基于这一观察,我们建议嵌入输入查询及其与网格顶点上一组测地最近邻所跨越的局部表面区域的关系。通过包含位置和相对距离信息,我们的嵌入定义了距离保留的变形映射,并很好地推广到看不见的姿势。为了减少对额外输入的依赖,我们首先使用现成的工具初始化每帧 3D 网格,然后提出一个管道来联合优化 NeRF 并细化初始网格。大量实验表明,我们的方法可以在看不见的姿势和视图下合成合理的人类渲染结果。
- 8 点算法作为 ViTs 相对姿势预测的归纳偏差, 3DV2022 |
[code]
我们提出了一个简单的基线,用于直接估计两个图像之间的相对姿势(旋转和平移,包括比例)。深度方法最近显示出强劲的进展,但通常需要复杂或多阶段的架构。我们展示了一些修改可以应用于视觉转换器 (ViT),以使其计算接近八点算法。这种归纳偏差使一种简单的方法在多种环境中具有竞争力,通常在有限的数据机制中显着提高现有技术水平,并具有强大的性能提升。
- PDRF:渐进式去模糊辐射场,用于从模糊图像中快速、稳健地重建场景 | [code]
我们提出了渐进式去模糊辐射场 (PDRF),这是一种从模糊图像中有效重建高质量辐射场的新方法。虽然当前最先进的 (SoTA) 场景重建方法从干净的源视图实现照片般逼真的渲染结果,但当源视图受到模糊影响时,它们的性能会受到影响,这在野外图像中很常见。以前的去模糊方法要么不考虑 3D 几何,要么计算量很大。为了解决这些问题,PDRF 是辐射场建模中的一种渐进式去模糊方案,它通过结合 3D 场景上下文准确地模拟模糊。 PDRF 进一步使用有效的重要性采样方案,从而实现快速的场景优化。具体来说,PDRF 提出了一种 Coarse Ray Renderer 来快速估计体素密度和特征;然后使用 Fine Voxel Renderer 来实现高质量的光线追踪。我们进行了广泛的实验,结果表明 PDRF 比以前的 SoTA 快 15 倍,同时在合成场景和真实场景上都取得了更好的性能。
- 通过隐式视觉引导和超网络生成文本到图像 | [code]
我们开发了一种文本到图像生成的方法,该方法包含额外的检索图像,由隐式视觉引导损失和生成目标的组合驱动。与大多数现有的仅以文本为输入的文本到图像生成方法不同,我们的方法将跨模态搜索结果动态地馈送到统一的训练阶段,从而提高了生成结果的质量、可控性和多样性。我们提出了一种新的超网络调制的视觉文本编码方案来预测编码层的权重更新,从而实现从视觉信息(例如布局、内容)到相应的潜在域的有效传输。实验结果表明,我们的模型以额外的检索视觉数据为指导,优于现有的基于 GAN 的模型。在 COCO 数据集上,与最先进的方法相比,我们实现了更好的 FID 为 9.13,生成器参数减少了 3.5 倍。
- 从全向图像中捕捉休闲室内 HDR 辐射 | [code]
我们提出了 PanoHDR-NeRF,这是一种新颖的管道,可以随意捕获大型室内场景的合理全 HDR 辐射场,而无需精心设置或复杂的捕获协议。首先,用户通过在场景周围自由挥动现成的相机来捕捉场景的低动态范围 (LDR) 全向视频。 然后,LDR2HDR 网络将捕获的 LDR 帧提升为 HDR,随后用于训练定制的 NeRF++ 模型。 由此产生的 PanoHDR-NeRF 管道可以从场景的任何位置估计完整的 HDR 全景图。 通过对各种真实场景的新测试数据集进行实验,在训练期间未看到的位置捕获地面实况 HDR 辐射,我们表明 PanoHDR-NeRF 可以预测来自任何场景点的合理辐射。我们还表明,由 PanoHDR-NeRF 生成的 HDR 图像可以合成正确的照明效果,从而能够使用正确照明的合成对象来增强室内场景。
- UPST-NeRF:用于 3D 场景的神经辐射场的通用逼真风格转移 |
[code]
3D 场景逼真风格化旨在根据给定的风格图像从任意新颖的视图生成逼真的图像,同时确保从不同视点渲染时的一致性。现有的一些具有神经辐射场的风格化方法可以通过将风格图像的特征与多视图图像相结合来训练3D场景,从而有效地预测风格化场景。然而,这些方法会生成包含令人反感的伪影的新颖视图图像。此外,它们无法为 3D 场景实现通用的逼真风格化。因此,造型图像必须重新训练基于神经辐射场的 3D 场景表示网络。我们提出了一种新颖的 3D 场景逼真风格迁移框架来解决这些问题。它可以用 2D 风格的图像实现逼真的 3D 场景风格转换。我们首先预训练了一个 2D 真实感风格迁移网络,可以满足任何给定内容图像和风格图像之间的真实感风格迁移。然后,我们使用体素特征来优化 3D 场景并获得场景的几何表示。最后,我们共同优化了一个超网络,以实现任意风格图像的场景逼真风格迁移。在迁移阶段,我们使用预训练的 2D 真实感网络来约束 3D 场景中不同视图和不同风格图像的真实感风格。实验结果表明,我们的方法不仅实现了任意风格图像的 3D 逼真风格转换,而且在视觉质量和一致性方面优于现有方法。项目页面:此 https URL。
- DM-NeRF:2D 图像的 3D 场景几何分解和操作 |
[code]
在本文中,我们从 2D 视图研究 3D 场景几何分解和操纵问题。通过利用最近的隐式神经表示技术,特别是吸引人的神经辐射场,我们引入了一个对象场组件,仅从 2D 监督中学习 3D 空间中所有单个对象的唯一代码。该组件的关键是一系列精心设计的损失函数,以使每个 3D 点,尤其是在非占用空间中,即使没有 3D 标签也能得到有效优化。此外,我们引入了一种逆查询算法,可以在学习的场景表示中自由操作任何指定的 3D 对象形状。值得注意的是,我们的操作算法可以明确地解决关键问题,例如对象碰撞和视觉遮挡。我们的方法称为 DM-NeRF,是最早在单个管道中同时重建、分解、操作和渲染复杂 3D 场景的方法之一。在三个数据集上的大量实验清楚地表明,我们的方法可以准确地从 2D 视图中分解所有 3D 对象,允许在 3D 空间中自由操作任何感兴趣的对象,例如平移、旋转、大小调整和变形。
- HDR-Plenoxels:自校准高动态范围辐射场, ECCV2022 | [code]
我们提出了高动态范围辐射 (HDR) 场 HDR-Plenoxels,它学习 3D HDR 辐射场、几何信息和 2D 低动态范围 (LDR) 图像中固有的不同相机设置的全光函数。我们基于体素的体素渲染管道仅使用从不同相机设置中以端到端方式拍摄的多视图 LDR 图像来重建 HDR 辐射场,并且具有快速的收敛速度。为了处理现实世界场景中的各种相机,我们引入了一个色调映射模块,该模块对相机内的数字成像管道 (ISP) 进行建模并解开辐射设置。我们的色调映射模块允许我们通过控制每个新视图的辐射设置来进行渲染。最后,我们构建了一个具有不同相机条件的多视图数据集,这符合我们的问题设置。我们的实验表明,HDR-Plenoxels 可以仅从带有各种相机的 LDR 图像中表达细节和高质量的 HDR 新颖视图。
- 渐进式多尺度光场网络, 3DV2022 | [code]
与图像集表示相比,神经表示在表示辐射和光场的能力方面显示出了巨大的希望,同时非常紧凑。然而,当前的表示不太适合流式传输,因为解码只能在单个细节级别上完成,并且需要下载整个神经网络模型。此外,高分辨率光场网络可能会出现闪烁和混叠,因为在没有适当过滤的情况下对神经网络进行采样。为了解决这些问题,我们提出了一个渐进式多尺度光场网络,它对具有多层次细节的光场进行编码。使用较少的神经网络权重对较低级别的细节进行编码,从而实现渐进式流传输并减少渲染时间。我们的渐进式多尺度光场网络通过在较低细节级别编码较小的抗锯齿表示来解决锯齿问题。此外,每个像素级别的细节使我们的表示能够支持抖动过渡和中心点渲染。
- OmniVoxel:一种快速精确的全向神经辐射场重建方法, GCCE 2022 | [code]
本文提出了一种利用等矩形全向图像重建神经辐射场的方法。具有辐射场的隐式神经场景表示可以在有限的空间区域内连续重建场景的 3D 形状。然而,在商用 PC 硬件上训练完全隐式表示需要大量时间和计算资源(每个场景 15 ~ 20 小时)。因此,我们提出了一种显着加速这一过程的方法(每个场景 20 ∼ 40 分钟)。我们没有使用完全隐式的光线表示来重建辐射场,而是采用包含张量中的密度和颜色特征的特征体素。考虑到全向 equirectangular 输入和相机布局,我们使用球面体素化来表示,而不是三次表示。我们的体素化方法可以平衡内景和外景的重建质量。此外,我们对颜色特征采用轴对齐位置编码方法来提高整体图像质量。我们的方法在具有随机相机姿势的合成数据集上实现了令人满意的经验性能。此外,我们在包含复杂几何形状的真实场景中测试了我们的方法,并实现了最先进的性能。我们的代码和完整的数据集将与论文发表的同时发布。
- HyperTime:时间序列的隐式神经表示 | [code]
隐式神经表示 (INR) 最近已成为一种强大的工具,可提供准确且与分辨率无关的数据编码。它们作为通用逼近器的鲁棒性已在各种数据源中得到证明,并应用于图像、声音和 3D 场景表示。然而,很少有人关注利用这些架构来表示和分析时间序列数据。在本文中,我们使用 INR 分析时间序列的表示,比较不同的激活函数在重建精度和训练收敛速度方面。我们展示了如何利用这些网络对时间序列进行插补,以及在单变量和多变量数据上的应用。最后,我们提出了一种利用 INR 来学习整个时间序列数据集的压缩潜在表示的超网络架构。我们引入了基于 FFT 的损失来指导训练,以便在时间序列中保留所有频率。我们展示了该网络可用于将时间序列编码为 INR,并且可以对它们的嵌入进行插值以从现有的时间序列中生成新的时间序列。我们通过将其用于数据增强来评估我们的生成方法,并表明它与当前最先进的时间序列增强方法具有竞争力。
- RelPose:预测野外单个物体的概率相对旋转, ECCV2022 |
[code]
我们描述了一种数据驱动的方法,用于在给定任意对象的多个图像的情况下推断相机视点。该任务是经典几何流水线(如 SfM 和 SLAM)的核心组成部分,也是当代神经方法(例如 NeRF)对对象重建和视图合成的重要预处理要求。与现有的在稀疏视图中表现不佳的对应驱动方法相比,我们提出了一种基于自上而下预测的方法来估计相机视点。我们的关键技术见解是使用基于能量的公式来表示相对相机旋转的分布,从而使我们能够明确表示由对象对称性或视图产生的多个相机模式。利用这些相对预测,我们从多张图像中共同估计一组一致的相机旋转。我们表明,在给定可见和不可见类别的稀疏图像的情况下,我们的方法优于最先进的 SfM 和 SLAM 方法。此外,我们的概率方法明显优于直接回归相对姿势,这表明建模多模态对于连贯的关节重建很重要。我们证明我们的系统可以成为从多视图数据集进行野外重建的垫脚石。包含代码和视频的项目页面可以在这个 https URL 找到。
- NIDN:纳米结构的神经逆向设计 | [code]
近十年来,计算工具已成为材料设计的核心,以降低成本实现快速开发周期。机器学习工具在光子学领域尤其兴起。然而,从优化的角度来看,设计所需的麦克斯韦方程的反演特别具有挑战性,需要复杂的软件。我们提出了一种创新的开源软件工具,称为纳米结构的神经逆向设计 (NIDN),它允许使用基于物理的深度学习方法设计复杂的堆叠材料纳米结构。我们执行基于梯度的神经网络训练,而不是无导数或数据驱动的优化或学习方法,在这种训练中,我们根据其光谱特性直接优化材料及其结构。 NIDN 支持两种不同的求解器,严格的耦合波分析和有限差分时域方法。 NIDN 的实用性和有效性在几个合成示例以及 1550 nm 滤光片和抗反射涂层的设计中得到了证明。结果与实验基线、其他模拟工具和所需的光谱特性相匹配。鉴于其在网络架构和 Maxwell 求解器方面的完全模块化以及开源、许可的可用性,NIDN 将能够支持广泛应用中的计算材料设计过程。
- HRF-Net:来自稀疏输入的整体辐射场 | [code]
我们提出了 HRF-Net,这是一种基于整体辐射场的新型视图合成方法,它使用一组稀疏输入来渲染新颖的视图。最近的泛化视图合成方法也利用了辐射场,但渲染速度不是实时的。现有的方法可以有效地训练和渲染新颖的视图,但它们不能推广到看不见的场景。我们的方法解决了用于泛化视图合成的实时渲染问题,包括两个主要阶段:整体辐射场预测器和基于卷积的神经渲染器。这种架构不仅可以基于隐式神经场推断出一致的场景几何,还可以使用单个 GPU 有效地渲染新视图。我们首先在 DTU 数据集的多个 3D 场景上训练 HRF-Net,并且该网络可以仅使用光度损失对看不见的真实和合成数据产生似是而非的新颖视图。此外,我们的方法可以利用单个场景的一组更密集的参考图像来生成准确的新颖视图,而无需依赖额外的显式表示,并且仍然保持预训练模型的高速渲染。实验结果表明,HRF-Net 在各种合成和真实数据集上优于最先进的可泛化神经渲染方法。
- 使用隐式神经表示的蒙特卡罗去噪 | [code]
Monte Carlo 路径追踪是计算机图形学中流行的 3D 渲染技术,但它通常需要在图像中的噪声量和计算时间之间进行代价高昂的权衡。因此,尝试“平滑”噪声图像是有用的,通常通过在样本之间构建新数据或对图像应用过滤器。在这项工作中,我们研究了训练神经网络以将固定视点场景的亮度隐式表示为连续函数的可行性。我们使用多层感知器网络实现神经网络,并在由离线 Monte Carlo 渲染器生成的稀疏采样图像上对其进行训练。该训练数据使用图像平面上每个样本的 (x, y) 坐标作为输入,并将样本的 RGB 颜色作为输出。此外,我们为网络提供第一条光线交点的表面法线、深度和反照率,作为像素坐标旁边的额外输入。这些额外的输入维度通过帮助网络考虑深度、法线和漫反射颜色的变化来提高隐式表示的质量。一旦网络在稀疏采样的场景上得到训练,我们就可以对每个像素的网络进行多次密集采样,以创建最终的去噪图像。我们发现该网络可以在具有柔和照明和光泽反射的场景中快速学习和去噪图像,并且只需少量训练即可轻松处理深度、正常和漫反射颜色的不连续性。
- 通过可微分渲染进行表面捕获的快速梯度下降, 3DV2022 | [code]
差分渲染最近已成为一种强大的工具,用于从多个视图进行基于图像的渲染或几何重建,具有非常高的质量。到目前为止,此类方法已在通用对象数据库上进行了基准测试,并有望应用于一些真实数据,但尚未应用于可能受益的特定应用程序。在本文中,我们研究了如何为原始多相机性能捕获制作差分渲染系统。我们以实际可用性和可重复性的方式解决了几个关键问题,例如处理速度、模型的可解释性和一般输出模型质量。这导致我们对差分渲染框架做出了一些贡献。特别是,我们展示了差分渲染和经典优化的统一视图是可能的,从而导致可以分析计算完整的非随机梯度步骤并将完整的每帧数据存储在视频内存中的公式和实现,从而产生简单有效的实现.我们还使用稀疏存储和从粗到细的方案来实现极高的分辨率,同时包含内存和计算时间。我们通过实验表明,在质量上与最先进的多视图人体表面捕获方法相媲美的结果可以在很短的时间内实现,通常每帧大约一分钟。
- PlaneFormers:从稀疏视图平面到 3D 重建, ECCV2022 | [code]
我们提出了一种从具有有限重叠的图像中对场景进行平面表面重建的方法。这种重建任务具有挑战性,因为它需要联合推理单图像 3D 重建、图像之间的对应关系以及图像之间的相对相机位姿。过去的工作提出了基于优化的方法。我们介绍了一种更简单的方法,PlaneFormer,它使用一个应用于 3D 感知平面令牌的转换器来执行 3D 推理。我们的实验表明,我们的方法比以前的工作要有效得多,并且几个特定于 3D 的设计决策对其成功至关重要。
- PS-NeRV:视频的补丁风格化神经表示 | [code]
我们研究如何使用隐式神经表示 (INR) 来表示视频。经典的 INR 方法通常利用 MLP 将输入坐标映射到输出像素。虽然最近的一些作品试图用 CNN 直接重建整个图像。然而,我们认为上述像素级和图像级策略都不利于视频数据。相反,我们提出了一种补丁解决方案 PS-NeRV,它将视频表示为补丁和相应补丁坐标的函数。它自然继承了image-wise方法的优点,并以快速的解码速度实现了出色的重建性能。整个方法包括传统的模块,如位置嵌入、MLPs 和 CNNs,同时还引入了 AdaIN 来增强中间特征。这些简单而重要的变化可以帮助网络轻松适应高频细节。大量实验证明了它在视频压缩和视频修复等视频相关任务中的有效性。
- NFOMP:具有非完整约束的差动驱动机器人最优运动规划器的神经场, IEEE Robotics and Automation Letters | [code]
摘要:最优运动规划是移动机器人中最关键的问题之一。一方面,经典的基于采样的方法为这个问题提出了渐近最优的解决方案。然而,这些规划器无法在合理的计算时间内实现平滑和短的轨迹。另一方面,基于优化的方法能够在各种场景中生成平滑而平坦的轨迹,包括密集的人群。然而,现代基于优化的方法使用预先计算的有符号距离函数进行碰撞损失估计,它限制了这些方法在一般配置空间中的应用,包括具有非完整约束的差分驱动非圆形机器人。此外,基于优化的方法缺乏准确处理 U 形或薄障碍物的能力。我们建议从两个方面改进优化方法。首先,我们开发了一个障碍物神经场模型来估计碰撞损失;将此模型与轨迹优化一起训练可以持续改善碰撞损失,同时实现更可行和更平滑的轨迹。其次,我们通过将拉格朗日乘数添加到轨迹损失函数中来强制轨迹考虑非完整约束。我们应用我们的方法解决了具有非完整约束的差动驱动机器人的最优运动规划问题,对我们的解决方案进行了基准测试,并证明了新的规划器生成了非常适合机器人跟随的平滑、短而平坦的轨迹,并且优于最先进的方法在归一化曲率上提高了 25%,在 MovingAI 环境中的尖点数量上提高了 75%。
- NeSF: 用于 3D 场景的可概括语义分割的神经语义场 | [code]
我们提出了 NeSF,一种从预训练的密度场和稀疏的 2D 语义监督产生 3D 语义场的方法。我们的方法通过利用将 3D 信息存储在神经域中的神经表示来避开传统的场景表示。尽管仅由 2D 信号监督,我们的方法能够从新颖的相机姿势生成 3D 一致的语义图,并且可以在任意 3D 点进行查询。值得注意的是,NeSF 与任何产生密度场的方法兼容,并且随着预训练密度场质量的提高,其准确性也会提高。我们的实证分析证明了在令人信服的合成场景上与竞争性 2D 和 3D 语义分割基线相当的质量,同时还提供了现有方法无法提供的功能。
- PRIF: Primary Ray-based Implicit Function | [code]
我们引入了一种新的隐式形状表示,称为基于初级光线的隐式函数 (PRIF)。与大多数基于符号距离函数 (SDF) 处理空间位置的现有方法相比,我们的表示在定向射线上运行。具体来说,PRIF 被制定为直接生成给定输入射线的表面命中点,而无需昂贵的球体跟踪操作,从而实现高效的形状提取和可微渲染。我们证明了经过训练以编码 PRIF 的神经网络在各种任务中取得了成功,包括单一形状表示、类别形状生成、稀疏或嘈杂观察的形状补全、相机姿态估计的逆渲染以及颜色的神经渲染。
- Transformers as Meta-Learners for Implicit Neural Representations, ECCV2022 |
[code]
近年来,隐式神经表示 (INR) 已经出现并显示出其优于离散表示的优势。然而,将 INR 拟合到给定的观测值通常需要从头开始使用梯度下降进行优化,这是低效的,并且不能很好地泛化稀疏的观测值。为了解决这个问题,大多数先前的工作都训练了一个超网络,该超网络生成单个向量来调制 INR 权重,其中单个向量成为限制输出 INR 重建精度的信息瓶颈。最近的工作表明,通过基于梯度的元学习,可以在没有单向量瓶颈的情况下精确推断 INR 中的整个权重集。受基于梯度的元学习的广义公式的启发,我们提出了一个公式,该公式使用 Transformer 作为 INR 的超网络,它可以使用专门作为集合到集合映射的 Transformer 直接构建整个 INR 权重集。我们展示了我们的方法在不同任务和领域中构建 INR 的有效性,包括 2D 图像回归和 3D 对象的视图合成。我们的工作在 Transformer 超网络和基于梯度的元学习算法之间建立了联系,我们为理解生成的 INR 提供了进一步的分析。
- 全息显示3D相位全息图的端到端学习 | [code]
计算机生成的全息术 (CGH) 提供相干波前的体积控制,是体积 3D 显示器、光刻、神经光刺激和光/声捕获等应用的基础。最近,基于深度学习的方法作为 CGH 合成的有前途的计算范式出现,克服了传统基于模拟/优化的方法中的质量-运行时权衡。然而,预测全息图的质量本质上受数据集质量的限制。在这里,我们介绍了一个新的全息图数据集 MIT-CGH-4K-V2,它使用分层深度图像作为数据高效的体积 3D 输入和用于直接合成高质量 3D 相位的两阶段监督+无监督训练协议-只有全息图。所提出的系统还可以校正视觉像差,从而允许为最终用户定制。我们通过实验展示了逼真的 3D 全息投影并讨论了相关的空间光调制器校准程序。我们的方法在消费级 GPU 上实时运行,在 iPhone 13 Pro 上以 5 FPS 运行,有望显着提高上述应用程序的性能。
- VolTeMorph:体积表示的实时、可控和可泛化动画 | [code]
最近,用于场景重建和新颖视图合成的体积表示越来越受欢迎,这使人们重新关注在高可见度下对体积内容进行动画处理质量和实时性。虽然基于学习函数的隐式变形方法可以产生令人印象深刻的结果,但它们对于艺术家和内容创作者来说是“黑匣子”,它们需要大量的训练数据才能进行有意义的概括,而且它们不会在训练数据之外产生现实的外推。在这项工作中,我们通过引入一种实时、易于使用现成软件进行编辑并且可以令人信服地推断的体积变形方法来解决这些问题。为了展示我们方法的多功能性,我们将其应用于两个场景:基于物理的对象变形和远程呈现,其中化身使用混合形状进行控制。我们还进行了彻底的实验,表明我们的方法优于结合隐式变形的体积方法和基于网格变形的方法。
- 基于神经辐射场和运动图的可控自由视点视频重建, IEEE Transactions on Visualization and Computer Graphics | [code]
在本文中,我们提出了一种基于运动图和神经辐射场(NeRF)的可控高质量自由视点视频生成方法。与现有的姿势驱动 NeRF 或时间/结构条件的 NeRF 工作不同,我们建议首先构建捕获序列的有向运动图。这种序列-运动-参数化策略不仅能够灵活地控制自由视点视频渲染的姿态,而且避免了相似姿态的冗余计算,从而提高了整体重建效率。此外,为了支持身体形状控制而不损失逼真的自由视点渲染性能,我们通过结合显式表面变形和隐式神经场景表示来改进 vanilla NeRF。具体来说,我们为运动图上的每个有效帧训练一个局部表面引导的 NeRF,并且体积渲染仅在真实表面周围的局部空间中执行,从而实现了合理的形状控制能力。据我们所知,我们的方法是第一个同时支持逼真的自由视点视频重建和基于运动图的用户引导运动遍历的方法。结果和比较进一步证明了所提出方法的有效性。
- 基于神经描述符字段的鲁棒变化检测, IROS2022 | [code]
推理环境变化的能力对于长时间运行的机器人至关重要。代理应在操作期间捕获更改,以便可以遵循操作以确保工作会话的顺利进行。然而,不同的视角和累积的定位误差使得机器人很容易由于低观察重叠和漂移的对象关联而错误地检测到周围世界的变化。在本文中,基于最近提出的类别级神经描述符字段 (NDF),我们开发了一种对象级在线变化检测方法,该方法对部分重叠的观察和嘈杂的定位结果具有鲁棒性。利用 NDF 的形状补全能力和 SE(3) 等效性,我们表示具有紧凑形状代码的对象,该代码编码来自部分观察的完整对象形状。然后基于从 NDF 恢复的对象中心将对象组织在空间树结构中,以便快速查询对象邻域。通过形状代码相似性关联对象并比较局部对象-邻居空间布局,我们提出的方法证明了对低观测重叠和定位噪声的鲁棒性。我们对合成序列和真实世界序列进行了实验,与多种基线方法相比,实现了改进的变化检测结果。
- DoF-NeRF:景深与神经辐射场相遇, ACMMM2022 |
[code]
神经辐射场 (NeRF) 及其变体在表示 3D 场景和合成逼真的新颖视图方面取得了巨大成功。但是,它们通常基于针孔相机模型并假设全焦点输入。这限制了它们的适用性,因为从现实世界捕获的图像通常具有有限的景深 (DoF)。为了缓解这个问题,我们引入了 DoF-NeRF,一种新颖的神经渲染方法,可以处理浅自由度输入并可以模拟自由度效果。特别是,它根据几何光学原理扩展了 NeRF 以模拟镜头的孔径。这样的物理保证允许 DoF-NeRF 操作具有不同焦点配置的视图。得益于显式光圈建模,DoF-NeRF 还可以通过调整虚拟光圈和焦点参数来直接操纵 DoF 效果。它是即插即用的,可以插入到基于 NeRF 的框架中。在合成数据集和真实世界数据集上的实验表明,DoF-NeRF 不仅在全焦点设置中的性能与 NeRF 相当,而且还可以合成以浅自由度输入为条件的全焦点新视图。还演示了 DoF-NeRF 在 DoF 渲染中的一个有趣应用。
- ZEPI-Net:通过内部跨尺度对极平面图像零样本学习的光场超分辨率, Neural Processing Letters (2022) | [code]
光场 (LF) 成像的许多应用都受到空间角分辨率问题的限制,因此需要高效的超分辨率技术。最近,基于学习的解决方案比传统的超分辨率(SR)技术取得了显着更好的性能。不幸的是,学习或训练过程在很大程度上依赖于训练数据集,这对于大多数 LF 成像应用程序来说可能是有限的。在本文中,我们提出了一种基于零样本学习的新型 LF 空间角 SR 算法。我们建议在核平面图像 (EPI) 空间中学习跨尺度可重用特征,并避免显式建模场景先验或从大量 LF 中隐式学习。最重要的是,在不使用任何外部 LF 的情况下,所提出的算法可以同时在空间域和角域中超分辨 LF。此外,所提出的解决方案没有深度或视差估计,这通常由现有的 LF 空间和角度 SR 采用。通过使用一个简单的 8 层全卷积网络,我们表明所提出的算法可以产生与最先进的空间 SR 相当的结果。我们的算法在多组公共 LF 数据集上的角度 SR 方面优于现有方法。实验结果表明,跨尺度特征可以很好地学习并在 EPI 空间中用于 LF SR。
- ObjectFusion:具有神经对象先验的准确对象级 SLAM, Graphical Models, Volume 123, September 2022 | [code]
以前的对象级同步定位和映射 (SLAM) 方法仍然无法以有效的方式创建高质量的面向对象的 3D 地图。主要挑战来自如何有效地表示对象形状以及如何将这种对象表示有效地应用于准确的在线相机跟踪。在本文中,我们提供 ObjectFusion 作为静态场景中的一种新颖的对象级 SLAM,它通过利用神经对象先验,有效地创建具有高质量对象重建的面向对象的 3D 地图。我们提出了一种仅具有单个编码器-解码器网络的神经对象表示,以有效地表达各种类别的对象形状,这有利于对象实例的高质量重建。更重要的是,我们建议将这种神经对象表示转换为精确测量,以共同优化对象形状、对象姿态和相机姿态,以实现最终准确的 3D 对象重建。通过对合成和真实世界 RGB-D 数据集的广泛评估,我们表明我们的 ObjectFusion 优于以前的方法,具有更好的对象重建质量,使用更少的内存占用,并且以更有效的方式,尤其是在对象级别。
- MobileNeRF:利用多边形光栅化管道在移动架构上进行高效的神经场渲染 |
[code]
神经辐射场 (NeRFs) 展示了从新颖视图合成 3D 场景图像的惊人能力。但是,它们依赖于基于光线行进的专用体积渲染算法,这些算法与广泛部署的 g 的功能不匹配图形硬件。本文介绍了一种基于纹理多边形的新 NeRF 表示,它可以使用标准渲染管道有效地合成新图像。 NeRF 表示为一组多边形,其纹理表示二进制不透明度和特征向量。使用 z 缓冲区对多边形进行传统渲染会生成每个像素都有特征的图像,这些图像由在片段着色器中运行的小型、依赖于视图的 MLP 进行解释,以产生最终的像素颜色。这种方法使 NeRF 能够使用传统的多边形光栅化管道进行渲染,该管道提供大规模的像素级并行性,在包括手机在内的各种计算平台上实现交互式帧速率。
- 神经密度-距离场, ECCV2022 |
[code]
神经领域在 3D 视觉任务中的成功现在是无可争辩的。遵循这一趋势,已经提出了几种针对视觉定位的方法(例如,SLAM)来使用神经场估计距离或密度场。然而,仅通过基于密度场的方法(例如神经辐射场 (NeRF))很难实现高定位性能,因为它们在大多数空白区域中不提供密度梯度。另一方面,基于距离场的方法,例如神经隐式表面 (NeuS),在对象的表面形状方面存在局限性。本文提出了神经密度-距离场 (NeDDF),这是一种新的 3D 表示,它相互约束距离和密度场。我们将距离场公式扩展到没有明确边界表面的形状,例如毛皮或烟雾,这使得从距离场到密度场的显式转换成为可能。通过显式转换实现的一致距离和密度场既能保证初始值的鲁棒性,又能实现高质量的配准。此外,场之间的一致性允许从稀疏点云快速收敛。实验表明,NeDDF 可以实现高定位性能,同时在新颖的视图合成上提供与 NeRF 相当的结果。该代码可在此 https URL 获得。
- 通过 NeRF Attention 进行端到端视图合成 | [code]
在本文中,我们提出了一个用于视图合成的简单 seq2seq 公式,其中我们将一组光线点作为输入和输出与光线相对应的颜色。在这个 seq2seq 公式上直接应用标准转换器有两个限制。首先,标准注意力不能成功地适应体积渲染过程,因此合成视图中缺少高频分量。其次,将全局注意力应用于所有光线和像素是非常低效的。受神经辐射场 (NeRF) 的启发,我们提出了 NeRF 注意力 (NeRFA) 来解决上述问题。一方面,NeRFA 将体积渲染方程视为软特征调制过程。通过这种方式,特征调制增强了具有类似 NeRF 电感偏置的变压器。另一方面,NeRFA 执行多阶段注意力以减少计算开销。此外,NeRFA 模型采用光线和像素转换器来学习光线和像素之间的相互作用。 NeRFA 在四个数据集上展示了优于 NeRF 和 NerFormer 的性能:DeepVoxels、Blender、LLFF 和 CO3D。此外,NeRFA 在两种设置下建立了新的 state-of-the-art:单场景视图合成和以类别为中心的新颖视图合成。该代码将公开发布。
- 脱离网格:用于 3D 血管建模的连续隐式神经表示, MICCAI STACOM 2022 | [code]
个性化 3D 血管模型对于心血管疾病患者的诊断、预后和治疗计划非常有价值。传统上,此类模型是用网格和体素掩码等显式表示或径向基函数或原子(管状)形状等隐式表示构建的。在这里,我们建议在可微的隐式神经表示 (INR) 中通过其有符号距离函数 (SDF) 的零水平集来表示表面。这使我们能够用隐式、连续、轻量级且易于与深度学习算法集成的表示来对复杂的血管结构进行建模。我们在这里通过三个实际示例展示了这种方法的潜力。首先,我们从 CT 图像中获得了腹主动脉瘤 (AAA) 的准确且防水的表面,并从表面上的 200 个点显示出稳健的拟合。其次,我们同时将嵌套的血管壁安装在单个 INR 中,没有交叉点。第三,我们展示了如何将单个动脉的 3D 模型平滑地融合到单个防水表面中。我们的结果表明,INR 是一种灵活的表示形式,具有最小交互注释的潜力复杂血管结构的研究和操作。
- 神经链:从多视图图像中学习头发的几何形状和外观, ECCV2022 |
[code]
我们提出了 Neural Strands,这是一种新颖的学习框架,用于从多视图图像输入中对精确的头发几何形状和外观进行建模。学习的头发模型可以从具有高保真视图相关效果的任何视点实时渲染。与体积模型不同,我们的模型实现了直观的形状和样式控制。为了实现这些特性,我们提出了一种基于神经头皮纹理的新型头发表示,该神经头皮纹理对每个纹素位置的单个股线的几何形状和外观进行编码。此外,我们引入了一种基于学习发束光栅化的新型神经渲染框架。我们的神经渲染是精确的和抗锯齿的,使渲染视图一致且逼真。将外观与多视图几何先验相结合,我们首次实现了从多视图设置中联合学习外观和显式头发几何形状。我们展示了我们的方法在各种发型的保真度和效率方面的有效性。
- 具有全局照明的可重新照明的新视图合成的神经辐射转移场 | [code]
给定场景的一组图像,从新颖的视图和光照条件重新渲染该场景是计算机视觉和图形学中一个重要且具有挑战性的问题。一方面,计算机视觉中的大多数现有作品通常对图像形成过程施加许多假设,例如直接照明和预定义的材料,使场景参数估计易于处理。另一方面,成熟的计算机图形学工具允许在给定所有场景参数的情况下对复杂的照片般逼真的光传输进行建模。结合这些方法,我们提出了一种通过学习神经预计算辐射传递函数来在新视图下重新点亮场景的方法,该函数使用新的环境图隐式处理全局光照效果。我们的方法可以在单一未知照明条件下对一组场景的真实图像进行单独监督。为了在训练期间消除任务的歧义,我们在训练过程中紧密集成了一个可微的路径跟踪器,并提出了合成 OLAT 和真实图像损失的组合。结果表明,与当前技术水平相比,场景参数的恢复解缠结得到了显着改善,因此,我们的重新渲染结果也更加真实和准确。
- ShAPO:多对象形状、外观和姿势优化的隐式表示, ECCV2022 |
[code]
我们的方法从单个 RGB-D 观察中研究以对象为中心的 3D 理解的复杂任务。由于这是一个不适定问题,现有方法在具有遮挡的复杂多对象场景中的 3D 形状和 6D 姿势和尺寸估计性能低下。我们提出了 ShaAPO,一种用于联合多对象检测、3D 纹理重建、6D 对象姿态和大小估计的方法。 ShAPO 的关键是一个单次管道,用于回归形状、外观和姿势潜在代码以及每个对象实例的掩码,然后以稀疏到密集的方式进一步细化。首先学习了一种新的解开的先验形状和外观数据库,以将对象嵌入到它们各自的形状和外观空间中。我们还提出了一种新颖的、基于八叉树的可微优化步骤,使我们能够以综合分析的方式在学习的潜在空间下同时进一步改进对象形状、姿势和外观。我们新颖的联合隐式纹理对象表示使我们能够准确地识别和重建新的看不见的对象,而无需访问它们的 3D 网格。通过广泛的实验,我们证明了我们的方法在模拟室内场景上进行训练,能够以最少的微调准确地回归现实世界中新物体的形状、外观和姿势。我们的方法显着优于 NOCS 数据集上的所有基线,6D 姿态估计的 mAP 绝对提高了 8%。
- GAUDI:沉浸式 3D 场景生成的神经架构师 |
[code]
我们介绍了 GAUDI,这是一种生成模型,能够捕捉复杂而逼真的 3D 场景的分布,可以从移动的相机中沉浸式地渲染。我们用一种可扩展但功能强大的方法来解决这个具有挑战性的问题,我们首先优化一个潜在的表示,以解开辐射场和相机姿势。然后使用这种潜在表示来学习生成模型,该模型可以无条件和有条件地生成 3D 场景.我们的模型通过消除相机姿态分布可以跨样本共享的假设来概括以前专注于单个对象的工作。我们展示了 GAUDI 在跨多个数据集的无条件生成设置中获得了最先进的性能,并允许在给定条件变量(如稀疏图像观察或描述场景的文本)的情况下有条件地生成 3D 场景。
- AlignSDF:用于手对象重建的姿势对齐有符号距离场, ECCV2022 |
[code]
最近的工作在从单目彩色图像联合重建手和操纵对象方面取得了令人瞩目的进展。现有方法侧重于参数网格或符号距离场 (SDF) 方面的两种替代表示。一方面,参数模型可以从先验知识中受益,但代价是有限的形状变形和网格分辨率。因此,网格模型可能无法精确重建细节,例如手和物体的接触面。另一方面,基于 SDF 的方法可以表示任意细节,但缺乏明确的先验。在这项工作中,我们的目标是使用参数表示提供的先验改进 SDF 模型。特别是,我们提出了一个联合学习框架,可以解开姿势和形状。我们从参数模型中获取手和物体的姿势,并使用它们在 3D 空间中对齐 SDF。我们表明,这种对齐的 SDF 更好地专注于重建形状细节并提高手和物体的重建精度。我们评估了我们的方法,并在具有挑战性的 ObMan 和 DexYCB 基准上展示了对现有技术的显着改进。
- 拉普拉斯系统的神经格林函数, Computer & Graphics | [code]
求解源自拉普拉斯算子的线性方程组是广泛应用的核心。由于线性系统的稀疏性,当解具有大量自由度时,通常采用迭代求解器,例如共轭梯度和多重网格。这些迭代求解器可以看作是拉普拉斯算子格林函数的稀疏近似。在本文中,我们提出了一种机器学习方法,该方法从边界条件中回归格林函数。这是通过格林函数实现的,该函数可以以多尺度方式有效地表示,从而大大降低了与密集矩阵表示相关的成本。此外,由于格林函数完全依赖于边界条件,因此训练所提出的神经网络不需要对线性系统的右侧进行采样。结果表明,我们的方法优于最先进的共轭梯度和多重网格方法。
- 用笼子变形辐射场, ECCV2022 | [code]
辐射场的最新进展可以实现静态或动态 3D 场景的逼真渲染,但仍不支持用于场景操作或动画的显式变形。在本文中,我们提出了一种新的辐射场变形方法:自由形式的辐射场变形。我们使用一个三角形网格来包围称为笼子的前景对象作为界面,通过操纵笼子顶点,我们的方法可以实现辐射场的自由变形。我们方法的核心是网格变形中常用的基于笼的变形。我们提出了一种将其扩展到辐射场的新公式,该公式将采样点的位置和视图方向从变形空间映射到规范空间,从而实现变形场景的渲染。合成数据集和真实世界数据集的变形结果证明了我们方法的有效性。
- NeuMesh:学习基于解缠结神经网格的隐式场,用于几何和纹理编辑, ECCV2022(oral) | [code]
最近,神经隐式渲染技术得到了迅速发展,并在新颖的视图合成和 3D 场景重建中显示出巨大的优势。然而,现有的用于编辑目的的神经渲染方法提供的功能有限,例如,刚性变换,或者不适用于日常生活中一般对象的细粒度编辑。在本文中,我们提出了一种新颖的基于网格的表示,通过在网格顶点上使用解开几何和纹理代码对神经隐场进行编码,这促进了一组编辑功能,包括网格引导的几何编辑、带有纹理交换的指定纹理编辑、填充和绘画操作。为此,我们开发了几种技术包括可学习的符号指标以放大基于网格的表示的空间可区分性,蒸馏和微调机制以实现稳定收敛,以及空间感知优化策略以实现精确的纹理编辑。对真实数据和合成数据的大量实验和编辑示例证明了我们的方法在表示质量和编辑能力方面的优越性。代码可在项目网页上找到:此 https URL。
- 关于物理概念的可学习性:神经网络能理解什么是真 | [code]
鉴于深度神经网络生成逼真的合成数据的卓越能力,我们重新审视了经典的信号到符号障碍。 DeepFakes 和欺骗突出了物理现实与其抽象表示之间联系的脆弱性,无论是由数字计算机还是生物代理学习。从一个广泛适用的抽象概念定义开始,我们表明标准的前馈架构只能捕获微不足道的概念,无论权重的数量和训练数据的数量如何,尽管它们是非常有效的分类器。另一方面,包含递归的架构可以代表更大的概念类别,但可能仍然无法从有限的数据集中学习它们。我们定性地描述了可以被用随机梯度下降变体训练的现代架构“理解”的概念类别,使用(自由能)拉格朗日来测量信息复杂性。然而,即使一个概念已经被理解,网络也无法将其理解传达给外部代理,除非通过持续的交互和验证。然后,我们将物理对象表征为抽象概念,并使用前面的分析来表明物理对象可以由有限架构编码。然而,为了理解物理概念,传感器必须提供持续令人兴奋的观察,而控制数据采集过程的能力是必不可少的(主动感知)。控制的重要性取决于形式,比听觉或化学感知更有益于视觉。最后,我们得出结论,可以在有限的时间内用有限的资源将物理实体绑定到数字身份,原则上解决了信号到符号的障碍问题,但我们强调了持续验证的必要性。
- Plenoxels:没有神经网络的辐射场, CVPR2022(oral) |
[code]
我们介绍了 Plenoxels(全光体素),一种用于照片级真实视图合成的系统。 Plenoxels 将场景表示为具有球谐函数的稀疏 3D 网格。这种表示可以通过梯度方法和正则化从校准图像中优化,而无需任何神经组件。在标准的基准任务中,Plenoxels 的优化速度比神经辐射场快两个数量级,而视觉质量没有损失。
- 城市辐射场, CVPR2022 | [code]
这项工作的目标是从扫描平台捕获的数据中执行 3D 重建和新颖的视图合成,这些平台通常用于城市户外环境(例如街景)中的世界地图绘制。给定一系列由相机和扫描仪在户外场景中移动获得的 RGB 图像序列和激光雷达扫描,我们生成了一个模型,可以从中提取 3D 表面并合成新的 RGB 图像。我们的方法扩展了神经辐射场,该方法已被证明可以在受控环境中为小场景合成逼真的新颖图像,以及利用异步捕获的激光雷达数据、解决捕获图像之间的曝光变化以及利用预测的图像分割来监督密度的新方法在指向天空的光线上。这三个扩展中的每一个都在街景数据的实验中提供了显着的性能改进。与传统方法(例如
COLMAP)和最近的神经表示(例如Mip-NeRF)相比,我们的系统产生最先进的 3D 表面重建并合成更高质量的新视图。 - NeRF:将场景表示为用于视图合成的神经辐射场, ECCV2020 |
[code]
我们提出了一种方法,该方法通过使用稀疏输入视图集优化底层连续体积场景函数,实现了合成复杂场景的新视图的最新结果。我们的算法使用全连接(非卷积)深度网络表示场景,其输入是单个连续 5D 坐标(空间位置(x,y,z)和观察方向(θ,φ)),其输出是该空间位置的体积密度和与视图相关的发射辐射。我们通过沿相机光线查询 5D 坐标来合成视图,并使用经典的体渲染技术将输出颜色和密度投影到图像中。因为体积渲染是自然可微的,所以优化我们的表示所需的唯一输入是一组具有已知相机姿势的图像。我们描述了如何有效地优化神经辐射场以渲染具有复杂几何形状和外观的场景的逼真的新颖视图,并展示了优于先前在神经渲染和视图合成方面的工作的结果。查看合成结果最好以视频形式观看,因此我们敦促读者观看我们的补充视频以进行令人信服的比较。
- 神经稀疏体素场, NeurIPS2020 |
[code]
我们介绍了神经稀疏体素场 (NSVF),这是一种用于快速和高质量自由视点渲染的新神经场景表示。 NSVF 定义了一组以稀疏体素八叉树组织的体素有界隐式字段,以对每个单元中的局部属性进行建模。 我们仅从一组姿势的 RGB 图像中通过可区分的光线行进操作逐步学习底层体素结构。 使用稀疏体素八叉树结构,可以通过跳过不包含相关场景内容的体素来加速渲染新颖的视图。 我们的方法在推理时比最先进的方法(即 NeRF (Mildenhall et al., 2020))快 10 倍以上,同时获得更高质量的结果。 此外,通过利用显式稀疏体素表示,我们的方法可以很容易地应用于场景编辑和场景合成。 我们还展示了几个具有挑战性的任务,包括多场景学习、移动人体的自由视点渲染和大规模场景渲染。
- AutoInt:快速神经体积渲染的自动集成, CVPR2021 |
[code]
数值积分是科学计算的基础技术,是许多计算机视觉应用的核心。在这些应用中,隐式神经体绘制最近被提出作为视图合成的新范式,实现逼真的图像质量。然而,使这些方法实用的一个基本障碍是在训练和推理期间沿渲染光线所需的体积积分导致的极端计算和内存要求。需要数百万条光线,每条光线都需要数百次通过神经网络的前向传播,才能通过蒙特卡罗采样来近似这些集成。在这里,我们提出了自动积分,这是一种使用隐式神经表示网络来学习有效的、封闭形式的积分解决方案的新框架。对于训练,我们实例化对应于隐式神经表示的导数的计算图。该图适合要积分的信号。优化后,我们重新组装图以获得代表反导数的网络。根据微积分的基本定理,这可以在网络的两次评估中计算任何定积分。使用这种方法,我们展示了超过 10 倍的计算要求改进,从而实现了快速的神经体绘制。
- DeRF:分解的辐射场 | [code]
随着神经辐射场 (NeRF) 的出现,神经网络现在可以渲染 3D 场景的新颖视图,其质量足以愚弄人眼。然而,生成这些图像的计算量非常大,限制了它们在实际场景中的适用性。在本文中,我们提出了一种基于空间分解的技术,能够缓解这个问题。我们的主要观察结果是,使用更大(更深和/或更宽)的网络会带来收益递减。因此,我们建议对场景进行空间分解,并为每个分解部分分配更小的网络。当一起工作时,这些网络可以渲染整个场景。这使我们无论分解部分的数量如何,都能获得近乎恒定的推理时间。此外,我们表明,Voronoi 空间分解更适合此目的,因为它可证明与 Painter 算法兼容,可实现高效且 GPU 友好的渲染。我们的实验表明,对于现实世界的场景,我们的方法提供的推理效率比 NeRF 高出 3 倍(具有相同的渲染质量),或者 PSNR 提高了 1.0~dB(对于相同的推理成本)。
- DONeRF:使用 Depth Oracle Networks 实现紧凑神经辐射场的实时渲染, CGF2021 |
[code]
最近围绕神经辐射场 (NeRFs) 的研究爆炸表明,在神经网络中隐式存储场景和照明信息具有巨大的潜力,例如,用于生成新的视图。然而,阻止 NeRF 广泛使用的一个主要限制是沿每个视图射线进行过多网络评估的计算成本过高,当针对当前设备上的实时渲染时需要数十 petaFLOPS。我们表明,当将局部样本放置在场景中的表面周围时,可以显着减少每个视图光线所需的样本数量。为此,我们提出了一个深度预言网络,它通过单个网络评估来预测每个视图光线的光线样本位置。我们表明,使用围绕对数离散和球面扭曲深度值的分类网络对于编码表面位置而不是直接估计深度至关重要。这些技术的结合产生了 DONeRF,这是一种双网络设计,第一步是深度预言网络,以及用于光线累积的局部采样着色网络。通过我们的设计,与 NeRF 相比,我们将推理成本降低了 48 倍。使用现成的推理 API 与简单的计算内核相结合,我们率先在单个 GPU 上以交互式帧速率(每秒 15 帧,800x800)渲染基于光线追踪的神经表示。同时,由于我们专注于表面周围场景的重要部分,与 NeRF 相比,我们获得了相同或更好的质量。
- FastNeRF:200FPS 的高保真神经渲染, ICCV2021 | [code]
最近关于神经辐射场 (NeRF) 的工作展示了如何使用神经网络对复杂的 3D 环境进行编码,这些环境可以从新颖的视角进行逼真的渲染。渲染这些图像对计算的要求非常高,最近的改进距离实现交互速率还有很长的路要走,即使在高端硬件上也是如此。受移动和混合现实设备场景的启发,我们提出了 FastNeRF,这是第一个基于 NeRF 的系统,能够在高端消费 GPU 上以 200Hz 渲染高保真逼真图像。我们方法的核心是受图形启发的分解,它允许 (i) 在空间中的每个位置紧凑地缓存深度辐射图,(ii) 使用光线方向有效地查询该图以估计渲染图像中的像素值。大量实验表明,所提出的方法比原始的 NeRF 算法快 3000 倍,并且比现有的加速 NeRF 的工作至少快一个数量级,同时保持视觉质量和可扩展性。
- KiloNeRF:使用数千个微型 MLP 加速神经辐射场, ICCV2021 |
[code]
NeRF 通过将神经辐射场拟合到 RGB 图像,以前所未有的质量合成场景的新视图。然而,NeRF 需要数百万次查询深度多层感知器 (MLP),导致渲染时间变慢,即使在现代 GPU 上也是如此。在本文中,我们证明了通过使用数千个微型 MLP 而不是一个大型 MLP,实时渲染是可能的。在我们的设置中,每个单独的 MLP 只需要表示场景的一部分,因此可以使用更小、更快评估的 MLP。通过将这种分而治之的策略与进一步的优化相结合,与原始 NeRF 模型相比,渲染速度提高了三个数量级,而不会产生高昂的存储成本。此外,使用师生蒸馏进行培训,我们表明可以在不牺牲视觉质量的情况下实现这种加速。
- 用于实时渲染神经辐射场的 PlenOctrees, ICCV2021(oral) |
[code]
实时性能是通过将 NeRF 预先制成基于八叉树的辐射场(我们称为 PlenOctrees)来实现的。为了保留与视图相关的效果,例如镜面反射,我们建议通过封闭形式的球面基函数对外观进行编码。具体来说,我们表明可以训练 NeRFs 来预测辐射的球谐表示,将观察方向作为神经网络的输入。此外,我们表明我们的 PlenOctrees 可以直接优化以进一步最小化重建损失,这导致与竞争方法相同或更好的质量。我们进一步表明,这个八叉树优化步骤可用于加快训练时间,因为我们不再需要等待 NeRF 训练完全收敛。我们的实时神经渲染方法可能会支持新的应用,例如 6 自由度工业和产品可视化,以及下一代 AR/VR 系统。
- 用于高效神经渲染的体积基元混合, SIGGRAPH2021 | [code]
人类的实时渲染和动画是游戏、电影和远程呈现应用中的核心功能。现有方法有许多我们的工作旨在解决的缺点。三角形网格难以建模像头发这样的细结构,像神经体积这样的体积表示在合理的内存预算下分辨率太低,而像神经辐射场这样的高分辨率隐式表示在实时应用中使用太慢。我们提出了体积基元混合(MVP),一种用于渲染动态 3D 内容的表示,它结合了体积表示的完整性和基于基元的渲染的效率,例如,基于点或基于网格的方法。我们的方法通过利用具有反卷积架构的空间共享计算以及通过使用可以移动以仅覆盖被占用区域的体积基元来最小化空间空白区域中的计算来实现这一点。我们的参数化支持对应和跟踪约束的集成,同时对经典跟踪失败的区域具有鲁棒性,例如薄或半透明结构周围以及具有大拓扑可变性的区域。 MVP 是一种混合体,它概括了基于体积和基元的表示。通过一系列广泛的实验,我们证明它继承了每种方法的优点,同时避免了它们的许多局限性。我们还将我们的方法与几种最先进的方法进行比较,并证明 MVP 在质量和运行时性能方面产生了卓越的结果。
- 光场网络:具有单次评估渲染的神经场景表示, NeurIPS2021(spotlight) |
[code]
从 2D 观察推断 3D 场景的表示是计算机图形学、计算机视觉和人工智能的基本问题。新兴的 3D 结构神经场景表示是一种有前途的 3D 场景理解方法。在这项工作中,我们提出了一种新的神经场景表示,光场网络或 LFN,它通过神经隐式表示在 360 度、四维光场中表示底层 3D 场景的几何形状和外观。渲染来自 LFN 的光线只需要单个网络评估,而 3D 结构化神经场景表示中的光线行进或基于体积的渲染器每条光线需要数百次评估。在简单场景的设置中,我们利用元学习来学习 LFN 的先验,从而能够从单个图像观察中进行多视图一致的光场重建。这导致时间和内存复杂性的显着降低,并实现了实时渲染。通过 LFN 存储 360 度光场的成本比 Lumigraph 等传统方法低两个数量级。利用神经隐式表示的分析可微性和光空间的新参数化,我们进一步证明了从 LFN 中提取稀疏深度图。
- 深度监督的 NeRF:更少的视图和更快的免费训练, CVPR2022 |
[code]
当输入视图数量不足时,通常观察到的神经辐射场 (NeRF) 故障模式会拟合不正确的几何形状。一个潜在的原因是标准体积渲染不会强制执行大多数场景几何体由空白空间和不透明表面组成的约束。我们通过 DS-NeRF(深度监督神经辐射场)将上述假设形式化,这是一种利用现成的深度监督学习辐射场的损失。我们利用当前的 NeRF 管道需要具有已知相机姿势的图像这一事实,这些图像通常通过运行从运动结构 (SFM) 来估计。至关重要的是,SFM 还产生稀疏 3D 点,可在训练期间用作“免费”深度监督:我们添加损失以鼓励光线的终止深度分布匹配给定的 3D 关键点,并结合深度不确定性。 DS-NeRF 可以在训练视图更少的情况下渲染更好的图像,同时训练速度提高 2-3 倍。此外,我们表明我们的损失与最近提出的其他 NeRF 方法兼容,证明深度是一种廉价且易于消化的监督信号。最后,我们发现 DS-NeRF 可以支持其他类型的深度监督,例如扫描深度传感器和 RGB-D 重建输出。
- 直接体素网格优化:辐射场重建的超快速收敛, CVPR2022(oral) |
[code]
我们提出了一种超快速收敛方法,用于从一组捕获具有已知姿势的场景的图像中重建每个场景的辐射场。这项任务通常应用于新颖的视图合成,最近因其最先进的质量和灵活性而被神经辐射场 (NeRF) 彻底改变。然而,对于单个场景,NeRF 及其变体需要很长的训练时间,从数小时到数天不等。相比之下,我们的方法实现了与 NeRF 相当的质量,并在不到 15 分钟的时间内使用单个 GPU 从头开始快速收敛。我们采用由用于场景几何的密度体素网格和具有浅层网络的特征体素网格组成的表示,用于复杂的依赖于视图的外观。使用显式和离散化的体积表示进行建模并不新鲜,但我们提出了两种简单但非平凡的技术,有助于快速收敛和高质量输出。首先,我们介绍了体素密度的激活后插值,它能够以较低的网格分辨率产生锐利的表面。其次,直接体素密度优化容易出现次优几何解决方案,因此我们通过强加几个先验来加强优化过程。最后,对五个内向基准的评估表明,我们的方法与 NeRF 的质量相匹配,甚至超过,但从头开始训练新场景只需要大约 15 分钟。
- 野外的 NeRF:无约束照片集的神经辐射场, CVPR2021 | [code]
我们提出了一种基于学习的方法,用于仅使用野外照片的非结构化集合来合成复杂场景的新视图。我们建立在神经辐射场 (NeRF) 的基础上,它使用多层感知器的权重将场景的密度和颜色建模为 3D 坐标的函数。虽然 NeRF 在受控设置下捕获的静态对象的图像上效果很好,但它无法在不受控的图像中模拟许多普遍存在的真实世界现象,例如可变照明或瞬态遮挡物。我们为 NeRF 引入了一系列扩展来解决这些问题,从而能够从互联网上获取的非结构化图像集合中进行准确的重建。我们将我们的系统(称为 NeRF-W)应用于著名地标的互联网照片集,并展示时间一致的新颖视图渲染,这些渲染比现有技术更接近真实感。
- Ha-NeRF:野外的幻觉神经辐射场, CVPR2022 |
[code]
神经辐射场 (NeRF) 最近因其令人印象深刻的新颖视图合成能力而广受欢迎。本文研究了幻觉 NeRF 的问题:即在一天中的不同时间从一组旅游图像中恢复一个真实的 NeRF。现有的解决方案采用具有可控外观嵌入的 NeRF 在各种条件下渲染新颖的视图,但它们无法渲染具有看不见的外观的视图一致图像。为了解决这个问题,我们提出了一个用于构建幻觉 NeRF 的端到端框架,称为 Ha-NeRF。具体来说,我们提出了一个外观幻觉模块来处理随时间变化的外观并将它们转移到新的视图中。考虑到旅游图像的复杂遮挡,我们引入了一个反遮挡模块来准确地分解静态主体以获得可见性。合成数据和真实旅游照片集的实验结果表明,我们的方法可以产生幻觉,并从不同的视图呈现无遮挡的图像。
- Nerfies:可变形的神经辐射场, ICCV2021 | [code]
我们提出了第一种能够使用从手机随便捕获的照片/视频来逼真地重建可变形场景的方法。我们的方法通过优化一个额外的连续体积变形场来增强神经辐射场 (NeRF),该场将每个观察点扭曲成一个规范的 5D NeRF。我们观察到这些类似 NeRF 的变形场容易出现局部最小值,并为基于坐标的模型提出了一种从粗到细的优化方法,可以实现更稳健的优化。通过将几何处理和物理模拟的原理应用于类似 NeRF 的模型,我们提出了变形场的弹性正则化,进一步提高了鲁棒性。我们表明,我们的方法可以将随意捕获的自拍照片/视频转换为可变形的 NeRF 模型,允许从任意视角对主体进行逼真的渲染,我们称之为“nerfies”。我们通过使用带有两部手机的装备收集时间同步数据来评估我们的方法,从而在不同视点产生相同姿势的训练/验证图像。我们表明,我们的方法忠实地重建了非刚性变形的场景,并以高保真度再现了看不见的视图。
- D-NeRF:动态场景的神经辐射场, CVPR2021 |
[code]
将机器学习与几何推理相结合的神经渲染技术已成为从一组稀疏图像中合成场景新视图的最有前途的方法之一。其中,神经辐射场 (NeRF) 尤为突出,它训练深度网络将 5D 输入坐标(表示空间位置和观察方向)映射为体积密度和与视图相关的发射辐射。然而,尽管在生成的图像上实现了前所未有的真实感水平,但 NeRF 仅适用于静态场景,其中可以从不同的图像中查询相同的空间位置。在本文中,我们介绍了 D-NeRF,这是一种将神经辐射场扩展到动态域的方法,允许在场景中移动的 \emph{single} 相机的刚性和非刚性运动下重建和渲染物体的新图像。为此,我们将时间视为系统的附加输入,并将学习过程分为两个主要阶段:一个将场景编码为规范空间,另一个将这个规范表示映射到特定时间的变形场景。两种映射都是使用全连接网络同时学习的。一旦网络经过训练,D-NeRF 就可以渲染新颖的图像,同时控制相机视图和时间变量,从而控制对象的移动。我们展示了我们的方法在物体处于刚性、关节和非刚性运动的场景中的有效性。代码、模型权重和动态场景数据集将发布。
- 用于单目 4D 面部头像重建的动态神经辐射场, CVPR2021 |
[code]
我们提出了用于模拟人脸外观和动态的动态神经辐射场。对说话的人进行数字建模和重建是各种应用程序的关键组成部分。特别是对于 AR 或 VR 中的远程呈现应用,需要忠实再现外观,包括新颖的视点或头部姿势。与显式建模几何和材料属性或纯粹基于图像的最先进方法相比,我们引入了基于场景表示网络的头部隐式表示。为了处理面部的动态,我们将场景表示网络与低维可变形模型相结合,该模型提供对姿势和表情的显式控制。我们使用体积渲染从这种混合表示中生成图像,并证明这种动态神经场景表示只能从单目输入数据中学习,而不需要专门的捕获设置。在我们的实验中,我们表明这种学习的体积表示允许生成照片般逼真的图像,其质量超过了基于视频的最先进的重演方法的质量。
- 非刚性神经辐射场:单目视频变形场景的重建和新视图合成,, ICCV2021 |
[code]
我们提出了非刚性神经辐射场 (NR-NeRF),这是一种用于一般非刚性动态场景的重建和新颖的视图合成方法。我们的方法将动态场景的 RGB 图像作为输入(例如,来自单目视频记录),并创建高质量的时空几何和外观表示。我们表明,单个手持消费级相机足以从新颖的虚拟相机视图合成动态场景的复杂渲染,例如一个“子弹时间”的视频效果。 NR-NeRF 将动态场景分解为规范体积及其变形。场景变形被实现为光线弯曲,其中直线光线被非刚性变形。我们还提出了一种新的刚性网络来更好地约束场景的刚性区域,从而获得更稳定的结果。射线弯曲和刚性网络在没有明确监督的情况下进行训练。我们的公式可以实现跨视图和时间的密集对应估计,以及引人注目的视频编辑应用程序,例如运动夸张。我们的代码将是开源的。
- PVA:像素对齐的体积化身, CVPR2021 | [code]
逼真的人头的采集和渲染是一个极具挑战性的研究问题,对于虚拟远程呈现特别重要。目前,最高质量是通过在多视图数据上以个人特定方式训练的体积方法实现的。与更简单的基于网格的模型相比,这些模型更好地表示精细结构,例如头发。体积模型通常使用全局代码来表示面部表情,以便它们可以由一小组动画参数驱动。虽然这样的架构实现了令人印象深刻的渲染质量,但它们不能轻易地扩展到多身份设置。在本文中,我们设计了一种新颖的方法,用于在仅给定少量输入的情况下预测人头的体积化身。我们通过一种新颖的参数化实现跨身份的泛化,该参数化将神经辐射场与直接从输入中提取的局部像素对齐特征相结合,从而避免了对非常深或复杂网络的需求。我们的方法仅基于光度重新渲染损失以端到端的方式进行训练,无需明确的 3D 监督。我们证明我们的方法在质量方面优于现有的现有技术,并且能够生成忠实的面部表情多身份设置。
- 神经关节辐射场, ICCV2021 |
[code]
我们提出了神经关节辐射场 (NARF),这是一种新颖的可变形 3D 表示,用于从图像中学习到的关节对象。虽然 3D 隐式表示的最新进展使得学习复杂对象的模型成为可能,但学习关节对象的姿势可控表示仍然是一个挑战,因为当前的方法需要 3D 形状监督并且无法呈现外观。在制定 3D 关节对象的隐式表示时,我们的方法在求解每个 3D 位置的辐射场时仅考虑最相关对象部分的刚性变换。通过这种方式,所提出的方法可以表示与姿势相关的变化,而不会显着增加计算复杂度。 NARF 是完全可微的,可以从带有姿势注释的图像中训练出来。此外,通过使用自动编码器,它可以学习对象类的多个实例的外观变化。实验表明,所提出的方法是有效的,并且可以很好地推广到新的姿势。
- CLA-NeRF:类别级关节神经辐射场, ICRA2022 | [code]
我们提出了 CLA-NeRF——一种类别级的关节神经辐射场,可以执行视图合成、部分分割和关节姿态估计。 CLA-NeRF 在对象类别级别进行训练,不使用 CAD 模型和深度,而是使用一组具有地面实况相机姿势和部分片段的 RGB 图像。在推理过程中,只需对已知类别中未见过的 3D 对象实例进行少量 RGB 视图(即少镜头)即可推断对象部分分割和神经辐射场。给定一个关节姿态作为输入,CLA-NeRF 可以执行关节感知体积渲染,以在任何相机姿态下生成相应的 RGB 图像。此外,可以通过逆向渲染来估计对象的关节姿势。在我们的实验中,我们对合成数据和真实数据的五个类别的框架进行了评估。在所有情况下,我们的方法都显示了真实的变形结果和准确的关节姿态估计。我们相信,少量的关节对象渲染和关节姿势估计都为机器人感知和与看不见的关节对象交互打开了大门。
- 用于人体建模的动画神经辐射场, ICCV2021 |
[code]
本文解决了从多视图视频中重建可动画人体模型的挑战。最近的一些工作提出将非刚性变形场景分解为规范神经辐射场和一组将观察空间点映射到规范空间的变形场,从而使他们能够从图像中学习动态场景。然而,它们将变形场表示为平移矢量场或 SE(3) 场,这使得优化受到高度约束。此外,这些表示不能由输入运动明确控制。相反,我们引入了神经混合权重场来产生变形场。基于骨架驱动的变形,混合权重场与 3D 人体骨骼一起使用,以生成观察到规范和规范到观察的对应关系。由于 3D 人体骨骼更易观察,它们可以规范变形场的学习。此外,学习到的混合权重场可以与输入的骨骼运动相结合,以生成新的变形场来为人体模型设置动画。实验表明,我们的方法明显优于最近的人类合成方法。该代码将在 https://zju3dv.github.io/animatable_nerf/ 上提供。
- 神经演员:具有姿势控制的人类演员的神经自由视图合成, SIGSIGGRAPH Asia 2021 |
[code]
我们提出了神经演员 (NA),这是一种从任意视角和任意可控姿势下高质量合成人类的新方法。我们的方法建立在最近的神经场景表示和渲染工作之上,这些工作仅从 2D 图像中学习几何和外观的表示。虽然现有作品展示了令人信服的静态场景渲染和动态场景回放,但使用神经隐式方法对人类进行逼真的重建和渲染,特别是在用户控制的新姿势下,仍然很困难。为了解决这个问题,我们利用粗体模型作为代理将周围的 3D 空间展开为规范姿势。神经辐射场从多视图视频输入中学习规范空间中与姿势相关的几何变形以及与姿势和视图相关的外观效果。为了合成高保真动态几何和外观的新视图,我们利用在身体模型上定义的 2D 纹理图作为潜在变量来预测残余变形和动态外观。实验表明,我们的方法在回放和新颖的姿势合成方面取得了比现有技术更好的质量,甚至可以很好地推广到与训练姿势截然不同的新姿势。此外,我们的方法还支持合成结果的体形控制。
- 用于动态场景时空视图合成的神经场景流场, CVPR2021 |
[code]
我们提出了一种方法来执行动态场景的新颖视图和时间合成,只需要具有已知相机姿势的单目视频作为输入。为此,我们引入了神经场景流场,这是一种将动态场景建模为外观、几何和 3D 场景运动的时变连续函数的新表示。我们的表示通过神经网络进行优化,以适应观察到的输入视图。我们表明,我们的表示可用于复杂的动态场景,包括薄结构、视图相关效果和自然运动度。我们进行了许多实验,证明我们的方法明显优于最近的单目视图合成方法,并展示了各种真实世界视频的时空视图合成的定性结果。
- 神经体:具有结构化潜在代码的隐式神经表示,用于动态人类的新视图合成, CVPR2021 |
[code]
本文解决了人类表演者从一组非常稀疏的摄像机视图中合成新颖视图的挑战。最近的一些工作表明,在给定密集输入视图的情况下,学习 3D 场景的隐式神经表示可以实现显着的视图合成质量。但是,如果视图高度稀疏,则表示学习将是不适定的。为了解决这个不适定问题,我们的关键思想是整合对视频帧的观察。为此,我们提出了神经体,这是一种新的人体表示,它假设在不同帧上学习到的神经表示共享同一组锚定到可变形网格的潜在代码,以便可以自然地整合跨帧的观察结果。可变形网格还为网络提供几何指导,以更有效地学习 3D 表示。为了评估我们的方法,我们创建了一个名为 ZJU-MoCap 的多视图数据集,用于捕捉具有复杂动作的表演者。 ZJU-MoCap 的实验表明,我们的方法在新颖的视图合成质量方面大大优于先前的工作。我们还展示了我们的方法从 People-Snapshot 数据集上的单目视频重建移动人物的能力。
- 来自多视图视频的神经 3D 视频合成, CVPR2022(oral) | [code]
我们提出了一种新颖的 3D 视频合成方法,能够以紧凑但富有表现力的表示形式表示动态真实世界场景的多视图视频记录,从而实现高质量的视图合成和运动插值。我们的方法将静态神经辐射场的高质量和紧凑性带到了一个新的方向:无模型的动态设置。我们方法的核心是一种新颖的时间条件神经辐射场,它使用一组紧凑的潜在代码来表示场景动态。为了利用视频相邻帧之间的变化通常很小且局部一致的事实,我们提出了两种有效训练神经网络的新策略:1)有效的分层训练方案,以及 2)选择根据输入视频的时间变化进行训练的下一条光线。结合起来,这两种策略显着提高了训练速度,导致训练过程快速收敛,并获得高质量的结果。我们学习的表示非常紧凑,能够表示由 18 个摄像机录制的 10 秒 30 FPS 多视图视频,模型大小仅为 28MB。我们证明了我们的方法可以以超过 1K 的分辨率渲染高保真广角新颖视图,即使对于高度复杂和动态的场景也是如此。我们进行了广泛的定性和定量评估,表明我们的方法优于当前的技术水平。项目网站:https://neural-3d-video.github.io。
- 动态单目视频的动态视图合成, ICCV2021 |
[code]
我们提出了一种算法,用于在给定动态场景的单目视频的任意视点和任何输入时间步长处生成新视图。我们的工作建立在神经隐式表示的最新进展的基础上,并使用连续和可微的函数来建模时变结构和场景的外观。我们联合训练一个时不变的静态 NeRF 和一个时变的动态 NeRF,并学习如何以无监督的方式混合结果。然而,从单个视频中学习这个隐式函数是非常不适定的(与输入视频匹配的解决方案有无限多)。为了解决歧义,我们引入了正则化损失以鼓励更合理的解决方案。我们展示了从随意捕获的视频中进行动态视图合成的广泛定量和定性结果。
- GRAF:用于 3D 感知图像合成的生成辐射场, NeurIPS2020 |
[code]
虽然 2D 生成对抗网络已经实现了高分辨率图像合成,但它们在很大程度上缺乏对 3D 世界和图像形成过程的理解。因此,它们不提供对相机视点或物体姿势的精确控制。为了解决这个问题,最近的几种方法将基于中间体素的表示与可微渲染相结合。然而,现有方法要么产生低图像分辨率,要么在解开相机和场景属性方面存在不足,例如,对象身份可能随视点而变化。在本文中,我们提出了一种辐射场的生成模型,该模型最近被证明在单个场景的新颖视图合成方面是成功的。与基于体素的表示相比,辐射场并不局限于 3D 空间的粗略离散化,还允许解开相机和场景属性,同时在存在重建模糊性的情况下优雅地退化。通过引入基于多尺度补丁的鉴别器,我们展示了高分辨率图像的合成,同时仅从未定位的 2D 图像训练我们的模型。我们系统地分析了我们在几个具有挑战性的合成和现实世界数据集上的方法。我们的实验表明,辐射场是生成图像合成的强大表示,可生成以高保真度渲染的 3D 一致模型。
- GRF:学习用于 3D 场景表示和渲染的一般辐射场, ICCV2021(oral) |
[code]
我们提出了一个简单而强大的神经网络,它仅从 2D 观察中隐式表示和渲染 3D 对象和场景。该网络将 3D 几何建模为一般辐射场,它以一组具有相机位姿和内在函数的 2D 图像作为输入,为 3D 空间的每个点构建内部表示,然后渲染该点的相应外观和几何观察从任意位置。我们方法的关键是学习 2D 图像中每个像素的局部特征,然后将这些特征投影到 3D 点,从而产生一般和丰富的点表示。我们还集成了一种注意力机制来聚合来自多个 2D 视图的像素特征,从而隐式考虑视觉遮挡。大量实验表明,我们的方法可以为新物体、看不见的类别和具有挑战性的现实世界场景生成高质量和逼真的新视图。
- pixelNeRF:来自一个或几个图像的神经辐射场, CVPR2021 |
[code]
我们提出了 pixelNeRF,这是一种学习框架,可以预测以一个或几个输入图像为条件的连续神经场景表示。构建神经辐射场的现有方法涉及独立优化每个场景的表示,需要许多校准视图和大量计算时间。我们通过引入一种以完全卷积方式在图像输入上调节 NeRF 的架构,朝着解决这些缺点迈出了一步。这允许网络在多个场景中进行训练,以先学习一个场景,使其能够从一组稀疏的视图(少至一个)以前馈方式执行新颖的视图合成。利用 NeRF 的体积渲染方法,我们的模型可以直接从图像中训练,无需明确的 3D 监督。我们在 ShapeNet 基准上进行了广泛的实验,用于具有保留对象以及整个未见类别的单图像新颖视图合成任务。我们通过在多对象 ShapeNet 场景和来自 DTU 数据集的真实场景上展示 pixelNeRF 的灵活性,进一步展示了它的灵活性。在所有情况下,对于新颖的视图合成和单图像 3D 重建,pixelNeRF 都优于当前最先进的基线。有关视频和代码,请访问项目网站:此 https 网址
- 用于优化基于坐标的神经表示的学习初始化, CVPR2021 |
[code]
基于坐标的神经表示已显示出作为复杂低维信号的离散、基于数组的表示的替代方案的重要前景。然而,从每个新信号的随机初始化权重优化基于坐标的网络是低效的。我们建议应用标准的元学习算法来学习这些全连接网络的初始权重参数,这些参数基于所表示的底层信号类别(例如,面部图像或椅子的 3D 模型)。尽管只需要在实现中进行微小的更改,但使用这些学习到的初始权重可以在优化过程中实现更快的收敛,并且可以作为所建模信号类的强先验,从而在只有给定信号的部分观察可用时产生更好的泛化。我们在各种任务中探索这些好处,包括表示 2D 图像、重建 CT 扫描以及从 2D 图像观察中恢复 3D 形状和场景。
- pi-GAN:用于 3D 感知图像合成的周期性隐式生成对抗网络, CVPR2021(oral) |
[code]
我们见证了 3D 感知图像合成的快速进展,利用了生成视觉模型和神经渲染的最新进展。然而,现有方法在两个方面存在不足:首先,它们可能缺乏底层 3D 表示或依赖于视图不一致的渲染,因此合成的图像不是多视图一致的;其次,它们通常依赖于表达能力不足的表示网络架构,因此它们的结果缺乏图像质量。我们提出了一种新颖的生成模型,称为周期性隐式生成对抗网络(π-GAN 或 pi-GAN),用于高质量的 3D 感知图像合成。 π-GAN 利用具有周期性激活函数和体积渲染的神经表示将场景表示为具有精细细节的视图一致的 3D 表示。所提出的方法获得了具有多个真实和合成数据集的 3D 感知图像合成的最新结果。
- 单张图像的人像神经辐射场 | [code]
我们提出了一种从单个爆头肖像估计神经辐射场 (NeRF) 的方法。虽然 NeRF 已经展示了高质量的视图合成,但它需要静态场景的多个图像,因此对于随意捕捉和移动主体是不切实际的。在这项工作中,我们建议使用使用灯光舞台肖像数据集的元学习框架来预训练多层感知器 (MLP) 的权重,该多层感知器隐含地对体积密度和颜色进行建模。为了提高对看不见的人脸的泛化能力,我们在由 3D 人脸可变形模型近似的规范坐标空间中训练 MLP。我们使用受控捕获对方法进行定量评估,并展示了对真实肖像图像的泛化性,显示出对最先进技术的有利结果。
- ShaRF:单一视图的形状条件辐射场, ICML2021 |
[code]
我们提出了一种方法,用于估计仅给定单个图像的对象的神经场景表示。我们方法的核心是估计物体的几何支架,并将其用作重建底层辐射场的指导。我们的公式基于一个生成过程,该过程首先将潜在代码映射到体素化形状,然后将其渲染为图像,对象外观由第二个潜在代码控制。在推理过程中,我们优化了潜在代码和网络以适应新对象的测试图像。形状和外观的明确解开允许我们的模型在给定单个图像的情况下进行微调。然后,我们可以以几何一致的方式渲染新视图,它们忠实地表示输入对象。此外,我们的方法能够推广到训练域之外的图像(更逼真的渲染甚至真实照片)。最后,推断的几何支架本身就是对物体 3D 形状的准确估计。我们在几个实验中证明了我们的方法在合成图像和真实图像中的有效性。
- IBRNet:学习基于图像的多视图渲染, CVPR2021 |
[code]
我们提出了一种通过插入一组稀疏的附近视图来合成复杂场景的新视图的方法。我们方法的核心是一个网络架构,其中包括一个多层感知器和一个光线转换器,用于估计连续 5D 位置(3D 空间位置和 2D 观察方向)的辐射和体积密度,从多个源视图动态绘制外观信息。通过在渲染时绘制源视图,我们的方法回归了基于图像的渲染 (IBR) 的经典工作,并允许我们渲染高分辨率图像。与优化每个场景函数以进行渲染的神经场景表示工作不同,我们学习了一种通用视图插值函数,该函数可以推广到新场景。我们使用经典的体渲染来渲染图像,这是完全可微的,并且允许我们仅使用多视图姿势图像作为监督进行训练。实验表明,我们的方法优于最近的新视图合成方法,这些方法也试图推广到新场景。此外,如果在每个场景上进行微调,我们的方法与最先进的单场景神经渲染方法具有竞争力。项目页面:此 https 网址
- CAMPARI:相机感知分解生成神经辐射场 | [code]
深度生成模型的巨大进步导致了逼真的图像合成。在取得令人信服的结果的同时,大多数方法都在二维图像域中运行,而忽略了我们世界的三维性质。因此,最近的几项工作提出了具有 3D 感知能力的生成模型,即场景以 3D 建模,然后可微分地渲染到图像平面。这导致了令人印象深刻的 3D 一致性,但纳入这种偏差是有代价的:相机也需要建模。当前的方法假定固定的内在函数和预先定义的相机姿势范围。因此,实际数据通常需要参数调整,如果数据分布不匹配,结果会下降。我们的关键假设是,与图像生成器一起学习相机生成器会导致更原则性的 3D 感知图像合成方法。此外,我们建议将场景分解为背景和前景模型,从而实现更有效和更清晰的场景表示。在从原始的、未定型的图像集合中进行训练时,我们学习了一个 3D 和相机感知的生成模型,它不仅忠实地恢复了图像,而且还忠实地恢复了相机数据分布。在测试时,我们的模型生成的图像可以显式控制相机以及场景的形状和外观。
- NeRF-VAE:几何感知 3D 场景生成模型 | [code]
我们提出了 NeRF-VAE,这是一种 3D 场景生成模型,它通过 NeRF 和可微体渲染结合了几何结构。与 NeRF 相比,我们的模型考虑了跨场景的共享结构,并且能够使用摊销推理推断新场景的结构——无需重新训练。 NeRF-VAE 的显式 3D 渲染过程进一步将先前的生成模型与缺乏几何结构的基于卷积的渲染进行对比。我们的模型是一个 VAE,它通过在潜在场景表示上调节辐射场来学习辐射场的分布。我们表明,经过训练,NeRF-VAE 能够使用很少的输入图像从以前看不见的 3D 环境中推断和渲染几何一致的场景。我们进一步证明了 NeRF-VAE 可以很好地推广到分布式相机,而卷积模型则不能。最后,我们介绍并研究了 NeRF-VAE 解码器的一种基于注意力的调节机制,该机制提高了模型性能。
- 具有局部条件辐射场的无约束场景生成, ICCV2021 |
[code]
我们遵循对抗性学习框架,其中生成器通过其辐射场对场景进行建模,鉴别器尝试区分从这些辐射场渲染的图像和真实场景的图像。从概念上讲,我们的模型将场景的辐射场分解为许多小的局部辐射场,这些辐射场是由二维潜在代码 W 网格上的条件产生的。W 可以解释为表示场景的潜在平面图。
- MVSNeRF:从多视图立体快速概括辐射场重建, ICCV2021 |
[code]
我们提出了 MVSNeRF,一种新颖的神经渲染方法,可以有效地重建神经辐射场以进行视图合成。与先前的神经辐射场工作考虑对密集捕获的图像进行逐场景优化不同,我们提出了一个通用的深度神经网络,它可以通过快速网络推理仅从三个附近的输入视图重建辐射场。我们的方法利用平面扫描成本体积(广泛用于多视图立体)进行几何感知场景推理,并将其与基于物理的体积渲染相结合用于神经辐射场重建。我们在 DTU 数据集中的真实对象上训练我们的网络,并在三个不同的数据集上对其进行测试,以评估其有效性和普遍性。我们的方法可以跨场景(甚至是室内场景,与我们的对象训练场景完全不同)进行泛化,并仅使用三个输入图像生成逼真的视图合成结果,显着优于可泛化辐射场重建的并行工作。此外,如果捕捉到密集的图像,我们估计的辐射场表示可以很容易地进行微调;与 NeRF 相比,这导致具有更高渲染质量和更短优化时间的快速每场景重建。
- 立体辐射场 (SRF):从新场景的稀疏视图中学习视图合成, CVPR2021 |
[code]
最近的神经视图合成方法取得了令人印象深刻的质量和真实性,超越了依赖多视图重建的经典管道。最先进的方法,例如 NeRF,旨在使用神经网络学习单个场景,并且需要密集的多视图输入。在新场景上进行测试需要从头开始重新训练,这需要 2-3 天。在这项工作中,我们介绍了立体辐射场 (SRF),这是一种端到端训练的神经视图合成方法,可以推广到新场景,并且在测试时只需要稀疏视图。核心思想是一种受经典多视图立体方法启发的神经架构,它通过在立体图像中找到相似的图像区域来估计表面点。在 SRF 中,我们预测每个 3D 点的颜色和密度,给定输入图像中立体对应的编码。编码是通过成对相似性的集合隐式学习的——模拟经典立体声。实验表明,SRF 在场景上学习结构而不是过度拟合。我们在 DTU 数据集的多个场景上进行训练,并在不重新训练的情况下推广到新场景,只需要 10 个稀疏和展开的视图作为输入。我们展示了 10-15 分钟的微调进一步改善了结果,与特定场景的模型相比,获得了更清晰、更详细的结果。代码、模型和视频可在此 https 网址上找到。
- 用于遮挡感知的基于图像的渲染的神经射线, CVPR2022 |
[code]
我们提出了一种新的神经表示,称为神经射线 (NeuRay),用于新的视图合成任务。最近的工作从输入视图的图像特征构建辐射场以渲染新颖的视图图像,从而能够泛化到新场景。但是,由于遮挡,3D 点可能对某些输入视图不可见。在这样的 3D 点上,这些泛化方法将包括来自不可见视图的不一致图像特征,这会干扰辐射场的构建。为了解决这个问题,我们在 NeuRay 表示中预测 3D 点对输入视图的可见性。这种可见性使辐射场构建能够专注于可见图像特征,从而显着提高其渲染质量。同时,提出了一种新颖的一致性损失,以在对特定场景进行微调时改进 NeuRay 中的可见性。实验表明,我们的方法在推广到看不见的场景时在新颖的视图合成任务上实现了最先进的性能,并且在微调后优于每个场景的优化方法。
- 节食 NeRF:语义一致的 Few-Shot 视图合成, ICCV2021 |
[code]
我们提出了 DietNeRF,一种从几张图像估计的 3D 神经场景表示。神经辐射场 (NeRF) 通过多视图一致性学习场景的连续体积表示,并且可以通过光线投射从新颖的视点进行渲染。虽然 NeRF 在给定许多图像的情况下具有令人印象深刻的重建几何和精细细节的能力,对于具有挑战性的 360° 场景最多可重建 100 个,但当只有少数输入视图可用时,它通常会为其图像重建目标找到退化的解决方案。为了提高few-shot质量,我们提出了DietNeRF。我们引入了一种辅助语义一致性损失,它鼓励以新颖的姿势进行逼真的渲染。 DietNeRF 在单个场景上进行训练,以 (1) 从相同的姿势正确渲染给定的输入视图,以及 (2) 在不同的随机姿势中匹配高级语义属性。我们的语义损失使我们能够从任意姿势监督 DietNeRF。我们使用预训练的视觉编码器提取这些语义,例如 CLIP,这是一种视觉转换器,通过自然语言监督从网络挖掘出的数亿张不同的单视图 2D 照片进行训练。在实验中,DietNeRF 在从头开始学习时提高了少镜头视图合成的感知质量,在多视图数据集上进行预训练时,可以用少至一张观察到的图像渲染新视图,并生成完全未观察到的区域的合理完成。
- 使用 NeRF 实现新视图合成的连续深度 MPI, ICCV2021 |
[code]
在本文中,我们建议 MINE 通过从单个图像进行密集 3D 重建来执行新颖的视图合成和深度估计。我们的方法是通过引入神经辐射场 (NeRF) 对多平面图像 (MPI) 进行连续深度泛化。给定单个图像作为输入,MINE 预测任意深度值的 4 通道图像(RGB 和体积密度)以联合重建相机平截头体并填充被遮挡的内容。然后可以使用可微分渲染轻松地将重建和修复的截锥体渲染为新颖的 RGB 或深度视图。在 RealEstate10K、KITTI 和 Flowers Light Fields 上进行的大量实验表明,我们的 MINE 在新颖的视图合成中大大优于最先进的技术。我们还在 iBims-1 和 NYU-v2 的深度估计方面取得了具有竞争力的结果,而无需注释深度监督。我们的源代码可在此 https 网址获得
- TöRF:动态场景视图合成的飞行时间辐射场, NeurIPS2021 |
[code]
神经网络可以表示和准确重建静态 3D 场景(例如 NeRF)的辐射场。一些作品将这些扩展到用单目视频捕获的动态场景,并具有可观的性能。然而,众所周知,单眼设置是一个约束不足的问题,因此方法依赖于数据驱动的先验来重建动态内容。我们用飞行时间 (ToF) 相机的测量值替换这些先验,并引入基于连续波 ToF 相机图像形成模型的神经表示。我们不使用处理过的深度图,而是对原始 ToF 传感器测量进行建模,以提高重建质量并避免低反射率区域、多路径干扰和传感器有限的明确深度范围等问题。我们展示了这种方法提高了动态场景重建对错误校准和大运动的鲁棒性,并讨论了集成现代智能手机上现在可用的 RGB+ToF 传感器的好处和局限性。
- CodeNeRF:对象类别的解开神经辐射场, ICCV2021(oral) |
[code]
CodeNeRF 是一种隐式 3D 神经表示,它学习对象形状和纹理在一个类别中的变化,并且可以从一组姿势图像中进行训练,以合成看不见的对象的新视图。与特定场景的原始 NeRF 不同,CodeNeRF 通过学习单独的嵌入来学习解开形状和纹理。在测试时,给定一个看不见的物体的单个未定位图像,CodeNeRF 通过优化联合估计相机视点、形状和外观代码。看不见的物体可以从单个图像中重建,然后从新的视点渲染,或者通过改变潜在代码编辑它们的形状和纹理。我们在 SRN 基准上进行了实验,结果表明 CodeNeRF 可以很好地泛化到看不见的对象,并且在测试时需要已知相机姿态的方法达到同等性能。我们在真实世界图像上的结果表明,CodeNeRF 可以弥合模拟到真实的差距。
- StyleNeRF:用于高分辨率图像合成的基于样式的 3D 感知生成器, ICLR2022 |
[code]
我们提出了 StyleNeRF,这是一种 3D 感知生成模型,用于具有高多视图一致性的逼真的高分辨率图像合成,可以在非结构化 2D 图像上进行训练。现有方法要么无法合成具有精细细节的高分辨率图像,要么产生明显的 3D 不一致伪影。此外,他们中的许多人缺乏对风格属性和明确的 3D 相机姿势的控制。 StyleNeRF 将神经辐射场 (NeRF) 集成到基于样式的生成器中,以应对上述挑战,即提高渲染效率和 3D 一致性以生成高分辨率图像。我们执行体积渲染只是为了生成一个低分辨率的特征图,并在 2D 中逐步应用上采样来解决第一个问题。为了减轻 2D 上采样引起的不一致性,我们提出了多种设计,包括更好的上采样器和新的正则化损失。通过这些设计,StyleNeRF 可以以交互速率合成高分辨率图像,同时保持高质量的 3D 一致性。 StyleNeRF 还可以控制相机姿势和不同级别的样式,可以推广到看不见的视图。它还支持具有挑战性的任务,包括放大和缩小、样式混合、反转和语义编辑。
- 黑暗中的 NeRF:来自嘈杂原始图像的高动态范围视图合成, CVPR2022(oral) |
[code]
神经辐射场 (NeRF) 是一种从姿势输入图像的集合中合成高质量新颖视图的技术。与大多数视图合成方法一样,NeRF 使用色调映射低动态范围(LDR)作为输入;这些图像已由有损相机管道处理,该管道可以平滑细节、剪辑高光并扭曲原始传感器数据的简单噪声分布。我们将 NeRF 修改为直接在线性原始图像上进行训练,保留场景的完整动态范围。通过从生成的 NeRF 渲染原始输出图像,我们可以执行新颖的高动态范围 (HDR) 视图合成任务。除了改变相机视角之外,我们还可以在事后操纵焦点、曝光和色调映射。尽管单个原始图像看起来比后处理的图像噪声大得多,但我们表明 NeRF 对原始噪声的零均值分布具有高度鲁棒性。当针对许多嘈杂的原始输入 (25-200) 进行优化时,NeRF 生成的场景表示非常准确,以至于其渲染的新颖视图优于在相同宽基线输入图像上运行的专用单图像和多图像深度原始降噪器。因此,我们的方法(我们称为 RawNeRF)可以从在近黑暗中捕获的极其嘈杂的图像中重建场景。
- iNeRF:用于姿势估计的反转神经辐射场, IROS2021 |
[code]
我们提出了 iNeRF,这是一个通过“反转”经过训练的神经辐射场 (NeRF) 来执行姿态估计的框架。 NeRF 已被证明对视图合成任务非常有效——合成真实世界场景或对象的逼真的新视图。在这项工作中,我们研究是否可以使用 NeRF 进行综合分析来进行 6DoF 姿势估计——给定图像,找到相机相对于 3D 模型的平移和旋转。从初始姿态估计开始,我们使用梯度下降来最小化从已经训练的 NeRF 渲染的像素和观察图像中的像素之间的残差。在我们的实验中,我们首先研究 1)如何在 iNeRF 的姿势细化过程中对光线进行采样以收集信息梯度,以及 2)不同批次大小的光线如何影响合成数据集上的 iNeRF。然后,我们展示了对于来自 LLFF 数据集的复杂现实世界场景,iNeRF 可以通过估计新图像的相机位姿并将这些图像用作 NeRF 的额外训练数据来改进 NeRF。最后,我们展示了 iNeRF 可以与基于特征的姿势初始化相结合。该方法优于所有其他依赖 LineMOD 上的合成数据的基于 RGB 的方法。
- A-NeRF:通过神经渲染进行无表面人体 3D 姿势细化, NeurIPS2021 |
[code]
虽然深度学习使用前馈网络重塑了经典的运动捕捉管道,但需要生成模型通过迭代细化来恢复精细对齐。不幸的是,现有模型通常是在受控条件下手工制作或学习的,仅适用于有限的领域。我们提出了一种通过扩展神经辐射场 (NeRFs) 从未标记的单目视频中学习生成神经体模型的方法。我们为它们配备了骨架,以适用于时变和关节运动。一个关键的见解是,隐式模型需要与显式曲面模型中使用的正向运动学相反。我们的重新参数化定义了相对于身体部位姿势的空间潜在变量,从而克服了过度参数化的不适定逆运算。这使得从头开始学习体积身体形状和外观,同时共同改进关节姿势;输入视频上的所有外观、姿势或 3D 形状都没有地面实况标签。当用于新视图合成和动作捕捉时,我们的神经模型提高了不同数据集的准确性。项目网站:此 https 网址。
- NeRF--:没有已知相机参数的神经辐射场 |
[code]
考虑到仅来自一组 2D 图像的新视图合成 (NVS) 问题,我们通过消除已知或预先计算的相机参数的要求,简化了前向场景中神经辐射场 (NeRF) 的训练过程,包括内在函数和 6DoF 姿势。为此,我们提出了 NeRF−−,具有三个贡献:首先,我们表明相机参数可以通过光度重建作为可学习参数与 NeRF 训练联合优化;其次,为了对相机参数估计和新颖视图渲染的质量进行基准测试,我们引入了一个新的路径跟踪合成场景数据集,称为 Blender Forward-Facing Dataset (BLEFF);第三,我们进行了广泛的分析以了解各种相机运动下的训练行为,并表明在大多数情况下,联合优化管道可以恢复准确的相机参数并实现与使用 COLMAP 预计算相机参数训练的方法相当的新视图合成质量。
- 实时隐式映射和定位, ICCV2021 | [code]
我们首次展示了多层感知器 (MLP) 可以作为手持 RGB-D 相机的实时 SLAM 系统中唯一的场景表示。我们的网络在没有先验数据的情况下进行实时操作训练,构建了一个密集的、特定于场景的隐式 3D 占用率和颜色模型,该模型也可立即用于跟踪。
- 用于 SLAM 的 NICE-SLAM 神经隐式可扩展编码, CVPR2022 |
[code]
神经隐式表示最近在各个领域都显示出令人鼓舞的结果,包括在同时定位和映射 (SLAM) 方面取得的可喜进展。然而,现有方法会产生过度平滑的场景重建,并且难以扩展到大场景。这些限制主要是由于它们简单的全连接网络架构没有在观察中包含本地信息。在本文中,我们提出了 NICE-SLAM,这是一种密集的 SLAM 系统,它通过引入分层场景表示来结合多级局部信息。使用预先训练的几何先验优化这种表示可以在大型室内场景中进行详细的重建。与最近的神经隐式 SLAM 系统相比,我们的方法更具可扩展性、高效性和鲁棒性。在五个具有挑战性的数据集上的实验证明了 NICE-SLAM 在映射和跟踪质量方面的竞争结果。
- GNeRF:基于 GAN 的无姿势相机的神经辐射场, ICCV2021(oral) | [code]
我们介绍了 GNeRF,这是一个将生成对抗网络 (GAN) 与神经辐射场 (NeRF) 重建相结合的框架,用于具有未知甚至随机初始化相机姿势的复杂场景。最近基于 NeRF 的进展因显着的逼真的新视图合成而受到欢迎。然而,它们中的大多数严重依赖于准确的相机位姿估计,而最近的一些方法只能在相机轨迹相对较短的大致前向场景中优化未知相机位姿,并且需要粗略的相机位姿初始化。不同的是,我们的 GNeRF 仅将随机初始化的姿势用于复杂的由外而内的场景。我们提出了一种新颖的两阶段端到端框架。第一阶段将 GAN 的使用带入新领域,以联合优化粗略的相机姿势和辐射场,而第二阶段通过额外的光度损失对它们进行细化。我们使用混合迭代优化方案克服了局部最小值。对各种合成和自然场景的广泛实验证明了 GNeRF 的有效性。更令人印象深刻的是,我们的方法在那些以前被认为极具挑战性的重复模式甚至低纹理的场景中优于基线。
- BARF:捆绑调整神经辐射场, ICCV2021(oral) |
[code]
神经辐射场 (NeRF) 最近在计算机视觉界引起了极大的兴趣,因为它具有合成真实世界场景的逼真的新颖视图的能力。然而,NeRF 的一个限制是它需要准确的相机姿势来学习场景表示。在本文中,我们提出了 Bundle-Adjusting Neural Radiance Fields (BARF),用于从不完美(甚至未知)的相机姿势训练 NeRF——学习神经 3D 表示和注册相机帧的联合问题。我们建立了与经典图像对齐的理论联系,并表明从粗到细的配准也适用于 NeRF。此外,我们表明,在 NeRF 中天真地应用位置编码会对基于合成的目标的注册产生负面影响。合成数据和真实世界数据的实验表明,BARF 可以有效地优化神经场景表示并同时解决大的相机位姿错位问题。这使得来自未知相机位姿的视频序列的视图合成和定位成为可能,为视觉定位系统(例如 SLAM)和密集 3D 映射和重建的潜在应用开辟了新途径。
- 自校准神经辐射场, ICCV2021 |
[code]
在这项工作中,我们提出了一种用于具有任意非线性失真的通用相机的相机自校准算法。我们共同学习场景的几何形状和准确的相机参数,无需任何校准对象。我们的相机模型包括针孔模型、径向失真和可以学习任意非线性相机失真的通用噪声模型。虽然传统的自校准算法主要依赖于几何约束,但我们还结合了光度一致性。这需要学习场景的几何形状,我们使用神经辐射场 (NeRF)。我们还提出了一种新的几何损失函数,即投影射线距离损失,以结合复杂非线性相机模型的几何一致性。我们在标准真实图像数据集上验证了我们的方法,并证明我们的模型可以从头开始学习相机的内在和外在(姿势),而无需 COLMAP 初始化。此外,我们表明,以可微分的方式学习准确的相机模型可以让我们在 NeRF 上提高 PSNR。我们通过实验证明我们提出的方法适用于 NeRF 的变体。此外,我们使用一组用鱼眼镜头拍摄的图像来证明学习相机模型与 COLMAP 初始化相比,共同提高了性能。
- NeRD:来自图像集合的神经反射分解, ICCV2021 |
[code]
将场景分解为其形状、反射率和照明度是计算机视觉和图形学中一个具有挑战性但重要的问题。当照明不是实验室条件下的单一光源而是不受约束的环境照明时,这个问题本质上更具挑战性。尽管最近的工作表明可以使用隐式表示来模拟物体的辐射场,但这些技术中的大多数只能实现视图合成而不是重新照明。此外,评估这些辐射场是资源和时间密集型的。我们提出了一种神经反射分解 (NeRD) 技术,该技术使用基于物理的渲染将场景分解为空间变化的 BRDF 材料属性。与现有技术相比,我们的输入图像可以在不同的照明条件下捕获。此外,我们还提出了将学习到的反射体积转换为可重新照明的纹理网格的技术,从而能够使用新颖的照明进行快速实时渲染。我们通过在合成数据集和真实数据集上的实验证明了所提出方法的潜力,我们能够从图像集合中获得高质量的可重新点亮的 3D 资产。
- NeRV:用于重新照明和视图合成的神经反射率和可见性场, CVPR2021 | [code]
我们提出了一种方法,该方法将由不受约束的已知照明照明的场景的一组图像作为输入,并生成可以在任意照明条件下从新视点渲染的 3D 表示作为输出。我们的方法将场景表示为参数化为 MLP 的连续体积函数,其输入是 3D 位置,其输出是该输入位置的以下场景属性:体积密度、表面法线、材料参数、到任何方向上第一个表面交点的距离,以及任何方向的外部环境的可见性。总之,这些允许我们在任意照明下渲染物体的新视图,包括间接照明效果。预测的能见度和表面相交场对于我们的模型在训练期间模拟直接和间接照明的能力至关重要,因为先前工作使用的蛮力技术对于具有单灯的受控设置之外的照明条件是难以处理的。我们的方法在恢复可重新照明的 3D 场景表示方面优于替代方法,并且在对先前工作构成重大挑战的复杂照明设置中表现良好。
- NeX:具有神经基础扩展的实时视图合成, CVPR2021(oral) |
[code]
我们提出了 NeX,这是一种基于多平面图像 (MPI) 增强的新型视图合成的新方法,可以实时再现 NeXt 级别的视图相关效果。与使用一组简单 RGBα 平面的传统 MPI 不同,我们的技术通过将每个像素参数化为从神经网络学习的基函数的线性组合来模拟视图相关的效果。此外,我们提出了一种混合隐式-显式建模策略,该策略改进了精细细节并产生了最先进的结果。我们的方法在基准前向数据集以及我们新引入的数据集上进行了评估,该数据集旨在测试与视图相关的建模的极限,具有明显更具挑战性的效果,例如 CD 上的彩虹反射。我们的方法在这些数据集的所有主要指标上都取得了最好的总体得分,渲染时间比现有技术快 1000 倍以上。
- NeRFactor:未知光照下形状和反射率的神经分解, TOG 2021 (Proc. SIGGRAPH Asia) | [code]
我们解决了从由一种未知光照条件照射的物体的多视图图像(及其相机姿势)中恢复物体的形状和空间变化反射率的问题。这使得能够在任意环境照明下渲染对象的新颖视图并编辑对象的材质属性。我们方法的关键,我们称之为神经辐射分解(NeRFactor),是提取神经辐射场(NeRF)的体积几何[Mildenhall et al。 2020] 将对象表示为表面表示,然后在解决空间变化的反射率和环境照明的同时联合细化几何。具体来说,NeRFactor 在没有任何监督的情况下恢复表面法线、光能见度、反照率和双向反射分布函数 (BRDF) 的 3D 神经场,仅使用重新渲染损失、简单的平滑先验和从真实数据中学习的数据驱动的 BRDF 先验-世界BRDF测量。通过显式建模光可见性,NeRFactor 能够从反照率中分离出阴影,并在任意光照条件下合成逼真的软阴影或硬阴影。 NeRFactor 能够恢复令人信服的 3D 模型,用于在合成场景和真实场景的这种具有挑战性且约束不足的捕获设置中进行自由视点重新照明。定性和定量实验表明,NeRFactor 在各种任务中都优于经典和基于深度学习的最新技术。我们的视频、代码和数据可在 people.csail.mit.edu/xiuming/projects/nerfactor/ 上找到。
- NeRF++:分析和改进神经辐射场 |
[code]
神经辐射场 (NeRF) 为各种捕捉设置实现了令人印象深刻的视图合成结果,包括有界场景的 360 度捕捉以及有界和无界场景的前向捕捉。 NeRF 将表示视图不变不透明度和视图相关颜色体积的多层感知器 (MLP) 拟合到一组训练图像,并基于体积渲染技术对新视图进行采样。在这份技术报告中,我们首先评论了辐射场及其潜在的模糊性,即形状-辐射模糊度,并分析了 NeRF 在避免这种模糊性方面的成功。其次,我们解决了将 NeRF 应用于大规模、无界 3D 场景中对象的 360 度捕获所涉及的参数化问题。我们的方法在这种具有挑战性的场景中提高了视图合成保真度。此 https 网址提供了代码。
- GIRAFFE:将场景表示为合成生成神经特征场, CVPR2021(oral) |
[code]
深度生成模型允许以高分辨率进行逼真的图像合成。但对于许多应用程序来说,这还不够:内容创建还需要可控。虽然最近的几项工作研究了如何解开数据变化的潜在因素,但它们中的大多数都在 2D 中运行,因此忽略了我们的世界是 3D 的。此外,只有少数作品考虑场景的构图性质。我们的关键假设是,将合成 3D 场景表示合并到生成模型中会导致更可控的图像合成。将场景表示为合成生成神经特征场使我们能够从背景中解开一个或多个对象以及单个对象的形状和外观,同时从非结构化和未定型的图像集合中学习,而无需任何额外的监督。将这种场景表示与神经渲染管道相结合,可以生成快速且逼真的图像合成模型。正如我们的实验所证明的那样,我们的模型能够解开单个对象,并允许在场景中平移和旋转它们以及改变相机姿势。
- 以对象为中心的神经场景渲染 |
[code]
我们提出了一种从捕获的对象图像中合成逼真场景的方法。我们的工作建立在神经辐射场 (NeRFs) 之上,它隐含地模拟了场景的体积密度和定向发射的辐射。虽然 NeRF 可以合成逼真的图片,但它们只对静态场景进行建模,并且与特定的成像条件密切相关。这个属性使得 NeRFs 难以泛化到新场景,包括新的光照或对象的新排列。我们建议学习以对象为中心的神经散射函数 (OSF),而不是像 NeRF 那样学习场景辐射场,这是一种使用与光照和视图相关的神经网络隐式模拟每个对象的光传输的表示。即使物体或灯光移动,这也可以渲染场景,而无需重新训练。结合体积路径跟踪程序,我们的框架能够渲染对象内和对象间的光传输效果,包括遮挡、镜面反射、阴影和间接照明。我们评估了我们的场景合成方法,并表明它可以推广到新的照明条件,产生逼真的、物理上精确的多对象场景渲染。
- 学习动态人头的组成辐射场, CVPR2021(oral) | [code]
动态人体的逼真渲染是远程呈现系统、虚拟购物、合成数据生成等的重要能力。最近,结合计算机图形学和机器学习技术的神经渲染方法已经创建了人类和物体的高保真模型。其中一些方法不会为可驱动的人体模型(神经体积)产生足够高保真度的结果,而其他方法则具有极长的渲染时间(NeRF)。我们提出了一种新颖的组合 3D 表示,它结合了以前最好的方法来产生更高分辨率和更快的结果。我们的表示通过将粗略的 3D 结构感知动画代码网格与连续学习的场景函数相结合,弥合了离散和连续体积表示之间的差距,该函数将每个位置及其相应的局部动画代码映射到其与视图相关的发射辐射和局部体积密度。可微分体渲染用于计算人头和上身的照片般逼真的新颖视图,并仅使用 2D 监督来端到端训练我们的新颖表示。此外,我们表明,学习到的动态辐射场可用于基于全局动画代码合成新的看不见的表情。我们的方法在合成动态人头和上半身的新视图方面取得了最先进的结果。
- 动态场景的神经场景图, CVPR2021(oral) |
[code]
最近的隐式神经渲染方法表明,可以通过仅由一组 RGB 图像监督的预测其体积密度和颜色来学习复杂场景的准确视图合成。然而,现有方法仅限于学习将所有场景对象编码为单个神经网络的静态场景的有效表示,并且缺乏将动态场景表示和分解为单个场景对象的能力。在这项工作中,我们提出了第一个将动态场景分解为场景图的神经渲染方法。我们提出了一种学习的场景图表示,它对对象变换和辐射进行编码,以有效地渲染场景的新颖排列和视图。为此,我们学习隐式编码的场景,并结合联合学习的潜在表示来描述具有单个隐式函数的对象。我们在合成和真实汽车数据上评估所提出的方法,验证我们的方法学习动态场景 - 仅通过观察该场景的视频 - 并允许渲染具有看不见的对象集的新颖场景组合的新颖照片般逼真的视图看不见的姿势。
- 物体辐射场的无监督发现, ICLR2022 | [code]
我们研究从单个图像推断以对象为中心的场景表示的问题,旨在推导出解释图像形成过程的表示,捕捉场景的 3D 性质,并且在没有监督的情况下学习。由于将复杂的 3D 到 2D 图像形成过程集成到强大的推理方案(如深度网络)中存在根本性挑战,大多数现有的场景分解方法都缺乏这些特征中的一个或多个。在本文中,我们提出了对象辐射场 (uORF) 的无监督发现,将神经 3D 场景表示和渲染的最新进展与深度推理网络相结合,用于无监督 3D 场景分解。在没有注释的多视图 RGB 图像上进行训练,uORF 学习从单个图像分解具有不同纹理背景的复杂场景。我们展示了 uORF 在无监督 3D 场景分割、新视图合成和三个数据集上的场景编辑方面表现良好。
- 学习用于可编辑场景渲染的对象组合神经辐射场, ICCV2021 |
[code]
隐式神经渲染技术已经显示出用于新视图合成的有希望的结果。然而,现有方法通常将整个场景编码为一个整体,这通常不知道对象身份,并且限制了移动或添加家具等高级编辑任务的能力。在本文中,我们提出了一种新颖的神经场景渲染系统,该系统学习对象组成的神经辐射场,并为集群和真实世界场景生成具有编辑能力的逼真渲染。具体来说,我们设计了一种新颖的双路径架构,其中场景分支对场景几何和外观进行编码,对象分支根据可学习的对象激活码对每个独立对象进行编码。为了在严重混乱的场景中进行训练,我们提出了一种场景引导的训练策略来解决遮挡区域中的 3D 空间模糊性并学习每个对象的清晰边界。大量实验表明,我们的系统不仅在静态场景新视图合成方面取得了有竞争力的性能,而且为对象级编辑产生了逼真的渲染。
- 使用隐式场景表示进行就地场景标记和理解, ICCV2021(oral) |
[code]
语义标签与几何和辐射重建高度相关,因为具有相似形状和外观的场景实体更有可能来自相似的类别。最近的隐式神经重建技术很有吸引力,因为它们不需要事先的训练数据,但同样的完全自我监督的方法对于语义来说是不可能的,因为标签是人类定义的属性。
- 编辑条件辐射场, ICCV2021 |
[code]
神经辐射场 (NeRF) 是支持高质量视图合成的场景模型,针对每个场景进行了优化。在本文中,我们探索启用用户编辑类别级 NeRF - 也称为条件辐射场 - 在形状类别上训练。具体来说,我们介绍了一种将粗略的 2D 用户涂鸦传播到 3D 空间的方法,以修改局部区域的颜色或形状。首先,我们提出了一个条件辐射场,它结合了新的模块化网络组件,包括一个跨对象实例共享的形状分支。观察同一类别的多个实例,我们的模型在没有任何监督的情况下学习底层部分语义,从而允许将粗略的 2D 用户涂鸦传播到整个 3D 区域(例如,椅子座位)。接下来,我们提出了一种针对特定网络组件的混合网络更新策略,该策略平衡了效率和准确性。在用户交互过程中,我们制定了一个既满足用户约束又保留原始对象结构的优化问题。我们在三个形状数据集上展示了我们在各种编辑任务上的方法,并表明它优于以前的神经编辑方法。最后,我们编辑真实照片的外观和形状,并显示编辑传播到外推的新视图。
- 使用分层神经表示的可编辑自由视点视频, SIGGRAPH2021 |
[code]
生成自由视点视频对于沉浸式 VR/AR 体验至关重要,但最近的神经学进展仍然缺乏编辑能力来操纵大型动态场景的视觉感知。为了填补这一空白,在本文中,我们提出了第一种仅使用稀疏的 16 个摄像头为大规模动态场景生成可编辑照片般逼真的自由视点视频的方法。我们方法的核心是一种新的分层神经表示,其中包括环境本身的每个动态实体都被制定为称为 ST-NeRF 的时空相干神经分层辐射表示。这种分层表示支持对动态场景的完全感知和真实操作,同时仍支持大范围的自由观看体验。在我们的 ST-NeRF 中,动态实体/层被表示为连续函数,以连续和自监督的方式实现动态实体的位置、变形以及外观的解耦。我们提出了一个场景解析 4D 标签映射跟踪来显式地解开空间信息,以及一个连续变形模块来隐式地解开时间运动。进一步引入了一种对象感知体绘制方案,用于重新组装所有神经层。我们采用了一种新颖的分层损失和运动感知光线采样策略,以实现对具有多个表演者的大型动态场景的有效训练,我们的框架进一步实现了各种编辑功能,即操纵规模和位置,复制或重新定时单个神经层在保持高度真实感的同时创造众多视觉效果。大量实验证明了我们的方法在为动态场景生成高质量、照片般逼真和可编辑的自由视点视频方面的有效性。
- Fig-NeRF:用于 3D 对象类别建模的图地面神经辐射场, 3DV2021 | [code]
我们研究使用神经辐射场 (NeRF) 从输入图像的集合中学习高质量的 3D 对象类别模型。与以前的工作相比,我们能够做到这一点,同时将前景对象与不同的背景分开。我们通过 2 分量 NeRF 模型 FiG-NeRF 实现了这一点,该模型更喜欢将场景解释为几何恒定的背景和代表对象类别的可变形前景。我们表明,这种方法可以仅使用光度监督和随意捕获的对象图像来学习准确的 3D 对象类别模型。此外,我们的两部分分解允许模型执行准确和清晰的模态分割。我们使用合成的、实验室捕获的和野外数据,通过视图合成和图像保真度指标对我们的方法进行定量评估。我们的结果证明了令人信服的 3D 对象类别建模,其性能超过了现有方法的性能。
- NeRF-Tex:神经反射场纹理, EGSR2021 |
[code]
我们研究使用神经场来模拟不同的中尺度结构,例如毛皮、织物和草。我们建议使用由神经反射场 (NeRF-Tex) 表示的多功能体积基元,而不是使用经典的图形基元来建模结构,它联合建模材料的几何形状及其对照明的响应。 NeRF-Tex 原语可以在基础网格上实例化,以使用所需的细观和微尺度外观对其进行“纹理化”。我们根据控制外观的用户定义参数来调节反射率场。因此,单个 NeRF 纹理捕获了反射场的整个空间,而不是一个特定的结构。这增加了可以建模的外观范围,并提供了一种解决重复纹理伪影的解决方案。我们还证明了 NeRF 纹理自然地促进了连续的细节层次渲染。我们的方法将神经网络的多功能性和建模能力与虚拟场景精确建模所需的艺术控制相结合。虽然我们所有的训练数据目前都是合成的,但我们的工作提供了一个方法,可以进一步扩展以从真实图像中提取复杂、难以建模的外观。
- Mip-NeRF:抗锯齿神经辐射场的多尺度表示, ICCV2021(oral) |
[code]
神经辐射场 (NeRF) 使用的渲染过程对每个像素单条射线进行采样,因此在训练或测试图像以不同分辨率观察场景内容时,可能会产生过度模糊或混叠的渲染。对于 NeRF 来说,通过每个像素渲染多条光线来进行超级采样的直接解决方案是不切实际的,因为渲染每条光线需要查询多层感知器数百次。我们的解决方案,我们称之为“mip-NeRF”(à la“mipmap”),扩展了 NeRF 以在连续值的尺度上表示场景。通过有效地渲染抗锯齿圆锥截头体而不是射线,mip-NeRF 减少了令人反感的锯齿伪影并显着提高了 NeRF 表示精细细节的能力,同时也比 NeRF 快 7% 和一半的大小。与 NeRF 相比,mip-NeRF 在使用 NeRF 呈现的数据集上将平均错误率降低了 17%,在我们呈现的该数据集的具有挑战性的多尺度变体上降低了 60%。 mip-NeRF 还能够在我们的多尺度数据集上匹配蛮力超采样 NeRF 的准确性,同时速度提高 22 倍。
- UNISURF:统一神经隐式表面和辐射场以进行多视图重建, ICCV2021(oral) |
[code]
神经隐式 3D 表示已成为从多视图图像重建表面和合成新视图的强大范例。不幸的是,DVR 或 IDR 等现有方法需要精确的每像素对象掩码作为监督。同时,神经辐射场已经彻底改变了新的视图合成。然而,NeRF 的估计体积密度不允许精确的表面重建。我们的主要见解是隐式表面模型和辐射场可以以统一的方式制定,从而使用相同的模型实现表面和体积渲染。这种统一的视角实现了新颖、更有效的采样程序,并能够在没有输入掩码的情况下重建准确的表面。我们在 DTU、BlendedMVS 和合成室内数据集上比较我们的方法。我们的实验表明,我们在重建质量方面优于 NeRF,同时在不需要掩码的情况下与 IDR 相当。
- NeuS:通过体渲染学习神经隐式表面以进行多视图重建, NeurIPS2021 |
[code]
我们提出了一种新的神经表面重建方法,称为 NeuS,用于从 2D 图像输入中重建具有高保真度的对象和场景。现有的神经表面重建方法,如 DVR 和 IDR,需要前景掩码作为监督,容易陷入局部最小值,因此难以重建具有严重自遮挡或薄结构的物体。同时,最近用于新视图合成的神经方法,例如 NeRF 及其变体,使用体积渲染来生成具有优化鲁棒性的神经场景表示,即使对于高度复杂的对象也是如此。然而,从这种学习到的隐式表示中提取高质量的表面是很困难的,因为表示中没有足够的表面约束。在 NeuS 中,我们建议将表面表示为有符号距离函数 (SDF) 的零级集,并开发一种新的体绘制方法来训练神经 SDF 表示。我们观察到传统的体绘制方法会导致表面重建的固有几何误差(即偏差),因此提出了一种新的公式,该公式在一阶近似中没有偏差,从而即使没有掩模监督也能实现更准确的表面重建.在 DTU 数据集和 BlendedMVS 数据集上的实验表明,NeuS 在高质量表面重建方面优于最先进的技术,特别是对于具有复杂结构和自遮挡的物体和场景。
- 神经隐式表面的体积渲染, NeurIPS2021 | [code]
神经体绘制最近变得越来越流行,因为它成功地从一组稀疏的输入图像中合成了场景的新视图。到目前为止,通过神经体绘制技术学习的几何图形是使用通用密度函数建模的。此外,几何本身是使用密度函数的任意水平集提取的,这会导致嘈杂的、通常是低保真度的重建。本文的目标是改进神经体绘制中的几何表示和重建。我们通过将体积密度建模为几何形状的函数来实现这一点。这与之前将几何建模为体积密度函数的工作形成对比。更详细地说,我们将体积密度函数定义为应用于有符号距离函数 (SDF) 表示的拉普拉斯累积分布函数 (CDF)。这种简单的密度表示具有三个好处:(i)它为在神经体绘制过程中学习的几何图形提供了有用的归纳偏差; (ii) 它有助于限制不透明度近似误差,从而实现对视线的准确采样。准确的采样对于提供几何和辐射的精确耦合很重要; (iii) 它允许在体积渲染中对形状和外观进行有效的无监督解开。将这种新的密度表示应用于具有挑战性的场景多视图数据集产生了高质量的几何重建,优于相关的基线。此外,由于两者的分离,可以在场景之间切换形状和外观。
- NerfingMVS:室内多视角立体神经辐射场的引导优化, ICCV2021(oral) |
[code]
在这项工作中,我们提出了一种新的多视图深度估计方法,该方法在最近提出的神经辐射场 (NeRF) 上利用了传统的 SfM 重建和基于学习的先验。与现有的依赖于估计对应的基于神经网络的优化方法不同,我们的方法直接优化隐式体积,消除了在室内场景中匹配像素的挑战性步骤。我们方法的关键是利用基于学习的先验来指导 NeRF 的优化过程。我们的系统首先通过微调其稀疏 SfM 重建来适应目标场景上的单目深度网络。然后,我们证明了 NeRF 的形状-辐射模糊性仍然存在于室内环境中,并建议通过采用适应的深度先验来监控体绘制的采样过程来解决这个问题。最后,通过对渲染图像进行误差计算获得的每像素置信度图可用于进一步提高深度质量。实验表明,我们提出的框架在室内场景中显着优于最先进的方法,在基于对应的优化和基于 NeRF 的优化对适应深度先验的有效性方面提出了令人惊讶的发现。此外,我们表明引导优化方案不会牺牲神经辐射场的原始合成能力,提高了可见视图和新视图的渲染质量。
- 用于视觉运动控制的 3D 神经场景表示, CoRL2021(oral) | [code]
人类对我们周围的 3D 环境有着强烈的直觉理解。我们大脑中的物理心智模型适用于不同材料的物体,使我们能够执行远远超出当前机器人范围的广泛操作任务。在这项工作中,我们希望纯粹从 2D 视觉观察中学习动态 3D 场景的模型。我们的模型结合了神经弧度
- 神经辐射世界中的仅视觉机器人导航 | [code]
神经辐射场 (NeRFs) 最近已成为表示自然、复杂 3D 场景的强大范例。 NeRF 表示神经网络中的连续体积密度和 RGB 值,并通过光线追踪从看不见的相机视点生成照片般逼真的图像。我们提出了一种算法,用于在表示为 NeRF 的 3D 环境中导航机器人,仅使用板载 RGB 相机进行定位。我们假设场景的 NeRF 已经离线预训练,机器人的目标是在 NeRF 中的未占用空间中导航以达到目标姿势。我们引入了一种轨迹优化算法,该算法基于离散时间版本的差分平坦度避免与 NeRF 中的高密度区域发生碰撞,该版本可以约束机器人的完整姿势和控制输入。我们还引入了一种基于优化的过滤方法来估计 NeRF 中机器人的 6DoF 姿势和速度,仅给定一个板载 RGB 相机。我们将轨迹规划器与位姿过滤器结合在一个在线重新规划循环中,以提供基于视觉的机器人导航管道。我们展示了一个四旋翼机器人仅使用 RGB 相机在丛林健身房环境、教堂内部和巨石阵中导航的模拟结果。我们还演示了一个在教堂中导航的全向地面机器人,要求它重新定向以适应狭窄的缝隙。可以在此 https 网址上找到这项工作的视频。