Skip to content

Latest commit

 

History

History
132 lines (131 loc) · 59.6 KB

File metadata and controls

132 lines (131 loc) · 59.6 KB

每周分类神经辐射场 - reconstruction Awesome

按类别筛选:

全部 | 动态 | 编辑 | 快速 | 泛化 | 人体 | 视频 | 光照 | 重建 | 纹理 | 语义 | 姿态-SLAM | 其他

Dec27 - Jan3, 2023

Dec25 - Dec31, 2022

Dec18 - Dec24, 2022

Dec11 - Dec17, 2022

Dec4 - Dec10, 2022

Nov27 - Dec3, 2022

Nov20 - Nov26, 2022

  • ResNeRF:用于室内场景新视图合成的几何引导残余神经辐射场 | [code]

    我们代表 ResNeRF,这是一种用于室内场景新颖视图合成的新颖几何引导两阶段框架。请注意,良好的几何形状将极大地提高新视图合成的性能,并且为了避免几何模糊问题,我们建议基于从场景几何形状估计的基本密度和参数化的残差密度来表征场景的密度分布几何。在第一阶段,我们专注于基于 SDF 表示的几何重建,这将导致场景的良好几何表面和清晰的密度。在第二阶段,残差密度是基于第一阶段学习的SDF来学习的,用于编码更多关于外观的细节。通过这种方式,我们的方法可以更好地学习具有几何先验的密度分布,用于高保真新视图合成,同时保留 3D 结构。在具有许多观察较少和无纹理区域的大型室内场景上进行的实验表明,凭借良好的 3D 表面,我们的方法实现了新视图合成的最先进性能。

  • 恢复神经隐式表面重建的精细细节 | [code]

    最近关于隐式神经表征的工作取得了重大进展。使用体绘制学习隐式神经表面在没有 3D 监督的多视图重建中得到了普及。然而,由于几何和外观表示的潜在模糊性,准确地恢复精细细节仍然具有挑战性。在本文中,我们提出了 D-NeuS,一种能够恢复精细几何细节的基于体积渲染的神经隐式表面重建方法,它通过两个额外的损失函数扩展了 NeuS,旨在提高重建质量。首先,我们鼓励来自 alpha 合成的渲染表面点具有零符号距离值,从而减轻将 SDF 转换为体积渲染密度所产生的几何偏差。其次,我们在表面点上施加多视图特征一致性,这是通过沿射线从采样点插值 SDF 零交叉得出的。广泛的定量和定性结果表明,我们的方法重建了具有细节的高精度表面,并且优于现有技术。

Nov13 - Nov19, 2022

  • Magic3D:高分辨率文本到 3D 内容创建 | [code]

    DreamFusion 最近展示了预训练的文本到图像扩散模型在优化神经辐射场 (NeRF) 方面的实用性,实现了卓越的文本到 3D 合成结果。然而,该方法有两个固有的局限性:(a) NeRF 的优化极其缓慢和 (b) NeRF 上的低分辨率图像空间监督,导致处理时间长的低质量 3D 模型。在本文中,我们通过使用两阶段优化框架来解决这些限制。首先,我们使用低分辨率扩散先验获得粗糙模型,并使用稀疏 3D 哈希网格结构进行加速。使用粗略表示作为初始化,我们进一步优化了带纹理的 3D 网格模型,该模型具有与高分辨率潜在扩散模型交互的高效可微分渲染器。我们的方法被称为 Magic3D,可以在 40 分钟内创建高质量的 3D 网格模型,比 DreamFusion 快 2 倍(据报道平均需要 1.5 小时),同时还实现了更高的分辨率。用户研究表明 61.7% 的评分者更喜欢我们的方法而不是 DreamFusion。连同图像调节生成功能,我们为用户提供了控制 3D 合成的新方法,为各种创意应用开辟了新途径。

  • 用于形状引导生成 3D 形状和纹理的 Latent-NeRF | [code]

    近年来,文本引导图像生成发展迅速,激发了文本引导形状生成方面的重大突破。最近,已经表明,使用分数蒸馏,可以成功地通过文本引导 NeRF 模型生成 3D 对象。我们将分数蒸馏调整为公开可用且计算效率高的潜在扩散模型,该模型将整个扩散过程应用于预训练自动编码器的紧凑潜在空间中。由于 NeRF 在图像空间中运行,因此通过潜在分数蒸馏来引导它们的简单解决方案需要在每个引导步骤中编码到潜在空间。相反,我们建议将 NeRF 带入潜在空间,从而产生 Latent-NeRF。分析我们的 Latent-NeRF,我们表明虽然文本到 3D 模型可以产生令人印象深刻的结果,但它们本质上是不受约束的,并且可能缺乏引导或执行特定 3D 结构的能力。为了协助和指导 3D 生成,我们建议使用 Sketch-Shape 来指导我们的 Latent-NeRF:一种定义所需对象的粗略结构的抽象几何体。然后,我们提出了将这种约束直接集成到 Latent-NeRF 中的方法。这种文本和形状指导的独特组合可以增强对生成过程的控制。我们还表明,潜在分数蒸馏可以成功地直接应用于 3D 网格。这允许在给定的几何体上生成高质量的纹理。我们的实验验证了我们不同形式的指导的力量和使用潜在渲染的效率。可通过此 https 网址实现

Nov6 - Nov12, 2022

  • 用于 3D 场景重建的定向射线距离函数, ECCV2022 | [code]

    我们提出了一种从单个看不见的图像重建全 3D 场景的方法。我们训练了真实的非水密场景扫描数据集。我们的方法使用预测距离函数,因为这些函数在处理复杂拓扑和大空间方面显示出前景。我们确定并分析了预测此类图像条件距离函数的两个关键挑战,这些距离函数阻碍了它们在真实 3D 场景数据上的成功。首先,我们展示了从图像预测传统场景距离需要对大感受野进行推理。其次,我们分析表明,经过训练以预测这些距离函数的网络的最佳输出不符合所有距离函数属性。我们提出了一种替代距离函数,即定向射线距离函数 (DRDF),它可以解决这两个挑战。我们表明,在 Matterport3D、3DFront 和 ScanNet 上从单个图像进行 3D 重建时,经过训练以预测 DRDF 的深度网络在数量和质量上优于所有其他方法。 (项目页面:https://nileshkulkarni.github.io/scene_drdf)

  • 3D常见宠物:现实生活中可变形类别的动态新视角合成 | [code]

    从稀疏视图中获得对象的逼真重建本质上是模棱两可的,只能通过学习合适的重建先验来实现。早期关于稀疏刚性对象重建的工作成功地从大型数据集(如 CO3D)中学习了这样的先验。在本文中,我们将这种方法扩展到动态对象。我们以猫和狗作为代表性示例,并介绍 Common Pets in 3D (CoP3D),这是一组众包视频,展示了大约 4,200 种不同的宠物。 CoP3D 是首批用于“野外”非刚性 3D 重建基准测试的大型数据集之一。我们还提出了 Tracker-NeRF,这是一种从我们的数据集中学习 4D 重建的方法。在测试时,给定一个看不见的物体的少量视频帧,Tracker-NeRF 预测其 3D 点的轨迹并生成新视图、插值视点和时间。 CoP3D 的结果揭示了比现有基线更好的非刚性新视图合成性能。

Oct30 - Nov5, 2022

  • HyperSound:使用超网络生成音频信号的隐式神经表示 | [code]

    隐式神经表征 (INR) 是一个快速发展的研究领域,它提供了表示多媒体信号的替代方法。 INR 最近的应用包括图像超分辨率、高维信号压缩或 3D 渲染。然而,这些解决方案通常侧重于视觉数据,将它们适应音频领域并非易事。此外,它需要为每个数据样本单独训练模型。为了解决这个限制,我们提出了 HyperSound,这是一种利用超网络为训练时看不见的音频信号生成 INR 的元学习方法。我们表明,我们的方法可以重建声波,其质量可与其他最先进的模型相媲美。

  • 使用表面信号参数化学习神经隐式表示 | [code]

    神经隐式表面表示最近已成为显式 3D 对象编码的流行替代方法,例如多边形网格、列表点或体素。虽然重要的工作已经提高了这些表示的几何保真度,但很少有人关注它们的最终外观。传统的显式对象表示通常将 3D 形状数据与辅助表面映射图像数据耦合,例如漫反射颜色纹理和法线贴图中的精细几何细节,通常需要将 3D 表面映射到平面上,即表面参数化;另一方面,由于缺乏可配置的表面参数化,隐式表示不能轻易地进行纹理化。受这种数字内容创作方法的启发,我们设计了一种神经网络架构,该架构隐式编码适合外观数据的底层表面参数化。因此,我们的模型与现有的具有外观数据的基于网格的数字内容保持兼容。受到最近将紧凑网络过度拟合到单个 3D 对象的工作的启发,我们提出了一种新的权重编码神经隐式表示,它扩展了神经隐式表面的能力,以实现纹理映射的各种常见和重要应用。我们的方法优于合理的基线和最先进的替代方法。

  • gCoRF:生成合成辐射场, 3DV2022 | [code]

    对象的 3D 生成模型可通过 3D 控制实现逼真的图像合成。现有方法将场景建模为全局场景表示,忽略了场景的组成方面。除了支持可概括的 3D 推理之外,组合推理还可以支持各种编辑应用程序。在本文中,我们提出了一个组合生成模型,其中对象的每个语义部分都表示为仅从野外 2D 数据中学习的独立 3D 表示。我们从全局生成模型 (GAN) 开始,学习使用 2D 分割掩码的监督将其分解为不同的语义部分。然后,我们学习合成独立采样的部分,以创建连贯的全局场景。不同的部分可以独立采样,同时保持物体的其余部分固定。我们在各种对象和部件上评估我们的方法,并演示编辑应用程序。

Oct23 - Oct29, 2022

Oct16 - Oct22, 2022

  • 神经接触场:使用触觉感应跟踪外部接触 | [code]

    我们提出了神经接触场,一种将神经场和触觉传感结合在一起的方法,以解决跟踪对象与环境之间的外部接触的问题。了解外部接触发生在哪里是迈向可以主动控制它以促进下游操作任务的方法的第一步。用于定位环境接触的先前工作通常假定接触类型(例如点或线),不捕获接触/非接触过渡,并且仅适用于基本几何形状的对象。神经接触场是第一种无需对接触类型做出任何假设即可跟踪任意多模态外部接触的方法。我们的主要见解是估计物体形状潜在空间中任何 3D 点的接触概率,给定基于视觉的触觉输入,该输入感知外部接触引起的局部运动。在实验中,我们发现神经接触场能够定位多个接触块,而无需对接触的几何形状做出任何假设,并在看不见的环境配置中捕获具有看不见的形状的已知类别对象的接触/非接触转换。除了神经接触场之外,我们还发布了模拟外部接触交互的 YCB-Extrinsic-Contact 数据集,以便在该领域进行进一步研究。项目存储库:此 https 网址

  • S3-NeRF:单一视点下阴影和阴影的神经反射场, NeurIPS2022 | [code]

    在本文中,我们解决了多视图场景重建的“双重问题”,其中我们利用在不同点光源下捕获的单视图图像来学习神经场景表示。与只能恢复 2.5D 场景表示(即可见表面的法线/深度图)的现有单视图方法不同,我们的方法学习神经反射场来表示场景的 3D 几何和 BRDF。我们的方法不依赖于多视图照片一致性,而是利用两个信息丰富的单目线索,即阴影和阴影来推断场景几何。对多个具有挑战性的数据集的实验表明,我们的方法能够从单视图图像中恢复场景的 3D 几何图形,包括可见和不可见部分。由于神经反射场表示,我们的方法对深度不连续性具有鲁棒性。它支持新视图合成和重新照明等应用程序。我们的代码和模型可以在这个 https URL 上找到。

Oct9 - Oct15, 2022

  • 重新审视多视图光度立体, WACV2023 | [code]

    多视图光度立体 (MVPS) 是从图像中详细和精确地 3D 采集对象的首选方法。尽管 MVPS 的流行方法可以提供出色的结果,但它们通常执行起来很复杂,并且仅限于各向同性的材料对象。为了解决这些限制,我们提出了一种简单实用的 MVPS 方法,该方法适用于各向同性以及其他对象材料类型,例如各向异性和光泽。本文提出的方法利用深度神经网络中不确定性建模的优势,实现光度立体 (PS) 和多视图立体 (MVS) 网络预测的可靠融合。然而,与最近提出的最先进技术相反,我们引入了神经体积渲染方法,用于可靠地融合 MVS 和 PS 测量。引入神经体绘制的优势在于它有助于对具有不同材料类型的对象进行可靠建模,而现有的 MVS 方法、PS 方法或两者都可能失败。此外,它允许我们处理神经 3D 形状表示,最近在许多几何处理任务中显示出出色的结果。我们建议的新损失函数旨在使用最确定的 MVS 和 PS 网络预测以及加权神经体积渲染成本来拟合隐式神经函数的零水平集。当在几个基准数据集上进行广泛测试时,所提出的方法显示了最先进的结果。

  • MVSPlenOctree:从多视图立体中快速和通用地重建 PlenOctree 中的辐射场, ACMMM2022 | [code]

    我们提出了 MVSPlenOctree,这是一种新方法,可以有效地重建辐射场以进行视图合成。与以前特定场景的辐射场重建方法不同,我们提出了一个通用管道,可以通过从数十个稀疏展开的图像中进行多视图立体 (MVS) 推断来有效地重建 360 度可渲染的辐射场。我们的方法利用基于方差的统计特征进行 MVS 推理,并将其与基于图像的渲染和体积渲染相结合以进行辐射场重建。我们首先训练一个 MVS 机器来推理场景的密度和外观。然后,基于 PlenOctree 的空间层次结构和从粗到细的密集采样机制,我们设计了一种鲁棒高效的 PlenOctree 重建采样策略,可以鲁棒地处理遮挡。一个 360 度可渲染的辐射场可以在 MVS Machine 的 PlenOctree 中以有效的单次前向传递进行重建。我们在真实世界的 DTU、LLFF 数据集和合成数据集上训练了我们的方法。我们通过评估在训练中看不到的 DTU 数据集的测试集来验证其普遍性。总之,我们的辐射场重建方法既高效又通用,可以在几秒钟内重建一个粗略的 360 度可渲染辐射场,在几分钟内重建一个密集的辐射场。更多详情请访问项目页面:https://derry-xing.github.io/projects/MVSPlenOctree。

  • ParseMVS:学习用于稀疏多视图立体视觉的原始感知表面表示, ACMMM2022 | [code]

    多视图立体视觉 (MVS) 通过从密集采样的图像中找到密集的照片一致对应关系来恢复 3D 表面。在本文中,我们从稀疏采样的视图(最多减少一个数量级的图像)解决具有挑战性的 MVS 任务,这在应用程序中更实用且更具成本效益。主要挑战来自严重遮挡和高度倾斜的补丁引入的显着对应模糊性。另一方面,这种模糊性可以通过结合来自全局结构的几何线索来解决。有鉴于此,我们提出 ParseMVS,通过学习 Primitive-A waR e S urface rE 表示来提升稀疏 MVS。特别是,除了了解全局结构之外,我们的新颖表示还允许保留精细细节,包括几何、纹理和可见性。更具体地说,整个场景被解析为多个几何图元。在它们中的每一个上,几何定义为沿基元法线方向的位移,以及沿每个视图方向的纹理和可见性。一个无监督的神经网络被训练来通过逐渐增加所有输入图像之间的照片一致性和渲染一致性来学习这些因素。由于表面属性在每个图元的 2D 空间中局部更改,ParseMVS 可以在优化局部细节的同时保留全局图元结构,处理“不完整”和“不准确”问题。我们通过实验证明,在不同的采样稀疏度下,尤其是在极端稀疏的 MVS 设置下,ParseMVS 在完整性和总体得分方面始终优于最先进的表面重建方法。除此之外,ParseMVS 在压缩、鲁棒性和效率方面也显示出巨大的潜力。

  • 通过相邻几何引导体积完成的自监督多视图立体, ACMMM2022 | [code]

    现有的自我监督多视图立体(MVS)方法在很大程度上依赖于几何推断的光度一致性,因此受到低纹理或非朗伯外观的影响。在本文中,我们观察到相邻几何具有某些共性,可以帮助推断具有挑战性或低置信度区域的正确几何。然而,由于缺乏训练数据和确保视图之间一致性的必要性,在非监督 MVS 方法中利用此类属性仍然具有挑战性。为了解决这些问题,我们提出了一种新颖的几何推理训练方案,通过选择性地掩盖具有丰富纹理的区域,其中几何可以很好地恢复并用于监督信号,然后引导一个精心设计的成本体积完成网络来学习如何恢复几何被屏蔽的区域。在推理过程中,我们然后屏蔽低置信区域,并使用成本体积完成网络进行几何校正。为了处理成本体积金字塔的不同深度假设,我们为完成网络设计了一个三分支体积推理结构。此外,通过将平面视为一种特殊的几何形状,我们首先从伪标签中识别平面区域,然后通过平面法线一致性通过高置信度标签校正低置信度像素。在 DTU 和 Tanks & Temples 上进行的大量实验证明了所提出框架的有效性和最先进的性能。

  • 从单幅图像中进行 3D 人脸绑定的不确定性感知半监督学习, ACMMM2022 | [code]

    我们提出了一种通过动作单元 (AU)、视点和光线方向从单个输入图像中装配 3D 面的方法。现有的人脸合成和动画 3D 方法严重依赖 3D 可变形模型(3DMM),该模型建立在 3D 数据之上,无法提供直观的表情参数,而 AU 驱动的 2D 方法无法处理头部姿势和光照效果。我们通过以半监督方式将最近的 3D 重建方法与 2D AU 驱动方法相结合来弥补差距。建立在自动编码 3D 人脸重建模型的基础上,该模型在没有任何监督的情况下将深度、反照率、视点和光线解耦,我们进一步将表达式与深度和反照率的身份解耦,并使用新的条件特征转换模块和预训练的批评家进行 AU 强度估计和图像分类.新颖的目标函数是使用未标记的野外图像和带有 AU 标签的室内图像设计的。我们还利用不确定性损失将可能变化的图像 AU 区域建模为合成的输入噪声,并对有噪声的 AU 强度标签进行建模以估计 AU 评论家的强度。在四个数据集上进行的人脸编辑和动画实验表明,与六种最先进的方法相比,我们提出的方法在表情一致性、身份相似性和姿势相似性方面具有优越性和有效性。

  • 强化神经辐射场的多尺度表示, BMVC2022 | [code]

    神经辐射场 (NeRF) 最近成为从多视图 (MV) 图像中表示对象的新范例。然而,它无法处理多尺度 (MS) 图像和相机姿态估计错误,这通常是从日常商品相机捕获的多视图图像的情况。虽然最近提出的 Mip-NeRF 可以处理 NeRF 的多尺度成像问题,但它不能处理相机姿态估计误差。另一方面,新提出的 BARF 可以解决 NeRF 的相机位姿问题,但如果图像本质上是多尺度的,则会失败。本文提出了一种强大的多尺度神经辐射场表示方法,以同时克服两个现实世界的成像问题。我们的方法通过利用场景刚性的基本原理,使用受 NeRF 启发的方法来处理多尺度成像效果和相机姿态估计问题。为了减少由于光线空间中的多尺度图像造成的令人不快的混叠伪影,我们利用了 Mip-NeRF 多尺度表示。对于鲁棒相机位姿的联合估计,我们在神经体绘制框架中提出了基于图神经网络的多重运动平均。我们通过示例证明,为了从日常获取的多视图图像中准确地表示对象,拥有精确的相机姿态估计是至关重要的。如果不考虑相机姿态估计中的鲁棒性度量,通过圆锥截头体对多尺度混叠伪影进行建模可能会适得其反。我们在基准数据集上进行了广泛的实验,以证明我们的方法比最近的 NeRF 启发的方法在这种现实设置中提供了更好的结果。

Oct2 - Oct8, 2022

  • XDGAN:2D 空间中的多模态 3D 形状生成 | [code]

    由于二维卷积架构的效率,二维图像的生成模型最近在质量、分辨率和速度方面取得了巨大进步。然而,由于大多数当前的 3D 表示依赖于自定义网络组件,因此很难将此进展扩展到 3D 领域。本文解决了一个核心问题:是否可以直接利用 2D 图像生成模型来生成 3D 形状?为了回答这个问题,我们提出了 XDGAN,这是一种有效且快速的方法,用于将 2D 图像 GAN 架构应用于 3D 对象几何图形的生成,并结合附加的表面属性,如颜色纹理和法线。具体来说,我们提出了一种将 3D 形状转换为紧凑的 1 通道几何图像并利用 StyleGAN3 和图像到图像转换网络在 2D 空间中生成 3D 对象的新方法。生成的几何图像可以快速转换为 3D 网格,实现实时 3D 对象合成、可视化和交互式编辑。此外,使用标准 2D 架构有助于将更多 2D 进步带入 3D 领域。我们定量和定性地表明,我们的方法在各种任务中非常有效,例如 3D 形状生成、单视图重建和形状操作,同时与最近的 3D 生成模型相比明显更快、更灵活。

  • 使用辐射场传播的无监督多视图对象分割, NeurIPS2022 | [code]

    我们提出了辐射场传播 (RFP),这是一种在重建过程中分割 3D 对象的新方法,仅给出场景的未标记多视图图像。 RFP 源自新兴的基于神经辐射场的技术,该技术将语义与外观和几何形状联合编码。我们方法的核心是一种新颖的传播策略,用于具有双向光度损失的单个对象的辐射场,能够将场景无监督地划分为对应于不同对象实例的显着或有意义的区域。为了更好地处理具有多个对象和遮挡的复杂场景,我们进一步提出了一种迭代期望最大化算法来细化对象掩码。据我们所知,RFP 是第一个在没有任何监督、注释或其他线索(如 3D 边界框和对象类别的先验知识)的情况下处理神经辐射场 (NeRF) 的 3D 场景对象分割的无监督方法。实验表明,RFP 实现了可行的分割结果,比以前的无监督图像/场景分割方法更准确,并且可与现有的基于 NeRF 监督的方法相媲美。分段对象表示支持单独的 3D 对象编辑操作。

Sep25 - Oct1, 2022

  • 神经隐式曲面的球面引导训练 | [code]

    近年来,通过神经隐函数进行表面建模已成为多视图 3D 重建的主要技术之一。然而,最先进的方法依赖于隐式函数来模拟整个场景体积,导致在具有薄物体或高频细节的区域中降低重建保真度。为了解决这个问题,我们提出了一种与辅助显式形状表示一起联合训练神经隐式表面的方法,该辅助显式形状表示充当表面引导。在我们的方法中,这种表示封装了场景的表面区域,使我们能够通过仅对该区域的体积进行建模来提高隐式函数训练的效率。我们建议使用一组可学习的球形基元作为可学习的表面指导,因为它们可以使用其梯度与神经表面函数一起有效地训练。我们的训练管道包括使用隐函数的梯度对球体中心的迭代更新,然后将后者微调到场景的更新表面区域。我们表明,对训练过程的这种修改可以插入到几种流行的隐式重建方法中,从而提高多个 3D 重建基准的结果质量。

  • 360FusionNeRF:具有联合引导的全景神经辐射场 | [code]

    我们提出了一种基于神经辐射场 (NeRF) 从单个 360 度全景图像合成新视图的方法。类似设置中的先前研究依赖于多层感知的邻域插值能力来完成由遮挡引起的缺失区域,这导致其预测中的伪影。我们提出了 360FusionNeRF,这是一个半监督学习框架,我们在其中引入几何监督和语义一致性来指导渐进式训练过程。首先,将输入图像重新投影到 360 度图像,并在其他相机位置提取辅助深度图。除了 NeRF 颜色指导之外,深度监督还改进了合成视图的几何形状。此外,我们引入了语义一致性损失,鼓励对新视图进行逼真的渲染。我们使用预训练的视觉编码器(例如 CLIP)提取这些语义特征,CLIP 是一种视觉转换器,通过自然语言监督从网络挖掘出的数亿张不同的 2D 照片进行训练。实验表明,我们提出的方法可以在保留场景特征的同时产生未观察到的区域的合理完成。在跨各种场景进行训练时,360FusionNeRF 在转移到合成 Structured3D 数据集(PSNR5%,SSIM3% LPIPS13%)、真实世界的 Matterport3D 数据集(PSNR3%)时始终保持最先进的性能, SSIM3% LPIPS9%) 和 Replica360 数据集 (PSNR8%, SSIM2% LPIPS~18%)。

  • 自主隐式重建的高效视图路径规划 | [code]

    隐式神经表示已显示出用于 3D 场景重建的巨大潜力。最近的工作通过学习用于视图路径规划的信息增益,将其应用于自主 3D 重建。虽然有效,但信息增益的计算成本很高,并且与使用体积表示的计算相比,使用 3D 点的隐式表示的碰撞检查要慢得多。在本文中,我们建议 1)利用神经网络作为信息增益场的隐式函数逼近器,以及 2)将隐式细粒度表示与粗略的体积表示相结合以提高效率。随着效率的进一步提高,我们提出了一种基于基于图的规划器的新颖的信息路径规划。与具有隐式和显式表示的自主重建相比,我们的方法证明了重建质量和规划效率的显着提高。我们将该方法部署在真实的无人机上,结果表明我们的方法可以规划信息丰富的视图并重建高质量的场景。

Sep18 - Sep24, 2022

  • SG-SRNs:超像素引导的场景表示网络, SignalProcessingLetters | [code]

    最近,场景表示网络(SRNs)由于其连续且轻量级的场景表示能力,在计算机视觉领域引起了越来越多的关注。然而,SRN 通常在低纹理图像区域上表现不佳。为了解决这个问题,我们在本文中提出了超像素引导的场景表示网络,称为 SG-SRN,由主干模块 (SRN)、超像素分割模块和超像素正则化模块组成。在所提出的方法中,除了新颖的视图合成任务外,表示感知的超像素分割掩码生成任务由所提出的超像素分割模块实现。然后,超像素正则化模块利用超像素分割掩码以局部平滑的方式引导要学习的主干,并优化局部区域的场景表示,以自监督的方式间接缓解低纹理区域的结构失真.在我们构建的数据集和公共 Synthetic-NeRF 数据集上的广泛实验结果表明,所提出的 SG-SRN 实现了显着更好的 3D 结构表示性能。

  • 具有通道调谐的面向边缘的隐式神经表示 | [code]

    隐式神经表示,将图像表示为连续函数而不是离散网格形式,广泛用于图像处理。尽管其表现出色,但在恢复给定信号的清晰形状(例如图像边缘)方面仍然存在限制。在本文中,我们提出了梯度幅度调整算法,该算法计算图像的梯度以训练隐式表示。此外,我们提出了面向边缘的表示网络(EoREN),它可以通过拟合梯度信息(面向边缘的模块)来重建具有清晰边缘的图像。此外,我们添加了 Channel-tuning 模块来调整给定信号的分布,从而解决了拟合梯度的长期问题。通过分离两个模块的反向传播路径,EoREN 可以在不妨碍梯度作用的情况下学习图像的真实颜色。我们定性地证明了我们的模型可以重建复杂的信号,并通过定量结果证明了我们模型的一般重建能力。

  • 使用成像声纳的神经隐式表面重建 | [code]

    我们提出了一种使用成像声纳(也称为前视声纳(FLS))对物体进行密集 3D 重建的技术。与以前将场景几何建模为点云或体积网格的方法相比,我们将几何表示为神经隐函数。此外,给定这样的表示,我们使用可微分体积渲染器来模拟声波的传播以合成成像声纳测量。我们在真实和合成数据集上进行实验,并表明我们的算法从多视图 FLS 图像中重建高保真表面几何图形的质量比以前的技术高得多,并且不会受到相关的内存开销的影响。

  • 使用神经辐射场进行主动机器人 3D 重建的不确定性引导策略, RAL2022 | [code]

    在本文中,我们解决了物体的主动机器人 3D 重建问题。特别是,我们研究了带有手持摄像头的移动机器人如何选择有利数量的视图来有效地恢复对象的 3D 形状。与该问题的现有解决方案相反,我们利用流行的基于神经辐射场的对象表示,最近在各种计算机视觉任务中显示出令人印象深刻的结果。然而,使用这种表示直接推断对象的显式 3D 几何细节并不简单,这使得密集 3D 重建的次佳视图选择问题具有挑战性。本文介绍了一种基于光线的体积不确定性估计器,它计算颜色样本沿物体隐式神经表示的每条光线的权重分布的熵。我们表明,使用所提出的估计器给出一个新颖的视图,可以推断出底层 3D 几何的不确定性。然后,我们提出了一个下一个最佳视图选择策略,该策略由基于神经辐射场的表示中基于射线的体积不确定性指导。令人鼓舞的合成数据和真实世界数据的实验结果表明,本文提出的方法可以启用一个新的研究方向,即使用隐式 3D 对象表示来解决机器人视觉应用中的下一个最佳视图问题,将我们的方法与现有的方法区分开来依赖于显式 3D 几何建模的方法。

Sep11 - Sep17, 2022

  • DevNet:通过密度体积构建的自监督单目深度学习, ECCV2022 | [code]

    单目图像的自监督深度学习通常依赖于时间相邻图像帧之间的 2D 像素级光度关系。然而,它们既没有充分利用 3D 逐点几何对应,也没有有效地解决由遮挡或照明不一致引起的光度翘曲的模糊性。为了解决这些问题,这项工作提出了密度体积构建网络 (DevNet),这是一种新颖的自我监督单目深度学习框架,可以考虑 3D 空间信息,并利用相邻相机平截头体之间更强的几何约束。我们的 DevNet 不是直接从单个图像中回归像素值,而是将相机平截头体划分为多个平行平面,并预测每个平面上的逐点遮挡概率密度。最终的深度图是通过沿相应光线对密度进行积分来生成的。在训练过程中,引入了新的正则化策略和损失函数来减轻光度模糊和过拟合。在没有明显扩大模型参数大小或运行时间的情况下,DevNet 在 KITTI-2015 室外数据集和 NYU-V2 室内数据集上都优于几个具有代表性的基线。特别是,在深度估计任务中,KITTI-2015 和 NYU-V2 上的 DevNet 的均方根偏差降低了约 4%。此 https 网址提供了代码。

Sep4 - Sep10, 2022

  • 具有学习几何先验的 3D 纹理形状恢复 | [code]

    从部分扫描中恢复 3D 纹理形状对于许多实际应用至关重要。现有方法已经证明了隐式函数表示的有效性,但它们存在严重遮挡和不同对象类型的部分输入,这极大地阻碍了它们在现实世界中的应用价值。本技术报告介绍了我们通过结合学习几何先验来解决这些限制的方法。为此,我们从学习的姿势预测中生成一个 SMPL 模型,并将其融合到部分输入中,以添加人体的先验知识。我们还提出了一种新颖的完整性感知边界框自适应,用于处理不同级别的尺度和部分扫描的局部性。

  • SIRA:来自单个图像的可重新点亮的头像 | [code]

    从单个图像中恢复人头的几何形状,同时分解材料和照明是一个严重不适定的问题,需要解决先验信息。基于 3D 可变形模型 (3DMM) 的方法,以及它们与可微渲染器的组合,已显示出可喜的结果。然而,3DMM 的表现力是有限的,它们通常会产生过度平滑且与身份无关的 3D 形状,仅限于面部区域。最近已经通过使用多层感知器参数化几何形状的神经场获得了高度准确的全头重建。这些表示的多功能性也被证明对于解开几何、材料和照明是有效的。然而,这些方法需要几十个输入图像。在本文中,我们介绍了 SIRA,这是一种从单个图像重建具有高保真几何形状和分解光和表面材料的人头头像的方法。我们的关键成分是两个基于神经场的数据驱动统计模型,可解决单视图 3D 表面重建和外观分解的模糊性。实验表明,SIRA 在 3D 头部重建中获得了最先进的结果,同时它成功地解开了全局照明、漫反射和镜面反射率。此外,我们的重建适用于基于物理的外观编辑和头部模型重新照明。

Aug28 - Sep3, 2022

  • 使用有符号射线距离函数 (SRDF) 的多视图重建 | [code]

    在本文中,我们解决了多视图 3D 形状重建的问题。尽管最近与隐式形状表示相关的可微渲染方法提供了突破性的性能,但它们的计算量仍然很大,并且通常在估计的几何形状上缺乏精度。为了克服这些限制,我们研究了一种新的计算方法,它建立在一种新的体积形状表示上,就像最近的可微渲染方法一样,但用深度图参数化以更好地实现形状表面。与此表示相关的形状能量评估给定彩色图像的 3D 几何形状,不需要外观预测,但在优化时仍然受益于体积积分。在实践中,我们提出了一种隐式形状表示,SRDF,它基于我们通过沿相机光线的深度参数化的有符号距离。相关的形状能量考虑了深度预测一致性和光度一致性之间的一致性,这在体积表示中的 3D 位置。可以考虑各种照片一致性先验,例如基于中值的基线,或更详细的标准,如学习函数。该方法保留了深度图的像素精度,并且是可并行化的。我们在标准数据集上的实验表明,它提供了关于最近使用隐式形状表示的方法以及传统的多视图立体方法的最先进的结果。

  • Dual-Space NeRF:在不同空间中学习动画化身和场景照明, 3DV2022 | [code]

    在规范空间中对人体进行建模是捕捉和动画的常见做法。但是当涉及到神经辐射场 (NeRF) 时,仅仅在标准空间中学习一个静态的 NeRF 是不够的,因为即使场景照明是恒定的,当人移动时身体的照明也会发生变化。以前的方法通过学习每帧嵌入来缓解光照的不一致性,但这种操作并不能推广到看不见的姿势。鉴于光照条件在世界空间中是静态的,而人体在规范空间中是一致的,我们提出了一种双空间 NeRF,它在两个独立的空间中使用两个 MLP 对场景光照和人体进行建模。为了弥合这两个空间,以前的方法主要依赖于线性混合蒙皮 (LBS) 算法。然而,动态神经领域的 LBS 的混合权重是难以处理的,因此通常用另一个 MLP 来记忆,这不能推广到新的姿势。尽管可以借用 SMPL 等参数网格的混合权重,但插值操作会引入更多伪影。在本文中,我们建议使用重心映射,它可以直接泛化到看不见的姿势,并且出人意料地取得了比具有神经混合权重的 LBS 更好的结果。 Human3.6M 和 ZJU-MoCap 数据集的定量和定性结果显示了我们方法的有效性。

  • NerfCap:使用动态神经辐射场捕获人类表现, TVCG2022 | [code]

    本文解决了从稀疏的多视图或单目视频中捕捉人类表演的挑战。给定表演者的模板网格,以前的方法通过将模板网格非刚性地注册到具有 2D 轮廓或密集光度对齐的图像来捕获人体运动。然而,详细的表面变形无法从轮廓中恢复,而光度对齐则受到视频外观变化引起的不稳定性的影响。为了解决这些问题,我们提出了 NerfCap,这是一种基于表演者动态神经辐射场 (NeRF) 表示的新型表演捕捉方法。具体来说,通过优化变形场和规范 NeRF 的外观模型,从模板几何初始化规范 NeRF 并注册到视频帧。为了捕捉大型身体运动和详细的表面变形,NerfCap 将线性混合蒙皮与嵌入式图形变形相结合。与受限于固定拓扑和纹理的基于网格的方法相比,NerfCap 能够灵活地捕捉视频中复杂的几何形状和外观变化,并合成更逼真的图像。此外,NerfCap 可以通过将合成视频与输入视频进行匹配,以自我监督的方式进行端到端的预训练。各种数据集的实验结果表明,NerfCap 在表面重建精度和新视图合成质量方面都优于先前的工作。

Aug21 - Aug27, 2022

Aug14 - Aug20, 2022

  • Vox-Surf:基于体素的隐式表面表示 | [code]

    虚拟内容创建和交互在 AR 和 VR 等现代 3D 应用中发挥着重要作用。从真实场景中恢复详细的 3D 模型可以显着扩展其应用范围,并且已经在计算机视觉和计算机图形学界进行了数十年的研究。我们提出了 Vox-Surf,一种基于体素的隐式表面表示。我们的 Vox-Surf 将空间划分为有限的有界体素。每个体素在其角顶点中存储几何和外观信息。由于从体素表示继承而来的稀疏性,Vox-Surf 几乎适用于任何场景,并且可以从多个视图图像中轻松训练。我们利用渐进式训练过程逐步提取重要体素进行进一步优化,从而只保留有效体素,这大大减少了采样点的数量并提高了渲染速度。精细体素也可以视为碰撞检测的边界体积。实验表明,与其他方法相比,Vox-Surf 表示可以以更少的内存和更快的渲染速度学习精细的表面细节和准确的颜色。我们还表明,Vox-Surf 在场景编辑和 AR 应用中可以更实用。

  • 从单目视频中对动画 3D 人体进行神经捕获, ECCV2022 | [code]

    我们提出了一种从单目视频输入构建可动画 3D 人体表示的新颖范例,这样它就可以以任何看不见的姿势和视图进行渲染。我们的方法基于动态神经辐射场 (NeRF),该动态神经辐射场 (NeRF) 由作为几何代理的基于网格的参数化 3D 人体模型装配。以前的方法通常依赖多视图视频或准确的 3D 几何信息作为附加输入;此外,大多数方法在推广到看不见的姿势时质量会下降。我们认为,泛化的关键是用于查询动态 NeRF 的良好输入嵌入:良好的输入嵌入应该定义全体积空间中的单射映射,由姿态变化下的表面网格变形引导。基于这一观察,我们建议嵌入输入查询及其与网格顶点上一组测地最近邻所跨越的局部表面区域的关系。通过包含位置和相对距离信息,我们的嵌入定义了距离保留的变形映射,并很好地推广到看不见的姿势。为了减少对额外输入的依赖,我们首先使用现成的工具初始化每帧 3D 网格,然后提出一个管道来联合优化 NeRF 并细化初始网格。大量实验表明,我们的方法可以在看不见的姿势和视图下合成合理的人类渲染结果。

Aug7 - Aug13, 2022

  • OmniVoxel:一种快速精确的全向神经辐射场重建方法, GCCE 2022 | [code]

    本文提出了一种利用等矩形全向图像重建神经辐射场的方法。具有辐射场的隐式神经场景表示可以在有限的空间区域内连续重建场景的 3D 形状。然而,在商用 PC 硬件上训练完全隐式表示需要大量时间和计算资源(每个场景 15 ~ 20 小时)。因此,我们提出了一种显着加速这一过程的方法(每个场景 20 ∼ 40 分钟)。我们没有使用完全隐式的光线表示来重建辐射场,而是采用包含张量中的密度和颜色特征的特征体素。考虑到全向 equirectangular 输入和相机布局,我们使用球面体素化来表示,而不是三次表示。我们的体素化方法可以平衡内景和外景的重建质量。此外,我们对颜色特征采用轴对齐位置编码方法来提高整体图像质量。我们的方法在具有随机相机姿势的合成数据集上实现了令人满意的经验性能。此外,我们在包含复杂几何形状的真实场景中测试了我们的方法,并实现了最先进的性能。我们的代码和完整的数据集将与论文发表的同时发布。

  • 通过可微分渲染进行表面捕获的快速梯度下降, 3DV2022 | [code]

    差分渲染最近已成为一种强大的工具,用于从多个视图进行基于图像的渲染或几何重建,具有非常高的质量。到目前为止,此类方法已在通用对象数据库上进行了基准测试,并有望应用于一些真实数据,但尚未应用于可能受益的特定应用程序。在本文中,我们研究了如何为原始多相机性能捕获制作差分渲染系统。我们以实际可用性和可重复性的方式解决了几个关键问题,例如处理速度、模型的可解释性和一般输出模型质量。这导致我们对差分渲染框架做出了一些贡献。特别是,我们展示了差分渲染和经典优化的统一视图是可能的,从而导致可以分析计算完整的非随机梯度步骤并将完整的每帧数据存储在视频内存中的公式和实现,从而产生简单有效的实现.我们还使用稀疏存储和从粗到细的方案来实现极高的分辨率,同时包含内存和计算时间。我们通过实验表明,在质量上与最先进的多视图人体表面捕获方法相媲美的结果可以在很短的时间内实现,通常每帧大约一分钟。

  • PlaneFormers:从稀疏视图平面到 3D 重建, ECCV2022 | [code]

    我们提出了一种从具有有限重叠的图像中对场景进行平面表面重建的方法。这种重建任务具有挑战性,因为它需要联合推理单图像 3D 重建、图像之间的对应关系以及图像之间的相对相机位姿。过去的工作提出了基于优化的方法。我们介绍了一种更简单的方法,PlaneFormer,它使用一个应用于 3D 感知平面令牌的转换器来执行 3D 推理。我们的实验表明,我们的方法比以前的工作要有效得多,并且几个特定于 3D 的设计决策对其成功至关重要。

  • PS-NeRV:视频的补丁风格化神经表示 | [code]

    我们研究如何使用隐式神经表示 (INR) 来表示视频。经典的 INR 方法通常利用 MLP 将输入坐标映射到输出像素。虽然最近的一些作品试图用 CNN 直接重建整个图像。然而,我们认为上述像素级和图像级策略都不利于视频数据。相反,我们提出了一种补丁解决方案 PS-NeRV,它将视频表示为补丁和相应补丁坐标的函数。它自然继承了image-wise方法的优点,并以快速的解码速度实现了出色的重建性能。整个方法包括传统的模块,如位置嵌入、MLPs 和 CNNs,同时还引入了 AdaIN 来增强中间特征。这些简单而重要的变化可以帮助网络轻松适应高频细节。大量实验证明了它在视频压缩和视频修复等视频相关任务中的有效性。

Jul31 - Aug6, 2022

  • PRIF: Primary Ray-based Implicit Function | [code]

    我们引入了一种新的隐式形状表示,称为基于初级光线的隐式函数 (PRIF)。与大多数基于符号距离函数 (SDF) 处理空间位置的现有方法相比,我们的表示在定向射线上运行。具体来说,PRIF 被制定为直接生成给定输入射线的表面命中点,而无需昂贵的球体跟踪操作,从而实现高效的形状提取和可微渲染。我们证明了经过训练以编码 PRIF 的神经网络在各种任务中取得了成功,包括单一形状表示、类别形状生成、稀疏或嘈杂观察的形状补全、相机姿态估计的逆渲染以及颜色的神经渲染。

Jul24 - Jul30, 2022

  • 脱离网格:用于 3D 血管建模的连续隐式神经表示, MICCAI STACOM 2022 | [code]

    个性化 3D 血管模型对于心血管疾病患者的诊断、预后和治疗计划非常有价值。传统上,此类模型是用网格和体素掩码等显式表示或径向基函数或原子(管状)形状等隐式表示构建的。在这里,我们建议在可微的隐式神经表示 (INR) 中通过其有符号距离函数 (SDF) 的零水平集来表示表面。这使我们能够用隐式、连续、轻量级且易于与深度学习算法集成的表示来对复杂的血管结构进行建模。我们在这里通过三个实际示例展示了这种方法的潜力。首先,我们从 CT 图像中获得了腹主动脉瘤 (AAA) 的准确且防水的表面,并从表面上的 200 个点显示出稳健的拟合。其次,我们同时将嵌套的血管壁安装在单个 INR 中,没有交叉点。第三,我们展示了如何将单个动脉的 3D 模型平滑地融合到单个防水表面中。我们的结果表明,INR 是一种灵活的表示形式,具有最小交互注释的潜力复杂血管结构的研究和操作。

  • GAUDI:沉浸式 3D 场景生成的神经架构师 | [code]

    我们介绍了 GAUDI,这是一种生成模型,能够捕捉复杂而逼真的 3D 场景的分布,可以从移动的相机中沉浸式地渲染。我们用一种可扩展但功能强大的方法来解决这个具有挑战性的问题,我们首先优化一个潜在的表示,以解开辐射场和相机姿势。然后使用这种潜在表示来学习生成模型,该模型可以无条件和有条件地生成 3D 场景.我们的模型通过消除相机姿态分布可以跨样本共享的假设来概括以前专注于单个对象的工作。我们展示了 GAUDI 在跨多个数据集的无条件生成设置中获得了最先进的性能,并允许在给定条件变量(如稀疏图像观察或描述场景的文本)的情况下有条件地生成 3D 场景。

  • AlignSDF:用于手对象重建的姿势对齐有符号距离场, ECCV2022 | [code]

    最近的工作在从单目彩色图像联合重建手和操纵对象方面取得了令人瞩目的进展。现有方法侧重于参数网格或符号距离场 (SDF) 方面的两种替代表示。一方面,参数模型可以从先验知识中受益,但代价是有限的形状变形和网格分辨率。因此,网格模型可能无法精确重建细节,例如手和物体的接触面。另一方面,基于 SDF 的方法可以表示任意细节,但缺乏明确的先验。在这项工作中,我们的目标是使用参数表示提供的先验改进 SDF 模型。特别是,我们提出了一个联合学习框架,可以解开姿势和形状。我们从参数模型中获取手和物体的姿势,并使用它们在 3D 空间中对齐 SDF。我们表明,这种对齐的 SDF 更好地专注于重建形状细节并提高手和物体的重建精度。我们评估了我们的方法,并在具有挑战性的 ObMan 和 DexYCB 基准上展示了对现有技术的显着改进。

  • NeuMesh:学习基于解缠结神经网格的隐式场,用于几何和纹理编辑, ECCV2022(oral) | [code]

    最近,神经隐式渲染技术得到了迅速发展,并在新颖的视图合成和 3D 场景重建中显示出巨大的优势。然而,现有的用于编辑目的的神经渲染方法提供的功能有限,例如,刚性变换,或者不适用于日常生活中一般对象的细粒度编辑。在本文中,我们提出了一种新颖的基于网格的表示,通过在网格顶点上使用解开几何和纹理代码对神经隐场进行编码,这促进了一组编辑功能,包括网格引导的几何编辑、带有纹理交换的指定纹理编辑、填充和绘画操作。为此,我们开发了几种技术包括可学习的符号指标以放大基于网格的表示的空间可区分性,蒸馏和微调机制以实现稳定收敛,以及空间感知优化策略以实现精确的纹理编辑。对真实数据和合成数据的大量实验和编辑示例证明了我们的方法在表示质量和编辑能力方面的优越性。代码可在项目网页上找到:此 https URL。

Previous weeks

  • 非刚性神经辐射场:单目视频变形场景的重建和新视图合成,, ICCV2021 | [code]

    我们提出了非刚性神经辐射场 (NR-NeRF),这是一种用于一般非刚性动态场景的重建和新颖的视图合成方法。我们的方法将动态场景的 RGB 图像作为输入(例如,来自单目视频记录),并创建高质量的时空几何和外观表示。我们表明,单个手持消费级相机足以从新颖的虚拟相机视图合成动态场景的复杂渲染,例如一个“子弹时间”的视频效果。 NR-NeRF 将动态场景分解为规范体积及其变形。场景变形被实现为光线弯曲,其中直线光线被非刚性变形。我们还提出了一种新的刚性网络来更好地约束场景的刚性区域,从而获得更稳定的结果。射线弯曲和刚性网络在没有明确监督的情况下进行训练。我们的公式可以实现跨视图和时间的密集对应估计,以及引人注目的视频编辑应用程序,例如运动夸张。我们的代码将是开源的。

  • 神经关节辐射场, ICCV2021 | [code]

    我们提出了神经关节辐射场 (NARF),这是一种新颖的可变形 3D 表示,用于从图像中学习到的关节对象。虽然 3D 隐式表示的最新进展使得学习复杂对象的模型成为可能,但学习关节对象的姿势可控表示仍然是一个挑战,因为当前的方法需要 3D 形状监督并且无法呈现外观。在制定 3D 关节对象的隐式表示时,我们的方法在求解每个 3D 位置的辐射场时仅考虑最相关对象部分的刚性变换。通过这种方式,所提出的方法可以表示与姿势相关的变化,而不会显着增加计算复杂度。 NARF 是完全可微的,可以从带有姿势注释的图像中训练出来。此外,通过使用自动编码器,它可以学习对象类的多个实例的外观变化。实验表明,所提出的方法是有效的,并且可以很好地推广到新的姿势。

  • GRF:学习用于 3D 场景表示和渲染的一般辐射场, ICCV2021(oral) | [code]

    我们提出了一个简单而强大的神经网络,它仅从 2D 观察中隐式表示和渲染 3D 对象和场景。该网络将 3D 几何建模为一般辐射场,它以一组具有相机位姿和内在函数的 2D 图像作为输入,为 3D 空间的每个点构建内部表示,然后渲染该点的相应外观和几何观察从任意位置。我们方法的关键是学习 2D 图像中每个像素的局部特征,然后将这些特征投影到 3D 点,从而产生一般和丰富的点表示。我们还集成了一种注意力机制来聚合来自多个 2D 视图的像素特征,从而隐式考虑视觉遮挡。大量实验表明,我们的方法可以为新物体、看不见的类别和具有挑战性的现实世界场景生成高质量和逼真的新视图。

  • MVSNeRF:从多视图立体快速概括辐射场重建, ICCV2021 | [code]

    我们提出了 MVSNeRF,一种新颖的神经渲染方法,可以有效地重建神经辐射场以进行视图合成。与先前的神经辐射场工作考虑对密集捕获的图像进行逐场景优化不同,我们提出了一个通用的深度神经网络,它可以通过快速网络推理仅从三个附近的输入视图重建辐射场。我们的方法利用平面扫描成本体积(广泛用于多视图立体)进行几何感知场景推理,并将其与基于物理的体积渲染相结合用于神经辐射场重建。我们在 DTU 数据集中的真实对象上训练我们的网络,并在三个不同的数据集上对其进行测试,以评估其有效性和普遍性。我们的方法可以跨场景(甚至是室内场景,与我们的对象训练场景完全不同)进行泛化,并仅使用三个输入图像生成逼真的视图合成结果,显着优于可泛化辐射场重建的并行工作。此外,如果捕捉到密集的图像,我们估计的辐射场表示可以很容易地进行微调;与 NeRF 相比,这导致具有更高渲染质量和更短优化时间的快速每场景重建。

  • 使用 NeRF 实现新视图合成的连续深度 MPI, ICCV2021 | [code]

    在本文中,我们建议 MINE 通过从单个图像进行密集 3D 重建来执行新颖的视图合成和深度估计。我们的方法是通过引入神经辐射场 (NeRF) 对多平面图像 (MPI) 进行连续深度泛化。给定单个图像作为输入,MINE 预测任意深度值的 4 通道图像(RGB 和体积密度)以联合重建相机平截头体并填充被遮挡的内容。然后可以使用可微分渲染轻松地将重建和修复的截锥体渲染为新颖的 RGB 或深度视图。在 RealEstate10K、KITTI 和 Flowers Light Fields 上进行的大量实验表明,我们的 MINE 在新颖的视图合成中大大优于最先进的技术。我们还在 iBims-1 和 NYU-v2 的深度估计方面取得了具有竞争力的结果,而无需注释深度监督。我们的源代码可在此 https 网址获得

  • UNISURF:统一神经隐式表面和辐射场以进行多视图重建, ICCV2021(oral) | [code]

    神经隐式 3D 表示已成为从多视图图像重建表面和合成新视图的强大范例。不幸的是,DVR 或 IDR 等现有方法需要精确的每像素对象掩码作为监督。同时,神经辐射场已经彻底改变了新的视图合成。然而,NeRF 的估计体积密度不允许精确的表面重建。我们的主要见解是隐式表面模型和辐射场可以以统一的方式制定,从而使用相同的模型实现表面和体积渲染。这种统一的视角实现了新颖、更有效的采样程序,并能够在没有输入掩码的情况下重建准确的表面。我们在 DTU、BlendedMVS 和合成室内数据集上比较我们的方法。我们的实验表明,我们在重建质量方面优于 NeRF,同时在不需要掩码的情况下与 IDR 相当。

  • NeuS:通过体渲染学习神经隐式表面以进行多视图重建, NeurIPS2021 | [code]

    我们提出了一种新的神经表面重建方法,称为 NeuS,用于从 2D 图像输入中重建具有高保真度的对象和场景。现有的神经表面重建方法,如 DVR 和 IDR,需要前景掩码作为监督,容易陷入局部最小值,因此难以重建具有严重自遮挡或薄结构的物体。同时,最近用于新视图合成的神经方法,例如 NeRF 及其变体,使用体积渲染来生成具有优化鲁棒性的神经场景表示,即使对于高度复杂的对象也是如此。然而,从这种学习到的隐式表示中提取高质量的表面是很困难的,因为表示中没有足够的表面约束。在 NeuS 中,我们建议将表面表示为有符号距离函数 (SDF) 的零级集,并开发一种新的体绘制方法来训练神经 SDF 表示。我们观察到传统的体绘制方法会导致表面重建的固有几何误差(即偏差),因此提出了一种新的公式,该公式在一阶近似中没有偏差,从而即使没有掩模监督也能实现更准确的表面重建.在 DTU 数据集和 BlendedMVS 数据集上的实验表明,NeuS 在高质量表面重建方面优于最先进的技术,特别是对于具有复杂结构和自遮挡的物体和场景。

  • 神经隐式表面的体积渲染, NeurIPS2021 | [code]

    神经体绘制最近变得越来越流行,因为它成功地从一组稀疏的输入图像中合成了场景的新视图。到目前为止,通过神经体绘制技术学习的几何图形是使用通用密度函数建模的。此外,几何本身是使用密度函数的任意水平集提取的,这会导致嘈杂的、通常是低保真度的重建。本文的目标是改进神经体绘制中的几何表示和重建。我们通过将体积密度建模为几何形状的函数来实现这一点。这与之前将几何建模为体积密度函数的工作形成对比。更详细地说,我们将体积密度函数定义为应用于有符号距离函数 (SDF) 表示的拉普拉斯累积分布函数 (CDF)。这种简单的密度表示具有三个好处:(i)它为在神经体绘制过程中学习的几何图形提供了有用的归纳偏差; (ii) 它有助于限制不透明度近似误差,从而实现对视线的准确采样。准确的采样对于提供几何和辐射的精确耦合很重要; (iii) 它允许在体积渲染中对形状和外观进行有效的无监督解开。将这种新的密度表示应用于具有挑战性的场景多视图数据集产生了高质量的几何重建,优于相关的基线。此外,由于两者的分离,可以在场景之间切换形状和外观。