Meta MCC：通过3D感知编码器，改善2D图像到3D模型质量（感知编码的基本原理是什么?）

更新时间：2024-03-22 14:37作者：小乐

作为现阶段最成功的VR内容生态系统之一，Quest商店吸引了越来越多的开发者发布VR内容，但这对于Meta来说似乎还不够。它还在探索某种UGC VR生态系统，例如在Horizon Worlds中提供视觉开发工具，以便普通人可以创建VR应用程序。近日，Meta发布的一项新研究表明，未来制作AR/VR内容可能就像拍摄短视频一样简单。

据了解，为了简化AR/VR内容的开发，Meta开发了RGB-D图像生成3D模型解决方案：MCC。 MMC的全称是多视图压缩编码。它是一个基于Transformer的编码器-解码器模型，可以基于一帧RGB-D图像合成/重建3D模型。潜在的应用场景包括AR/VR、3D视觉重建、机器人导航。数字孪生/虚拟仿真等。与普通彩色2D图像不同，RGB-D是带有深度的彩色图像，相当于普通RGB三通道彩色图像加上深度图（Depth Map）。两者被注册并具有一一对应的像素。

事实上，Meta在2018年的F8大会上就宣布了3D照片研究，可以通过双摄手机拍摄出具有3D效果的照片，其中包含一定的深度信息。它甚至开发了将2D 图像转换为3D 的CNN 模型，该模型支持单摄像头手机。这意味着，如果与MCC解决方案结合，或许可以将单摄像头手机拍摄的2D图像合成为3D模型。

Transformer 是一种使用自注意力机制的深度学习模型。 Google已经用它来增强搜索引擎，最近流行的ChatGPT模型也是基于Transformer的。最初，Transformer 更常用于自然语言处理领域，但随着它与大规模、通用类别的学习模型相结合，开始应用于语言处理以外的领域，例如图像合成、图像处理等。分析。

使用MCC 解决方案，3D 开发/综合将有望实现规模化。随着深度传感器和深度捕捉AI模型在手机上的普及，具有深度信息的图像变得越来越容易获取，因此MCC可以使用的数据规模足够大。

研究背景Meta研究人员指出，视觉识别的一个核心目标是基于单个图像来理解物体和场景。在大规模学习和通用表示的驱动下，二维图像识别技术得到了很大的提高。然而，现阶段识别3D 场景/物体仍然存在挑战。由于2D图像源中存在图形遮挡，因此很难从单个图像合成完整的3D图像。模型。

为了解决这个问题，一些3D 合成模型依赖于不同角度的多个源图像。如果使用CAD模型进行训练，市场上可用的数据集规模不够大，从而限制了3D合成和理解技术的发展。

MCC只需要RGB-D图像进行训练，图像中不可见的部分也可以在3D模型中完全预测/合成。用于监督的数据基于包含深度信息和相机姿势的视频帧。

解决方案原理MCC 使用简单的解码器-编码器架构。将RGB-D 图像输入MCC 将产生输入编码。然后解码器将访问输入编码中的3D 点数据来预测点的占用情况和RGB 颜色。（将3D 重建定义为二元分类问题）。简单来说，MCC只需要处理3D点云数据，3D点可以捕捉任何物体或场景。它们比网格和体素更通用，因此可以使用大规模RGB-D 图像数据来训练模型。另外，RGB-D图像可以通过手机的LiDAR传感器捕获，或者通过深度模型（例如MiDas、COLMAP）计算。

研究人员使用来自不同数据集的深度图像/视频来训练MCC。这些数据部分并不包含3D场景和3D物体的所有角度，这将需要AI重建。此外，MCC还可以将AI合成的图像转换为3D模型。

因此，MCC最大的特点是可以预测RGB-D图像中不可见和被遮挡的3D几何形状。研究人员表示：MCC模型与基于图像的自监督学习和掩模自动编码器（MAE）的最新进展直接相关。 MAE 还通过预测图像中不可见的形状来学习图像表示。此外，MCC 不需要带注释的3D 数据，使得收集数据更便宜、更容易。

研究人员表示：研究结果表明，将基于点云的3D合成模型与通用类别的大规模训练相结合是有效的。未来，我们希望将这一成果拓展为通用的3D分析视觉系统，使3D重建/合成效果更加接近人脑的想象。

与其他解决方案相比，Google和NVIDIA等科技公司也开发了2D图像转3D技术，分别依靠NeRF和反向渲染（3D MoMa）。缺点是需要多幅图像，NeRF很难从单幅图像生成新的场景。其他一些解决方案需要使用有限规模的数据（例如3D CAD模型）进行训练，而MCC只能通过RGB-D图像来训练3D重建。

此外，MCC具有良好的通用性，对于以前从未见过的新物体类别可以“开箱即用”（支持零样本学习），并且可以直接处理成3D模型。

为了演示MCC 与不同数据源的兼容性，研究人员将其与多个图像源相结合，例如：

iPhone 14 Pro（LiDAR 传感器）图像生成AI DALL-E 2 Facebook 开源的3D 重建数据集CO3D（Common Objects in 3D）大型视觉数据库ImageNet3D 模拟数据集Hypersim 室内场景数据集Taskonomy 这些数据集包含50 多个常见对象类型，以及大型场景，如仓库、礼堂、阁楼、餐厅等，利用它们重建的3D模型无法一一还原，但看起来比原来的更加圆润、卡通，但是它们用于3D开发，质量足够好。未来，随着更多的数据和更多样化的对象进行训练，MCC的性能可以得到显着的提升。

参考：元

上一篇：「感悟」留学前后到底有何区别？留学生在外得到了什么？（留学以后）

下一篇：大数据“扫黄”将启动？符合4个特征就需留意，你可能“涉黄”了

加载中...

美国留学