网站首页
手机版

Meta MCC:通过3D感知编码器,改善2D图像到3D模型质量(感知编码的基本原理是什么?)

更新时间:2024-03-22 14:37作者:小乐

作为现阶段最成功的VR内容生态系统之一,Quest商店吸引了越来越多的开发者发布VR内容,但这对于Meta来说似乎还不够。它还在探索某种UGC VR生态系统,例如在Horizon Worlds中提供视觉开发工具,以便普通人可以创建VR应用程序。近日,Meta发布的一项新研究表明,未来制作AR/VR内容可能就像拍摄短视频一样简单。

据了解,为了简化AR/VR内容的开发,Meta开发了RGB-D图像生成3D模型解决方案:MCC。 MMC的全称是多视图压缩编码。它是一个基于Transformer的编码器-解码器模型,可以基于一帧RGB-D图像合成/重建3D模型。潜在的应用场景包括AR/VR、3D视觉重建、机器人导航。数字孪生/虚拟仿真等。与普通彩色2D图像不同,RGB-D是带有深度的彩色图像,相当于普通RGB三通道彩色图像加上深度图(Depth Map)。两者被注册并具有一一对应的像素。

事实上,Meta在2018年的F8大会上就宣布了3D照片研究,可以通过双摄手机拍摄出具有3D效果的照片,其中包含一定的深度信息。它甚至开发了将2D 图像转换为3D 的CNN 模型,该模型支持单摄像头手机。这意味着,如果与MCC解决方案结合,或许可以将单摄像头手机拍摄的2D图像合成为3D模型。

Transformer 是一种使用自注意力机制的深度学习模型。 Google已经用它来增强搜索引擎,最近流行的ChatGPT模型也是基于Transformer的。最初,Transformer 更常用于自然语言处理领域,但随着它与大规模、通用类别的学习模型相结合,开始应用于语言处理以外的领域,例如图像合成、图像处理等。分析。

使用MCC 解决方案,3D 开发/综合将有望实现规模化。随着深度传感器和深度捕捉AI模型在手机上的普及,具有深度信息的图像变得越来越容易获取,因此MCC可以使用的数据规模足够大。

研究背景Meta研究人员指出,视觉识别的一个核心目标是基于单个图像来理解物体和场景。在大规模学习和通用表示的驱动下,二维图像识别技术得到了很大的提高。然而,现阶段识别3D 场景/物体仍然存在挑战。由于2D图像源中存在图形遮挡,因此很难从单个图像合成完整的3D图像。模型。

为了解决这个问题,一些3D 合成模型依赖于不同角度的多个源图像。如果使用CAD模型进行训练,市场上可用的数据集规模不够大,从而限制了3D合成和理解技术的发展。

MCC只需要RGB-D图像进行训练,图像中不可见的部分也可以在3D模型中完全预测/合成。用于监督的数据基于包含深度信息和相机姿势的视频帧。

解决方案原理MCC 使用简单的解码器-编码器架构。将RGB-D 图像输入MCC 将产生输入编码。然后解码器将访问输入编码中的3D 点数据来预测点的占用情况和RGB 颜色。 (将3D 重建定义为二元分类问题)。简单来说,MCC只需要处理3D点云数据,3D点可以捕捉任何物体或场景。它们比网格和体素更通用,因此可以使用大规模RGB-D 图像数据来训练模型。另外,RGB-D图像可以通过手机的LiDAR传感器捕获,或者通过深度模型(例如MiDas、COLMAP)计算。

研究人员使用来自不同数据集的深度图像/视频来训练MCC。这些数据部分并不包含3D场景和3D物体的所有角度,这将需要AI重建。此外,MCC还可以将AI合成的图像转换为3D模型。

因此,MCC最大的特点是可以预测RGB-D图像中不可见和被遮挡的3D几何形状。研究人员表示:MCC模型与基于图像的自监督学习和掩模自动编码器(MAE)的最新进展直接相关。 MAE 还通过预测图像中不可见的形状来学习图像表示。此外,MCC 不需要带注释的3D 数据,使得收集数据更便宜、更容易。

研究人员表示:研究结果表明,将基于点云的3D合成模型与通用类别的大规模训练相结合是有效的。未来,我们希望将这一成果拓展为通用的3D分析视觉系统,使3D重建/合成效果更加接近人脑的想象。

与其他解决方案相比,Google和NVIDIA等科技公司也开发了2D图像转3D技术,分别依靠NeRF和反向渲染(3D MoMa)。缺点是需要多幅图像,NeRF很难从单幅图像生成新的场景。其他一些解决方案需要使用有限规模的数据(例如3D CAD模型)进行训练,而MCC只能通过RGB-D图像来训练3D重建。

此外,MCC具有良好的通用性,对于以前从未见过的新物体类别可以“开箱即用”(支持零样本学习),并且可以直接处理成3D模型。

为了演示MCC 与不同数据源的兼容性,研究人员将其与多个图像源相结合,例如:

iPhone 14 Pro(LiDAR 传感器)图像生成AI DALL-E 2 Facebook 开源的3D 重建数据集CO3D(Common Objects in 3D)大型视觉数据库ImageNet3D 模拟数据集Hypersim 室内场景数据集Taskonomy 这些数据集包含50 多个常见对象类型,以及大型场景,如仓库、礼堂、阁楼、餐厅等,利用它们重建的3D模型无法一一还原,但看起来比原来的更加圆润、卡通,但是它们用于3D开发,质量足够好。未来,随着更多的数据和更多样化的对象进行训练,MCC的性能可以得到显着的提升。

参考:元

为您推荐

大数据“扫黄”将启动?符合4个特征就需留意,你可能“涉黄”了

大数据技术现如今已经广泛应用到我们的生活当中了,比如说我们在网购平台上买东西,我们点外卖和地图导航,其实这里面都缺少不了大数据的应用,甚至可以说是大数据让我们的生活更加便利,让互联网更加服务于我们的世界了。当然弊端也是有的,最大的弊端就是,

2024-03-22 14:23

AI玩多人德扑击败顶级玩家!150美元,实力可掏空在线扑克公司(德扑人工智能)

人工智能终于开始掌握人性中一些独特的能力,并且比它的老师玩得还好。 要想在扑克中获胜,就需要利用这样一项能力:狡猾。为了获胜,玩家必须分析对手如何出牌,然后欺骗他们交出手中的筹码。当然,这种狡诈对人来说很自然。现在,人工智能程序首次表现出能

2024-03-22 14:03

二十载守初心功在不舍 三变迁运行升级东航云南公司OCC变迁记

暑运旺季刚过,东航云南公司克服了台风“利奇马”、长水机场改扩建及省内极端天气频发等不利因素,整个旺季航班关舱门正点率提升至90.24%,较去年同比增长21.71%。暑运旺季刚过,东航云南公司克服了台风“利奇马”、长水机场改扩建及省内极端天气

2024-03-22 13:53

三变迁 东航云南运行升级(东航云南基地在哪)

暑运旺季刚过,东航云南公司克服了台风“利奇马”、长水机场改扩建及省内极端天气频发等困难,整个旺季航班关舱门正点率提高至90.24%,较去年同比增长21.71%。如何能在复杂的局面下取得两位数的增长?这主要是得益于今年3月开始启用的运行及客户

2024-03-22 13:38

不花钱就能学到的MBA课程55(全面质量管理)

(全文约1万8千字)上一篇给大家介绍盛田昭夫的阿米巴,后来很多人认为是对朱兰和戴明全面质量管理的颠覆,今天沃将详细介绍这个半个世纪被奉为经典的全面质量管理。二十世纪四十年代,人类在科学技术上获得了巨大的突破,生产力水平得到了空前的发展和提高

2024-03-22 13:30

二十载守初心功在不舍 东航云南OCC变迁记(东航云南有限公司官网)

图:新的OCC大厅,明亮如新民航资源网2019年10月12日消息:暑运旺季刚过,东航云南公司克服了台风“利奇马”、长水机场改扩建及省内极端天气频发等不利因素,整个旺季航班关舱门正点率提升至90.24%,较去年同比增长21.71%,如何能在如

2024-03-22 13:16

加载中...