研究人员使用 AI 识别图像中的相似材料 这种机器学习方法可以协助机器人场景理解、图像编辑或在线推荐系统

例如,在厨房工作时操纵物体的机器人将受益于了解哪些物品由相同材料组成。有了这些知识,无论是从柜台阴暗的角落里捡起一小块黄油,还是从明亮的冰箱里捡起整根黄油,机器人都会知道要施加类似的力。

识别场景中由相同材料组成的对象(称为材料选择)对于机器来说是一个特别具有挑战性的问题,因为材料的外观可能会根据对象的形状或光照条件而发生巨大变化。

麻省理工学院和 Adob​​e Research 的科学家已朝着解决这一挑战迈出了一步。他们开发了一种技术,可以识别图像中代表给定材料的所有像素,该材料显示在用户选择的像素中。

即使物体具有不同的形状和大小,该方法也是准确的,并且他们开发的机器学习模型不会受到阴影或光照条件的欺骗,这些条件会使相同的材料看起来不同。

尽管他们只使用“合成”数据训练他们的模型,这些数据是由计算机创建的,可以修改 3D 场景以生成许多不同的图像,但该系统可以有效地处理它以前从未见过的真实室内和室外场景。该方法也可用于视频;一旦用户在第一帧中识别出一个像素,模型就可以在视频的其余部分识别出由相同材料制成的物体。

除了在机器人技术的场景理解中的应用之外,该方法还可以用于图像编辑或并入计算系统,以推断图像中材料的参数。它还可以用于基于材料的网络推荐系统。(例如,购物者可能正在寻找由特定类型的面料制成的衣服。)

“了解与您互动的材料通常非常重要。尽管两个物体看起来可能相似,但它们可能具有不同的材料特性。我们的方法可以方便地选择图像中由相同材料制成的所有其他像素,”电气工程和计算机科学研究生、该技术论文的主要作者 Prafull Sharma说。

Sharma 的合著者包括 Adob​​e Research 的研究科学家 Julien Philip 和 Michael Gharbi;和资深作者 William T. Freeman,Thomas 和 Gerd Perkins 电气工程和计算机科学教授以及计算机科学和人工智能实验室 (CSAIL) 的成员;Frédo Durand,电气工程和计算机科学教授,CSAIL 成员;和 Adob​​e Research 的研究科学家 Valentin Deschaintre。该研究将在 SIGGRAPH 2023 会议上发表。

一种新方法

现有的材料选择方法难以准确识别代表相同材料的所有像素。例如,一些方法专注于整个物体,但一个物体可以由多种材料组成,比如一把带木扶手的椅子和一张皮座。其他方法可能会使用一组预先确定的材料,但这些方法通常带有诸如“木材”之类的宽泛标签,尽管事实上有数千种木材。

相反,Sharma 和他的合作者开发了一种机器学习方法,可以动态评估图像中的所有像素,以确定用户选择的像素与图像的所有其他区域之间的材料相似性。如果一张图片包含一张桌子和两把椅子,并且椅腿和桌面由相同类型的木材制成,他们的模型可以准确识别那些相似的区域。

在研究人员开发出一种人工智能方法来学习如何选择相似材料之前,他们必须克服一些障碍。首先,现有的数据集都没有包含足够精细标记以训练其机器学习模型的材料。研究人员渲染了他们自己的室内场景合成数据集,其中包括 50,000 张图像和随机应用于每个对象的 16,000 多种材料。

“我们想要一个数据集,其中每种类型的材料都被独立标记,”Sharma 说。

手头有合成数据集,他们训练了一个机器学习模型来识别真实图像中的相似材料——但它失败了。研究人员意识到分布转移是罪魁祸首。当模型在合成数据上进行训练时会发生这种情况,但在与训练集非常不同的真实数据上进行测试时会失败。

为了解决这个问题,他们在预训练的计算机视觉模型之上构建了他们的模型,该模型已经看到了数百万张真实图像。他们通过利用该模型已经学习的视觉特征来利用该模型的先验知识。

“在机器学习中,当你使用神经网络时,通常它会同时学习表征和解决任务的过程。我们已经解决了这个问题。预训练模型为我们提供了表征,然后我们的神经网络就专注于解决任务,”他说。

解决相似性

研究人员的模型将通用的、预训练的视觉特征转换为特定于材料的特征,并且它以一种对物体形状或变化的光照条件具有鲁棒性的方式实现这一点。

然后,该模型可以为图像中的每个像素计算材料相似性分数。当用户点击一个像素时,模型会计算出每个其他像素在外观上与查询的接近程度。它会生成一个地图,其中每个像素的相似度从 0 到 1 不等。

“用户只需点击一个像素,然后模型就会自动选择所有具有相同材料的区域,”他说。

由于该模型为每个像素输出相似度分数,因此用户可以通过设置阈值(例如 90% 相似度)来微调结果,并收到突出显示这些区域的图像地图。该方法也适用于跨图像选择——用户可以在一幅图像中选择一个像素,然后在另一幅图像中找到相同的材料。

在实验过程中,研究人员发现他们的模型可以比其他方法更准确地预测包含相同材料的图像区域。当他们测量预测与真实情况(即图像中由相同材料组成的实际区域)相比的好坏时,他们的模型匹配准确率约为 92%。

未来,他们希望增强模型,使其能够更好地捕捉图像中物体的精细细节,从而提高方法的准确性。

“丰富的材料有助于我们生活的世界的功能和美丽。但计算机视觉算法通常会忽视材料,而是重点关注物体。这篇论文对在各种具有挑战性的条件下识别图像和视频中的材料做出了重要贡献,”康奈尔鲍尔斯计算与信息科学学院院长兼计算机科学教授 Kavita Bala 说,他没有参与这项工作. “这项技术对最终消费者和设计师都非常有用。例如,房主可以设想重新装饰沙发或更换房间地毯等昂贵的选择可能会出现的情况,并且可以根据这些可视化结果对他们的设计选择更有信心。”

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容