李飞飞对计算机视觉的愿景：World Labs 正为机器提供 3D 空间智能-电子产品世界手机版

李飞飞对计算机视觉的愿景：World Labs 正为机器提供 3D 空间智能

时间：2024-12-13来源：IEEE

斯坦福大学教授李飞飞已经在 AI 历史上赢得了自己的地位。她在深度学习革命中发挥了重要作用，多年来努力创建 ImageNet 数据集和竞赛，挑战 AI 系统识别 1000 个类别的物体和动物。2012 年，一个名为 AlexNet 的神经网络在 AI 研究界引起了震动，它的性能远远超过了所有其他类型的模型，并赢得了 ImageNet 比赛。从那时起，神经网络开始腾飞，由互联网上现在提供的大量免费训练数据和提供前所未有的计算能力的 GPU 提供支持。

在 ImageNet 问世后的 13 年里，计算机视觉研究人员掌握了对象识别技术，并转向图像和视频生成。Li 是斯坦福大学以人为本的 AI 研究所（HAI）的联合创始人，并继续突破计算机视觉的界限。就在今年，她创办了一家初创公司 World Labs，生成用户可以探索的 3D 场景。World Labs 致力于为 AI 提供“空间智能”，即生成 3D 世界、在 3D 世界中进行推理和交互的能力。Li 昨天在大型 AI 会议 NeurIPS 上发表了关于她对机器视觉的愿景的主题演讲，并在演讲前接受了 IEEE Spectrum 的独家采访。

您为什么将演讲的题目定为“Ascending the Ladder of Visual Intelligence”？

李飞飞：我认为智能具有不同程度的复杂程度和复杂程度是直觉的。在演讲中，我想传达这样一种感觉，即在过去几十年中，尤其是过去 10 多年的深度学习革命中，我们学到的视觉智能令人叹为观止。我们越来越有能力使用这项技术。我还受到了 Judea Pearl 的 “因果阶梯” [在他 2020 年的书 The Book of Why] 的启发。

该演讲还有一个副标题，“从看到到做”。这是人们不够欣赏的东西：视觉与互动和做事密切相关，无论是对动物还是对 AI 代理都是如此。这与语言背道而驰。从根本上说，语言是一种用于传达想法的交流工具。在我看来，这些是非常互补但同样深刻的智能模式。

你的意思是我们本能地对某些景象做出反应吗？

李：我说的不仅仅是直觉。如果你看一下感知的进化和动物智能的进化，它们就已经紧密交织在一起了。每当我们能够从环境中获取更多信息时，进化的力量就会推动能力和智能向前发展。如果你感觉不到环境，你与世界的关系就非常被动;你是否吃或被吃是一种非常被动的行为。但是，一旦你能够通过感知从环境中获取线索，进化压力就会真正增加，从而推动智能向前发展。

您认为这就是我们创建越来越深入的机器智能的方式吗？通过允许机器感知更多的环境？

李：我不知道“深”是不是我会用的形容词。我认为我们正在创造更多功能。我认为它变得越来越复杂，功能越来越强大。我认为，解决空间智能问题是迈向全面智能的基础和关键步骤，这是绝对正确的。

我看过 World Labs 的演示。您为什么想要研究空间智能并构建这些 3D 世界？

李：我认为空间智能是视觉智能的发展方向。如果我们认真地解决视觉问题并将其与行动联系起来，那么有一个非常简单、显而易见的事实：世界是 3D 的。我们不是生活在一个平坦的世界里。我们的物理代理，无论它们是机器人还是设备，都将生活在 3D 世界中。甚至虚拟世界也变得越来越 3D。如果您与艺术家、游戏开发人员、设计师、建筑师、医生交谈，即使他们在虚拟世界中工作，其中大部分都是 3D 的。如果您花点时间认识到这个简单而深刻的事实，那么毫无疑问，破解 3D 智能问题是根本。

我很好奇 World Labs 中的场景如何保持物体的持久性并符合物理定律。这感觉像是向前迈出的令人兴奋的一步，因为像 Sora 这样的视频生成工具仍然在摸索这些东西。

李：一旦你尊重世界的 3D 性，很多事情都是很自然的。例如，在我们发布在社交媒体上的一个视频中，篮球被放入场景中。因为它是 3D 的，所以它允许你拥有这种能力。如果场景只是 2D 生成的像素，篮球将无处可去。

或者，就像在 Sora 中一样，它可能会去某个地方，但随后消失了。在尝试推动这项技术向前发展的过程中，您面临的最大技术挑战是什么？

李：没有人解决这个问题，对吧？这非常非常困难。你可以看到 [在 World Labs 演示视频中] 我们拍摄了一幅梵高的画作，并以一致的风格生成了围绕它的整个场景：艺术风格、照明，甚至那个社区会有什么样的建筑。如果你转过身来，它变成了摩天大楼，那将完全没有说服力，对吧？而且它必须是 3D 的。你必须导航到它。所以这不仅仅是像素。

您能谈谈您用来训练它的数据吗？

李：好多。

您是否在计算负担方面面临技术挑战？

李：这是大量的计算。这是公共部门无法承受的计算类型。这就是我很高兴能休假的部分原因，以私营部门的方式做这件事。这也是我一直倡导公共部门计算访问的部分原因，因为我自己的经验强调了在资源充足的情况下进行创新的重要性。

赋予公共部门权力是件好事，因为它通常更受激励于为了自身而获得知识，为人类的利益而获得知识。

李：知识发现需要资源支持，对吗？在伽利略时代，这是让天文学家观测新天体的最佳望远镜。是胡克意识到放大镜可以变成显微镜和发现的细胞。每当有新的技术工具出现时，它都会帮助人们寻求知识。现在，在 AI 时代，技术工具涉及计算和数据。我们必须认识到公共部门的这一点。

您希望在联邦层面采取什么措施来提供资源？

李：这是 Stanford HAI 在过去五年中的工作。我们一直在与国会、参议院、白宫、行业和其他大学合作，以创建 NAIRR，即国家 AI 研究资源。

假设我们可以让 AI 系统真正理解 3D 世界，那会给我们带来什么？

李：它将为人们释放大量的创造力和生产力。我希望以更高效的方式设计我的房子。我知道很多医学用途都涉及了解一个非常特殊的 3D 世界，即人体。我们总是在谈论人类将创造机器人来帮助我们的未来，但机器人在 3D 世界中导航，并且它们需要空间智能作为大脑的一部分。我们还讨论了虚拟世界，这些世界将允许人们参观地方、学习概念或娱乐。这些使用 3D 技术，尤其是混合动力车，我们称之为 AR [增强现实]。我很想戴着一副眼镜走过国家公园，它能为我提供有关树木、小径和云的信息。我也想通过空间智能的帮助下学习不同的技能。

什么样的技能？

李：我蹩脚的例子是，如果我在高速公路上爆胎了，我该怎么办？现在，我打开了一个“如何更换轮胎”的视频。但是，如果我能戴上眼镜，看看我的车发生了什么，然后在指导下完成这个过程，那就太酷了。但这是一个蹩脚的例子。你可以考虑烹饪，你可以考虑雕刻——有趣的事情。

您认为我们在有生之年能走多远？

李：哦，我认为这将在我们的有生之年发生，因为技术进步的速度真的很快。您已经看到了过去 10 年带来的一切。这绝对预示着接下来会发生什么。

关键词：李飞飞对计算机视觉的愿景：World Labs 正在为机器提供 3D 空间智能

加入微信
获取电子行业最新资讯
搜索微信公众号：EEPW
或用微信扫描左侧二维码

李飞飞对计算机视觉的愿景：World Labs 正为机器提供 3D 空间智能

相关文章