面对Sora,马斯克“坐不住”了

2024年02月19日 21:20   上海证券报

Sora横空出世,“技惊四座”后,在AI领域一向野心勃勃的特斯拉CEO埃隆·马斯克(Elon Musk)“坐不住”了。

近日,马斯克在社交媒体上多次发表观点或回复评论,力证特斯拉在视频生成上的实力。马斯克表示:“特斯拉在大约一年前就能以精确的物理生成真实世界的视频。只不过,由于训练数据来自汽车,生成的视频并不有趣。这些视频看起来像特斯拉的普通视频,实际上是通过动态生成的。”

马斯克同时透露,由于FSD(FullSelf-Drive,完全自动驾驶系统)训练算力不足,因此没有使用其他视频进行训练,但这是可行的。年内晚些时候,当特斯拉有空余算力时,就会继续训练。

马斯克狂秀“肌肉”

日前,马斯克发布了特斯拉一年前模拟真实场景的自动驾驶视频,并称“特斯拉视频的生成能力超越了OpenAI,它可以预测到极其准确的物理特性,这对自动驾驶至关重要”。

有网友看完视频后称,特斯拉应该制作视频游戏。马斯克对此回复道:“我早就想这么做了,只不过想要制作游戏,还需在特斯拉推出FSD之后才可以。”

在自动驾驶路线选择上,马斯克一直坚定押注“纯视觉路线”,即不依靠雷达等传感器,仅通过车载智能摄像头作为传感器输入,经过特定算法的计算和处理,对车辆周围的环境信息做出精确感知,从而实现自动驾驶功能的一种技术方案。

马斯克认为,纯视觉路线才是最佳解决方案,因为人类开车时只采集视觉数据,所以机器开车也应该如此。2021年1月,马斯克宣布:“从今往后去除雷达,这根拐棍太糟糕了,我没开玩笑。显然,开车只用摄像头的效果很好。”

2023年11月,特斯拉宣布已开始向员工推出FSD V12版本。中信证券分析称,特斯拉依赖神经网络的FSD V12为自动驾驶提供了一套未经证明的新路径,若得以走通,将对行业产生较大颠覆;FSD V12有望打造自动驾驶领域的基础底座,引领视觉(算法)的GPT时刻。

在最新一次财报电话会上,马斯克曾表示,特斯拉在人工智能效率方面远远领先于世界上任何其他公司。“事实上,我认为很多汽车公司都应该主动寻求FSD授权。我们已经进行了一些初步的对话,但我觉得他们似乎还不相信这是真的。不过,今年应该会变得很明显。我想强调的是,如果我是另一家汽车公司的CEO,我肯定会联系特斯拉,要求授权FSD技术。这绝对是明智之举。”

自动驾驶迎来新机遇

除了颠覆影视业,Sora或在自动驾驶上大有可为。360集团创始人、董事长周鸿祎说,“这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”

周鸿祎认为,有强劲的大模型做底子,基于对人类语言的理解,对人类知识和世界模型的了解,再叠加很多其他的技术,就可以创造各个领域的超级工具。比如生物医学、蛋白质和基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。这次Sora对物理世界的模拟,至少将会对机器人具身智能和自动驾驶带来巨大的影响。

周鸿祎称:“原来的自动驾驶技术过度强调感知层面,而没有工作在认知层面。其实人在驾驶汽车的时候,很多判断是基于对这个世界的理解。比如对方的速度怎么样、能否发生碰撞、碰撞严重性如何。如果没有对世界的理解就很难做出一个真正的无人驾驶。所以这次Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,它展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”

中信证券在研报中称,在技术上Sora采用了Diffusion Transformer的路线,OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力,通过涌现学习到了物品的时间与空间相关性以及与周围世界的互动能力等等。得益于这种基于规模的涌现能力,如果后续持续扩大模型以及训练集的规模,那么将来以Sora为基础的模型可能做到模拟整个物理和数字世界,成为真正的“世界模型”。

中信证券认为,长期以来,计算机视觉领域的研究一直过于碎片化,直到目前实际用例中的计算机视觉模型仍根据不同任务采取不同的小模型。而Sora的成功以及其背后展现出的涌现能力可能为计算机视觉领域的研究提供了一个明确的方向,成为未来视频与模拟领域(例如自动驾驶)的统一范式。

关注我们