Odyssey的人工智能模型将视频转化为互动世界-域风网

Odyssey的人工智能模型将视频转化为互动世界

总部位于伦敦的人工智能实验室奥德赛（Odyssey）推出了一个将视频转化为互动世界的模型研究预览版。奥德赛团队最初专注于电影和游戏制作中的世界模型，但他们偶然发现了一种潜在的全新娱乐媒介。

奥德赛公司的人工智能模型生成的互动视频会对输入做出实时响应。你可以使用键盘、手机、控制器甚至最终的语音指令与之互动。奥德赛公司将其称为 “Holodeck的早期版本”。

底层人工智能可以每 40 毫秒生成一个逼真的视频帧。这就意味着，当你按下一个按钮或做出一个手势时，视频几乎会立即做出反应--让人产生一种错觉，仿佛你真的在影响这个数字世界。

“奥德赛公司称：”今天的体验感觉就像在探索一个有瑕疵的梦境--原始、不稳定，但不可否认是全新的。在这里，我们谈论的并不是精良的、3A 级游戏品质的视觉效果，至少现在还不是。

让我们从技术角度来分析一下。这种人工智能生成的互动视频技术与普通视频游戏或 CGI 有什么不同？奥德赛称之为 “世界模型”。

传统的视频模型会一次性生成整个片段，而世界模型则不同，它会根据当前状态和用户输入，逐帧预测接下来的内容。这类似于大型语言模型预测序列中的下一个单词，但因为我们谈论的是高分辨率视频帧而不是单词，所以要复杂得多。

正如奥德赛所说，“世界模型的核心是动作条件动力学模型”。每次互动时，模型都会根据当前状态、你的动作和历史记录，生成相应的下一帧视频。

与传统游戏相比，它给人的感觉更有机、更难以预测。没有预设的逻辑说 “如果玩家做了 X，就会发生 Y”--相反，人工智能会根据它从无数视频中学到的知识，对接下来应该发生的事情做出最佳猜测。

构建这样的系统并非轻而易举。人工智能生成交互式视频的最大障碍之一是保持其长期稳定性。当你根据之前的画面生成每一帧画面时，小的误差就会迅速加剧（人工智能研究人员称这种现象为 “漂移”）。

为了解决这个问题，Odyssey 采用了他们所谓的 “窄分布模型”--即在普通视频素材上对人工智能进行预训练，然后在较小的环境集合上对其进行微调。这种权衡意味着，虽然种类较少，但稳定性更好，因此一切都不会变得千奇百怪。

该公司表示，他们已经在下一代模型上取得了 “快速进展”，该模型显然可以显示 “更丰富的像素、动态和动作”。

实时运行所有这些花哨的人工智能技术并不便宜。目前，为这种体验提供动力的基础设施每用户小时的成本在 0.80-1.60 英镑（1-2）之间，依靠的是分散在美国和欧盟的 H100 GPU 集群。

对于流媒体视频来说，这听起来似乎很昂贵，但与制作传统游戏或电影内容相比，它的成本却低得惊人。奥德赛公司预计，随着模式变得更加高效，这些成本还将进一步下降。

文章相关标签： Odyssey 人工智能视频转化