总部位于伦敦的人工智能实验室奥德赛(Odyssey)推出了一个将视频转化为互动世界的模型研究预览版。奥德赛团队最初专注于电影和游戏制作中的世界模型,但他们偶然发现了一种潜在的全新娱乐媒介。
奥德赛公司的人工智能模型生成的互动视频会对输入做出实时响应。你可以使用键盘、手机、控制器甚至最终的语音指令与之互动。奥德赛公司将其称为 “Holodeck的早期版本”。
底层人工智能可以每 40 毫秒生成一个逼真的视频帧。这就意味着,当你按下一个按钮或做出一个手势时,视频几乎会立即做出反应--让人产生一种错觉,仿佛你真的在影响这个数字世界。
“奥德赛公司称:”今天的体验感觉就像在探索一个有瑕疵的梦境--原始、不稳定,但不可否认是全新的。在这里,我们谈论的并不是精良的、3A 级游戏品质的视觉效果,至少现在还不是。
让我们从技术角度来分析一下。这种人工智能生成的互动视频技术与普通视频游戏或 CGI 有什么不同?奥德赛称之为 “世界模型”。
传统的视频模型会一次性生成整个片段,而世界模型则不同,它会根据当前状态和用户输入,逐帧预测接下来的内容。这类似于大型语言模型预测序列中的下一个单词,但因为我们谈论的是高分辨率视频帧而不是单词,所以要复杂得多。
正如奥德赛所说,“世界模型的核心是动作条件动力学模型”。每次互动时,模型都会根据当前状态、你的动作和历史记录,生成相应的下一帧视频。
与传统游戏相比,它给人的感觉更有机、更难以预测。没有预设的逻辑说 “如果玩家做了 X,就会发生 Y”--相反,人工智能会根据它从无数视频中学到的知识,对接下来应该发生的事情做出最佳猜测。
构建这样的系统并非轻而易举。人工智能生成交互式视频的最大障碍之一是保持其长期稳定性。当你根据之前的画面生成每一帧画面时,小的误差就会迅速加剧(人工智能研究人员称这种现象为 “漂移”)。
为了解决这个问题,Odyssey 采用了他们所谓的 “窄分布模型”--即在普通视频素材上对人工智能进行预训练,然后在较小的环境集合上对其进行微调。这种权衡意味着,虽然种类较少,但稳定性更好,因此一切都不会变得千奇百怪。
该公司表示,他们已经在下一代模型上取得了 “快速进展”,该模型显然可以显示 “更丰富的像素、动态和动作”。
实时运行所有这些花哨的人工智能技术并不便宜。目前,为这种体验提供动力的基础设施每用户小时的成本在 0.80-1.60 英镑(1-2)之间,依靠的是分散在美国和欧盟的 H100 GPU 集群。
对于流媒体视频来说,这听起来似乎很昂贵,但与制作传统游戏或电影内容相比,它的成本却低得惊人。奥德赛公司预计,随着模式变得更加高效,这些成本还将进一步下降。
上一条: 域风网2025年五一劳动节放假安排通知
下一条: 思科加强DNS安全包