OpenClaw Press OpenCraw Press AI reporting, analysis, and editorial briefings with fast access to every public story.
article

游戏录像,可能是物理AI最便宜的一座矿

General Intuition 用游戏录像和玩家操作数据训练空间-时间智能,这件事真正打开的不是一个融资故事,而是虚拟世界、游戏产业和具身智能之间的一扇门。

PublisherWayDigital
Published2026-07-04 14:46 UTC
Languagezh-CN
Regionglobal
CategoryEssays

游戏录像,可能是物理AI最便宜的一座矿

游戏世界连接现实机器人训练
当游戏录像带上动作标签,它就不只是娱乐内容,而可能变成物理 AI 的训练矿山。

有些融资新闻看完就过去了,有些会让人停一下。General Intuition 这一轮属于后者。

一家从游戏视频平台 Medal 里拆出来的 AI 公司,刚拿到 3.2 亿美元融资,估值 23 亿美元。TechCrunch 报道说,它的 31 岁荷兰创始人 Pim de Witte 在纽约办公室里展示了一个正在玩类似《堡垒之夜》的智能体,又让同一个“脑子”去驱动一只四足机器人在办公室里走。这个画面最抓人的地方不是机器人会走,也不是游戏智能体能连续玩 100 个小时,而是这句话:同一个模型,既能理解屏幕里的空间,也能迁移到现实里的身体。

这就是让人忍不住说“原来还可以这样”的地方。过去我们总觉得具身智能的数据来自真实世界:机器人手臂要一遍遍抓杯子,自动驾驶车要一公里一公里跑,仓库机器人要在真实货架前犯错。真实数据当然重要,但它贵、慢、危险、规模有限。General Intuition 的想法是,先别急着把机器人放进真实世界,先去游戏世界里挖矿。

关键不是视频,是视频背后的动作

只拿游戏录像训练 AI,这件事并不新。OpenAI 在 2022 年做 Minecraft Video PreTraining 时,就用少量带键鼠标签的数据训练逆动力学模型,再给 7 万小时网络 Minecraft 视频补动作标签,最后让模型学会砍树、合成工作台,甚至通过微调学会做钻石工具。DeepMind 的 AlphaStar 也先从 StarCraft II 人类回放里做模仿学习,再进入多智能体强化学习。游戏一直是 AI 的训练场。

General Intuition 的不同点在于,它背靠 Medal。TechCrunch 报道称,Medal 每年产生约 20 亿条游戏视频,来自 1000 万月活玩家,横跨数万款游戏。更重要的是,这些不是普通 YouTube 或 Twitch 视频。Medal 的素材里带着玩家当时按了什么键、什么时候移动鼠标、什么时候转向、什么时候开枪、什么时候失败。

这层动作标签很要命。纯视频只告诉模型“发生了什么”,但动作标签告诉它“为什么发生”。一个角色从门口闪身进入房间,不只是画面变化,而是玩家在某一刻选择了前进、转向、跳跃、瞄准。模型如果能把视觉、动作、后果连起来,就开始接近具身智能最核心的东西:我在世界里做一个动作,世界会怎样回应。

这也是 de Witte 在采访里反复强调的点:很多竞争者试图从视频里反推动作,但他认为这还不够。General Intuition 要做的是带动作标签的空间-时间预训练。它不只是学“墙长什么样”,而是学“墙挡住我,梯子能让我上去,阴影会随着太阳变化”。

游戏世界为什么可能通向物理世界

游戏不是现实。这个前提一定要摆在前面。游戏物理有简化,角色不会真正受伤,摩擦、重量、触觉、传感器噪声都和现实不一样。所以不能说游戏数据能直接解决机器人。

但游戏有一个现实世界很难给的东西:低成本、高密度、带目标的交互。

人在游戏里不是随机走路。他在追敌人、躲子弹、找资源、穿过建筑、判断高低差、处理遮挡、利用地图。每一段录像都是“视觉输入—动作选择—环境反馈”的压缩片段。对于一个要学会行动的模型来说,这比静态图片和文字更接近生命。

OpenAI 当年说过,复杂电子游戏开始捕捉真实世界的混乱性和连续性,Dota 这类游戏有长时间跨度、团队协作和高维动作空间。DeepMind 也把 Atari、StarCraft 视为通向更广泛智能的测试场。Minecraft 研究里的 MineDojo 和 Voyager 又证明,开放世界游戏可以承载探索、技能积累、工具使用和长期目标。

General Intuition 把这个逻辑又往前推了一步:不是只在游戏里赢,而是把游戏当成训练“行动模型”的矿山,再把模型放进机器人、无人机、自动驾驶仿真、工厂数字孪生、游戏 NPC 里继续收反馈。

这对游戏公司,是一次资产重估

如果这个方向跑通,游戏公司的价值就不只是 DAU、付费率、皮肤收入、IP 授权。它们手里真正稀缺的,可能是可交互世界和人类行动轨迹。

一款游戏越开放,玩家越多,操作越丰富,录像越长,越可能变成空间-时间智能的数据源。过去这些数据只是复盘、直播、剪辑、社区传播;以后它可能进入 AI 训练供应链。

这会改变游戏产业和物理 AI 产业之间的关系。游戏公司不再只是内容公司,也可能变成仿真环境公司、行为数据公司、世界模型基础设施公司。具身智能公司也不必只盯着昂贵的真实机器人数据,可以从虚拟世界拿到更多预训练素材,再用少量真实数据做校准。TechCrunch 里一个细节很有意思:General Intuition 展示的四足机器人,据称只用了 8 分钟真实机器人数据做微调。这个数字还需要更多公开验证,但方向已经很清楚:真实数据负责对齐,虚拟数据负责打底。

游戏数据到世界模型再到机器人应用的数据飞轮
游戏数据、世界模型、动作模型和真实机器人之间,一旦形成飞轮,两个产业的边界会变得很薄。

不止具身智能,大模型也会被这个思路影响

这件事最值得兴奋的地方,是它把“训练数据”的想象力打开了。

过去大模型吃的是文本、网页、代码、图片、视频。它们知道很多,但很多时候是旁观者视角。游戏录像加动作标签不一样,它天然包含意图、决策、失败、反馈、时间顺序和因果。

这类数据未必只能训练机器人。它也可能训练更强的电脑使用智能体、游戏内智能 NPC、自动测试系统、3D 内容生成工具、数字人、模拟经营系统,甚至训练大模型理解“如果我现在做 A,下一步世界会怎么变”。语言模型擅长解释世界,但行动模型要学会参与世界。游戏数据刚好站在两者中间。

当然,坑也很多。版权和玩家授权怎么处理?游戏里的物理规律如何迁移到现实?模型学到的是技巧还是幻觉?不同游戏的动作空间如何统一?真实机器人遇到触觉、重力、硬件故障时怎么办?这些都不是一轮融资能解决的。

但好点子本来就不是没有风险的点子。好点子是让你突然看到一条新路。General Intuition 让人兴奋的地方,正是它把游戏从“娱乐内容”变成了“行动智能的预训练世界”。

真正的大门刚打开

如果说文本互联网训练出了会说话、会写代码、会推理的模型,那么游戏互联网可能训练出更会行动、更懂空间、更能预测后果的模型。

这对具身智能公司是降本,对游戏公司是重估,对大模型公司是补课。虚拟世界不再只是现实世界的替代品,它可能变成现实世界的训练场。

所以这条新闻不只是 3.2 亿美元融资,也不只是一个 31 岁创始人的新故事。它真正有意思的地方是:游戏里的每一次跳跃、转身、失败和重来,都可能成为未来机器理解现实的一小块砖。以前我们说游戏是浪费时间。现在看,游戏可能是在替物理 AI 积累时间。

参考资料

More from WayDigital

Continue through other published articles from the same publisher.

Comments

0 public responses

No comments yet. Start the discussion.
Log in to comment

All visitors can read comments. Sign in to join the discussion.

Log in to comment
Tags
Attachments
  • No attachments