Claude Managed Agents:Anthropic 为长周期 Agent 准备的托管执行层
Lance Martin 用一条长帖梳理了 Claude Managed Agents 的定位、核心概念、适用场景,以及它为何适合长周期 agent 任务。
Claude Managed Agents:Anthropic 为长周期 Agent 准备的托管执行层
这条 X 帖子是 Lance Martin 对 Claude Managed Agents 的一篇导读,重点不是重复产品文案,而是从 agent harness、长周期任务和基础设施设计的角度,解释为什么 Anthropic 要把这套能力做成一个托管系统。
原帖链接:https://x.com/rlancemartin/status/2041927992986009773?s=46
一句话总结
Claude Managed Agents 是一个预构建、可配置、运行在托管基础设施上的 agent harness。
你负责定义 agent 模板,比如:
- 要用什么模型
- system prompt 是什么
- 用哪些 tools
- 挂哪些 skills
- 需要哪些文件、仓库或 MCP 服务
而真正负责执行的 harness 和底层基础设施,由 Anthropic 来提供和维护。
这套系统的目标,是随着 Claude 智能能力持续提升而同步演进,同时更稳地支持长周期任务。
为什么 Anthropic 要做 Managed Agents
Lance Martin 认为,直接基于 Claude Messages API 搭 agent 时,虽然灵活,但你必须自己处理很多脏活累活:
- 工具调用怎么路由
- 上下文怎么管理
- harness 怎么随着模型升级持续更新
- 长时间运行时如何处理故障恢复、安全边界和扩展性
这里有两个核心挑战。
1. Harness 很容易过时
他提到,agent harness 往往隐含了很多“Claude 现在还做不到什么”的假设。问题是,Claude 的能力在快速增强,这些假设会很快过期,甚至反过来限制 Claude 表现。
也就是说,harness 如果不持续更新,最终可能不是增强器,而是瓶颈。
2. Claude 的任务时长在快速增长
Claude 能处理的 task horizon 正在指数级增长。帖子里提到,它在 METR benchmark 上已经超过 10 个小时的人类工作时长。
一旦任务从几分钟拉长到几小时、几天甚至几周,agent 周围的基础设施就必须更可靠:
- 要能承受长时间运行中的基础设施故障
- 要有安全隔离
- 要能扩展到多个 agent 团队并发工作
- 要能把会话状态、凭证和执行环境稳定管理起来
Anthropic 判断,未来 Claude 可能要在人类最重要的问题上连续工作数天、数周甚至数月,所以这些能力不能再靠临时拼装。
Managed Agents 在产品演进中的位置
Lance 认为,Claude Agent SDK 是第一步,它提供了一个通用且很优秀的 agent harness。
而 Claude Managed Agents 是下一步,它不只是给你一个 SDK,而是直接把 harness 和配套基础设施一起托管起来,让系统可以更安全、更可靠地支持更长任务周期的执行。
怎么开始使用
帖子里给了一个很直接的上手方式:使用 Anthropic 开源的 claude-api skill,在 Claude Code 中快速完成 Claude Managed Agents 的 onboarding。
示例命令是:
$ claude update
$ claude
/claude-api managed-agents-onboarding
除此之外,也可以直接参考官方文档,用 SDK 或 CLI 来创建 agent、environment 和 session。
常见使用场景
Lance 总结了几个他观察到的典型模式。
1. Event-triggered
由某个系统事件触发 Managed Agent 执行任务。
例如:
- 系统检测到 bug
- Managed Agent 自动写补丁
- 自动创建 PR
这个流程中,触发到执行之间不需要人工介入。
2. Scheduled
按计划定时运行 Managed Agent。
例如:
- 每日 X 活动简报
- GitHub 动态汇总
- 团队中一组 agent 的每日工作进展总结
他提到自己和很多人都在这么使用。
3. Fire-and-forget
人类发起任务,然后等待 agent 返回结果。
例如:
- 在 Slack 或 Teams 中给 Managed Agent 派任务
- 最后收回表格、幻灯片、应用或其他交付物
4. Long-horizon tasks
这是他认为 Managed Agents 最有潜力的方向之一。
也就是那些真正会跑很久的任务,例如:
- 深度研究
- 多阶段探索式开发
- 自动化内容整理与分析
- 需要多轮工具调用和较强恢复能力的复杂工作流
帖子里还举了一个例子,他 fork 了 Karpathy 的 auto-research repo,并尝试让 Managed Agent 探索不同思路,包括把 pretext library 用到 Anthropic 工程博客内容上。
三个最重要的概念
他特别强调,初次接触时要先搞懂三个核心对象:
1. Agent
一个版本化配置,定义 agent 的身份和能力,例如:
- model
- system prompt
- tools
- skills
- MCP servers
你创建一次,以后通过 ID 引用。
2. Environment
一个模板,用来描述 agent 的工具运行时所需的 sandbox 如何被创建,例如:
- runtime 类型
- 网络策略
- 包配置
3. Session
一次有状态的实际执行。
Session 会:
- 根据 environment 模板创建新的 sandbox
- 挂载本次运行需要的文件或 GitHub 仓库
- 把认证信息放到安全 vault 中,例如 MCP credentials
你可以这样理解:
- Agent 是配置
- Environment 是 sandbox 模板
- Session 是一次具体运行
一个 agent 可以对应很多个 session。
推荐的使用方式
帖子建议把 CLI 和 SDK 配合起来用:
- CLI 适合做资源创建和管理,像 agents、environments、sessions、vaults、skills、files 都有对应子命令
- SDK 适合在应用运行时调用
一个比较实用的模式是:
- 先用 CLI 建好 agent 模板
- 把模板配置保存到 Git 里,比如 YAML
- 再在部署流程里应用这些配置
- 运行时由 SDK 驱动 session
底层设计思路
这条帖子也简要概括了 Anthropic 工程博客里讲到的实现哲学。
核心不是设计一个永远正确的 harness,而是承认 harness 会持续变化,因此要把系统拆成三个低耦合部分:
- Brain:Claude 和 harness
- Hands:执行动作的 sandbox 与 tools
- Session:记录会话事件的日志
这样做的好处是:
- 每一层都可以独立失败和恢复
- 不会因为某个 sandbox 或 harness 崩掉就丢掉整个状态
- 更容易扩展到未来的新 sandbox、新执行环境和新 harness
- 让系统在可靠性、安全性和灵活性上都更强
我的理解
如果把这条帖子翻成更工程一点的话,它想表达的是:
Anthropic 正在把 agent 从“你自己拼出来的一套脚手架”变成 Claude API 里的核心原语。
开发者不再需要自己维护整套随模型能力变化而不断失效的 harness,而是可以在一个更稳定的托管层上,去探索:
- 多 agent 编排
- 长时间运行任务
- 自动化研究
- 生产级工具链接入
- 面向企业和团队的 agent 工作流
这也是 Lance 最后表达兴奋点的地方。因为过去一个长期痛点,就是 agent harness 总在追着模型能力跑,而 Managed Agents 试图把这件事从开发者手里接过去。
总结
Claude Managed Agents 不是单纯的“又一个 agent SDK 功能”,而是 Anthropic 对 agent 基础设施的一次升级:
- 让开发者把重点放在 agent 本身,而不是底层 harness 维护
- 用托管基础设施承接长周期、高可靠性任务
- 用 agent、environment、session 三个核心对象组织整个运行体系
- 为未来更强的 Claude 和更复杂的多 agent 场景提前铺路
如果你正在做 agent 产品、自动化工作流,或者希望把 Claude 真正接入长期运行的生产任务,这条帖子本身就很值得读,它相当于给 Managed Agents 提供了一个非常清晰的产品化入口。
Comments
0 public responses
All visitors can read comments. Sign in to join the discussion.
Log in to comment