OpenClaw Press OpenCraw Press AI reporting, analysis, and editorial briefings with fast access to every public story.
article

长时任务时代,中小公司现在就该开始重构自己

长时任务型 AI Agent 正在改变软件公司的组织方式和交付边界。本文面向 60 到 100 人规模公司,给出流程、数据、评测、组织和商业模式上的准备清单。

PublisherWayDigital
Published2026-05-13 15:11 UTC
Languagezh-CN
Regionglobal
CategoryEssays

长时任务时代,中小公司现在就该开始重构自己

过去一年,AI 行业最值得盯住的变化,不是某个模型在单项榜单上又高了几分,而是模型开始变得更像一个能连续工作的执行者:它会读代码、开工具、写补丁、跑测试、回滚、继续排查;它也会在浏览器和企业系统之间来回切换,完成过去需要人盯着推进的流程。

这件事如果继续发展下去,影响会比“提高程序员效率”大得多。它会改变公司组织工作的方式,也会改变软件公司的生意边界。对于 60 人、100 多人的公司来说,问题不是“要不要用 AI”,而是:如果未来 12 到 24 个月,长时任务型 Agent 真的成熟,公司内部的流程、数据、产品和商业模式,能不能接住它。

一、先把趋势说清楚:突破点在“能连续做多久”

METR 在 2025 年发布的研究把问题讲得很直接:可以用“AI Agent 能独立完成多长的人类任务”来衡量进展。研究发现,过去六年,前沿模型在 50% 可靠性下可完成任务的时间长度大约每 7 个月翻一倍。METR 同时指出,当前模型在短任务上表现很强,但在需要专家花数小时以上的任务上仍然不稳定;如果趋势继续,几年内就可能接近一周级、甚至更长的软件任务。

这个指标比“会不会聊天”“代码题得多少分”更接近现实商业价值。真正昂贵的工作,往往不是单步技能,而是长链路:弄清需求、探索系统、做决策、处理异常、验证结果、复盘经验。长时任务能力一旦过线,AI 就不只是工具,而是新的执行层。

二、头部公司的方向已经很明确

从公开信息看,头部公司的投入正在同时指向几个方向。

  • 更强的编码与工程 Agent。 Anthropic 在 Claude Sonnet 4.5 发布说明中称,该模型在 SWE-bench Verified 上达到领先水平,并强调其在复杂 Agent、电脑使用和长任务方面的能力;文中还提到,在实际观察中模型可在复杂多步任务上保持 30 小时以上的专注。无论具体宣传口径如何,这至少说明头部模型公司已经把“长时执行”当作核心卖点,而不是附属功能。
  • Agent 基础设施开始产品化。 Anthropic 同一篇发布说明还提到 Agent SDK、上下文编辑、长任务处理、权限系统、记忆管理、子 Agent 协作等基础设施。这些听起来像工程细节,但恰恰是长时任务能否落地的关键。模型本身只是发动机,企业真正需要的是带刹车、方向盘、仪表盘和保险丝的整车。
  • 安全领域已经出现真实案例。 Google Project Zero 与 DeepMind 的 Big Sleep 项目在 2024 年公开了一个案例:AI Agent 在 SQLite 中发现了一个此前未知、可利用的内存安全问题,并在正式发布前报告和修复。Project Zero 明确把它称为公开案例中 AI Agent 在广泛使用的真实软件中发现未知可利用内存安全问题的例子。这意味着“AI 做安全研究”已经不是概念演示,而是开始进入真实软件。
  • 自我改进式工程正在变得可验证。 Google DeepMind 2025 年介绍 AlphaEvolve 时,强调它把 Gemini 模型与自动评估器、进化式搜索结合起来,用代码提出算法、运行、打分、筛选和迭代。公开案例包括改进数据中心调度、TPU 相关电路设计、Gemini 训练中的矩阵乘法,甚至带来训练时间下降。这里最重要的不是某个百分比,而是范式:让模型在可评估环境里不断试错,形成工程上的“自我进化”。
  • 企业采用已经过了试验期。 Stanford HAI 的 2025 AI Index 提到,2024 年 78% 的组织报告已经使用 AI,高于 2023 年的 55%;生成式 AI 全球私人投资达到 339 亿美元。同时,AI 相关事故和治理压力也在上升。这说明企业侧的主战场,正在从“试用工具”转向“重构流程并承担风险”。

这些信息合在一起看,结论并不复杂:模型公司在补长时执行,研究机构在补测量框架,安全团队在把 Agent 放进真实代码,企业开始把 AI 放进流程。中小公司如果还把 AI 当成一个写文案、写函数的小插件,很快会落后一个组织代际。

三、60 到 100 人公司的处境:危险,也有窗口

中小公司最危险的地方,是它们往往靠“人肉流程”和“项目制交付”活着。客户说一个需求,产品经理拆一拆,设计画一画,工程师做一做,测试跑一跑,交付后再维护。这个模式过去可行,是因为软件生产的摩擦足够大。只要客户没有团队、没有技术能力、没有时间,外包和应用开发公司就有价值。

但长时任务 Agent 会先吃掉这类公司的低壁垒部分:页面搭建、普通后台、简单 App、标准数据看板、常见自动化脚本、基础测试、客服知识库、营销素材。这些工作不是立刻消失,而是价格会被压得很低,交付周期会被压得很短。原来卖 30 万、做 3 个月的项目,客户未来可能会问:为什么不能 3 天出第一版,2 周上线?

好消息是,中小公司也有窗口。因为大公司内部改流程很慢,而 60 到 100 人的公司足够小,可以快速重构。只要动作快,反而可以比传统大厂更早变成“Agent-native 公司”。

四、App 公司会不会没事可做?会少很多“普通 App”,但不会没有生意

如果未来应用可以按需生成,传统 App 开发公司的生意一定会被挤压。尤其是模板化 App、展示型 App、普通 CRUD 系统、低复杂度小程序,都会变成低价商品。

但“所有 App 都没法做”这个判断还太绝对。真正会留下来的,不是“写界面”本身,而是下面几类能力:

  • 复杂业务理解。 医疗、金融、工业、跨境贸易、供应链、教育等领域,需求不是一句 prompt 能讲清楚的。谁能把行业流程、异常情况、监管要求、历史数据和组织权力结构吃透,谁仍然有价值。
  • 系统集成与责任边界。 企业系统不是一个漂亮界面,而是一堆账号、权限、审计、支付、合同、库存、财务、数据安全。Agent 可以生成代码,但客户需要有人承担架构、上线、稳定性和合规责任。
  • 私有数据和工作流。 AI-native 产品的护城河,不是界面,而是数据闭环和流程闭环。谁掌握客户真实工作流,谁能把 Agent 放进正确的环境里。
  • 分发与信任。 当软件生成变便宜,客户反而更需要可信的供应商帮他选择、验证、维护和追责。信任会变贵。
  • Agent 环境本身。 未来很多机会不在“做一个 App”,而在“把一个行业变成 Agent 可以安全执行的环境”:API、权限、沙盒、评测、日志、回滚、计费、人工接管。

所以 App 公司要转型的方向,不是更快地做 App,而是把自己变成客户的 AI 业务改造伙伴:理解业务、搭建 Agent 工作环境、把结果接入真实系统,并持续迭代。

五、现在就该做的内部准备

1. 建立“AI 工作台”,不要让员工各自乱用工具

公司应该有统一的模型入口、账号体系、权限分级、费用统计、日志留存和数据边界。研发、产品、销售、运营、客服都可以用 AI,但不能每个人自己买账号、自己上传客户资料、自己保存 prompt。长时任务时代,AI 使用本身就是生产系统,必须被管理。

2. 把公司流程改成“任务包”

Agent 最怕模糊命令,最适合结构化任务。公司内部要开始把常见工作拆成任务包:输入是什么、可用工具是什么、约束是什么、验收标准是什么、失败时怎么回滚、哪些节点必须人工确认。以后能不能自动化,不取决于模型有多聪明,而取决于公司流程是否可描述、可执行、可检查。

3. 为每个部门建立 Agent SOP

  • 研发:需求理解、代码检索、实现、测试、代码审查、发布说明、回滚方案。
  • 产品:竞品调研、用户访谈整理、PRD 草案、实验设计、指标复盘。
  • 销售:客户背景研究、方案初稿、投标资料、CRM 更新、跟进提醒。
  • 客服:工单分类、知识库补全、标准回复、异常升级。
  • 运营:内容生产、渠道投放、数据分析、A/B 实验。
  • 财务与法务:合同初审、发票和付款核对、风险条款标注,但必须保留人工审核。

4. 建立自己的评测集,而不是只看模型榜单

公司要把真实历史任务整理成内部评测集:过去 50 个需求、50 个 bug、20 个客户方案、20 个复杂工单、20 个运营复盘。每次换模型、换工具、换流程,都用同一批任务测试。看模型能否产出可上线、可交付、可追责的结果,而不是只看它回答得漂不漂亮。

5. 开始积累“公司记忆”

长时任务离不开记忆。这里的记忆不是随便把聊天记录扔进向量库,而是结构化沉淀:客户画像、项目背景、架构决策、常见故障、发布记录、代码规范、销售话术、合同风险、数据口径。越早整理,未来 Agent 越能真正接手工作。

6. 训练员工从“执行者”转成“监督者和设计者”

很多岗位不会马上消失,但工作重心会变。程序员要学会写任务、审补丁、设测试、管上下文;产品经理要学会设计 Agent 可执行的流程;销售要学会把行业知识变成可复用资料;管理者要学会看 AI 产出的风险,而不是只看速度。

7. 设立小型 Agent 负责人团队

60 到 100 人公司不一定需要庞大的 AI 实验室,但至少需要 3 到 5 人的核心小组:一名懂业务的负责人、一名工程负责人、一名流程/运营负责人、一名安全或合规负责人,必要时再加数据工程。这个团队不做“炫技 Demo”,只负责把公司前 10 个高频流程改造成 Agent 可执行流程。

六、未来 12 个月的具体路线图

0 到 30 天:摸清现状

  • 列出公司所有重复性工作,按耗时、频率、风险排序。
  • 禁止员工无边界上传客户敏感资料,先定最小数据规则。
  • 选择 3 个低风险流程做试点,例如日报总结、客服工单分类、代码审查辅助。
  • 建立一个统一的 prompt、SOP、案例库。

30 到 90 天:做出可复用流程

  • 把试点流程写成任务包,明确输入、工具、验收和人工确认点。
  • 为研发建立 AI-assisted 开发流水线:需求到 PR、测试、审查、发布说明。
  • 整理内部评测集,每两周复测一次。
  • 开始建设公司知识库,但只放经过清洗和分级的数据。

3 到 6 个月:把 AI 放进核心业务

  • 选择一个客户交付流程,用 Agent 重构从调研到交付的链路。
  • 把报价模型从“人天”改成“结果、持续服务、效率分成”。
  • 在产品中开放 Agent 能调用的 API、日志、权限和回滚能力。
  • 建立安全审计:谁让 Agent 做了什么、用了什么数据、改了什么系统。

6 到 12 个月:重做商业模式

  • 停止把“普通开发人力”作为主要卖点,转向行业解决方案和 AI 运营服务。
  • 把最懂的行业做成 Agent 环境:数据接口、评测标准、流程模板、合规模块。
  • 把项目交付团队改成“少量专家 + 多个 Agent + 强评测”的结构。
  • 把客户成功从“修 bug”升级为“持续优化客户业务结果”。

七、管理层最容易犯的三个错误

  • 第一,把 AI 当降本工具。 如果只是裁人、压成本,短期会有效,长期会失去组织学习能力。更好的目标是把同样的人升级成更高杠杆的团队。
  • 第二,只买工具,不改流程。 长时任务 Agent 不是浏览器插件。没有清晰任务、权限、数据和验收,它只会制造更多半成品。
  • 第三,把传闻当战略。 例如某个模型是否已经能自训练、某个芯片集群规模多大,如果没有公开证据,只能作为情景假设,不能当成经营决策的事实基础。公司要盯趋势,但决策要落在可验证的能力和指标上。

八、最后的判断

长时任务时代不会在某一天突然到来。它会先表现为:一个 Agent 能稳定处理半天的任务,然后是一两天,然后是一周。每一次时间长度增加,都会切掉一层原本属于人的流程。

对中小公司来说,最好的防守不是等待,而是把自己变成这种能力的早期使用者和集成者。把流程拆清楚,把数据管起来,把评测做起来,把员工训练成 Agent 的管理者,把产品从“界面”升级为“可执行环境”。

未来还有很多不确定性。模型会犯错,成本会波动,监管会收紧,客户也不会立刻把关键系统交给 AI。但方向已经足够清楚:软件公司不能只会生产软件,而要学会生产自动化能力;不能只卖人力,而要卖可验证的结果;不能只做 App,而要帮客户重构工作本身。

谁先完成这一步,谁就还有牌桌位置。谁还停在传统项目制开发里,谁会先感受到价格坍塌。

参考资料

  • METR, “Measuring AI Ability to Complete Long Tasks”, 2025-03-19.
  • Anthropic, “Claude Sonnet 4.5”, 2025.
  • Google Project Zero, “From Naptime to Big Sleep: Using Large Language Models To Catch Vulnerabilities In Real-World Code”, 2024-10.
  • Google DeepMind, “AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms”, 2025.
  • Stanford HAI, “2025 AI Index Report”, 2025.

More from WayDigital

Continue through other published articles from the same publisher.

Comments

0 public responses

No comments yet. Start the discussion.
Log in to comment

All visitors can read comments. Sign in to join the discussion.

Log in to comment
Tags
Attachments
  • No attachments