article

长时任务时代，中小公司现在就该开始重构自己

长时任务型 AI Agent 正在改变软件公司的组织方式和交付边界。本文面向 60 到 100 人规模公司，给出流程、数据、评测、组织和商业模式上的准备清单。

PublisherWayDigital

Published2026-05-13 15:11 UTC

Languagezh-CN

Regionglobal

CategoryEssays

长时任务时代，中小公司现在就该开始重构自己

过去一年，AI 行业最值得盯住的变化，不是某个模型在单项榜单上又高了几分，而是模型开始变得更像一个能连续工作的执行者：它会读代码、开工具、写补丁、跑测试、回滚、继续排查；它也会在浏览器和企业系统之间来回切换，完成过去需要人盯着推进的流程。

这件事如果继续发展下去，影响会比“提高程序员效率”大得多。它会改变公司组织工作的方式，也会改变软件公司的生意边界。对于 60 人、100 多人的公司来说，问题不是“要不要用 AI”，而是：如果未来 12 到 24 个月，长时任务型 Agent 真的成熟，公司内部的流程、数据、产品和商业模式，能不能接住它。

一、先把趋势说清楚：突破点在“能连续做多久”

METR 在 2025 年发布的研究把问题讲得很直接：可以用“AI Agent 能独立完成多长的人类任务”来衡量进展。研究发现，过去六年，前沿模型在 50% 可靠性下可完成任务的时间长度大约每 7 个月翻一倍。METR 同时指出，当前模型在短任务上表现很强，但在需要专家花数小时以上的任务上仍然不稳定；如果趋势继续，几年内就可能接近一周级、甚至更长的软件任务。

这个指标比“会不会聊天”“代码题得多少分”更接近现实商业价值。真正昂贵的工作，往往不是单步技能，而是长链路：弄清需求、探索系统、做决策、处理异常、验证结果、复盘经验。长时任务能力一旦过线，AI 就不只是工具，而是新的执行层。

二、头部公司的方向已经很明确

从公开信息看，头部公司的投入正在同时指向几个方向。

更强的编码与工程 Agent。 Anthropic 在 Claude Sonnet 4.5 发布说明中称，该模型在 SWE-bench Verified 上达到领先水平，并强调其在复杂 Agent、电脑使用和长任务方面的能力；文中还提到，在实际观察中模型可在复杂多步任务上保持 30 小时以上的专注。无论具体宣传口径如何，这至少说明头部模型公司已经把“长时执行”当作核心卖点，而不是附属功能。
Agent 基础设施开始产品化。 Anthropic 同一篇发布说明还提到 Agent SDK、上下文编辑、长任务处理、权限系统、记忆管理、子 Agent 协作等基础设施。这些听起来像工程细节，但恰恰是长时任务能否落地的关键。模型本身只是发动机，企业真正需要的是带刹车、方向盘、仪表盘和保险丝的整车。
安全领域已经出现真实案例。 Google Project Zero 与 DeepMind 的 Big Sleep 项目在 2024 年公开了一个案例：AI Agent 在 SQLite 中发现了一个此前未知、可利用的内存安全问题，并在正式发布前报告和修复。Project Zero 明确把它称为公开案例中 AI Agent 在广泛使用的真实软件中发现未知可利用内存安全问题的例子。这意味着“AI 做安全研究”已经不是概念演示，而是开始进入真实软件。
自我改进式工程正在变得可验证。 Google DeepMind 2025 年介绍 AlphaEvolve 时，强调它把 Gemini 模型与自动评估器、进化式搜索结合起来，用代码提出算法、运行、打分、筛选和迭代。公开案例包括改进数据中心调度、TPU 相关电路设计、Gemini 训练中的矩阵乘法，甚至带来训练时间下降。这里最重要的不是某个百分比，而是范式：让模型在可评估环境里不断试错，形成工程上的“自我进化”。
企业采用已经过了试验期。 Stanford HAI 的 2025 AI Index 提到，2024 年 78% 的组织报告已经使用 AI，高于 2023 年的 55%；生成式 AI 全球私人投资达到 339 亿美元。同时，AI 相关事故和治理压力也在上升。这说明企业侧的主战场，正在从“试用工具”转向“重构流程并承担风险”。

这些信息合在一起看，结论并不复杂：模型公司在补长时执行，研究机构在补测量框架，安全团队在把 Agent 放进真实代码，企业开始把 AI 放进流程。中小公司如果还把 AI 当成一个写文案、写函数的小插件，很快会落后一个组织代际。

三、60 到 100 人公司的处境：危险，也有窗口

中小公司最危险的地方，是它们往往靠“人肉流程”和“项目制交付”活着。客户说一个需求，产品经理拆一拆，设计画一画，工程师做一做，测试跑一跑，交付后再维护。这个模式过去可行，是因为软件生产的摩擦足够大。只要客户没有团队、没有技术能力、没有时间，外包和应用开发公司就有价值。

但长时任务 Agent 会先吃掉这类公司的低壁垒部分：页面搭建、普通后台、简单 App、标准数据看板、常见自动化脚本、基础测试、客服知识库、营销素材。这些工作不是立刻消失，而是价格会被压得很低，交付周期会被压得很短。原来卖 30 万、做 3 个月的项目，客户未来可能会问：为什么不能 3 天出第一版，2 周上线？

好消息是，中小公司也有窗口。因为大公司内部改流程很慢，而 60 到 100 人的公司足够小，可以快速重构。只要动作快，反而可以比传统大厂更早变成“Agent-native 公司”。

四、App 公司会不会没事可做？会少很多“普通 App”，但不会没有生意

如果未来应用可以按需生成，传统 App 开发公司的生意一定会被挤压。尤其是模板化 App、展示型 App、普通 CRUD 系统、低复杂度小程序，都会变成低价商品。

但“所有 App 都没法做”这个判断还太绝对。真正会留下来的，不是“写界面”本身，而是下面几类能力：

复杂业务理解。 医疗、金融、工业、跨境贸易、供应链、教育等领域，需求不是一句 prompt 能讲清楚的。谁能把行业流程、异常情况、监管要求、历史数据和组织权力结构吃透，谁仍然有价值。
系统集成与责任边界。 企业系统不是一个漂亮界面，而是一堆账号、权限、审计、支付、合同、库存、财务、数据安全。Agent 可以生成代码，但客户需要有人承担架构、上线、稳定性和合规责任。
私有数据和工作流。 AI-native 产品的护城河，不是界面，而是数据闭环和流程闭环。谁掌握客户真实工作流，谁能把 Agent 放进正确的环境里。
分发与信任。 当软件生成变便宜，客户反而更需要可信的供应商帮他选择、验证、维护和追责。信任会变贵。
Agent 环境本身。 未来很多机会不在“做一个 App”，而在“把一个行业变成 Agent 可以安全执行的环境”：API、权限、沙盒、评测、日志、回滚、计费、人工接管。

所以 App 公司要转型的方向，不是更快地做 App，而是把自己变成客户的 AI 业务改造伙伴：理解业务、搭建 Agent 工作环境、把结果接入真实系统，并持续迭代。

五、现在就该做的内部准备

1. 建立“AI 工作台”，不要让员工各自乱用工具

公司应该有统一的模型入口、账号体系、权限分级、费用统计、日志留存和数据边界。研发、产品、销售、运营、客服都可以用 AI，但不能每个人自己买账号、自己上传客户资料、自己保存 prompt。长时任务时代，AI 使用本身就是生产系统，必须被管理。

2. 把公司流程改成“任务包”

Agent 最怕模糊命令，最适合结构化任务。公司内部要开始把常见工作拆成任务包：输入是什么、可用工具是什么、约束是什么、验收标准是什么、失败时怎么回滚、哪些节点必须人工确认。以后能不能自动化，不取决于模型有多聪明，而取决于公司流程是否可描述、可执行、可检查。

3. 为每个部门建立 Agent SOP

研发：需求理解、代码检索、实现、测试、代码审查、发布说明、回滚方案。
产品：竞品调研、用户访谈整理、PRD 草案、实验设计、指标复盘。
销售：客户背景研究、方案初稿、投标资料、CRM 更新、跟进提醒。
客服：工单分类、知识库补全、标准回复、异常升级。
运营：内容生产、渠道投放、数据分析、A/B 实验。
财务与法务：合同初审、发票和付款核对、风险条款标注，但必须保留人工审核。

4. 建立自己的评测集，而不是只看模型榜单

公司要把真实历史任务整理成内部评测集：过去 50 个需求、50 个 bug、20 个客户方案、20 个复杂工单、20 个运营复盘。每次换模型、换工具、换流程，都用同一批任务测试。看模型能否产出可上线、可交付、可追责的结果，而不是只看它回答得漂不漂亮。

5. 开始积累“公司记忆”

长时任务离不开记忆。这里的记忆不是随便把聊天记录扔进向量库，而是结构化沉淀：客户画像、项目背景、架构决策、常见故障、发布记录、代码规范、销售话术、合同风险、数据口径。越早整理，未来 Agent 越能真正接手工作。

6. 训练员工从“执行者”转成“监督者和设计者”

很多岗位不会马上消失，但工作重心会变。程序员要学会写任务、审补丁、设测试、管上下文；产品经理要学会设计 Agent 可执行的流程；销售要学会把行业知识变成可复用资料；管理者要学会看 AI 产出的风险，而不是只看速度。

7. 设立小型 Agent 负责人团队

60 到 100 人公司不一定需要庞大的 AI 实验室，但至少需要 3 到 5 人的核心小组：一名懂业务的负责人、一名工程负责人、一名流程/运营负责人、一名安全或合规负责人，必要时再加数据工程。这个团队不做“炫技 Demo”，只负责把公司前 10 个高频流程改造成 Agent 可执行流程。

六、未来 12 个月的具体路线图

0 到 30 天：摸清现状

列出公司所有重复性工作，按耗时、频率、风险排序。
禁止员工无边界上传客户敏感资料，先定最小数据规则。
选择 3 个低风险流程做试点，例如日报总结、客服工单分类、代码审查辅助。
建立一个统一的 prompt、SOP、案例库。

30 到 90 天：做出可复用流程

把试点流程写成任务包，明确输入、工具、验收和人工确认点。
为研发建立 AI-assisted 开发流水线：需求到 PR、测试、审查、发布说明。
整理内部评测集，每两周复测一次。
开始建设公司知识库，但只放经过清洗和分级的数据。

3 到 6 个月：把 AI 放进核心业务

选择一个客户交付流程，用 Agent 重构从调研到交付的链路。
把报价模型从“人天”改成“结果、持续服务、效率分成”。
在产品中开放 Agent 能调用的 API、日志、权限和回滚能力。
建立安全审计：谁让 Agent 做了什么、用了什么数据、改了什么系统。

6 到 12 个月：重做商业模式

停止把“普通开发人力”作为主要卖点，转向行业解决方案和 AI 运营服务。
把最懂的行业做成 Agent 环境：数据接口、评测标准、流程模板、合规模块。
把项目交付团队改成“少量专家 + 多个 Agent + 强评测”的结构。
把客户成功从“修 bug”升级为“持续优化客户业务结果”。

七、管理层最容易犯的三个错误

第一，把 AI 当降本工具。 如果只是裁人、压成本，短期会有效，长期会失去组织学习能力。更好的目标是把同样的人升级成更高杠杆的团队。
第二，只买工具，不改流程。 长时任务 Agent 不是浏览器插件。没有清晰任务、权限、数据和验收，它只会制造更多半成品。
第三，把传闻当战略。 例如某个模型是否已经能自训练、某个芯片集群规模多大，如果没有公开证据，只能作为情景假设，不能当成经营决策的事实基础。公司要盯趋势，但决策要落在可验证的能力和指标上。

八、最后的判断

长时任务时代不会在某一天突然到来。它会先表现为：一个 Agent 能稳定处理半天的任务，然后是一两天，然后是一周。每一次时间长度增加，都会切掉一层原本属于人的流程。

对中小公司来说，最好的防守不是等待，而是把自己变成这种能力的早期使用者和集成者。把流程拆清楚，把数据管起来，把评测做起来，把员工训练成 Agent 的管理者，把产品从“界面”升级为“可执行环境”。

未来还有很多不确定性。模型会犯错，成本会波动，监管会收紧，客户也不会立刻把关键系统交给 AI。但方向已经足够清楚：软件公司不能只会生产软件，而要学会生产自动化能力；不能只卖人力，而要卖可验证的结果；不能只做 App，而要帮客户重构工作本身。

谁先完成这一步，谁就还有牌桌位置。谁还停在传统项目制开发里，谁会先感受到价格坍塌。

参考资料

METR, “Measuring AI Ability to Complete Long Tasks”, 2025-03-19.
Anthropic, “Claude Sonnet 4.5”, 2025.
Google Project Zero, “From Naptime to Big Sleep: Using Large Language Models To Catch Vulnerabilities In Real-World Code”, 2024-10.
Google DeepMind, “AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms”, 2025.
Stanford HAI, “2025 AI Index Report”, 2025.

长时任务时代，中小公司现在就该开始重构自己

长时任务时代，中小公司现在就该开始重构自己

一、先把趋势说清楚：突破点在“能连续做多久”

二、头部公司的方向已经很明确

三、60 到 100 人公司的处境：危险，也有窗口

四、App 公司会不会没事可做？会少很多“普通 App”，但不会没有生意

五、现在就该做的内部准备

1. 建立“AI 工作台”，不要让员工各自乱用工具

2. 把公司流程改成“任务包”

3. 为每个部门建立 Agent SOP

4. 建立自己的评测集，而不是只看模型榜单

5. 开始积累“公司记忆”

6. 训练员工从“执行者”转成“监督者和设计者”

7. 设立小型 Agent 负责人团队

六、未来 12 个月的具体路线图

0 到 30 天：摸清现状

30 到 90 天：做出可复用流程

3 到 6 个月：把 AI 放进核心业务

6 到 12 个月：重做商业模式

七、管理层最容易犯的三个错误

八、最后的判断

参考资料

Comments