软件工程的未来：Anthropic 与顶级科技巨头的闭门探讨

注：本文核心观点提炼自 Sivesh 与 Akash Bajwa 近期主办的一场关于“软件工程未来”的内部圆桌会议。参与者包括 Anthropic 的 Ash Prabaker，以及来自 Stripe、NVIDIA、Microsoft、Google DeepMind、xAI、Apple、Scale AI 的工程领导者，以及 OpenClaw/OpenAI 的传奇人物 Peter Steinberger。

引言

当我们在讨论 AI 如何改变编程时，前沿科技公司内部到底在发生什么？

近期的一场内部圆桌会议揭示了软件工程在 AI 时代最真实的演化路径。从 Claude Code 的早期终端 UI 实验，到如今自动分发 PR 的“闭环”智能体，软件开发的范式正在经历一场静悄悄却极其猛烈的革命。本文将带您深入了解这场变革中的核心洞察。

1. 核心引擎：递归改进的“闭环” (The Recursive Improvement Thesis)

贯穿整场讨论的一个核心主题，是**“闭环（closed-loop）”开发**。

有参与者分享了他们公司内部的系统：

智能体（Agent）自动对 Bug 报告进行分类
按严重程度分组
在评估集（eval set）中进行验证
最后自动提交修复 PR（Pull Request）

整个过程几乎不需要人类干预。

与会者普遍达成共识：真正的指数级增长来源于这种**“递归改进”**。更好的编程工具能帮助我们训练出更好的 AI 模型，而更好的模型反过来又会催生出更强大的编程工具。

正因如此，许多顶尖公司正将**“编程（Coding）”**作为当前最优先攻克的 AI 应用领域。

2. 开发者工作流的真实巨变

在日常工程实践中，一系列反直觉的改变正在发生：

测试先行（Test-first）成为默认标准：多位领导者表示，他们现在的做法是先定义好测试用例，然后让智能体去编写代码以通过测试。面对 AI 生成的海量 PR，这被认为是保持理智的唯一方法。
双层评估体系（Two tiers of evals）：必须保持 100% 通过率且在每个 PR 都会运行的“回归评估（Regression Evals）”，以及用于测试模型新能力的“前沿评估（Frontier Evals）”。
停止强制推行 AI：强迫开发者使用 AI 工具往往会引发反感。相反，通过黑客松或激励机制，让人们看到早期采用者的显著成果，自然而然地就能推动全员普及。
代码审查（Code Review）面临重构：有与会者承认，由于 AI 审查层已经做得足够好，人类审查员往往在几分钟内就会点击“通过”。强制性的人工审查最终将变得效率低下，甚至在某些代码库中，我们可能已经跨过了这个临界点。
“注释”的复兴（Comments are back）：这是一个极其有趣的文化反转。起初，工程师们非常讨厌 AI 生成的冗长注释；但现在风向变了，大家开始倾向于保留它们，因为下一个接手的 AI 智能体发现这些注释非常有用。

正如有人所说：“我们现在写代码，同样也是为了让 AI 读得懂。”
回归终端（Life in the terminal）：新的工作流变成了“制定计划 -> 验证计划 -> 智能体执行 -> 继续下一个任务”。开发者甚至不再逐行阅读生成的代码，当然，这仅限于非破坏性、非核心的基础设施代码。

3. 当前的瓶颈：长周期任务与上下文管理

尽管在产品开发上效率获得了指数级提升，但行业仍面临一些尚未解决的硬核难题：

长周期任务（Long-Horizon Tasks）：当我们分配给智能体一个需要运行 4 到 5 小时的复杂任务时，该如何监控它？如何在不当“保姆”的情况下让人类保持在环（Human-in-the-loop）？目前还没有完美的答案。
上下文管理（Context Management）：在成千上万名开发者每分钟都在修改代码的规模下，没有人能完美解决上下文管理。会议得出的一个共识是：人类编写的上下文文档很有帮助；但过时的、或由 AI 自动生成的上下文往往会帮倒忙。人类依然需要负责提供“核心洞察”。

4. 资本与赛道：内部 SaaS 正在被重构

AI 让所有事情的实现成本变得极低，这给传统的开发者工具（DevTools）和 SaaS 带来了巨大压力。

参与者们分享了他们已经在内部用 AI 替代掉的工具类别：

事件管理（Incident management）：因为外部供应商的工具对实际工作流来说太复杂了。
身份验证层（Auth layers）：过去需要几周的迁移工作，现在借助 AI 几个小时就能搞定。
项目追踪与微型工具：有人正在基于编程智能体构建自定义 UI 来管理工程进度。短链接等内部实用工具也是最容易被 AI 替代的目标。

趋势总结也非常明确：

目前被颠覆的主要是开发者工具，因为这是工程师最擅长且迭代最快的领域。
具有网络效应且面向业务的软件，例如 CRM，目前仍具备较高的护城河。

5. 新时代的招聘与代码标准

AI 的普及也从根本上改变了科技巨头的用人标准和代码审美：

招聘最看重什么？

不再是纯粹的代码能力，而是**“在技术最前沿不断实验的意愿”**。表现最出色的员工，是那些对模型的能力边界有深刻理解，知道何时该信任 AI 输出、何时该果断介入的人。
“好代码”的重新定义

过去“好代码”意味着简单、易维护、对人类友好。现在，它还必须具备**“AI 可读性”**。在实践中，强大的回归评估和测试先行纪律，已经比追求代码的“极致整洁”更加重要。
Rust 的崛起

有趣的是，有与会者指出初创公司中出现了转向 Rust 的趋势，部分原因是 AI 正在迅速抹平 Rust 曾经陡峭的学习曲线。

结语

从“写代码”到“系统规划与评估”，软件工程师的角色正在经历本质的变迁。在这场技术洪流中，最大的阻碍往往不是模型的能力，而是权限控制、沙盒环境以及传统企业对于数字转型的抗拒。

但毫无疑问，那些勇于站在最前沿、熟练驾驭 AI 的开发者，将在这个“一切皆为可选项（Everything is an option）”的新时代中脱颖而出。

原文链接：The Future Of Software Engineering with Anthropic

关于

📬 关注我获取更多资讯

📢 公众号

💬 个人号