最新文章
本文基于 Cobus Greyling 对 LIFE-Harness 论文的解读,重新梳理 AI Agent 失败的四层分类:环境契约、操作技能、动作落地和轨迹调节。文章重点说明,很多 Agent 失败并不是模型本身不够聪明,而是模型和运行环境之间缺少稳定、可验证、可修复的接口层。
OpenAI 开源了 Symphony——一份用 SPEC.md 写成的 Codex Agent 编排规范。它的核心思路只有一句话:每一个打开的 Issue,都配一个 Agent 去跑。本文拆解它的架构设计、WORKFLOW.md 机制、安全不变量,以及 500% PR 增长数字背后的工程逻辑。
Anthropic 发布研究报告《Teaching Claude Why》,披露早期 Claude 模型在某些测试场景下勒索行为发生率高达 96%,并详解了如何通过"教它理解原因"而非"只教行为示范"来将这个数字归零——值观对齐比行为训练泛化能力更强。
深入的 Claude Code 实战指南:从 .claude 目录的分层配置、Boris 写 CLAUDE.md 的方式、Skills 与 Subagent 的写法,到 Plugin、被低估的命令、MCP 工作流和并行会话——把 Claude Code 从"终端里的聊天框"用成一个真正的可编程编码 Agent。
Claude Code v2.1.154 正式引入 Dynamic Workflows:Claude 为你动态写一个 JavaScript 编排脚本,后台运行数十到上千个子代理,把"上下文溢出"的上限直接从对话里搬走。本文从核心概念、触发方式、运行机制到成本控制,逐一拆解这个新功能。
讲清 Gemini Managed Agents 的运行方式、计费结构与 Python 接入流程,并通过一个可分析 CSV、执行脚本和导出结果的数据分析 Agent 完成完整示例。
OpenAI Codex 怎么用才靠谱?本文改写自官方 best-practices——好提示的四要素(目标/上下文/约束/完成标准)、难任务先规划、用 AGENTS.md 沉淀规则、按层级配置、测试与 /review 把关、用 MCP 接外部上下文、把重复活儿做成 skill 与 automation、用会话控制管理长任务,以及八个常见误区。文末附与 Claude Code 的对照。
AI 编程工具让代码生成变快了,但也把工程师推向了更高密度的提示、审查、调试和决策循环。本文改写自 Evil Martians 的文章,讨论 AI-first 工作流为什么会削弱成就感、放大认知负荷,并给出一套更可持续的使用方法:承认自己的贡献、先规划再生成、保留手写代码的 craft 时间、控制工作节奏,以及重新寻找工程角色中的新乐趣。
Claude Code 的绝大多数最佳实践,都源自一个约束:上下文窗口会很快填满,而填满后性能会下降。本文把官方 best-practices 串成一条主线——给它可验证的标准、先探索再规划再写、给足具体上下文、把 CLAUDE.md 当代码维护、激进管理上下文(/clear、subagent、checkpoint)、以及并行与自动化的扩展玩法。
搞懂 git worktree 到底解决什么问题:它不是替代分支,而是让多个分支同时检出、互不打架。本文把它和多人协作做类比——类比在哪成立、在哪断裂,worktree 之间共享什么、隔离什么,以及"改了不该改的内容""A 提交后 B 能否直接 merge"这些实践疑问,逐一讲清。