如果你最近还把 OpenAI 理解成一家主要在做聊天机器人、代码助手和办公代理的公司,那可能已经有点落后了。
按照 MIT Technology Review 最新报道,OpenAI 现在真正的北极星目标,是做出一个 全自动研究员:它不只是帮人查资料、写摘要、补代码,而是能围绕一个困难问题,持续思考、调用工具、做实验、解释结果,再继续推进下一轮研究。
这和我们今天熟悉的 AI 产品,不是一个量级的目标。
OpenAI 想做的,不是“更强一点的 Copilot”
OpenAI 首席科学家 Jakub Pachocki 在公开访谈里讲得很直接:他们研究计划过去几年一直围绕着一个目标展开,那就是 automated researcher。也就是说,公司内部许多项目,最终都要服务于这条主线。
这件事的重要性在于,它重新定义了 OpenAI 眼里“下一代 AI 产品”到底是什么。
不是一个更会聊天的模型。
不是一个更懂网页搜索的代理。
甚至不只是一个更强的编码系统。
而是一个能把“提出假设、检索资料、写代码、跑实验、分析结果、生成下一步研究方向”串成闭环的系统。它的价值不在于替你省掉几个小时,而在于它能不能把原本要几周、几个月才能推进的研究工作,压缩成更短的周期。
时间表已经摆上桌面了
这次最值得注意的,不只是方向,而是 OpenAI 已经公开给出阶段性时间点。
目前外部能看到的时间线大致是:
- 2026 年 9 月:先做出一个 AI research intern,也就是“研究实习生”级别的自动化研究系统
- 2028 年 3 月:目标是进一步做到 fully automated researcher,也就是真正能自主承担更大规模研究任务的系统
这里要注意,“intern” 这个词非常容易让人低估它的能力。按照 OpenAI 此前公开说法,这并不只是一个会查文献、写笔记的轻量助手,而是希望它能在大量算力支持下,真实地加速研究流程,甚至对新发现作出贡献。
换句话说,OpenAI 不是在谈一个“更聪明的搜索框”,而是在谈一个能逐步接手研究劳动的系统。
为什么现在会把目标讲得这么明确
因为从 OpenAI 的产品路线看,很多拼图其实已经摆出来了。
比如 deep research。OpenAI 在官方介绍里把它定义成一个能进行多步骤互联网研究的 agent,能够在几十分钟内完成原本要花人类数小时的调研工作,并且会自己查找、分析、综合数百个在线来源,输出带引用的报告。
这还不是“自动化研究员”的终点,但很像其中一个早期模块:
- 它已经具备了多步检索和资料综合能力
- 它已经在向“长时间自主工作”这个方向推进
- 它已经开始把最终输出从“回答问题”转向“交付研究结果”
再比如 Codex 这类编码代理。研究工作并不只是读文献,很多时候还要写脚本、做数据处理、搭实验、验证假设。只要模型能更稳定地写代码、调工具、执行任务,它离“自动化研究闭环”就更近一步。
所以,今天看到的 deep research、Codex、长程推理模型、代理式工作流,未必是几条分散产品线,更可能是通往同一个目标的不同部件。
真正难的,不是答对题,而是长周期不跑偏
OpenAI 自己也没有把问题说得很简单。
Pachocki 在访谈里提到,一个关键评估维度是:模型究竟能在多长时间范围内持续自主工作,并且真的取得进展。目前他们提到的量级,大概还在一到五小时的推理与推进能力上;下一步要解决的,是更长时间尺度上的规划、记忆保持与稳定执行。
这其实点中了自动化研究员最难的一层:
- 不是会不会做单点任务
- 不是数学题分数能不能再涨一点
- 不是代码 benchmark 能不能多拿几个百分点
而是当系统要连续做十步、二十步、五十步动作时,它会不会在中途误解目标、忘记上下文、调用错误工具、误读实验结果,或者在表面看起来很忙,实际上一路偏航。
今天很多代理系统已经证明,短任务的惊艳表现,并不自动等于长任务的可靠闭环。研究这件事尤其如此,因为它要求的不只是执行力,还要求问题选择、假设修正、证据判断和结果验证。
如果这件事做成,影响会比“AI 会写代码”更大
“自动化研究员”真正让人不安,也真正让人兴奋的地方,在于它一旦成立,AI 的角色就会从“辅助知识工作”升级成“直接参与知识生产”。
那意味着什么?
- 在机器学习内部,它可能先帮助 OpenAI 自己加速模型研究
- 在数学、物理、化学、生物等领域,它可能开始承担文献梳理、实验设计、数据分析甚至假设生成
- 在商业和政策研究里,它也可能把原本需要分析师团队完成的大量工作进一步自动化
这也是为什么 OpenAI 官方会把 “综合知识” 视为 “创造新知识” 的前提,并把 deep research 看作通往更大目标的一步。
但同样不能忽视的是,能力一旦走到这个级别,风险也会跟着升级。
问题不只在于模型会不会胡说八道,还在于:
- 它是否会在长链条任务里累积错误
- 它的推理过程是否足够可监控、可验证
- 它能访问哪些工具、数据和实验环境
- 如此强的研究能力,会不会进一步集中在极少数拥有算力和资本的公司手里
所以,这条路线的讨论从来不只是技术问题,也一定会变成治理问题。
眼下最值得关注的,不是 2028,而是接下来一年
我觉得真正有意思的地方,不是现在就去争论 “2028 年到底能不能做到 fully automated researcher”,而是看 OpenAI 在未来一年会不会持续放出更多可验证的中间层能力。
如果我们陆续看到下面这些迹象,这条路线就更像是真的在推进:
- 代理可以稳定运行更长时间
- 模型的记忆与上下文管理明显提升
- 研究型工作流开始支持更复杂的工具链
- 编码、搜索、数据分析和报告生成之间的衔接越来越自然
- 评估标准从 benchmark 分数,逐步转向真实世界里的研究产出
从这个角度看,MIT Technology Review 这篇报道的核心信息,不是 “OpenAI 又画了一个很大的饼”,而是:它已经把整个研究组织的重心,越来越明确地压到“自动化研究”这件事上了。
如果这真是 OpenAI 的主线,那么我们接下来看到的很多产品更新,可能都不该孤立理解。它们也许不是零散功能,而是一条通往“AI 自主发现新知识”的施工路线图。
📝 本文整理自 MIT Technology Review:OpenAI is throwing everything into building a fully automated researcher,作者 Will Douglas Heaven,并结合 OpenAI 官方说明 Introducing deep research 及 OpenAI 研究负责人在 a16z 对谈中的公开表述补充整理。
关于
📬 关注我获取更多资讯