OpenAI 正把一切押注在“全自动研究员”上：从 deep research 到 2028 年的自主科学发现

如果你最近还把 OpenAI 理解成一家主要在做聊天机器人、代码助手和办公代理的公司，那可能已经有点落后了。

按照 MIT Technology Review 最新报道，OpenAI 现在真正的北极星目标，是做出一个 全自动研究员：它不只是帮人查资料、写摘要、补代码，而是能围绕一个困难问题，持续思考、调用工具、做实验、解释结果，再继续推进下一轮研究。

这和我们今天熟悉的 AI 产品，不是一个量级的目标。

OpenAI 想做的，不是“更强一点的 Copilot”

OpenAI 首席科学家 Jakub Pachocki 在公开访谈里讲得很直接：他们研究计划过去几年一直围绕着一个目标展开，那就是 automated researcher。也就是说，公司内部许多项目，最终都要服务于这条主线。

这件事的重要性在于，它重新定义了 OpenAI 眼里“下一代 AI 产品”到底是什么。

不是一个更会聊天的模型。

不是一个更懂网页搜索的代理。

甚至不只是一个更强的编码系统。

而是一个能把“提出假设、检索资料、写代码、跑实验、分析结果、生成下一步研究方向”串成闭环的系统。它的价值不在于替你省掉几个小时，而在于它能不能把原本要几周、几个月才能推进的研究工作，压缩成更短的周期。

时间表已经摆上桌面了

这次最值得注意的，不只是方向，而是 OpenAI 已经公开给出阶段性时间点。

目前外部能看到的时间线大致是：

2026 年 9 月：先做出一个 AI research intern，也就是“研究实习生”级别的自动化研究系统
2028 年 3 月：目标是进一步做到 fully automated researcher，也就是真正能自主承担更大规模研究任务的系统

这里要注意，“intern” 这个词非常容易让人低估它的能力。按照 OpenAI 此前公开说法，这并不只是一个会查文献、写笔记的轻量助手，而是希望它能在大量算力支持下，真实地加速研究流程，甚至对新发现作出贡献。

换句话说，OpenAI 不是在谈一个“更聪明的搜索框”，而是在谈一个能逐步接手研究劳动的系统。

为什么现在会把目标讲得这么明确

因为从 OpenAI 的产品路线看，很多拼图其实已经摆出来了。

比如 deep research。OpenAI 在官方介绍里把它定义成一个能进行多步骤互联网研究的 agent，能够在几十分钟内完成原本要花人类数小时的调研工作，并且会自己查找、分析、综合数百个在线来源，输出带引用的报告。

这还不是“自动化研究员”的终点，但很像其中一个早期模块：

它已经具备了多步检索和资料综合能力
它已经在向“长时间自主工作”这个方向推进
它已经开始把最终输出从“回答问题”转向“交付研究结果”

再比如 Codex 这类编码代理。研究工作并不只是读文献，很多时候还要写脚本、做数据处理、搭实验、验证假设。只要模型能更稳定地写代码、调工具、执行任务，它离“自动化研究闭环”就更近一步。

所以，今天看到的 deep research、Codex、长程推理模型、代理式工作流，未必是几条分散产品线，更可能是通往同一个目标的不同部件。

真正难的，不是答对题，而是长周期不跑偏

OpenAI 自己也没有把问题说得很简单。

Pachocki 在访谈里提到，一个关键评估维度是：模型究竟能在多长时间范围内持续自主工作，并且真的取得进展。目前他们提到的量级，大概还在一到五小时的推理与推进能力上；下一步要解决的，是更长时间尺度上的规划、记忆保持与稳定执行。

这其实点中了自动化研究员最难的一层：

不是会不会做单点任务
不是数学题分数能不能再涨一点
不是代码 benchmark 能不能多拿几个百分点

而是当系统要连续做十步、二十步、五十步动作时，它会不会在中途误解目标、忘记上下文、调用错误工具、误读实验结果，或者在表面看起来很忙，实际上一路偏航。

今天很多代理系统已经证明，短任务的惊艳表现，并不自动等于长任务的可靠闭环。研究这件事尤其如此，因为它要求的不只是执行力，还要求问题选择、假设修正、证据判断和结果验证。

如果这件事做成，影响会比“AI 会写代码”更大

“自动化研究员”真正让人不安，也真正让人兴奋的地方，在于它一旦成立，AI 的角色就会从“辅助知识工作”升级成“直接参与知识生产”。

那意味着什么？

在机器学习内部，它可能先帮助 OpenAI 自己加速模型研究
在数学、物理、化学、生物等领域，它可能开始承担文献梳理、实验设计、数据分析甚至假设生成
在商业和政策研究里，它也可能把原本需要分析师团队完成的大量工作进一步自动化

这也是为什么 OpenAI 官方会把 “综合知识” 视为 “创造新知识” 的前提，并把 deep research 看作通往更大目标的一步。

但同样不能忽视的是，能力一旦走到这个级别，风险也会跟着升级。

问题不只在于模型会不会胡说八道，还在于：

它是否会在长链条任务里累积错误
它的推理过程是否足够可监控、可验证
它能访问哪些工具、数据和实验环境
如此强的研究能力，会不会进一步集中在极少数拥有算力和资本的公司手里

所以，这条路线的讨论从来不只是技术问题，也一定会变成治理问题。

眼下最值得关注的，不是 2028，而是接下来一年

我觉得真正有意思的地方，不是现在就去争论 “2028 年到底能不能做到 fully automated researcher”，而是看 OpenAI 在未来一年会不会持续放出更多可验证的中间层能力。

如果我们陆续看到下面这些迹象，这条路线就更像是真的在推进：

代理可以稳定运行更长时间
模型的记忆与上下文管理明显提升
研究型工作流开始支持更复杂的工具链
编码、搜索、数据分析和报告生成之间的衔接越来越自然
评估标准从 benchmark 分数，逐步转向真实世界里的研究产出

从这个角度看，MIT Technology Review 这篇报道的核心信息，不是 “OpenAI 又画了一个很大的饼”，而是：它已经把整个研究组织的重心，越来越明确地压到“自动化研究”这件事上了。

如果这真是 OpenAI 的主线，那么我们接下来看到的很多产品更新，可能都不该孤立理解。它们也许不是零散功能，而是一条通往“AI 自主发现新知识”的施工路线图。

📝 本文整理自 MIT Technology Review：OpenAI is throwing everything into building a fully automated researcher，作者 Will Douglas Heaven，并结合 OpenAI 官方说明 Introducing deep research 及 OpenAI 研究负责人在 a16z 对谈中的公开表述补充整理。

关于

📬 关注我获取更多资讯

📢 公众号

💬 个人号