GPT-5.4 Computer Use 实战指南：手把手教你构建实时新闻看板

GPT-5.4 引入了原生“计算机使用”（Computer Use）能力。这项功能的核心在于：模型不再仅仅依赖特定应用的 API，而是可以直接与软件界面交互。通过解析屏幕截图并发出点击、打字和导航等指令，模型能像人类用户一样操作浏览器和桌面应用。

本文将基于 OpenAI 提供的 Computer-Using Agent (CUA) 示例项目，深入探讨 GPT-5.4 如何在真实界面中执行任务。我们将从基础的自动化场景入手，最终通过一个实战案例——构建一个能够自动搜集、总结并呈现特定主题资讯的“实时新闻看板”，来展示这项技术的潜力。

什么是 GPT-5.4 Computer Use？

传统的 AI 自动化往往依赖于预定义的 API 接口，这限制了模型在没有 API 的老旧系统或复杂网页上的发挥。GPT-5.4 的 Computer Use 则采用了完全不同的逻辑：它直接基于界面的视觉状态进行推理。

简单来说，该系统运行在一个闭环的智能体循环（Agent Loop）中：

发送请求：开发者提供任务目标和初始屏幕截图。
推理与行动建议：模型分析截图，建议下一步 UI 操作（如点击、滚动、输入）。
执行：运行环境（通常是基于 Playwright 的浏览器）执行这些动作。
状态反馈：执行后截取新屏幕并返回给模型。
循环往复：模型观察更新后的界面，直到任务完成。

这种“观察 -> 决策 -> 行动 -> 观察”的模式，使 AI 能够跨工具完成多步骤的工作流，而无需任何定制化的集成。

第一步：环境搭建

首先，我们需要克隆 OpenAI 的 CUA 示例应用并配置本地环境。

git clone https://github.com/openai/openai-cua-sample-app.git
cd openai-cua-sample-app
corepack enable
pnpm install
cp .env.example .env

在 .env 文件中填入你的 OpenAI API Key。接着，安装 Playwright 浏览器运行环境：

pnpm playwright:install

如果是 Linux 系统，可能还需要安装相关的系统依赖：

pnpm playwright:install:with-deps

启动开发服务器：

pnpm dev

现在你可以访问 http://127.0.0.1:3000 启动 CUA 控制台，在这里可以发起任务、查看日志并观察 AI 的实时截图。

第二步：探索典型场景

CUA 示例应用内置了三个沙盒环境，非常适合理解 Computer Use 的运作方式。

1. Kanban 看板自动化

在这个场景中，模型需要整理任务卡片。它并不调用后台数据库接口，而是通过 Playwright 的指针事件，模拟人类“看”到卡片位置、点击并拖拽到目标列的操作。模型完全基于视觉布局来识别卡片之间的逻辑关系。

2. 画布交互（Paint）

这个场景考验的是模型的空间推理能力。给定一个绘图指令，GPT-5.4 需要识别色板位置、选择颜色、在像素格中定位并填充。通过观察反馈截图，模型能感知画布的演变，从而修正后续的落笔位置。

3. 预订流程（Booking）

这是一个多页面跳转的复杂流程。模型需要处理表单填充、日期选择和点击确认。在这种场景下，模型必须具备状态追踪能力，明确哪些字段已填写，哪些步骤尚未完成。

第三步：实战——构建实时新闻看板

理解了基础原理后，我们尝试利用 GPT-5.4 自动生成一个新功能：实时新闻看板。用户只需输入一个主题（如“AI”或“气候变化”），系统就会自动执行以下操作：

在浏览器中搜索权威新闻源。
提取相关文章的关键信息。
生成三条精炼的摘要。
在 UI 界面中结构化展示。

我们不需要手写代码，而是利用环境中的 Codex 能力，直接通过 Prompt 驱动模型在代码仓库中实现该功能。

Prompt 策略

你可以向智能体发送如下指令：

在当前仓库中构建一个实时新闻看板。

目标：用户输入主题，系统实时抓取权威来源的新闻，并渲染 3 条结构化结果。要求：

允许输入 AI、科技、科学等主题。

必须是实时抓取，不能硬编码。

结果包含：标题（HEADLINE）、来源（SOURCE）、摘要（SUMMARY）。

UI 风格与现有仓库保持一致。

在现有应用结构中添加路由，不要破坏原有控制台。

GPT-5.4 的执行逻辑

在接收到这个高层级的指令后，GPT-5.4 表现得像一个真正的软件工程师：

仓库检查：它首先“观察”项目目录结构，决定在何处添加路由和逻辑组件。
UI 开发：自动生成搜索框、加载状态和卡片布局。
逻辑实现：编写新闻抓取脚本，并利用自身的推理能力过滤低质量链接（如广告或聚合页）。
结果渲染：将抓取到的内容通过结构化模块展示在页面上。

通过这种方式，开发过程从“写代码”变成了“评审 AI 的实现”。虽然可能需要几轮 Prompt 微调来优化输出格式，但效率远高于传统的纯手动开发。

总结与展望

GPT-5.4 的计算机使用功能标志着 AI Agent 从“对话框”走向了“操作桌面”。它的意义在于：

打破 API 壁垒：即使目标软件没有开放接口，AI 也能通过视觉界面进行操作。
通用自动化：一个模型就能胜任从看板管理到复杂网页操作的各类任务。
开发范式转移：通过像 Codex 这样的工具，模型可以一边“观察”代码运行结果，一边进行增量式的功能开发。

随着这类模型在精准度和速度上的持续提升，未来的自动化智能体将能够胜任更复杂的行业调研、财务审计或日常办公流自动化。

关于

关注我获取更多资讯

📢 公众号

💬 个人号