构建本地AI智能体：LangGraph、Ollama与Agent开发实战

引言

在当前技术革新的浪潮中，人工智能（AI）正以前所未有的速度推动各行各业转型。AI智能体（AI Agent）作为能够自主执行特定任务的软件实体，在客户服务、数据分析、自动化决策等领域日益展现出其核心价值。本文旨在深入探讨如何利用 LangGraph 和 Ollama 这两个强大的开源工具，在本地环境中构建高效、私密的AI智能体，从而简化其创建和部署过程。

核心要点速览：

本地AI智能体：提供卓越的数据隐私保护、极低的延迟响应和完全的资源控制，是构建安全且响应迅速的AI应用的首选方案。
LangGraph：一个基于图模型（Graph Model）的强大框架，专为构建有状态、多步骤的AI智能体工作流而设计，能够实现复杂的决策路径、循环和精细化控制，便于管理和调试。
Ollama：一个开源项目，极大简化了在本地机器上运行各种大型语言模型（LLM）的过程。它支持轻松下载和部署模型，确保数据隐私，并显著减少对云API的依赖。
LangGraph与Ollama的协同：通过结合LangGraph的逻辑编排能力和Ollama的本地LLM托管，开发者可以创建完全本地化的AI智能体，使其无需依赖互联网或外部云服务，即可自主执行信息搜索、问答等任务。
灵活性考量：尽管本地运行AI智能体能够最大化控制和隐私，但对于追求快速设置和托管扩展性的团队，也可以选择成熟的托管AI平台（如DigitalOcean的GradientAI或其他主流云服务）。

深入理解AI智能体（AI Agent）

AI智能体是一种能够感知环境、进行推理、做出决策并采取行动以实现特定目标或目的的实体或系统。它们涵盖了从简单算法到复杂决策系统的多种形式，通常具备以下核心能力：

感知（Perception）：通过传感器或输入机制（如摄像头、麦克风、文本输入）收集环境数据。
推理（Reasoning）：利用算法和模型处理并解释数据，识别模式，进行预测或生成响应。
决策（Decision-making）：根据感知和推理结果，决定采取何种行动以达成预设目标。
执行（Actuation）：根据决策执行相应的行动，这可以是物理动作（如机器人移动）或虚拟动作（如应用程序推荐、发送消息）。

例如，在医疗保健系统中，一个AI智能体可以分析患者的病历和测试结果，预测疾病风险，甚至推荐个性化的治疗方案。

AI智能体与RAG应用的异同

在AI领域，RAG (Retrieval-Augmented Generation) 应用和AI智能体是两个相关但不同的概念：

RAG (检索增强生成)：RAG是一种技术，旨在通过整合信息检索方法来提升大语言模型（LLM）的性能。其工作原理是，当用户提交查询时，检索系统会首先从大型语料库中搜索相关的文档或知识片段，然后将这些检索到的信息连同原始查询一起提供给LLM，由LLM利用这些额外上下文生成更准确、更具关联性的响应。RAG的优势在于提高了生成内容的准确性，并避免了为注入新知识而对LLM进行昂贵且耗时的微调（Fine-tuning）。
AI智能体 (AI Agent)：AI智能体是一个更广泛的概念，它指的是能够自主执行一个或一系列任务的软件实体。它们可以基于预定义的规则、机器学习模型或两者结合运作，并且通常能够与用户或其他系统进行交互，以获取输入、提供响应或执行具体动作。AI智能体能够学习和适应环境变化，通过执行多任务来实现业务流程的自动化和可扩展性。

为了更清晰地对比两者，请参考下表：

RAG (检索增强生成)	AI 智能体 (AI Agent)
一种通过结合信息检索方法来提高生成模型（Generation Model）性能的技术。	一种能够执行自主任务和做出决策的AI个人助理或系统。
核心组成：检索系统 + 生成模型（LLM）。	基于规则的系统、机器学习模型或复杂AI技术的组合。
主要目标：提高LLM生成响应的准确性和相关性，利用外部数据。	主要目标：提高多功能性、适应性和自主执行任务的能力。
典型应用：问答系统、客户支持聊天机器人、内容生成。	典型应用：虚拟助理、自动驾驶车辆、推荐系统、自动化工作流。
能够利用大型外部数据集增强生成响应，而无需LLM本身训练所有数据。	能够与用户交互，并适应不断变化的需求或环境。
示例：聊天机器人检索相关常见问题或知识库文章以更有效地回答用户查询。	示例：基于用户偏好和行为推荐产品或内容的推荐引擎。

简而言之，RAG应用专注于通过检索机制来增强LLM的生成能力；而AI智能体则是更广泛的实体，旨在自主执行各种复杂任务，并具备更强的决策和行动能力。

LangGraph 深度解析

LangGraph 是一个强大且灵活的 Python 库，用于使用大语言模型（LLM）构建有状态、多角色的应用程序。它通过图模型（Graph Model）的方式来定义和编排智能体（Agent）的行为，使得创建涉及单个或多个智能体的复杂工作流变得前所未有的简单，并提供循环、精细控制和持久性等关键优势。

LangGraph 的核心优势：

循环与分支（Loops and Branching）：LangGraph 原生支持在智能体工作流中实现循环和条件语句，这对于创建具备复杂逻辑和迭代能力的智能体行为至关重要。
精细化控制（Fine-grained Control）：作为一个底层框架，LangGraph 对应用程序的流程和状态提供了极其详细的控制。这使得开发者能够构建高度可靠和可预测的智能体系统。
状态持久性（Persistence）：LangGraph 内置了状态持久化机制，允许在工作流的每一步之后保存智能体的状态。这不仅支持暂停和恢复执行，还为错误恢复和人工干预（Human-in-the-Loop）工作流提供了强大支撑。

LangGraph 的主要特性：

图模型编排：将智能体工作流定义为节点和边的有向图，清晰直观地展示逻辑流程。
持久化：自动保存每一步后的状态，支持错误恢复和工作流中断后的恢复。
人工干预（Human-in-the-Loop）：允许在关键决策点中断智能体执行，以便进行人工审批或编辑，增强系统的可靠性和可控性。
流式支持（Streaming Support）：在每个节点生成输出时进行流式传输，提升用户体验和响应速度。
与LangChain集成：与 LangChain 框架和 LangSmith 无缝集成，同时也能独立使用，为开发者提供了极大的灵活性。

LangGraph 由 LangChain Inc. 开发，是构建可靠、高级AI驱动应用程序的理想工具。

Ollama 概览

Ollama 是一个杰出的开源项目，旨在极大简化在本地机器上运行各种大语言模型（LLM）的过程。它提供了一个用户友好的平台，降低了LLM技术的复杂性，使其更容易被广大开发者和研究人员访问和定制。

Ollama 的主要特点：

本地部署（Local Deployment）：允许用户直接在本地机器上运行复杂的LLM，从而确保了数据隐私，并显著减少了对外部云服务器的依赖。这对于处理敏感数据或在离线环境中运行AI应用至关重要。
用户友好界面（User-friendly Interface）：设计直观易用，即使是不同技术水平的用户也能轻松下载、运行和管理LLM。
高度可定制性（Customizability）：用户可以根据研究、开发或个人项目的特定需求，对AI模型进行微调（Fine-tune）或定制。
开源性质（Open Source）：作为一个开源项目，Ollama 鼓励社区贡献和持续改进，促进了创新和协作。
轻松安装（Easy Installation）：提供了直观、无障碍的 Windows、macOS 和 Linux 安装方法。用户可访问 Ollama 官方网站下载并快速启动。
活跃社区（Ollama Community）：拥有一个充满活力的项目驱动型社区，积极推动Ollama的开发、工具和集成，为用户提供丰富的资源和支持。

实战指南：使用LangGraph和Ollama构建AI智能体

本示例将指导您创建一个简单的AI智能体，该智能体利用在Ollama上运行的 Mistral 模型，并结合 Tavily Search API 进行网络搜索，最终生成响应。

1. 检查GPU配置（可选）

如果您希望利用GPU加速，可以检查您的GPU状态：

nvidia-smi

2. 安装所需库

首先，安装所有必要的 Python 库。

pip install -U langgraph langchain-nomic langchain_community tiktoken langchainhub chromadb langchain tavily-python
pip install langchain-openai # 用于连接Ollama的OpenAI兼容API

3. 设置Tavily API Key

为了让智能体能够进行网络搜索，您需要一个 Tavily Search API Key。请将其替换为您的实际密钥。

export TAVILY_API_KEY="your_tavily_api_key_goes_here"

4. 拉取Mistral模型

使用 Ollama 从其模型库中拉取 Mistral 模型。确保您已经安装并运行了 Ollama 服务。

ollama pull mistral

5. 导入必要库

在您的 Python 脚本中导入所需的 LangChain 和 LangGraph 组件。

from langchain import hub
from langchain_community.tools.tavily_search import TavilySearchResults
from langchain.prompts import PromptTemplate
from langgraph.prebuilt import create_react_agent
from langchain_openai import ChatOpenAI # 用于连接Ollama的兼容OpenAI API
from langchain_core.output_parsers import JsonOutputParser
from langchain_community.chat_models import ChatOllama # 另一种连接Ollama的方式

6. 定义工具并绑定LLM

我们定义一个 Tavily Search 工具，并将其绑定到我们将要使用的 LLM 上。

# 定义搜索工具
tools = [TavilySearchResults(max_results=3)]

# 注意：llm 变量将在下一步中初始化
# 这里只是为了展示绑定工具的预期方式
# 实际绑定将在 llm 初始化后进行
# llm_with_tools = llm.bind_tools(tools)

7. 获取并打印提示模板

LangGraph 的 create_react_agent 使用一个 ReAct 提示模板。我们可以从 LangChain Hub 拉取这个模板。

prompt = hub.pull("wfh/react-agent-executor")
prompt.pretty_print()

输出示例（这将显示智能体将使用的系统消息和消息占位符）：

================================ System Message ================================

You are a helpful assistant.

============================= Messages Placeholder =============================

{{messages}}

8. 配置Ollama上的Mistral LLM

现在，我们将配置 ChatOpenAI 客户端，使其指向本地运行的 Ollama 服务，并指定使用 mistral 模型。

# 配置连接到本地Ollama服务的LLM
llm = ChatOpenAI(
    model="mistral",
    api_key="ollama", # 这里的API Key可以随意设置，因为Ollama本地不验证
    base_url="http://localhost:11434/v1", # Ollama服务的默认API地址
)

# 现在绑定工具到LLM
llm_with_tools = llm.bind_tools(tools)

9. 创建智能体执行器

使用 create_react_agent 函数来创建一个智能体执行器。它将结合我们的LLM、工具和提示模板。

agent_executor = create_react_agent(llm_with_tools, tools, messages_modifier=prompt)

10. 调用智能体并打印响应

最后，通过调用 agent_executor.invoke() 来与智能体交互，并传入一个用户查询。

# 调用智能体执行器
response = agent_executor.invoke({"messages": [("user", "explain artificial intelligence")]})

# 打印智能体生成的响应
for message in response['messages']:
    print(message.content)

这将通过 Mistral 模型（在 Ollama 上运行）和 Tavily Search 工具，生成关于人工智能的详细解释。

常见问题解答 (FAQ)

Q: 如何在2025年构建可离线工作的本地AI智能体？ A: 在2025年构建离线AI智能体，核心在于将 LangGraph 用于智能体编排，而 Ollama 用于本地模型服务。首先，安装 Ollama 并下载 Llama 2、Code Llama 或其他专用本地 LLM。然后，使用 LangGraph 创建有状态的工作流，其中包括决策树、循环和内存持久性。部署 Chroma 或 FAISS 等本地向量数据库进行知识检索。设计无需互联网连接即可处理常见任务的智能体工作流，并对边缘情况进行彻底测试，实现回退机制。这种方法确保了完整的数据隐私和无论互联网是否可用都能保持一致的性能。

Q: 对于使用Ollama的商业应用，有哪些最佳的本地LLM模型？ A: 截至2025年，对于使用 Ollama 的商业应用，一些顶级本地 LLM 模型包括：用于通用业务任务和复杂推理的 Llama 2 70B；用于软件开发和技术文档的 Code Llama；用于高效客户服务和内容生成的 Mistral 7B；以及用于资源受限环境的 Phi-3。此外，WizardCoder（专注于编程任务）和 Vicuna（擅长对话应用）等专用模型也表现出色。选择时，请综合考虑模型大小与性能的权衡：7B 模型适用于基本任务，13B 适用于中等复杂性，而 70B+ 模型则能胜任复杂推理。始终根据您的具体用例和硬件限制评估模型的适用性。

Q: LangGraph与LangChain：哪个框架更适合AI智能体？ A: LangGraph 更适合需要高级控制流、循环、条件分支和跨交互状态持久性的复杂、有状态 AI 智能体（AI Agent）。它非常适合构建多步骤工作流、实现错误恢复和处理复杂决策过程的生产级智能体系统。相比之下，LangChain 更适用于简单、线性工作流和具有广泛第三方集成的快速原型开发。对于需要复杂逻辑、精细状态管理和健壮错误处理的生产级智能体，请选择 LangGraph。而对于快速原型、简单链以及需要广泛生态系统集成的情况，则可优先选择 LangChain。LangGraph 为复杂的智能体行为提供了更多的控制和灵活性。

Q: 如何在有限硬件资源下优化本地AI智能体性能？ A: 在有限硬件上优化本地 AI 智能体性能涉及多种策略：首先，选择使用 Phi-3 或 Mistral 7B 等更小、更高效的 LLM 模型。其次，实施模型量化（如 4 位或 8 位量化）以显著减少内存使用和计算需求。第三，利用 CPU 优化的推理引擎，并在可用时启用硬件加速（如 NPU）。第四，实施智能缓存机制，存储频繁响应和计算结果。第五，设计高效的提示策略，以最小化 Token 使用。此外，采用流式响应来提高用户感知性能，并实施请求批处理和队列管理。最后，可以考虑混合方法，其中简单任务使用轻量级模型，而复杂任务选择性地调用大型模型。

Q: 在本地运行AI智能体与使用云API相比，有哪些安全优势？ A: 本地 AI 智能体相对于使用云 API 具有显著的安全优势：最核心的是 完整的数据隐私，因为所有敏感信息都不会离开您的本地基础设施，从而消除了第三方服务导致数据泄露的风险。其次，不依赖外部 API 减少了潜在的攻击面，并防止了因云服务中断而导致的业务停摆。您对模型更新和行为拥有 完全控制权，可以避免因外部模型更新而带来的意外响应变化。通过受控的本地环境，可以有效 降低提示注入（Prompt Injection）攻击的风险。此外，本地部署通常意味着 成本可预测性，没有基于使用量的价格波动。然而，本地部署也意味着您需要承担基础设施管理和安全强化的责任。

结论

LangGraph 结合 AI 智能体（AI Agent）和 Ollama 等工具，代表着本地化人工智能解决方案开发和部署的重大进步。通过利用 LangGraph 简化各种 AI 组件的编排能力及其模块化架构，开发者可以创建出多功能、可扩展且高效的 AI 解决方案，并具备高度适应不断变化需求的能力。

AI 智能体提供了自动化任务和提高生产力的灵活方法，它们可以定制化地处理从简单任务自动化到复杂决策过程的各种功能，正成为现代企业不可或缺的工具。Ollama 作为这个生态系统的重要组成部分，提供了专业的工具和服务来补充 LangGraph 的能力，使得在本地运行高性能 LLM 成为可能。

总之，LangGraph 和 Ollama 的结合为构建有效且高效的 AI 智能体提供了一个强大且完整的框架。本指南旨在为希望利用这些技术在不断发展的人工智能领域推动创新和实现目标的开发者们，提供一份宝贵的资源。

附加资源

关于

关注我获取更多资讯

📢 公众号

💬 个人号