vLLM 实战:从本地 CPU Docker 部署到 Google Cloud Serverless

本文将手把手带你走完 vLLM 的部署流程。我们将学习如何使用 Docker 在本地 CPU 环境(包括 ARM 架构的 Mac)中运行大模型,并进一步将其部署到 Google Cloud Run,实现一个可扩展的 Serverless 推理服务。

阅读时长: 6 分钟
共 2769字
作者: eimoon.com

本地部署 Qwen2.5-VL:在你的笔记本上运行旗舰级视觉语言模型

一份详尽的实战指南,教你如何在本地(即使是8GB显存的笔记本电脑)部署和运行阿里巴巴的旗舰级多模态模型 Qwen2.5-VL。本文涵盖了环境配置、常见问题解决、Docker 部署以及在线体验等多种方法。

阅读时长: 4 分钟
共 1765字
作者: eimoon.com

深入理解 Tanh 激活函数:为何零中心输出至关重要

本文深入探讨了 Tanh 激活函数的数学原理、核心优势(零中心输出),并将其与 Sigmoid 和 ReLU 进行对比,分析了其在神经网络中的适用场景、局限性以及如何在 PyTorch 中实现。

阅读时长: 5 分钟
共 2366字
作者: eimoon.com

Agentic RAG:当 RAG 学会主动思考,一切都变了

深入探讨 Agentic RAG 的核心思想、工作原理,以及它与传统 RAG 的根本区别。本文将揭示这一 AI 新范式如何让系统从被动的信息检索工具,演变为能够自主决策、解决复杂问题的主动协作者。

阅读时长: 4 分钟
共 1969字
作者: eimoon.com

n8n 入门与实战:用低代码方式构建 AI 自动化工作流

本文详细介绍了开源自动化工具 n8n 的使用方法,通过两个具体的实战案例——自动化处理邮件发票和构建 RAG 文档问答机器人,带你一步步掌握如何利用 n8n 搭建强大的 AI 自动化工作流,无需编写复杂代码。

阅读时长: 7 分钟
共 3385字
作者: eimoon.com

从零到一,彻底搞懂离散概率分布

本文以技术专家的视角,深入浅出地讲解了离散概率分布的核心概念。覆盖了从 PMF、CDF 到矩生成函数等数学基础,并结合 Python 代码实例,详细剖析了伯努利、二项、泊松等多种关键分布的原理与应用场景。

阅读时长: 6 分钟
共 2876字
作者: eimoon.com

LangChain 全家桶解析:LangGraph、LangSmith 与 LangFlow 该如何选?

深入剖析 LangChain 生态的四大核心组件:LangChain、LangGraph、LangSmith 和 LangFlow。本文将以开发者视角,阐述它们各自的定位、核心优势与适用场景,帮你理清思路,为你的 AI 应用选择最合适的工具。

阅读时长: 8 分钟
共 3970字
作者: eimoon.com

Docker 与 Ollama:在本地运行 LLM 的终极指南,兼顾隐私与零成本

本文将向你展示如何使用 Docker 和 Ollama 快速搭建一个本地、私有且免费的大语言模型服务。你将学会如何配置环境、拉取模型(如 Llama, Mistral),并通过 API 进行交互,彻底摆脱对第三方服务的依赖。

阅读时长: 6 分钟
共 2573字
作者: eimoon.com

GPT-5 Function Calling 完全指南:从 JSON Schema 到自由格式工具

本文是一份关于 GPT-5 Function Calling 的实践指南。我们深入探讨了从传统的 JSON Schema 函数到创新的自由格式工具、Lark/CFG 语法约束、工具白名单和 Preamble 等新特性,帮助开发者构建更强大的 AI Agent。

阅读时长: 8 分钟
共 3737字
作者: eimoon.com

返璞归真:从零用 Node.js 原生 `http` 模块构建 Web 服务器

我们都习惯了 npm install express,但你是否想过,Node.js 是如何赤手空拳处理网络请求的?本文将带你回归本源,仅使用 Node.js 内置的 http 模块,从零开始构建一个功能完备、安全可靠的 Web 服务器。

阅读时长: 5 分钟
共 2401字
作者: eimoon.com