LLM 基准详解:如何读懂模型排行榜与评测结果

本文深入解析大型语言模型(LLM)各类基准测试,介绍知识、推理、代码与多模态评测的方法与典型示例,并讲解如何使用 EleutherAI 工具在本地运行评测和解读排行榜结果。

阅读时长: 6 分钟
共 2909字
作者: eimoon.com

LLM 基准详解:如何读懂模型排行榜与评测结果

几乎每隔一周,新的大模型就会发布。标题看上去都挺熟悉:Gemini 3、Claude Opus 4.5、GPT‑5.2、Mistral Large 3,每个都声称“在多个基准中领先”。问题是,大多数开发者根本不知道这些数字从何而来,也不清楚它们能否说明什么。

这篇文章是一份面向工程师的实用指南,带你理解大模型基准(LLM Benchmark)背后真正测量的东西、不同类别的测试分别考察什么、各种排行榜之间的差异。最后还会教你如何在本地运行一次完整评测,以便自己判断模型表现。


什么是 LLM 基准测试

LLM 基准(Benchmark)就是标准化的测试集——一批固定的问题和统一的评分规则。所有模型都要在相同条件下作答,由此才能比较高下。

听上去简单,但实际没那么一回事。不同基准关注的维度完全不一样,没有任何一个分数能代表“整体能力”。有的偏重知识覆盖,有的测试推理或代码生成,还有的挑战模型执行任务或处理图像的能力。


为什么基准重要

基准存在的意义,大致有三点:

  • 可比较性:当 OpenAI 与 Anthropic 同时发新版本时,标准化指标能让我们跳出营销语气,看真实差距。
  • 进步追踪:连续几年运行同一个测试,就能看出模型是否真的更聪明了。例如 MMLU 分数从 2022 年的 70% 飙升到 2025 年的 90% 以上。
  • 发现短板:一个模型可能在常识问答中出色,却在多步数学推理上崩盘,基准恰好能揭示这类问题。

影响分数的关键因素

排行榜上的数值,不单代表“智商”。模型规模、推理速度、训练时长都在其中起作用。

  • 参数量:参数越多,模型能表示的知识与细节越丰富;但推理(inference)速度会下降,因为每次响应都要激活全部权重。
  • 训练轮次(epoch):太少学不够,太多会过拟合(overfitting),即死记数据而非归纳规律。优秀的基准设计者会刻意设置未见过的问题,以防模型作弊。

基准的主要类别

可以把 LLM 基准想象成一个金字塔:

  1. 最底层:测试知识与常识
  2. 中层:评测推理与逻辑能力
  3. 再上层:验证编程与行动执行
  4. 顶层:多模态能力——图像、视频、现实环境。

下面分模块讲讲常见代表。


知识与推理类

MMLU

最经典的综合测验,涵盖 57 个学科,从高中到专业水平。如今顶级模型都能超过 88%,几乎“卷爆”,区分度下降。

GPQA

研究生级理科测验,由生物、物理、化学专家编题。题目经过精心设计,谷歌都搜不到。Gemini 3 Pro 目前在最高难级 Diamond 上达 92% 以上。

GDPVal

OpenAI 提出的新思路:不再让模型选选项,而是输出真实“工作产物”——PPT、合同、工程规范等。它测量的其实是模型的经济产出潜力。

HellaSwag

给出日常场景,请模型判断“合理的下一句”。比如厨师伸手拿平底锅,接下来厨房是不是会飞起来?这题听上去傻,但它正好卡在 AI 的心理模型短板上。

FrontierMath、Humanity’s Last Exam、MathArena

这些都是近年的“拉开梯度”项目。有的直接从研究级竞赛题中取材,有的保证训练数据中绝对未出现同题,目的是检测模型是否真的会思考而非死记硬背。


编程与智能体类

HumanEval

最早的编程测试,要求模型根据函数说明生成完整代码并通过单元测试。现在主流模型普遍 85%+,因此又衍生出更严格的 HumanEval+。

SWE‑bench

真正贴近现实:模型进入 GitHub 项目,理解 bug,再提交补丁。Claude Opus 4.5 目前在验证版 SWE‑bench Verified 打破 80% 声望线。

GAIA

设计得“人类轻松、AI地狱”。题目要求整合网页搜索、文档阅读和计算步骤。GPT‑4 系列第一次测试时只有 15% 的正确率。

WebArena

更进一步——模型必须真的在浏览器里完成任务,比如订机票、发帖子。这类测试考察的是“行动”而非答题。


多模态类

MMMU‑Pro

专为图文推理设计,题目嵌在图片中,只有理解视觉内容才能回答。Gemini 3 Pro 目前领先。

MathVista / Video‑MMMU / ARC‑AGI‑2

前者把数学和视觉结合在一起,让模型解读函数图、科学曲线或几何图形;Video‑MMMU 则加入时间维度,看 AI 能否推理事件的因果与顺序。ARC‑AGI‑2 被认为最接近通用智能考验——纯语言模型几乎全军覆没。


主流排行榜一览

不同平台的评测侧重点差异巨大。选排行榜,其实就是选评价标准。

LMArena(LMSYS Chatbot Arena)

真人投票机制:用户看两份匿名回答,选更喜欢的一方。累计近五百万票后用统计模型推导排名。现在 Gemini 3 Pro 总分第一。
这种方式能捕捉“答案让人感觉好不好”,但容易被啰嗦或自信语气带偏。

Hugging Face Open LLM Leaderboard

聚焦开源模型,通过 EleutherAI Evaluation Harness 自动运行评测。第二版采用更难的题库(如 GPQA、MATH L5、MMLU‑PRO),使结果更有区分度。Llama 3.3、Qwen3 等都表现优异。

Stanford HELM

哈佛式的全维度评估框架,每个场景七个指标:准确性、校准、鲁棒、公平、偏见、毒性和效率。它还有单独的安全排行榜。Claude 3.5 Sonnet 目前在安全维度得分最高。


从多个榜单看趋势

没有哪个公司能在所有榜单制霸。

  • Google 的 Gemini 在多模态与科学推理领先;
  • Anthropic 的 Claude 在代码与安全细分最强;
  • OpenAI 的 GPT 系列仍是“通吃型”;
  • Meta 的 Llama 展示出开源阵营的上限。

平台不同,目的也不同:Arena 关注聊天体验,HELM 注重安全稳健,Hugging Face 关注可运行性。搞清楚自己想评估什么,比任何分数都重要。


如何自己跑一场 LLM 评测

有时你并不关心“最强模型”,而是想验证某个自家微调模型是否退化,或者在特定领域的表现。
这时动手做一次基准才最靠谱。

EleutherAI LM Evaluation Harness

这是目前事实上的行业标准,也是 Hugging Face 榜背后的工具。支持六十多个基准。

它不是简单地“聊天”,而是以概率方式评估。比如多选题,会为每个选项计算 log‑likelihood,再取最高者作为模型答案。对于生成型题目,则用正则表达式解析关键输出并比对答案表。

安装与快速测试

用 pip 安装:

pip install lm-eval

然后可以运行一个快速试验:

lm_eval --model hf \
  --model_args pretrained=Qwen/Qwen2.5-1.5B-Instruct \
  --tasks hellaswag \
  --device mps \
  --batch_size 4 \
  --limit 10

输出结果里 acc 是原始准确率,acc_norm 是归一化指标;样本少的话误差会大,Stderr 表明估计不确定度。

要跑完整测试,只需去掉 --limit 并列出多个任务:

lm_eval --model hf \
  --model_args pretrained=Qwen/Qwen2.5-1.5B-Instruct \
  --tasks hellaswag,mmlu,arc_easy \
  --device cuda:0 \
  --batch_size 8 \
  --output_path ./results

延伸测试:推理速度

可以配合 Ollama 之类本地工具,记录不同量化等级下的 tokens/s。一个 7B 模型在 V100 上可达 100+ tokens/s,而 70B 可能降到个位数。


基准测试的小贴士

  • 防止数据泄漏:确保模型没在训练阶段见过这些题,否则分数毫无意义。
  • 保持可重复性:温度设为 0,减少随机性。
  • 使用官方 prompts:随意改提示词可能造成巨大偏差。
  • 领域专测:如果你的任务特别垂直,应先手工选取几十个代表性样本,作为自定义评测集。

“LLM 作评委”的做法

对于开放式任务(摘要、写作等),传统基准无能为力。新的做法是让更强的模型来打分——这就是 LLM‑as‑a‑judge
评审模型根据评分标准给出 1–10 分,或两两比较选优。实验显示,与人工结果一致度能到 80% 左右,是一种高效替代方案。


结语:别迷信单一分数

AI 评测体系仍在快速演化。MMLU 时代的“记忆型考试”正在被 FrontierMath 这样的“思考题”取代。视觉和多模态基准正扩展模型的理解边界。

对开发者而言,最重要的经验教训其实挺朴素:
没有哪个榜单能定义“最好”。
你追求的可能是推理精度,也可能是生成速度或安全性。挑出与你任务最接近的基准,那才是真正有意义的比较。


关于

关注我获取更多资讯

公众号
📢 公众号
个人号
💬 个人号
使用 Hugo 构建
主题 StackJimmy 设计