文档

了解本地大模型运行所需的关键概念与技术指标。

参数规模(Parameters)

参数量决定了模型的"大脑容量",通常以十亿(B)为单位。参数越多,模型能力越强,但需要的 VRAM 越多、速度越慢——这是能力与速度的核心权衡。

规模 典型大小 能力评价
1–3B 最快 极速响应,适合简单任务和低端设备
7–8B 消费级 GPU 首选,通用能力良好
13–14B 更好 明显优于 7B,推理更准确
27–34B 接近 GPT-4 早期水平,需要高端 GPU
70B 极佳 旗舰本地模型,需多 GPU 或大显存
405B+ 前沿 当前最强开源模型,服务器级硬件
Size vs Capability Tradeoff
Fast
1–3B
Good
7–8B
Better
13–14B
Great
27–34B
Excellent
70B
Frontier
405B+
↑ Smarter ↓ Faster

量化(Quantization)

量化将模型权重从高精度浮点数(FP16)压缩为低位整数,以换取更小的文件体积和更快的推理速度,代价是轻微的质量损失。以 7B 模型为例:

格式 大小(7B) 质量保留 备注
F16 13 GB 100% 原始精度,VRAM 需求最高
Q8_0 6.7 GB 99% 几乎无损,体积减半
Q6_K 5.3 GB 95% 高质量,轻量化
Q4_K_M ★ 3.9 GB 88% 推荐首选,质量/大小最优平衡
Q2_K 2.5 GB 60% 最小体积,质量损失明显

本站所有评分和 VRAM 估算均以 Q4_K_M 为基准,便于横向比较。

Quality vs Size (for a 7B model)
F16
100% ~13 GB
Q8_0
~99% ~6.7 GB
Q6_K
~95% ~5.3 GB
Q4_K_M ★
~88% ~3.9 GB
Q2_K
~60% ~2.5 GB
Bar = 相对 F16 的质量保留率  •  ★ = 最优平衡点

VRAM(显存)

模型权重必须完整装入 VRAM 才能实现 GPU 全速推理。如果显存不够,模型无法加载或被迫卸载到系统内存——这会导致速度极慢甚至程序崩溃。

≤ 85% 显存充裕,模型完整载入 GPU,速度最优,推荐
85–110% 勉强运行,通常仍可使用,但其他应用占用显存可能导致不稳定
> 110% 超出显存,模型无法完整载入,速度极慢或直接崩溃

MoE(混合专家模型)

MoE(Mixture of Experts)架构包含多个"专家"子网络和一个路由层。每次推理时,路由层只选择激活其中少数几个专家——这使得模型在拥有庞大总参数量的同时,每次推理只需计算一小部分参数。

MoE Expert Routing (Mixtral Example)
Token
Router
top-2
Expert 1 ✓
激活
Expert 2 ✓
激活
Expert 3
跳过
Expert 4
跳过
... ×8 total
Output
Active   ~12.9B
Total    46.7B
VRAM    all 46.7B

关键点:MoE 需要将全部专家参数载入 VRAM(路由时才决定激活哪几个),因此 VRAM 需求与总参数量挂钩,而非激活参数量。

Dense vs MoE

特性 Dense(密集) MoE(混合专家)
每次激活参数 全部 少数专家(稀疏)
推理计算量 与总参数成正比 远低于总参数量
VRAM 需求 由激活参数决定 全部参数决定
生成速度 受总参数限制 比同 VRAM 的 Dense 更快
典型代表 Llama 3, Qwen 2.5 Mixtral, DeepSeek, Qwen MoE

上下文长度(Context Length)

上下文长度是模型在单次会话中能"记住"的最大 token 数。128K tokens 大约相当于 100,000 个英文单词——足以装下整本书。但更长的上下文需要更多 VRAM 存储 KV 缓存。

本地运行建议使用 4K–8K 上下文,既满足日常对话需求,又不会大量消耗显存。超长上下文(如 128K)通常只在需要分析完整文档时才有必要。

2K ~1,500 词 短对话、简单问答
4K ~3,000 词 日常聊天(推荐起点)
8K ~6,000 词 较长文档、代码审查
32K ~24,000 词 长篇报告、多文件分析
128K ~100,000 词 整本书、大型代码库

Tokens per Second(生成速度)

t/s 衡量模型每秒能生成多少 token,1 个 token 约等于 0.75 个英文单词。速度主要由 GPU 内存带宽决定,与 VRAM 容量关系不大。

60+ t/s 极快 接近人类阅读速度,几乎无等待
30–60 t/s 流畅对话体验
15–30 t/s 可用 基本流畅,偶有等待感
5–15 t/s 批处理 可接受,适合离线任务而非实时对话
< 5 t/s 很慢 等待明显,日常使用体验较差

GGUF 格式

GGUF 是 llama.cpp 推出的标准模型文件格式,已成为 Ollama、LM Studio 等本地推理工具的通用格式。

特性 说明
单文件 权重、分词器、元数据全部打包,无需额外配置
多量化支持 同一模型提供 Q2_K 到 F16 多个量化版本供选择
混合推理 支持 CPU + GPU 混合推理(层卸载),适应不同显存
兼容性 llama.cpp、Ollama、LM Studio、Jan、KoboldCpp 均支持

在 HuggingFace 搜索模型时,选择后缀为 .gguf 的文件即可直接使用。

内存带宽(Memory Bandwidth)

LLM 推理是典型的内存带宽密集型任务——每生成一个 token,GPU 几乎需要读取一遍模型权重。因此带宽越高,速度越快,这就是为什么高带宽的 GPU 在本地推理上优势巨大。

Memory Bandwidth Comparison (GB/s)
RTX 4060
272 GB/s
M4 Pro
273 GB/s
RTX 4070
504 GB/s
M4 Max
546 GB/s
7900 XTX
960 GB/s
RTX 4090
1008 GB/s
RTX 5090
1792 GB/s
Higher bandwidth = faster tok/s at same model size

估算公式:tok/s ≈ 带宽(GB/s) ÷ 模型VRAM(GB) × 效率系数。效率系数:NVIDIA GPU 约 70%,Apple Silicon 约 65%。