文档

了解本地大模型运行所需的关键概念与技术指标。

参数规模（Parameters）

参数量决定了模型的"大脑容量"，通常以十亿（B）为单位。参数越多，模型能力越强，但需要的 VRAM 越多、速度越慢——这是能力与速度的核心权衡。

规模	典型大小	能力评价
1–3B	最快	极速响应，适合简单任务和低端设备
7–8B	好	消费级 GPU 首选，通用能力良好
13–14B	更好	明显优于 7B，推理更准确
27–34B	棒	接近 GPT-4 早期水平，需要高端 GPU
70B	极佳	旗舰本地模型，需多 GPU 或大显存
405B+	前沿	当前最强开源模型，服务器级硬件

Size vs Capability Tradeoff

Fast

1–3B

Good

7–8B

Better

13–14B

Great

27–34B

Excellent

70B

Frontier

405B+

↑ Smarter ↓ Faster

量化（Quantization）

量化将模型权重从高精度浮点数（FP16）压缩为低位整数，以换取更小的文件体积和更快的推理速度，代价是轻微的质量损失。以 7B 模型为例：

格式	大小（7B）	质量保留	备注
F16	13 GB	100%	原始精度，VRAM 需求最高
Q8_0	6.7 GB	99%	几乎无损，体积减半
Q6_K	5.3 GB	95%	高质量，轻量化
Q4_K_M ★	3.9 GB	88%	推荐首选，质量/大小最优平衡
Q2_K	2.5 GB	60%	最小体积，质量损失明显

本站所有评分和 VRAM 估算均以 Q4_K_M 为基准，便于横向比较。

Quality vs Size (for a 7B model)

F16

100% ~13 GB

Q8_0

~99% ~6.7 GB

Q6_K

~95% ~5.3 GB

Q4_K_M ★

~88% ~3.9 GB

Q2_K

~60% ~2.5 GB

Bar = 相对 F16 的质量保留率 • ★ = 最优平衡点

VRAM（显存）

模型权重必须完整装入 VRAM 才能实现 GPU 全速推理。如果显存不够，模型无法加载或被迫卸载到系统内存——这会导致速度极慢甚至程序崩溃。

≤ 85% 显存充裕，模型完整载入 GPU，速度最优，推荐

85–110% 勉强运行，通常仍可使用，但其他应用占用显存可能导致不稳定

> 110% 超出显存，模型无法完整载入，速度极慢或直接崩溃

MoE（混合专家模型）

MoE（Mixture of Experts）架构包含多个"专家"子网络和一个路由层。每次推理时，路由层只选择激活其中少数几个专家——这使得模型在拥有庞大总参数量的同时，每次推理只需计算一小部分参数。

MoE Expert Routing (Mixtral Example)

Token

→

Router
top-2

→

Expert 1 ✓

激活

Expert 2 ✓

激活

Expert 3

跳过

Expert 4

跳过

... ×8 total

→

Output

Active ~12.9B

Total 46.7B

VRAM all 46.7B

关键点：MoE 需要将全部专家参数载入 VRAM（路由时才决定激活哪几个），因此 VRAM 需求与总参数量挂钩，而非激活参数量。

Dense vs MoE

特性	Dense（密集）	MoE（混合专家）
每次激活参数	全部	少数专家（稀疏）
推理计算量	与总参数成正比	远低于总参数量
VRAM 需求	由激活参数决定	由全部参数决定
生成速度	受总参数限制	比同 VRAM 的 Dense 更快
典型代表	Llama 3, Qwen 2.5	Mixtral, DeepSeek, Qwen MoE

上下文长度（Context Length）

上下文长度是模型在单次会话中能"记住"的最大 token 数。128K tokens 大约相当于 100,000 个英文单词——足以装下整本书。但更长的上下文需要更多 VRAM 存储 KV 缓存。

本地运行建议使用 4K–8K 上下文，既满足日常对话需求，又不会大量消耗显存。超长上下文（如 128K）通常只在需要分析完整文档时才有必要。

2K ~1,500 词短对话、简单问答

4K ~3,000 词日常聊天（推荐起点）

8K ~6,000 词较长文档、代码审查

32K ~24,000 词长篇报告、多文件分析

128K ~100,000 词整本书、大型代码库

Tokens per Second（生成速度）

t/s 衡量模型每秒能生成多少 token，1 个 token 约等于 0.75 个英文单词。速度主要由 GPU 内存带宽决定，与 VRAM 容量关系不大。

60+ t/s 极快接近人类阅读速度，几乎无等待

30–60 t/s 快流畅对话体验

15–30 t/s 可用基本流畅，偶有等待感

5–15 t/s 批处理可接受，适合离线任务而非实时对话

< 5 t/s 很慢等待明显，日常使用体验较差

GGUF 格式

GGUF 是 llama.cpp 推出的标准模型文件格式，已成为 Ollama、LM Studio 等本地推理工具的通用格式。

特性	说明
单文件	权重、分词器、元数据全部打包，无需额外配置
多量化支持	同一模型提供 Q2_K 到 F16 多个量化版本供选择
混合推理	支持 CPU + GPU 混合推理（层卸载），适应不同显存
兼容性	llama.cpp、Ollama、LM Studio、Jan、KoboldCpp 均支持

在 HuggingFace 搜索模型时，选择后缀为 .gguf 的文件即可直接使用。

内存带宽（Memory Bandwidth）

LLM 推理是典型的内存带宽密集型任务——每生成一个 token，GPU 几乎需要读取一遍模型权重。因此带宽越高，速度越快，这就是为什么高带宽的 GPU 在本地推理上优势巨大。

Memory Bandwidth Comparison (GB/s)

RTX 4060

272 GB/s

M4 Pro

273 GB/s

RTX 4070

504 GB/s

M4 Max

546 GB/s

7900 XTX

960 GB/s

RTX 4090

1008 GB/s

RTX 5090

1792 GB/s

Higher bandwidth = faster tok/s at same model size

估算公式：tok/s ≈ 带宽(GB/s) ÷ 模型VRAM(GB) × 效率系数。效率系数：NVIDIA GPU 约 70%，Apple Silicon 约 65%。