Question 1

阶梯榜里 S、B、F 分别什么意思？

Accepted Answer

S 档意思是模型用了你显存的不到 85%，从容，上下文也有余量。B 档是 85–100%，能加载但快到上限。F 档超过 100%，装不进你的 GPU。

Question 2

为什么 70B 模型在 RTX 4090 上是 F 档，在 Mac Studio 上却是 S 档？

Accepted Answer

显存容量决定的。RTX 4090 是 24 GB，70B 的 Q4 需要约 42 GB，装不下。Mac Studio M2 Ultra 是 192 GB 统一内存，同样的模型余量很大。

Question 3

MoE 模型和稠密模型的排档方式有区别吗？

Accepted Answer

有。MoE 虽然每次只激活部分专家，显存里却要装下所有专家。像 Mixtral 8x7B 这种 47B 激活参数的 MoE 占用完整的 47 GB（不是 13B 激活参数那个数字），所以装下按 47B 稠密模型算，速度按 13B 算。

本地大模型阶梯榜

关于本地大模型阶梯榜的常见问题