Cairn

本地大模型阶梯榜

每个模型,按你的机器能怎么跑排。

我能在本地跑 AI 吗——具体哪些模型?下面是按你的 GPU 排序的本地大模型阶梯榜。S 档从容能跑,B 档勉强装下,F 档完全跑不动——下 40 GB 的权重之前,先看清目标能不能装上。

— 选一张 GPU 来开榜 —

关于本地大模型阶梯榜的常见问题

阶梯榜里 S、B、F 分别什么意思?

S 档意思是模型用了你显存的不到 85%,从容,上下文也有余量。B 档是 85–100%,能加载但快到上限。F 档超过 100%,装不进你的 GPU。

为什么 70B 模型在 RTX 4090 上是 F 档,在 Mac Studio 上却是 S 档?

显存容量决定的。RTX 4090 是 24 GB,70B 的 Q4 需要约 42 GB,装不下。Mac Studio M2 Ultra 是 192 GB 统一内存,同样的模型余量很大。

MoE 模型和稠密模型的排档方式有区别吗?

有。MoE 虽然每次只激活部分专家,显存里却要装下所有专家。像 Mixtral 8x7B 这种 47B 激活参数的 MoE 占用完整的 47 GB(不是 13B 激活参数那个数字),所以装下按 47B 稠密模型算,速度按 13B 算。