阶梯榜里 S、B、F 分别什么意思?
S 档意思是模型用了你显存的不到 85%,从容,上下文也有余量。B 档是 85–100%,能加载但快到上限。F 档超过 100%,装不进你的 GPU。
每个模型,按你的机器能怎么跑排。
我能在本地跑 AI 吗——具体哪些模型?下面是按你的 GPU 排序的本地大模型阶梯榜。S 档从容能跑,B 档勉强装下,F 档完全跑不动——下 40 GB 的权重之前,先看清目标能不能装上。
— 选一张 GPU 来开榜 —
S 档意思是模型用了你显存的不到 85%,从容,上下文也有余量。B 档是 85–100%,能加载但快到上限。F 档超过 100%,装不进你的 GPU。
显存容量决定的。RTX 4090 是 24 GB,70B 的 Q4 需要约 42 GB,装不下。Mac Studio M2 Ultra 是 192 GB 统一内存,同样的模型余量很大。
有。MoE 虽然每次只激活部分专家,显存里却要装下所有专家。像 Mixtral 8x7B 这种 47B 激活参数的 MoE 占用完整的 47 GB(不是 13B 激活参数那个数字),所以装下按 47B 稠密模型算,速度按 13B 算。