本地运行 AI 需要什么设备?
6 GB 显存起步,能跑 7B 量化模型(Q4);12 GB 覆盖大多数 13B;24 GB 能上 30B;想跑 70B 至少要 48 GB,或用 Mac Studio 这类统一内存方案。消费级 NVIDIA RTX、Apple Silicon(统一内存)、AMD Radeon 三条路线都可行。
选两台设备,差异一页看完。
我能在本地跑 AI 吗——选这台还是那台?本地跑 AI 设备比较的关键是两个数:显存和内存带宽。下面选两台设备,Cairn 把 50 个开源模型分别在两张卡上跑一遍,告诉你哪个能跑、量化多少、速度多快。
设备 A
设备 B
Kimi K2
1000B · Moonshot AI
DeepSeek V3
685B · DeepSeek
DeepSeek V3.2
685B · DeepSeek
DeepSeek R1 671B
671B · DeepSeek
DeepSeek V3.1
671B · DeepSeek
Qwen 3 Coder 480B (MoE)
480B · Alibaba
Llama 3.1 405B
405B · Meta
Llama 4 Maverick 17B-128E
400B · Meta
Qwen 3 235B (MoE)
235B · Alibaba
Mixtral 8x22B
141B · Mistral AI
Devstral 2 123B
123B · Mistral AI
GPT-OSS 120B
117B · OpenAI
Llama 4 Scout 17B
109B · Meta
Qwen 2.5 72B
72B · Alibaba
Llama 3.1 70B
70B · Meta
Llama 3.3 70B
70B · Meta
DeepSeek R1 Distill 70B
70B · DeepSeek
Mixtral 8x7B
47B · Mistral AI
Qwen 3 32B
32B · Alibaba
Qwen 2.5 Coder 32B
32B · Alibaba
DeepSeek R1 Distill 32B
32B · DeepSeek
Qwen 3 30B-A3B (MoE)
30B · Alibaba
Gemma 3 27B
27B · Google
Mistral Small 24B
24B · Mistral AI
Mistral Small 3.1 24B
24B · Mistral AI
GPT-OSS 20B
21B · OpenAI
Phi-4 14B
14B · Microsoft
Qwen 3 14B
14B · Alibaba
DeepSeek R1 Distill 14B
14B · DeepSeek
Gemma 3 12B
12B · Google
Mistral Nemo 12B
12B · Mistral AI
Llama 3.2 11B Vision
11B · Meta
Qwen 3.5 9B
9B · Alibaba
Gemma 2 9B
9B · Google
Llama 3.1 8B
8B · Meta
Qwen 3 8B
8B · Alibaba
DeepSeek R1 Distill 7B
7B · DeepSeek
Code Llama 7B
7B · Meta
LLaVA 1.6 7B
7B · LLaVA Team
Qwen 2.5 Coder 7B
7B · Alibaba
Qwen 3 4B
4B · Alibaba
Gemma 3 4B
4B · Google
Phi-3.5 Mini 3.8B
3.8B · Microsoft
Llama 3.2 3B
3B · Meta
Qwen 3 1.7B
1.7B · Alibaba
DeepSeek R1 Distill 1.5B
1.5B · DeepSeek
Llama 3.2 1B
1B · Meta
Gemma 3 1B
1B · Google
Qwen 3.5 0.8B
0.8B · Alibaba
Qwen 3 0.6B
0.6B · Alibaba
6 GB 显存起步,能跑 7B 量化模型(Q4);12 GB 覆盖大多数 13B;24 GB 能上 30B;想跑 70B 至少要 48 GB,或用 Mac Studio 这类统一内存方案。消费级 NVIDIA RTX、Apple Silicon(统一内存)、AMD Radeon 三条路线都可行。
看你优先什么。容量上 Apple 赢:Mac Studio 统一内存能到 192 GB,单卡 NVIDIA 到 24 GB。带宽上 NVIDIA 赢:RTX 4090 约 1 TB/s 对比 M2 Pro 的 200 GB/s。大模型进得去看 Apple,跑得快看 NVIDIA。
都重要,但回答不同问题。显存决定模型能不能装下,带宽决定跑多快。RTX 4090 是 24 GB 显存 + 约 1 TB/s 带宽,7B 模型占 5 GB,能跑到 80+ tokens/秒。Apple M2 Pro 是 16 GB 统一内存 + 200 GB/s,同样的模型能装下但只有 20 tok/秒左右。
量化等级。70B 的 Q4_K_M 需要约 42 GB,Q8_0 需要 75 GB。48 GB 两台设备都能跑 Q4,但上下文长度和激活内存可能让其中一台放不下 Q8。