Cairn

本地运行 AI 设备比较:两张显卡并排对比

选两台设备,差异一页看完。

我能在本地跑 AI 吗——选这台还是那台?本地跑 AI 设备比较的关键是两个数:显存和内存带宽。下面选两台设备,Cairn 把 50 个开源模型分别在两张卡上跑一遍,告诉你哪个能跑、量化多少、速度多快。

选两台设备开始对比

设备 A

设备 B

Kimi K2

1000B · Moonshot AI

DeepSeek V3

685B · DeepSeek

DeepSeek V3.2

685B · DeepSeek

DeepSeek R1 671B

671B · DeepSeek

DeepSeek V3.1

671B · DeepSeek

Qwen 3 Coder 480B (MoE)

480B · Alibaba

Llama 3.1 405B

405B · Meta

Llama 4 Maverick 17B-128E

400B · Meta

Qwen 3 235B (MoE)

235B · Alibaba

Mixtral 8x22B

141B · Mistral AI

Devstral 2 123B

123B · Mistral AI

GPT-OSS 120B

117B · OpenAI

Llama 4 Scout 17B

109B · Meta

Qwen 2.5 72B

72B · Alibaba

Llama 3.1 70B

70B · Meta

Llama 3.3 70B

70B · Meta

DeepSeek R1 Distill 70B

70B · DeepSeek

Mixtral 8x7B

47B · Mistral AI

Qwen 3 32B

32B · Alibaba

Qwen 2.5 Coder 32B

32B · Alibaba

DeepSeek R1 Distill 32B

32B · DeepSeek

Qwen 3 30B-A3B (MoE)

30B · Alibaba

Gemma 3 27B

27B · Google

Mistral Small 24B

24B · Mistral AI

Mistral Small 3.1 24B

24B · Mistral AI

GPT-OSS 20B

21B · OpenAI

Phi-4 14B

14B · Microsoft

Qwen 3 14B

14B · Alibaba

DeepSeek R1 Distill 14B

14B · DeepSeek

Gemma 3 12B

12B · Google

Mistral Nemo 12B

12B · Mistral AI

Llama 3.2 11B Vision

11B · Meta

Qwen 3.5 9B

9B · Alibaba

Gemma 2 9B

9B · Google

Llama 3.1 8B

8B · Meta

Qwen 3 8B

8B · Alibaba

DeepSeek R1 Distill 7B

7B · DeepSeek

Code Llama 7B

7B · Meta

LLaVA 1.6 7B

7B · LLaVA Team

Qwen 2.5 Coder 7B

7B · Alibaba

Qwen 3 4B

4B · Alibaba

Gemma 3 4B

4B · Google

Phi-3.5 Mini 3.8B

3.8B · Microsoft

Llama 3.2 3B

3B · Meta

Qwen 3 1.7B

1.7B · Alibaba

DeepSeek R1 Distill 1.5B

1.5B · DeepSeek

Llama 3.2 1B

1B · Meta

Gemma 3 1B

1B · Google

Qwen 3.5 0.8B

0.8B · Alibaba

Qwen 3 0.6B

0.6B · Alibaba

关于本地运行 AI 设备的常见问题

本地运行 AI 需要什么设备?

6 GB 显存起步,能跑 7B 量化模型(Q4);12 GB 覆盖大多数 13B;24 GB 能上 30B;想跑 70B 至少要 48 GB,或用 Mac Studio 这类统一内存方案。消费级 NVIDIA RTX、Apple Silicon(统一内存)、AMD Radeon 三条路线都可行。

本地运行 AI 什么设备好?Apple Silicon 还是 NVIDIA RTX?

看你优先什么。容量上 Apple 赢:Mac Studio 统一内存能到 192 GB,单卡 NVIDIA 到 24 GB。带宽上 NVIDIA 赢:RTX 4090 约 1 TB/s 对比 M2 Pro 的 200 GB/s。大模型进得去看 Apple,跑得快看 NVIDIA。

显存和内存带宽哪个对本地推理更重要?

都重要,但回答不同问题。显存决定模型能不能装下,带宽决定跑多快。RTX 4090 是 24 GB 显存 + 约 1 TB/s 带宽,7B 模型占 5 GB,能跑到 80+ tokens/秒。Apple M2 Pro 是 16 GB 统一内存 + 200 GB/s,同样的模型能装下但只有 20 tok/秒左右。

同样显存的两台设备,为什么 70B 模型一台能跑、另一台跑不动?

量化等级。70B 的 Q4_K_M 需要约 42 GB,Q8_0 需要 75 GB。48 GB 两台设备都能跑 Q4,但上下文长度和激活内存可能让其中一台放不下 Q8。