我能在本地跑 AI 吗？· 田野指南

我能在本地跑 AI 吗？

正在打量你的机器…

Cairn 从浏览器里读你的 GPU、显存、带宽，再把 50+ 开源大模型按你的硬件排一遍。离线完成，300 毫秒。

— 正在打量你的机器 —

你的 GPU 到底能跑什么

6 GB 显存能跑 Q4 量化的 7B 模型，12 GB 覆盖大多数 13B，24 GB 能上 30B 和 MoE 70B。Cairn 把 50+ 开源大模型都按你的硬件算一遍——省得你拉一个 40 GB 的权重下来才发现装不下。

想看全景？翻翻阶梯榜，或把两张 GPU 并排对比。

显存占用

任务

厂商

许可证

全部 50 个开源大模型

50 个模型

Llama 3.1 8B

Meta

5.4GB0%

8B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程Llama 3.1稠密

Llama 3.1 70B

Meta

42.0GB0%

70B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理Llama 3.1稠密

Llama 3.3 70B

Meta

42.0GB0%

70B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理Llama 3.3稠密

Qwen 3 0.6B

Alibaba

0.6GB0%

0.6B 参数32.768K 上下文超出显存，无法纯 GPU 运行

对话Apache 2.0稠密

Qwen 3 4B

Alibaba

3.2GB0%

4B 参数32.768K 上下文超出显存，无法纯 GPU 运行

对话编程Apache 2.0稠密

Qwen 3 8B

Alibaba

5.4GB0%

8B 参数32.768K 上下文超出显存，无法纯 GPU 运行

对话编程推理Apache 2.0稠密

Qwen 3 32B

Alibaba

20.0GB0%

32B 参数32.768K 上下文超出显存，无法纯 GPU 运行

对话编程推理Apache 2.0稠密

Qwen 3 235B (MoE)

Alibaba

142GB0%

235B 参数32.768K 上下文超出显存，无法纯 GPU 运行

对话编程推理Apache 2.0混合专家

DeepSeek R1 Distill 7B

DeepSeek

4.7GB0%

7B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话推理MIT稠密

DeepSeek R1 Distill 70B

DeepSeek

42.0GB0%

70B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话推理MIT稠密

DeepSeek V3

DeepSeek

400GB0%

685B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理MIT混合专家

Gemma 3 4B

Google

3.2GB0%

4B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话视觉Gemma稠密

Gemma 3 12B

Google

8.2GB0%

12B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话视觉Gemma稠密

Gemma 3 27B

Google

17.0GB0%

27B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程视觉Gemma稠密

Mistral Small 24B

Mistral AI

15.0GB0%

24B 参数32.768K 上下文超出显存，无法纯 GPU 运行

对话编程Apache 2.0稠密

Phi-4 14B

Microsoft

9.5GB0%

14B 参数16.384K 上下文超出显存，无法纯 GPU 运行

对话编程推理MIT稠密

Code Llama 7B

Meta

4.7GB0%

7B 参数16.384K 上下文超出显存，无法纯 GPU 运行

编程Llama 2稠密

LLaVA 1.6 7B

LLaVA Team

4.7GB0%

7B 参数4.096K 上下文超出显存，无法纯 GPU 运行

对话视觉Apache 2.0稠密

Mixtral 8x7B

Mistral AI

28.0GB0%

47B 参数32.768K 上下文超出显存，无法纯 GPU 运行

对话编程Apache 2.0混合专家

Qwen 2.5 Coder 32B

Alibaba

20.0GB0%

32B 参数131.072K 上下文超出显存，无法纯 GPU 运行

编程Apache 2.0稠密

Llama 3.2 1B

Meta

0.7GB0%

1B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话Llama 3.2稠密

Llama 3.2 3B

Meta

2.0GB0%

3B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话Llama 3.2稠密

Llama 3.2 11B Vision

Meta

7.2GB0%

11B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话视觉Llama 3.2稠密

Llama 3.1 405B

Meta

263GB0%

405B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理Llama 3.1稠密

Llama 4 Scout 17B

Meta

71.0GB0%

109B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理视觉Llama 4混合专家

Llama 4 Maverick 17B-128E

Meta

260GB0%

400B 参数1.048576M 上下文超出显存，无法纯 GPU 运行

对话编程推理视觉Llama 4混合专家

GPT-OSS 20B

OpenAI

14.0GB0%

21B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理Apache 2.0混合专家

GPT-OSS 120B

OpenAI

76.0GB0%

117B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理Apache 2.0混合专家

Mistral Small 3.1 24B

Mistral AI

16.0GB0%

24B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程视觉Apache 2.0稠密

Mistral Nemo 12B

Mistral AI

7.8GB0%

12B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程Apache 2.0稠密

Mixtral 8x22B

Mistral AI

92.0GB0%

141B 参数65.536K 上下文超出显存，无法纯 GPU 运行

对话编程Apache 2.0混合专家

Devstral 2 123B

Mistral AI

80.0GB0%

123B 参数262.144K 上下文超出显存，无法纯 GPU 运行

编程推理Mistral Research稠密

Qwen 3.5 0.8B

Alibaba

0.6GB0%

0.8B 参数32.768K 上下文超出显存，无法纯 GPU 运行

对话Apache 2.0稠密

Qwen 3.5 9B

Alibaba

5.9GB0%

9B 参数32.768K 上下文超出显存，无法纯 GPU 运行

对话编程推理Apache 2.0稠密

Qwen 3 1.7B

Alibaba

1.1GB0%

1.7B 参数32.768K 上下文超出显存，无法纯 GPU 运行

对话Apache 2.0稠密

Qwen 3 14B

Alibaba

9.1GB0%

14B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理Apache 2.0稠密

Qwen 3 30B-A3B (MoE)

Alibaba

20.0GB0%

30B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理Apache 2.0混合专家

Qwen 3 Coder 480B (MoE)

Alibaba

312GB0%

480B 参数262.144K 上下文超出显存，无法纯 GPU 运行

编程推理Apache 2.0混合专家

Qwen 2.5 72B

Alibaba

47.0GB0%

72B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理Qwen稠密

Qwen 2.5 Coder 7B

Alibaba

4.6GB0%

7B 参数131.072K 上下文超出显存，无法纯 GPU 运行

编程Apache 2.0稠密

DeepSeek R1 Distill 1.5B

DeepSeek

1.0GB0%

1.5B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话推理MIT稠密

DeepSeek R1 Distill 14B

DeepSeek

9.1GB0%

14B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话推理MIT稠密

DeepSeek R1 Distill 32B

DeepSeek

21.0GB0%

32B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话推理MIT稠密

DeepSeek R1 671B

DeepSeek

436GB0%

671B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理MIT混合专家

DeepSeek V3.1

DeepSeek

436GB0%

671B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理MIT混合专家

DeepSeek V3.2

DeepSeek

445GB0%

685B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理MIT混合专家

Kimi K2

Moonshot AI

650GB0%

1000B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程推理Kimi混合专家

Gemma 3 1B

Google

0.7GB0%

1B 参数32.768K 上下文超出显存，无法纯 GPU 运行

对话Gemma稠密

Gemma 2 9B

Google

5.9GB0%

9B 参数8.192K 上下文超出显存，无法纯 GPU 运行

对话Gemma稠密

Phi-3.5 Mini 3.8B

Microsoft

2.5GB0%

3.8B 参数131.072K 上下文超出显存，无法纯 GPU 运行

对话编程MIT稠密

关于本地跑 AI 的常见问题

本地跑 AI 模型最少需要多大 GPU 显存？

6 GB 显存就能跑 Q4 量化的 7B 模型；12 GB 覆盖大多数 13B；24 GB 能上 30B 稠密模型和 MoE 70B Q4；70B 的 Q8 得 48 GB 起步。

本地大模型推理比 ChatGPT API 快吗？

速度主要看 GPU 显存带宽。RTX 4090 跑 7B 模型能到 80+ tokens/秒——和 API 响应差不多快，省了一次网络往返。

Windows、Mac 还是 Linux 能在本地跑 AI？

三个系统都可以。Cairn 通过 WebGPU / WebGL 读你的 GPU，推理本身用 llama.cpp、Ollama、LM Studio，或你习惯的任何本地运行时。模型支持完全一样。

本地大模型的 Q4_K_M 和 Q8_0 量化有什么区别？

Q4_K_M 每十亿参数占约 0.65 GB 显存，相比原精度只损失约 1% 质量；Q8_0 显存翻倍但保留约 99.9% 质量。Q4 是大多数消费级 GPU 的默认选择。