Cairn

我能在本地跑 AI 吗?· 田野指南

我能在本地跑 AI 吗?

正在打量你的机器…

Cairn 从浏览器里读你的 GPU、显存、带宽,再把 50+ 开源大模型按你的硬件排一遍。离线完成,300 毫秒。

— 正在打量你的机器 —

你的 GPU 到底能跑什么

6 GB 显存能跑 Q4 量化的 7B 模型,12 GB 覆盖大多数 13B,24 GB 能上 30B 和 MoE 70B。Cairn 把 50+ 开源大模型都按你的硬件算一遍——省得你拉一个 40 GB 的权重下来才发现装不下。

想看全景?翻翻阶梯榜,或把两张 GPU 并排对比

显存占用
任务
厂商
许可证

全部 50 个开源大模型

50 个模型

Llama 3.1 8B

Meta

5.4GB0%
8B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程Llama 3.1稠密

Llama 3.1 70B

Meta

42.0GB0%
70B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理Llama 3.1稠密

Llama 3.3 70B

Meta

42.0GB0%
70B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理Llama 3.3稠密

Qwen 3 0.6B

Alibaba

0.6GB0%
0.6B 参数32.768K 上下文超出显存,无法纯 GPU 运行
对话Apache 2.0稠密

Qwen 3 4B

Alibaba

3.2GB0%
4B 参数32.768K 上下文超出显存,无法纯 GPU 运行
对话编程Apache 2.0稠密

Qwen 3 8B

Alibaba

5.4GB0%
8B 参数32.768K 上下文超出显存,无法纯 GPU 运行
对话编程推理Apache 2.0稠密

Qwen 3 32B

Alibaba

20.0GB0%
32B 参数32.768K 上下文超出显存,无法纯 GPU 运行
对话编程推理Apache 2.0稠密

Qwen 3 235B (MoE)

Alibaba

142GB0%
235B 参数32.768K 上下文超出显存,无法纯 GPU 运行
对话编程推理Apache 2.0混合专家

DeepSeek R1 Distill 7B

DeepSeek

4.7GB0%
7B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话推理MIT稠密

DeepSeek R1 Distill 70B

DeepSeek

42.0GB0%
70B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话推理MIT稠密

DeepSeek V3

DeepSeek

400GB0%
685B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理MIT混合专家

Gemma 3 4B

Google

3.2GB0%
4B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话视觉Gemma稠密

Gemma 3 12B

Google

8.2GB0%
12B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话视觉Gemma稠密

Gemma 3 27B

Google

17.0GB0%
27B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程视觉Gemma稠密

Mistral Small 24B

Mistral AI

15.0GB0%
24B 参数32.768K 上下文超出显存,无法纯 GPU 运行
对话编程Apache 2.0稠密

Phi-4 14B

Microsoft

9.5GB0%
14B 参数16.384K 上下文超出显存,无法纯 GPU 运行
对话编程推理MIT稠密

Code Llama 7B

Meta

4.7GB0%
7B 参数16.384K 上下文超出显存,无法纯 GPU 运行
编程Llama 2稠密

LLaVA 1.6 7B

LLaVA Team

4.7GB0%
7B 参数4.096K 上下文超出显存,无法纯 GPU 运行
对话视觉Apache 2.0稠密

Mixtral 8x7B

Mistral AI

28.0GB0%
47B 参数32.768K 上下文超出显存,无法纯 GPU 运行
对话编程Apache 2.0混合专家

Qwen 2.5 Coder 32B

Alibaba

20.0GB0%
32B 参数131.072K 上下文超出显存,无法纯 GPU 运行
编程Apache 2.0稠密

Llama 3.2 1B

Meta

0.7GB0%
1B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话Llama 3.2稠密

Llama 3.2 3B

Meta

2.0GB0%
3B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话Llama 3.2稠密

Llama 3.2 11B Vision

Meta

7.2GB0%
11B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话视觉Llama 3.2稠密

Llama 3.1 405B

Meta

263GB0%
405B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理Llama 3.1稠密

Llama 4 Scout 17B

Meta

71.0GB0%
109B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理视觉Llama 4混合专家

Llama 4 Maverick 17B-128E

Meta

260GB0%
400B 参数1.048576M 上下文超出显存,无法纯 GPU 运行
对话编程推理视觉Llama 4混合专家

GPT-OSS 20B

OpenAI

14.0GB0%
21B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理Apache 2.0混合专家

GPT-OSS 120B

OpenAI

76.0GB0%
117B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理Apache 2.0混合专家

Mistral Small 3.1 24B

Mistral AI

16.0GB0%
24B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程视觉Apache 2.0稠密

Mistral Nemo 12B

Mistral AI

7.8GB0%
12B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程Apache 2.0稠密

Mixtral 8x22B

Mistral AI

92.0GB0%
141B 参数65.536K 上下文超出显存,无法纯 GPU 运行
对话编程Apache 2.0混合专家

Devstral 2 123B

Mistral AI

80.0GB0%
123B 参数262.144K 上下文超出显存,无法纯 GPU 运行
编程推理Mistral Research稠密

Qwen 3.5 0.8B

Alibaba

0.6GB0%
0.8B 参数32.768K 上下文超出显存,无法纯 GPU 运行
对话Apache 2.0稠密

Qwen 3.5 9B

Alibaba

5.9GB0%
9B 参数32.768K 上下文超出显存,无法纯 GPU 运行
对话编程推理Apache 2.0稠密

Qwen 3 1.7B

Alibaba

1.1GB0%
1.7B 参数32.768K 上下文超出显存,无法纯 GPU 运行
对话Apache 2.0稠密

Qwen 3 14B

Alibaba

9.1GB0%
14B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理Apache 2.0稠密

Qwen 3 30B-A3B (MoE)

Alibaba

20.0GB0%
30B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理Apache 2.0混合专家

Qwen 3 Coder 480B (MoE)

Alibaba

312GB0%
480B 参数262.144K 上下文超出显存,无法纯 GPU 运行
编程推理Apache 2.0混合专家

Qwen 2.5 72B

Alibaba

47.0GB0%
72B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理Qwen稠密

Qwen 2.5 Coder 7B

Alibaba

4.6GB0%
7B 参数131.072K 上下文超出显存,无法纯 GPU 运行
编程Apache 2.0稠密

DeepSeek R1 Distill 1.5B

DeepSeek

1.0GB0%
1.5B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话推理MIT稠密

DeepSeek R1 Distill 14B

DeepSeek

9.1GB0%
14B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话推理MIT稠密

DeepSeek R1 Distill 32B

DeepSeek

21.0GB0%
32B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话推理MIT稠密

DeepSeek R1 671B

DeepSeek

436GB0%
671B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理MIT混合专家

DeepSeek V3.1

DeepSeek

436GB0%
671B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理MIT混合专家

DeepSeek V3.2

DeepSeek

445GB0%
685B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理MIT混合专家

Kimi K2

Moonshot AI

650GB0%
1000B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程推理Kimi混合专家

Gemma 3 1B

Google

0.7GB0%
1B 参数32.768K 上下文超出显存,无法纯 GPU 运行
对话Gemma稠密

Gemma 2 9B

Google

5.9GB0%
9B 参数8.192K 上下文超出显存,无法纯 GPU 运行
对话Gemma稠密

Phi-3.5 Mini 3.8B

Microsoft

2.5GB0%
3.8B 参数131.072K 上下文超出显存,无法纯 GPU 运行
对话编程MIT稠密

关于本地跑 AI 的常见问题

本地跑 AI 模型最少需要多大 GPU 显存?

6 GB 显存就能跑 Q4 量化的 7B 模型;12 GB 覆盖大多数 13B;24 GB 能上 30B 稠密模型和 MoE 70B Q4;70B 的 Q8 得 48 GB 起步。

本地大模型推理比 ChatGPT API 快吗?

速度主要看 GPU 显存带宽。RTX 4090 跑 7B 模型能到 80+ tokens/秒——和 API 响应差不多快,省了一次网络往返。

Windows、Mac 还是 Linux 能在本地跑 AI?

三个系统都可以。Cairn 通过 WebGPU / WebGL 读你的 GPU,推理本身用 llama.cpp、Ollama、LM Studio,或你习惯的任何本地运行时。模型支持完全一样。

本地大模型的 Q4_K_M 和 Q8_0 量化有什么区别?

Q4_K_M 每十亿参数占约 0.65 GB 显存,相比原精度只损失约 1% 质量;Q8_0 显存翻倍但保留约 99.9% 质量。Q4 是大多数消费级 GPU 的默认选择。