Llama 3.1 8B
Meta
我能在本地跑 AI 吗?· 田野指南
正在打量你的机器…
Cairn 从浏览器里读你的 GPU、显存、带宽,再把 50+ 开源大模型按你的硬件排一遍。离线完成,300 毫秒。
— 正在打量你的机器 —
6 GB 显存能跑 Q4 量化的 7B 模型,12 GB 覆盖大多数 13B,24 GB 能上 30B 和 MoE 70B。Cairn 把 50+ 开源大模型都按你的硬件算一遍——省得你拉一个 40 GB 的权重下来才发现装不下。
想看全景?翻翻阶梯榜,或把两张 GPU 并排对比。
Meta
Meta
Meta
Alibaba
Alibaba
Alibaba
Alibaba
Alibaba
DeepSeek
DeepSeek
DeepSeek
Mistral AI
Microsoft
Meta
LLaVA Team
Mistral AI
Alibaba
Meta
Meta
Meta
Meta
Meta
Meta
OpenAI
OpenAI
Mistral AI
Mistral AI
Mistral AI
Mistral AI
Alibaba
Alibaba
Alibaba
Alibaba
Alibaba
Alibaba
Alibaba
Alibaba
DeepSeek
DeepSeek
DeepSeek
DeepSeek
DeepSeek
DeepSeek
Moonshot AI
Microsoft
6 GB 显存就能跑 Q4 量化的 7B 模型;12 GB 覆盖大多数 13B;24 GB 能上 30B 稠密模型和 MoE 70B Q4;70B 的 Q8 得 48 GB 起步。
速度主要看 GPU 显存带宽。RTX 4090 跑 7B 模型能到 80+ tokens/秒——和 API 响应差不多快,省了一次网络往返。
三个系统都可以。Cairn 通过 WebGPU / WebGL 读你的 GPU,推理本身用 llama.cpp、Ollama、LM Studio,或你习惯的任何本地运行时。模型支持完全一样。
Q4_K_M 每十亿参数占约 0.65 GB 显存,相比原精度只损失约 1% 质量;Q8_0 显存翻倍但保留约 99.9% 质量。Q4 是大多数消费级 GPU 的默认选择。