低成本Llama-3.1Groq LPU 极速推理，Meta开源模型

Llama 3.1 8B Instant — 超高速推理模型

Llama 3.1 8B Instant是通过Groq LPU极速推理平台提供的开源AI模型，Llama 3，推理速度可达840 tokens/sec，上下文窗口131K tokens，支持流式输出和API调用。

Groq·开源

对话低成本函数调用大语言模型

LPU 极速推理: 840tokens/sec

申请 KEY API 文档

厂商

Groq

模型参数

推理速度: 840~840 token/s

输入模态: 文本

输出模态: 文本

能力矩阵

上下文窗口: 131.1K

最大输出: 8.2K

函数调用

流式输出

定价与计费

计费方式: 按量付费

输入价格: $0.0500/百万token

输出价格: $0.0800/百万token

同系列变体 · Llama-3.1

llama-3.1-405b-instruct — NVIDIA Build免费

Llama-3.1-8B-Instruct — 免费对话模型免费

Llama 3.1 70B Versatile — 极速推理模型低成本

131.1K 250~250 t/s$0.59/M in

Llama 3.1 8B Instant — 超高速推理模型低成本

131.1K 840~840 t/s$0.05/M in

Meta-Llama-3.1-8B-Instruct-Turbo — 开源对话模型低成本

131.1K$0.18/M in

Meta-Llama-3.1-70B-Instruct-Turbo — 开源对话模型低成本

131.1K$0.88/M in

Meta-Llama-3.1-405B-Instruct-Turbo — 开源对话模型中等

131.1K$3.50/M in

llama-3.1-8b-instruct — NVIDIA Build免费

llama-3.1-70b-instruct — NVIDIA Build免费

llama-3.1-nemotron-safety-guard-8b-v3 — NVIDIA Build免费

llama-3.1-nemotron-70b-reward — NVIDIA Build免费

llama-3.1-nemoguard-8b-content-safety — NVIDIA Build免费

llama-3.1-nemoguard-8b-topic-control — NVIDIA Build免费

llama-3.1-nemotron-nano-8b-v1 — NVIDIA Build免费

llama-3.1-nemotron-ultra-253b-v1 — NVIDIA Build免费

llama-3.1-nemotron-nano-4b-v1.1 — NVIDIA Build免费

llama-3.1-nemotron-nano-vl-8b-v1 — NVIDIA BuildVision免费

其他平台提供

SiliconFlow免费

¥0/M in¥0/M out 申请 ↗

Together AI低成本

$0.18/M in$0.18/M out 申请 ↗

Groq 其他模型

Whisper Large V3 Turbo — 极速推理模型Turbo低成本

Whisper Large V3 — 极速推理模型低成本

Kimi K2 0905 — 极速推理模型中等

Llama Guard 3 8B — 超高速推理模型低成本

Llama 3 8B — 超高速推理模型低成本

Llama 3 70B — 极速推理模型低成本

数据来源：groq_web ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务