首页龙虾技能列表 › Gpu Deploy — 在 GPU 服务器上部署 vLLM 模型服务

🚀 Gpu Deploy — 在 GPU 服务器上部署 vLLM 模型服务

v0.1.0

在 GPU 服务器上部署 vLLM 模型服务,支持多服务器配置、自动检查 GPU 和端口占用,一键部署流行的开源模型。

0· 403·0 当前·0 累计
by @wang-junjian·MIT-0
下载技能包
License
MIT-0
最后更新
2026/3/1
安全扫描
VirusTotal
可疑
查看报告
OpenClaw
安全
high confidence
该技能的请求和指令与其声明的目的(通过 SSH 部署 vLLM)一致,只有少数文档/包含差距需要注意。
评估建议
在使用该技能之前,请验证以下内容:(1)没有提供 'gpu-deploy' 脚本——创建/获取一个可信的脚本或手动运行显示的 SSH 命令。(2)确认远程路径(conda 路径、/data/models/llm)和用于 SSH 的用户帐户具有必要的权限。(3)检查您复制/粘贴的命令,特别是 tmux/conda/vllm serve 行,以确保模型路径和端口正确。(4)使用 SSH 密钥和最小特权帐户;不要在您不控制的主机上运行未知命令。(5)独立验证模型二进制文件/下载源(Hugging Face 链接),确保主机上的 vLLM 和依赖项来自可信源。如果您需要便捷脚本,请从维护者请求包装实现或在将其添加到 PATH 之前审查其内容。...
详细分析 ▾
用途与能力
名称/描述(在 GPU 服务器上部署 vLLM)与指令匹配:通过 SSH 连接到主机,检查 GPU/端口,并运行 vllm serve。需要 ssh 是合适的。少数不一致:README 和示例引用一个本地 'gpu-deploy' 脚本添加到 PATH,但此包中没有捆绑此脚本(技能仅为指令)。
指令范围
运行时指令仅限于通过 SSH 进行的远程操作(nvidia-smi、lsof、tmux + conda + vllm serve)。它们不尝试读取无关的本地文件或泄露数据。注意,许多命令假设特定的路径(例如 /data/miniconda3、/data/models/llm)和远程主机的高级访问权限;用户应该在运行之前验证和适应这些路径。
安装机制
没有安装规格(仅指令),这降低了安装时的风险。然而,文档建议将 'gpu-deploy' 脚本复制到 ~/.local/bin,但文件中没有提供此脚本 — 该技能不会为您安装一个帮助二进制文件。
凭证需求
没有请求环境变量、秘密或配置路径。暗示基于 SSH 的访问(servers.json 中的用户/主机),这适用于远程部署;没有要求无关的凭据。
持久化与权限
always:false 且没有安装/规格写入系统范围的配置。该技能不请求持久的高级权限或尝试修改其他技能的配置。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv0.1.02026/3/1
● 可疑

安装命令 点击复制

官方npx clawhub@latest install gpu-deploy
镜像加速npx clawhub@latest install gpu-deploy --registry https://cn.clawhub-mirror.com

技能文档

在 GPU 服务器上快速部署 vLLM 模型服务。

✨ 功能特点

  • 🖥️ 多服务器支持
  • 配置多个 GPU 服务器,灵活选择
  • 🔍 自动检查
  • 一键检查 GPU 状态和端口占用
  • 🤖 模型库
  • 预置流行模型配置
  • 快速部署
  • 简单命令即可启动服务

📋 快速开始

1. 配置服务器

创建 ~/.config/gpu-deploy/servers.json
{ "servers": { "gpu1": { "host": "gpu1", "user": "lnsoft", "gpu_count": 4, "model_path": "/data/models/llm" }, "my-gpu": { "host": "192.168.1.100", "user": "ubuntu", "gpu_count": 2, "model_path": "/home/ubuntu/models" } }, "default_server": "gpu1" }

2. 检查服务器状态

# 使用默认服务器
gpu-deploy check
# 指定服务器
gpu-deploy check --server gpu1

3. 部署模型

# 部署预设模型
gpu-deploy deploy deepseek-r1-32b
# 指定端口
gpu-deploy deploy deepseek-r1-32b --port 8112

🎛️ 可用命令

check - 检查服务器状态

检查 GPU 显存和端口占用情况。
gpu-deploy check [--server NAME] [--port PORT]
输出示例:
✅ GPU 状态正常 - 4 × Tesla T4 (15GB)
  • 显存占用: 12.6GB/卡
  • 温度: 51-55°C
✅ 端口 8111 可用

deploy - 部署模型

启动 vLLM 模型服务。
gpu-deploy deploy  [--server NAME] [--port PORT]
支持的模型:
  • deepseek-r1-32b
  • DeepSeek-R1-Distill-Qwen-32B-AWQ
  • llama-3-8b
  • Llama 3 8B
  • qwen-7b
  • Qwen 7B
  • mistral-7b
  • Mistral 7B

🔧 手动使用(无脚本)

如果不想用封装脚本,也可以直接用原始命令:

检查 GPU

ssh @ nvidia-smi

检查端口

ssh @ "lsof -i : 2>/dev/null || echo '端口可用'"

部署模型(DeepSeek R1 32B)

ssh @ "tmux new-session -d -s vllm ' source /data/miniconda3/etc/profile.d/conda.sh && \
 conda activate vllm && \
 cd /data/models/llm && \
 vllm serve /data/models/llm/deepseek/DeepSeek-R1-Distill-Qwen-32B-AWQ/ \
 --tensor-parallel-size 4 \
 --max-model-len 102400 \
 --dtype half \
 --port 8111 \
 --served-model-name gpt-4o-mini '"

📦 添加自定义模型

~/.config/gpu-deploy/models.json 中添加:
{ "my-model": { "name": "My Awesome Model", "path": "/path/to/model", "tensor_parallel_size": 2, "max_model_len": 8192, "dtype": "half", "port": 8111, "served_model_name": "my-model" } }

⚠️ 注意事项

  • 部署前检查
  • 总是先运行 check 确认资源可用
  • 后台运行
  • 建议使用 tmux/screen 保持服务运行
  • 端口管理
  • 不同模型使用不同端口
  • 显存估算
  • 7B 模型约需 8-10GB,32B 约需 10-14GB/卡

🔗 相关链接

  • vLLM 文档: https://docs.vllm.ai
  • 模型下载: https://huggingface.co/models
  • 问题反馈: https://github.com/your-username/gpu-deploy-skill

由 OpenClaw 社区贡献 🦞

数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务