🚀 Gpu Deploy — 在 GPU 服务器上部署 vLLM 模型服务
v0.1.0在 GPU 服务器上部署 vLLM 模型服务,支持多服务器配置、自动检查 GPU 和端口占用,一键部署流行的开源模型。
0· 403·0 当前·0 累计
安全扫描
OpenClaw
安全
high confidence该技能的请求和指令与其声明的目的(通过 SSH 部署 vLLM)一致,只有少数文档/包含差距需要注意。
评估建议
在使用该技能之前,请验证以下内容:(1)没有提供 'gpu-deploy' 脚本——创建/获取一个可信的脚本或手动运行显示的 SSH 命令。(2)确认远程路径(conda 路径、/data/models/llm)和用于 SSH 的用户帐户具有必要的权限。(3)检查您复制/粘贴的命令,特别是 tmux/conda/vllm serve 行,以确保模型路径和端口正确。(4)使用 SSH 密钥和最小特权帐户;不要在您不控制的主机上运行未知命令。(5)独立验证模型二进制文件/下载源(Hugging Face 链接),确保主机上的 vLLM 和依赖项来自可信源。如果您需要便捷脚本,请从维护者请求包装实现或在将其添加到 PATH 之前审查其内容。...详细分析 ▾
ℹ 用途与能力
名称/描述(在 GPU 服务器上部署 vLLM)与指令匹配:通过 SSH 连接到主机,检查 GPU/端口,并运行 vllm serve。需要 ssh 是合适的。少数不一致:README 和示例引用一个本地 'gpu-deploy' 脚本添加到 PATH,但此包中没有捆绑此脚本(技能仅为指令)。
ℹ 指令范围
运行时指令仅限于通过 SSH 进行的远程操作(nvidia-smi、lsof、tmux + conda + vllm serve)。它们不尝试读取无关的本地文件或泄露数据。注意,许多命令假设特定的路径(例如 /data/miniconda3、/data/models/llm)和远程主机的高级访问权限;用户应该在运行之前验证和适应这些路径。
ℹ 安装机制
没有安装规格(仅指令),这降低了安装时的风险。然而,文档建议将 'gpu-deploy' 脚本复制到 ~/.local/bin,但文件中没有提供此脚本 — 该技能不会为您安装一个帮助二进制文件。
✓ 凭证需求
没有请求环境变量、秘密或配置路径。暗示基于 SSH 的访问(servers.json 中的用户/主机),这适用于远程部署;没有要求无关的凭据。
✓ 持久化与权限
always:false 且没有安装/规格写入系统范围的配置。该技能不请求持久的高级权限或尝试修改其他技能的配置。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv0.1.02026/3/1
● 可疑
安装命令 点击复制
官方npx clawhub@latest install gpu-deploy
镜像加速npx clawhub@latest install gpu-deploy --registry https://cn.clawhub-mirror.com
技能文档
在 GPU 服务器上快速部署 vLLM 模型服务。
✨ 功能特点
- 🖥️ 多服务器支持
- 配置多个 GPU 服务器,灵活选择
- 🔍 自动检查
- 一键检查 GPU 状态和端口占用
- 🤖 模型库
- 预置流行模型配置
- ⚡ 快速部署
- 简单命令即可启动服务
📋 快速开始
1. 配置服务器
创建~/.config/gpu-deploy/servers.json:
{ "servers": { "gpu1": { "host": "gpu1", "user": "lnsoft", "gpu_count": 4, "model_path": "/data/models/llm" }, "my-gpu": { "host": "192.168.1.100", "user": "ubuntu", "gpu_count": 2, "model_path": "/home/ubuntu/models" } }, "default_server": "gpu1" }
2. 检查服务器状态
# 使用默认服务器
gpu-deploy check
# 指定服务器
gpu-deploy check --server gpu1
3. 部署模型
# 部署预设模型
gpu-deploy deploy deepseek-r1-32b
# 指定端口
gpu-deploy deploy deepseek-r1-32b --port 8112
🎛️ 可用命令
check - 检查服务器状态
检查 GPU 显存和端口占用情况。
gpu-deploy check [--server NAME] [--port PORT]
输出示例:
✅ GPU 状态正常 - 4 × Tesla T4 (15GB)
- 显存占用: 12.6GB/卡
- 温度: 51-55°C
✅ 端口 8111 可用
deploy - 部署模型
启动 vLLM 模型服务。
gpu-deploy deploy [--server NAME] [--port PORT]
支持的模型:
deepseek-r1-32b- DeepSeek-R1-Distill-Qwen-32B-AWQ
llama-3-8b- Llama 3 8B
qwen-7b- Qwen 7B
mistral-7b- Mistral 7B
🔧 手动使用(无脚本)
如果不想用封装脚本,也可以直接用原始命令:检查 GPU
ssh @ nvidia-smi
检查端口
ssh @ "lsof -i : 2>/dev/null || echo '端口可用'"
部署模型(DeepSeek R1 32B)
ssh @ "tmux new-session -d -s vllm ' source /data/miniconda3/etc/profile.d/conda.sh && \
conda activate vllm && \
cd /data/models/llm && \
vllm serve /data/models/llm/deepseek/DeepSeek-R1-Distill-Qwen-32B-AWQ/ \
--tensor-parallel-size 4 \
--max-model-len 102400 \
--dtype half \
--port 8111 \
--served-model-name gpt-4o-mini '"
📦 添加自定义模型
在~/.config/gpu-deploy/models.json 中添加:
{ "my-model": { "name": "My Awesome Model", "path": "/path/to/model", "tensor_parallel_size": 2, "max_model_len": 8192, "dtype": "half", "port": 8111, "served_model_name": "my-model" } }
⚠️ 注意事项
- 部署前检查
- 总是先运行
check确认资源可用 - 后台运行
- 建议使用 tmux/screen 保持服务运行
- 端口管理
- 不同模型使用不同端口
- 显存估算
- 7B 模型约需 8-10GB,32B 约需 10-14GB/卡
🔗 相关链接
- vLLM 文档: https://docs.vllm.ai
- 模型下载: https://huggingface.co/models
- 问题反馈: https://github.com/your-username/gpu-deploy-skill
由 OpenClaw 社区贡献 🦞
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制
免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制