Gpu Deploy — 在 GPU 服务器上部署 vLLM 模型服务

Name: Gpu Deploy — 在 GPU 服务器上部署 vLLM 模型服务
Author: wang-junjian

wang-junjian

🚀 Gpu Deploy — 在 GPU 服务器上部署 vLLM 模型服务

v0.1.0

在 GPU 服务器上部署 vLLM 模型服务，支持多服务器配置、自动检查 GPU 和端口占用，一键部署流行的开源模型。

0· 403·0 当前·0 累计

by @wang-junjian·MIT-0

AI模型访问自动化

下载技能包

License

MIT-0

最后更新

2026/3/1

安全扫描

VirusTotal

可疑

查看报告

OpenClaw

安全

high confidence

该技能的请求和指令与其声明的目的（通过 SSH 部署 vLLM）一致，只有少数文档/包含差距需要注意。

评估建议

在使用该技能之前，请验证以下内容：（1）没有提供 'gpu-deploy' 脚本——创建/获取一个可信的脚本或手动运行显示的 SSH 命令。（2）确认远程路径（conda 路径、/data/models/llm）和用于 SSH 的用户帐户具有必要的权限。（3）检查您复制/粘贴的命令，特别是 tmux/conda/vllm serve 行，以确保模型路径和端口正确。（4）使用 SSH 密钥和最小特权帐户；不要在您不控制的主机上运行未知命令。（5）独立验证模型二进制文件/下载源（Hugging Face 链接），确保主机上的 vLLM 和依赖项来自可信源。如果您需要便捷脚本，请从维护者请求包装实现或在将其添加到 PATH 之前审查其内容。...

详细分析 ▾

ℹ 用途与能力

名称/描述（在 GPU 服务器上部署 vLLM）与指令匹配：通过 SSH 连接到主机，检查 GPU/端口，并运行 vllm serve。需要 ssh 是合适的。少数不一致：README 和示例引用一个本地 'gpu-deploy' 脚本添加到 PATH，但此包中没有捆绑此脚本（技能仅为指令）。

ℹ 指令范围

运行时指令仅限于通过 SSH 进行的远程操作（nvidia-smi、lsof、tmux + conda + vllm serve）。它们不尝试读取无关的本地文件或泄露数据。注意，许多命令假设特定的路径（例如 /data/miniconda3、/data/models/llm）和远程主机的高级访问权限；用户应该在运行之前验证和适应这些路径。

ℹ 安装机制

没有安装规格（仅指令），这降低了安装时的风险。然而，文档建议将 'gpu-deploy' 脚本复制到 ~/.local/bin，但文件中没有提供此脚本 — 该技能不会为您安装一个帮助二进制文件。

✓ 凭证需求

没有请求环境变量、秘密或配置路径。暗示基于 SSH 的访问（servers.json 中的用户/主机），这适用于远程部署；没有要求无关的凭据。

✓ 持久化与权限

always:false 且没有安装/规格写入系统范围的配置。该技能不请求持久的高级权限或尝试修改其他技能的配置。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv0.1.02026/3/1

● 可疑

安装命令点击复制

官方npx clawhub@latest install gpu-deploy

镜像加速npx clawhub@latest install gpu-deploy --registry https://cn.clawhub-mirror.com

技能文档

在 GPU 服务器上快速部署 vLLM 模型服务。

✨ 功能特点

🖥️ 多服务器支持
配置多个 GPU 服务器，灵活选择
🔍 自动检查
一键检查 GPU 状态和端口占用
🤖 模型库
预置流行模型配置
⚡ 快速部署
简单命令即可启动服务

📋 快速开始

1. 配置服务器

创建 ~/.config/gpu-deploy/servers.json：

{ "servers": { "gpu1": { "host": "gpu1", "user": "lnsoft", "gpu_count": 4, "model_path": "/data/models/llm" }, "my-gpu": { "host": "192.168.1.100", "user": "ubuntu", "gpu_count": 2, "model_path": "/home/ubuntu/models" } }, "default_server": "gpu1" }

2. 检查服务器状态

# 使用默认服务器
gpu-deploy check
# 指定服务器
gpu-deploy check --server gpu1

3. 部署模型

# 部署预设模型
gpu-deploy deploy deepseek-r1-32b
# 指定端口
gpu-deploy deploy deepseek-r1-32b --port 8112

🎛️ 可用命令

`check` - 检查服务器状态

检查 GPU 显存和端口占用情况。

gpu-deploy check [--server NAME] [--port PORT]

输出示例：

✅ GPU 状态正常 - 4 × Tesla T4 (15GB)
显存占用: 12.6GB/卡
温度: 51-55°C
✅ 端口 8111 可用

`deploy` - 部署模型

启动 vLLM 模型服务。

gpu-deploy deploy  [--server NAME] [--port PORT]

支持的模型：

deepseek-r1-32b
DeepSeek-R1-Distill-Qwen-32B-AWQ
llama-3-8b
Llama 3 8B
qwen-7b
Qwen 7B
mistral-7b
Mistral 7B

🔧 手动使用（无脚本）

如果不想用封装脚本，也可以直接用原始命令：

检查 GPU

ssh @ nvidia-smi

检查端口

ssh @ "lsof -i : 2>/dev/null || echo '端口可用'"

部署模型（DeepSeek R1 32B）

ssh @ "tmux new-session -d -s vllm ' source /data/miniconda3/etc/profile.d/conda.sh && \
 conda activate vllm && \
 cd /data/models/llm && \
 vllm serve /data/models/llm/deepseek/DeepSeek-R1-Distill-Qwen-32B-AWQ/ \
 --tensor-parallel-size 4 \
 --max-model-len 102400 \
 --dtype half \
 --port 8111 \
 --served-model-name gpt-4o-mini '"

📦 添加自定义模型

在 ~/.config/gpu-deploy/models.json 中添加：

{ "my-model": { "name": "My Awesome Model", "path": "/path/to/model", "tensor_parallel_size": 2, "max_model_len": 8192, "dtype": "half", "port": 8111, "served_model_name": "my-model" } }

⚠️ 注意事项

部署前检查
总是先运行 check 确认资源可用
后台运行
建议使用 tmux/screen 保持服务运行
端口管理
不同模型使用不同端口
显存估算
7B 模型约需 8-10GB，32B 约需 10-14GB/卡

🔗 相关链接

vLLM 文档: https://docs.vllm.ai
模型下载: https://huggingface.co/models
问题反馈: https://github.com/your-username/gpu-deploy-skill

由 OpenClaw 社区贡献 🦞

在 GPU 服务器上快速部署 vLLM 模型服务。

✨ 功能特点

🖥️ 多服务器支持 - 配置多个 GPU 服务器，灵活选择
🔍 自动检查 - 一键检查 GPU 状态和端口占用
🤖 模型库 - 预置流行模型配置
⚡ 快速部署 - 简单命令即可启动服务

📋 快速开始

1. 配置服务器

创建 ~/.config/gpu-deploy/servers.json：

{
  "servers": {
    "gpu1": {
      "host": "gpu1",
      "user": "lnsoft",
      "gpu_count": 4,
      "model_path": "/data/models/llm"
    },
    "my-gpu": {
      "host": "192.168.1.100",
      "user": "ubuntu",
      "gpu_count": 2,
      "model_path": "/home/ubuntu/models"
    }
  },
  "default_server": "gpu1"
}

2. 检查服务器状态

# 使用默认服务器 gpu-deploy check

# 指定服务器 gpu-deploy check --server gpu1

3. 部署模型

# 部署预设模型 gpu-deploy deploy deepseek-r1-32b

# 指定端口 gpu-deploy deploy deepseek-r1-32b --port 8112

🎛️ 可用命令

`check` - 检查服务器状态

检查 GPU 显存和端口占用情况。

gpu-deploy check [--server NAME] [--port PORT]

输出示例：

✅ GPU 状态正常 4 × Tesla T4 (15GB) 显存占用: 12.6GB/卡温度: 51-55°C

✅ 端口 8111 可用

`deploy` - 部署模型

启动 vLLM 模型服务。

gpu-deploy deploy  [--server NAME] [--port PORT]

支持的模型：

deepseek-r1-32b - DeepSeek-R1-Distill-Qwen-32B-AWQ
llama-3-8b - Llama 3 8B
qwen-7b - Qwen 7B
mistral-7b - Mistral 7B

`list` - 列出可用模型

gpu-deploy list

`ps` - 查看运行中的服务

gpu-deploy ps [--server NAME]

`stop` - 停止服务

gpu-deploy stop [--server NAME] [--port PORT]

🔧 手动使用（无脚本）

如果不想用封装脚本，也可以直接用原始命令：

检查 GPU

ssh @ nvidia-smi

检查端口

ssh @ "lsof -i : 2>/dev/null || echo '端口可用'"

部署模型（DeepSeek R1 32B）

ssh @ "tmux new-session -d -s vllm '
source /data/miniconda3/etc/profile.d/conda.sh && \
conda activate vllm && \
cd /data/models/llm && \
vllm serve /data/models/llm/deepseek/DeepSeek-R1-Distill-Qwen-32B-AWQ/ \
  --tensor-parallel-size 4 \
  --max-model-len 102400 \
  --dtype half \
  --port 8111 \
  --served-model-name gpt-4o-mini
'"

📦 添加自定义模型

在 ~/.config/gpu-deploy/models.json 中添加：

{
  "my-model": {
    "name": "My Awesome Model",
    "path": "/path/to/model",
    "tensor_parallel_size": 2,
    "max_model_len": 8192,
    "dtype": "half",
    "port": 8111,
    "served_model_name": "my-model"
  }
}

⚠️ 注意事项

部署前检查 - 总是先运行 check 确认资源可用
后台运行 - 建议使用 tmux/screen 保持服务运行
端口管理 - 不同模型使用不同端口
显存估算 - 7B 模型约需 8-10GB，32B 约需 10-14GB/卡

🔗 相关链接

vLLM 文档: https://docs.vllm.ai
模型下载: https://huggingface.co/models
问题反馈: https://github.com/your-username/gpu-deploy-skill

由 OpenClaw 社区贡献 🦞

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

✨ 功能特点

📋 快速开始

1. 配置服务器

2. 检查服务器状态

3. 部署模型

🎛️ 可用命令

check - 检查服务器状态

deploy - 部署模型

🔧 手动使用（无脚本）

检查 GPU

检查端口

部署模型（DeepSeek R1 32B）

📦 添加自定义模型

⚠️ 注意事项

🔗 相关链接

✨ 功能特点

📋 快速开始

1. 配置服务器

2. 检查服务器状态

3. 部署模型

🎛️ 可用命令

check - 检查服务器状态

deploy - 部署模型

list - 列出可用模型

ps - 查看运行中的服务

stop - 停止服务

🔧 手动使用（无脚本）

检查 GPU

检查端口

部署模型（DeepSeek R1 32B）

📦 添加自定义模型

⚠️ 注意事项

🔗 相关链接

安装命令点击复制

`check` - 检查服务器状态

`deploy` - 部署模型

`check` - 检查服务器状态

`deploy` - 部署模型

`list` - 列出可用模型

`ps` - 查看运行中的服务

`stop` - 停止服务