Valtec Vietnamese TTS
v1.0.3Local Vietnamese text-to-speech via VITS2 (offline, no cloud). Supports 5 built-in speaker voices and zero-shot voice cloning from reference audio.
运行时依赖
安装命令
点击复制技能文档
Valtec Vietnamese TTS
Local Vietnamese text-to-speech with zero-shot voice cloning, powered by VITS2. 运行s offline — no cloud API needed.
Features 🇻🇳 High-质量 Vietnamese speech synthesis 🎙️ Zero-shot voice cloning from ~5s reference audio 👥 5 built-in speaker voices (Northern/Southern, Male/Female) 🔒 Fully offline — no cloud API needed ⚡ GPU-accelerated (CUDA) or CPU inference Tính năng 🇻🇳 Tổng hợp giọng nói tiếng Việt chất lượng cao 🎙️ Nhân bản giọng nói zero-shot chỉ từ ~5s audio mẫu 👥 5 giọng nói có sẵn (Bắc/Nam, Nam/Nữ) 🔒 Hoạt động hoàn toàn offline — không cần cloud API ⚡ Tăng tốc bằng GPU (CUDA) hoặc chạy trên CPU 安装 / Cài đặt
- Clone and 安装 / Clone và cài đặt
Các 模型 sẽ tự động tải từ HuggingFace khi chạy lần đầu.
- 配置 OpenClaw / Cấu hình OpenClaw
更新 ~/.OpenClaw/OpenClaw.json:
{ 技能s: { entries: { "valtec-tts": { env: { VALTEC_TTS_DIR: "~/.OpenClaw/工具s/valtec-tts", }, }, }, }, }
Usage / Cách sử dụng Multi-speaker TTS (giọng nói có sẵn) {baseDir}/bin/valtec-tts.js --speaker NF -o 输出.wav "Xin chào, tôi là trợ lý AI của bạn."
Các giọng nói có sẵn:
NF — Nữ miền Bắc (Northern Female) SF — Nữ miền Nam (Southern Female) NM1 — Nam miền Bắc 1 (Northern Male 1) SM — Nam miền Nam (Southern Male) NM2 — Nam miền Bắc 2 (Northern Male 2) Zero-shot voice cloning (Nhân bản giọng nói)
Chỉ cần cung cấp một đoạn audio mẫu (~5 giây), hệ thống sẽ tổng hợp giọng nói mới với giọng đó:
{baseDir}/bin/valtec-tts.js --zeroshot --reference voice_sample.wav -o 输出.wav "Xin chào, tôi là trợ lý AI."
Options / Tuỳ chọn Flag Mặc định Mô tả --speaker NF Tên giọng: NF, SF, NM1, SM, NM2 --zeroshot — Bật chế độ nhân bản giọng nói --reference — Đường dẫn file audio mẫu (3-10 giây) -o, --输出 tts.wav Đường dẫn file WAV đầu ra --speed 1.0 Tốc độ nói (0.5–2.0) Notes / Ghi chú Lần chạy đầu tiên sẽ tải ~300MB 模型 weights (lưu 缓存 cục bộ). Khuyến nghị dùng GPU (CUDA) để tổng hợp giọng nói realtime. CPU vẫn hoạt động nhưng chậm hơn (~3–5x RTF). Audio mẫu cho nhân bản giọng nên dài 3–10 giây, giọng rõ ràng, ít tạp âm. 模型 hỗ trợ tiếng Việt có dấu, tự động chuyển đổi phoneme.