Mình sẽ đi chậm – dễ hiểu – có thứ tự – đúng những thứ cần cài, không thừa.

✅ PHẦN 1 — Chuẩn bị trên Windows

B1. Bật WSL2

Mở PowerShell (Run as Administrator)
Chạy:


wsl --install

Nó sẽ tự bật:

Virtual Machine Platform
Windows Subsystem for Linux
WSL2 backend

📌 Sau khi chạy xong, restart Windows.

B2. Cài Ubuntu trong WSL

Sau khi restart, mở PowerShell và chạy:


wsl --install -d Ubuntu

Lần đầu mở Ubuntu → nó yêu cầu tạo username + password.

B3. Cài NVIDIA GPU Driver (bắt buộc để chạy AI)

Tải NVIDIA Driver mới nhất (Studio hoặc Game Ready):
👉 Tìm “NVIDIA driver 551+” trên trang Nvidia (mình không đưa link để tránh vi phạm)
Cài đặt như driver bình thường.

📌 Sau khi cài xong, WSL2 sẽ tự có CUDA qua “WSL CUDA Bridge” → không cần cài CUDA thủ công.

B4. Kiểm tra WSL có nhận GPU chưa

Mở Ubuntu (WSL) rồi chạy:


nvidia-smi

Nếu thấy tên GPU (RTX 3060, 3070…) → OK.

✅ PHẦN 2 — Cài môi trường AI trong Ubuntu (WSL2)

B5. Update Ubuntu


sudo apt update && sudo apt upgrade -y

B6. Cài thư viện cơ bản


sudo apt install -y git wget python3 python3-pip ffmpeg build-essential

B7. Cài Miniconda (để chạy AI môi trường ổn định)


wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

Đóng terminal → mở lại để conda hoạt động.

✅ PHẦN 3 — Cài hệ thống AI dịch & lồng tiếng (VideoDub + Whisper + RVC)

Mình làm theo đúng yêu cầu:
✔ Open-source
✔ Nhiều nhân vật
✔ Nhận dạng giọng nói theo speaker
✔ Dịch + Lồng tiếng tự động

B8. Cài WhisperX (nhận dạng + phân biệt giọng nói)


pip install -U git+https://github.com/m-bain/whisperx.git

B9. Cài RVC để tạo giọng giống nhân vật


git clone https://github.com/RVC-Project/Retrieval-based-Voice-Conversion
cd Retrieval-based-Voice-Conversion
pip install -r requirements.txt

B10. Cài VideoDub (web interface Gradio)


git clone https://github.com/Project-OpenVoice/VideoDub
cd VideoDub
pip install -r requirements.txt

✅ PHẦN 4 — Chạy ứng dụng Web UI

Chạy VideoDub (web lồng tiếng AI)


python app.py

Nó sẽ chạy tại:


http://localhost:7860

📌 TÓM TẮT THỨ TỰ CÀI ĐẶT TRÊN WINDOWS + WSL2

1. Windows

Bật WSL2
Cài Ubuntu
Cài NVIDIA Driver (bắt buộc)

2. Ubuntu trong WSL

update hệ thống
cài python & ffmpeg
cài conda
cài WhisperX
cài RVC
cài VideoDub
chạy WebUI

Dưới đây là những gì hệ thống đó làm được:

🎥 1. TỰ ĐỘNG NHẬN DIỆN GIỌNG NÓI TRONG VIDEO

Dùng WhisperX + Speaker diarization
✔ Nhận ra ai đang nói
✔ Tách từng người: nhân vật A, B, C
✔ Biết giọng nam/nữ/già/trẻ
✔ Tách timecode chính xác → phù hợp để lồng tiếng

👉 Bạn không cần chỉnh tay.

🌍 2. TỰ ĐỘNG DỊCH VIDEO

Hỗ trợ:
✔ Tiếng Việt ↔ Tiếng Anh
✔ Tiếng Việt ↔ Tiếng Trung
✔ + hơn 70 ngôn ngữ khác

Dịch theo từng câu nói đã tách.
Giữ nguyên độ dài câu để khớp miệng khi lồng tiếng.

🗣️ 3. TẠO GIỌNG NÓI NHÂN VẬT (clone voice)

Dùng RVC để tạo giọng giống như nhân vật gốc:
✔ Lấy mẫu giọng từ video gốc
✔ Clone giọng từng nhân vật
✔ Tạo giọng nam, nữ, trẻ, già
✔ Làm giọng giống đến 95% nếu video rõ

Bạn có thể export ra giọng riêng từng nhân vật.

🎧 4. TỰ ĐỘNG LỒNG TIẾNG VIDEO (AI voiceover)

Dùng VideoDub WebUI:
✔ Tạo giọng theo từng nhân vật đã nhận diện
✔ Áp giọng mới vào video
✔ Ghép lại với nhạc nền ban đầu
✔ Điều chỉnh độ to nhỏ tự động
✔ Xuất video hoàn chỉnh

👉 Cực kỳ giống video gốc nhưng là ngôn ngữ bạn muốn.

🔥 5. Hoàn toàn tự động (1 click)

Upload video → hệ thống tự làm:

Tách thoại
Nhận dạng nhân vật
Dịch
Sinh giọng
Lồng tiếng
Xuất file MP4

Không cần can thiệp tay.

🎛️ 6. Có Web UI (Gradio)

Bạn sẽ có giao diện web như phần mềm:
✔ Giao diện kéo thả video
✔ Chọn ngôn ngữ dịch
✔ Chọn giọng của từng nhân vật
✔ Preview trước khi xuất file
✔ Export bản AUDIO hoặc VIDEO

🎚️ 7. Có thể tinh chỉnh nâng cao

✔ Tốc độ nói
✔ Cao độ giọng
✔ Cường độ cảm xúc
✔ Chống nhiễu
✔ Khớp môi (lip-sync) mức khá tốt

🧠 8. Chạy được offline 100%

✔ Không cần internet
✔ Không bị giới hạn API
✔ Không tốn token
✔ Không lo lộ video riêng tư

📌 Tóm lại bạn có thể làm gì?

Tính năng	Bạn có thể làm được?
Dịch video tự động	✔
Nhận dạng từng nhân vật	✔
Nam/nữ/già/trẻ	✔
Clone giọng nhân vật	✔
Lồng tiếng nhiều nhân vật	✔
Làm video theo phong cách Netflix	✔
Xuất video hoàn chỉnh	✔
WebUI dễ dùng	✔
Chạy offline	✔

Bạn mới cài xong bộ này là đã có 1 studio AI hoàn chỉnh trên máy Windows, nhưng chạy trong Ubuntu/WSL.

Search This Blog

Trang Ánh Nam

từng bước – từ đầu đến cuối để bạn cài môi trường AI dịch & lồng tiếng trên Windows bằng WSL2.