đầy đủ – rõ ràng – chi tiết – theo dạng cấu trúc hệ thống

By Jane Wilde - December 08, 2025

✔ Kiến trúc tổng thể
✔ Các phần mềm cần cài
✔ Thư viện Python
✔ Định hướng hoạt động
✔ Luồng xử lý dữ liệu
✔ Vị trí lưu trữ (SSD/HDD)
✔ Các module AI (diarization, gender, whisper, TTS…)
✔ WebUI

Đây là bản thiết kế hoàn chỉnh để bạn làm một hệ thống AI dịch & lồng tiếng video hỗ trợ phân biệt nhân vật.

⭐ 1) CẤU TRÚC TỔNG THỂ CỦA TOÀN BỘ HỆ THỐNG


AI-Video-Dubber
│
├── 1. Video Input
│     └── File video gốc (.mp4/.mkv/.mov)
│
├── 2. Audio Processing
│     ├── FFmpeg → tách audio
│     └── Whisper.cpp / Faster-Whisper → speech-to-text
│
├── 3. Speaker Diarization
│     └── Pyannote.audio → phân biệt nhân vật (Speaker 0,1,2…)
│
├── 4. Gender/Age Detection
│     └── ONNX gender-age model → male/female + young/adult/old
│
├── 5. Translation
│     └── Argos Translate / NLLB distilled
│
├── 6. Voice Assignment
│     └── Gán tên nhân vật + profile giọng
│          (Nam – Nữ – Già – Trẻ)
│
├── 7. Text-to-Speech
│     └── Coqui TTS (CPU-friendly)
│
├── 8. Video Rebuild
│     └── FFmpeg → ghép audio mới vào video
│
└── 9. WebUI (Gradio)
      └── Giao diện để người dùng upload – xem – chỉnh giọng – xuất file

⭐ 2) PHẦN MỀM CẦN CÀI (WINDOWS – phù hợp máy bạn)

✔ BẮT BUỘC

Python 3.10 (quan trọng nhất)
FFmpeg (tách/ghép video)
Git (để tải repo open source)

✔ TUỲ CHỌN (nhưng nên có)

VSCode (sửa code dễ hơn)
Whisper.cpp GUI (NHẸ, chạy CPU nhanh)

⭐ 3) THƯ VIỆN PYTHON BẮT BUỘC

Install bằng pip:

🔹 Whisper (nhận dạng tiếng nói)


pip install faster-whisper

🔹 Pyannote (tách nhân vật)


pip install pyannote.audio
pip install torch --index-url https://download.pytorch.org/whl/cpu

🔹 Gender/Age Detection (onnx)


pip install onnxruntime

🔹 Translation (dịch offline)


pip install argostranslate

🔹 Text-to-Speech (lồng tiếng)


pip install TTS

🔹 WebUI (giao diện)


pip install gradio

⭐ 4) MODEL CẦN TẢI

Model là phần nặng – bạn sẽ để trên HDD (500GB) để tiết kiệm SSD.

1) Whisper model → medium hoặc small

medium (~1.4GB)
small (~466MB)

2) Pyannote diarization model

speaker-diarization-3.1 (~500MB)
segmentation model (~300MB)

3) Gender + Age ONNX model

~35–50MB

4) Coqui TTS voices

3 giọng (Nam/Nữ/Già) ~300–600MB

Tổng model: 2–3GB → Để trên HDD.

⭐ 5) LUỒNG XỬ LÝ AI CHI TIẾT


1) Nhập video (WebUI)
    ↓
2) FFmpeg tách audio → audio.wav
    ↓
3) Pyannote Diarization → tạo timeline từng nhân vật
    ↓
4) ONNX Gender/Age → xác định nam/nữ/già/trẻ cho từng speaker
    ↓
5) Whisper (Faster-Whisper) → nhận dạng lời nói từng speaker
    ↓
6) Translation (Argos) → dịch từng đoạn theo nhân vật
    ↓
7) Gán tên nhân vật (manual)
      Ví dụ:
      Speaker 0 → "Nam"
      Speaker 1 → "Lan"
      Speaker 2 → "Ông Bảy"
    ↓
8) Coqui TTS → tạo audio mới theo giới tính / tuổi
    ↓
9) FFmpeg ghép audio + video → output_final.mp4

⭐ 6) VỊ TRÍ LƯU TRỮ TỐI ƯU (ĐỂ TRÁNH ĐẦY SSD)

✔ SSD (40GB trống)

Python
FFmpeg
Package pip
WebUI
1–2GB buffer
→ Không chứa video hoặc model nặng!

✔ HDD 500GB

Video đầu vào
Video đầu ra
File tạm (temp)
TOÀN BỘ MODEL AI
Folder ai_temp và ai_models

Cách tổ chức:


D:\AI\
     ├── models\
     │     ├── whisper\
     │     ├── pyannote\
     │     ├── tts\
     │     └── gender_age\
     │
     ├── temp\
     ├── input\
     └── output\

⭐ 7) CẤU TRÚC FILE DỰ ÁN (WEBUI GRADIO)


AI-Video-Dubber/
│
├── app.py                      ← WebUI chính
├── requirements.txt            ← Thư viện cần thiết
│
├── modules/
│     ├── diarization.py        ← Pyannote
│     ├── whisper_stt.py        ← Whisper
│     ├── gender_age.py         ← ONNX
│     ├── translator.py         ← Argos/NLLB
│     ├── tts_engine.py         ← Coqui TTS
│     ├── merge_ffmpeg.py       ← Ghép video
│     └── utils.py
│
├── static/
│     └── ui assets
│
└── models/                     ← trỏ vào HDD

⭐ 8) ĐỊNH HƯỚNG PHÁT TRIỂN SAU NÀY

Bạn có thể nâng cấp dần:

✔ Thêm clone giọng (RVC / OpenVoice)

→ Máy i3 chạy được bản CPU nhưng chậm.

✔ Tự động gán tên nhân vật

→ Dựa trên subtitle gốc, auto detect.

✔ Nâng RAM lên 16GB

→ Tốc độ tăng đáng kể.

✔ Nâng CPU lên Xeon hoặc i5 Gen 6–7

→ Tách nhân vật và TTS chạy nhanh hơn ~40%.

Search This Blog

Trang Ánh Nam