những Speaker Diarization hoàn toàn Open-Source mà bạn có thể dùng với VideoDubber:

By Jane Wilde - December 04, 2025

✅ 1. Pyannote.audio — Open Source tốt nhất

License: MIT + CC-BY 4.0 (model pre-trained miễn phí)
Dùng rộng rãi nhất trong giới AI audio.
Nhận diện speaker cực chuẩn.
Có phiên bản tích hợp WhisperX.

👉 100% open-source.

✅ 2. WhisperX — Open Source (sử dụng Pyannote cho diarization)

License: MIT
Kết hợp Whisper để transcribe và Pyannote để tách người nói.
Tạo ra file SRT/VTT/JSON theo từng speaker.

👉 Tốt nhất để đưa vào VideoDubber, vì output sạch và chia speaker chuẩn.

✅ 3. NVIDIA NeMo Speech Diarization

License: Apache 2.0 (open-source)
Có module:
- Voice Activity Detection
- Speaker Embedding
- Clustering
Chạy cực nhanh trên GPU.

👉 Open-source hoàn toàn, nhưng cần máy có NVIDIA.

✅ 4. SpeechBrain (Toolkit open source)

License: Apache 2.0
Có mô hình diarization:
- VAD
- Speaker embedding (x-vector)
- Clustering
Độ chính xác khá tốt nhưng không mạnh bằng Pyannote.

⭐ Open-source tốt nhất cho bạn (xếp hạng)

Hạng	Công cụ	Mức độ chính xác	Dễ dùng	Ghi chú
🥇 1	WhisperX	★★★★★	★★★★☆	Tách speaker + subtitle tốt nhất
🥈 2	Pyannote.audio	★★★★★	★★★☆☆	Cực chuẩn nhưng cần cấu hình
🥉 3	NVIDIA NeMo	★★★★☆	★★★☆☆	Cần GPU mạnh
4	SpeechBrain	★★★☆☆	★★★★☆	Nhẹ, dễ cài

✔ Nếu mục tiêu là dùng với VideoDubber

→ Nên chọn WhisperX (open-source, mạnh nhất, ra SRT cực sạch).

Comments