những Speaker Diarization hoàn toàn Open-Source mà bạn có thể dùng với VideoDubber:
✅ 1. Pyannote.audio — Open Source tốt nhất
-
License: MIT + CC-BY 4.0 (model pre-trained miễn phí)
-
Dùng rộng rãi nhất trong giới AI audio.
-
Nhận diện speaker cực chuẩn.
-
Có phiên bản tích hợp WhisperX.
👉 100% open-source.
✅ 2. WhisperX — Open Source (sử dụng Pyannote cho diarization)
-
License: MIT
-
Kết hợp Whisper để transcribe và Pyannote để tách người nói.
-
Tạo ra file SRT/VTT/JSON theo từng speaker.
👉 Tốt nhất để đưa vào VideoDubber, vì output sạch và chia speaker chuẩn.
✅ 3. NVIDIA NeMo Speech Diarization
-
License: Apache 2.0 (open-source)
-
Có module:
-
Voice Activity Detection
-
Speaker Embedding
-
Clustering
-
-
Chạy cực nhanh trên GPU.
👉 Open-source hoàn toàn, nhưng cần máy có NVIDIA.
✅ 4. SpeechBrain (Toolkit open source)
-
License: Apache 2.0
-
Có mô hình diarization:
-
VAD
-
Speaker embedding (x-vector)
-
Clustering
-
-
Độ chính xác khá tốt nhưng không mạnh bằng Pyannote.
⭐ Open-source tốt nhất cho bạn (xếp hạng)
| Hạng | Công cụ | Mức độ chính xác | Dễ dùng | Ghi chú |
|---|---|---|---|---|
| 🥇 1 | WhisperX | ★★★★★ | ★★★★☆ | Tách speaker + subtitle tốt nhất |
| 🥈 2 | Pyannote.audio | ★★★★★ | ★★★☆☆ | Cực chuẩn nhưng cần cấu hình |
| 🥉 3 | NVIDIA NeMo | ★★★★☆ | ★★★☆☆ | Cần GPU mạnh |
| 4 | SpeechBrain | ★★★☆☆ | ★★★★☆ | Nhẹ, dễ cài |
✔ Nếu mục tiêu là dùng với VideoDubber
→ Nên chọn WhisperX (open-source, mạnh nhất, ra SRT cực sạch).
Comments
Post a Comment