những Speaker Diarization hoàn toàn Open-Source mà bạn có thể dùng với VideoDubber:

 

1. Pyannote.audio — Open Source tốt nhất

  • License: MIT + CC-BY 4.0 (model pre-trained miễn phí)

  • Dùng rộng rãi nhất trong giới AI audio.

  • Nhận diện speaker cực chuẩn.

  • Có phiên bản tích hợp WhisperX.

👉 100% open-source.


2. WhisperX — Open Source (sử dụng Pyannote cho diarization)

  • License: MIT

  • Kết hợp Whisper để transcribe và Pyannote để tách người nói.

  • Tạo ra file SRT/VTT/JSON theo từng speaker.

👉 Tốt nhất để đưa vào VideoDubber, vì output sạch và chia speaker chuẩn.


3. NVIDIA NeMo Speech Diarization

  • License: Apache 2.0 (open-source)

  • Có module:

    • Voice Activity Detection

    • Speaker Embedding

    • Clustering

  • Chạy cực nhanh trên GPU.

👉 Open-source hoàn toàn, nhưng cần máy có NVIDIA.


4. SpeechBrain (Toolkit open source)

  • License: Apache 2.0

  • Có mô hình diarization:

    • VAD

    • Speaker embedding (x-vector)

    • Clustering

  • Độ chính xác khá tốt nhưng không mạnh bằng Pyannote.


Open-source tốt nhất cho bạn (xếp hạng)

HạngCông cụMức độ chính xácDễ dùngGhi chú
🥇 1WhisperX★★★★★★★★★☆Tách speaker + subtitle tốt nhất
🥈 2Pyannote.audio★★★★★★★★☆☆Cực chuẩn nhưng cần cấu hình
🥉 3NVIDIA NeMo★★★★☆★★★☆☆Cần GPU mạnh
4SpeechBrain★★★☆☆★★★★☆Nhẹ, dễ cài

Nếu mục tiêu là dùng với VideoDubber

Nên chọn WhisperX (open-source, mạnh nhất, ra SRT cực sạch).

Comments

Popular posts from this blog

The World at a Crossroads: Donald Trump’s Presidency and Its Global Impact

Cho tam giác ABC vuông ở B, kéo dài AC về phía C một đoạn CD=AB=1, góc CBD=30 độ. Tính AC.

Cho tam giác ABC vuông tại A có AB < AC. Vẽ AH vuông góc với BC ( H thuộc BC), D là điểm trên cạnh AC sao cho AD=AB. Vẽ DE vuông góc với BC( E thuộc BC). Chứng minh rằng : HA=HE.