Detail publikace

Target Speaker ASR with Whisper

POLOK Alexander, KLEMENT Dominik, WIESNER Matthew, KHUDANPUR Sanjeev, ČERNOCKÝ Jan a BURGET Lukáš. Target Speaker ASR with Whisper. In: Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025, s. 1-5. ISBN 979-8-3503-6874-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887683
Název česky
ASR cílového mluvčího pomocí modelu Whisper
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Polok Alexander, Ing. (UPGM FIT VUT)
Klement Dominik, Bc. (FIT VUT)
Wiesner Matthew (JHU)
Khudanpur Sanjeev (JHU)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Klíčová slova

ASR s cílovým mluvčím, diarizační kondicionování, ASR s více mluvčími, Whisper

Abstrakt

Navrhujeme nový přístup, který umožňuje použití rozsáhlých modelů ASR pro jednoho mluvčího, jako je Whisper, pro ASR cílového mluvčího. Klíčovým tvrzením této metody je, že je mnohem snadnější modelovat relativní rozdíly mezi mluvčími učením podmínění na úrovni snímků na diarizaci výstupů než učení prostoru všech vnoření mluvčích. Zjistili jsme, že přidání i jediného členu zkreslení na typ diarizace výstupu před první transformační blok může transformovat modely ASR pro jednoho mluvčího na modely ASR pro cílového mluvčího. Náš přístup také podporuje ASR přiřazené mluvčímu sekvenčním generováním přepisů pro každého mluvčího ve diarizaci výstupu. Tato zjednodušená metoda překonává základní separaci řeči a diarizaci kaskády o 12,9 % absolutního ORC-WER na datové sadě NOTSOFAR-1.

Rok
2025
Strany
1-5
Sborník
Proceedings of ICASSP 2025
Konference
ICASSP 2025, International Conference on Acoustics, Speech, and Signal Processing, Hyderabad, IN
ISBN
979-8-3503-6874-1
Vydavatel
IEEE Biometric Council
Místo
Hyderabad, IN
DOI
BibTeX
@INPROCEEDINGS{FITPUB13520,
   author = "Alexander Polok and Dominik Klement and Matthew Wiesner and Sanjeev Khudanpur and Jan \v{C}ernock\'{y} and Luk\'{a}\v{s} Burget",
   title = "Target Speaker ASR with Whisper",
   pages = "1--5",
   booktitle = "Proceedings of ICASSP 2025",
   year = 2025,
   location = "Hyderabad, IN",
   publisher = "IEEE Biometric Council",
   ISBN = "979-8-3503-6874-1",
   doi = "10.1109/ICASSP49660.2025.10887683",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13520"
}
Nahoru