Detail publikace
Target Speaker ASR with Whisper
Klement Dominik, Bc. (FIT VUT)
Wiesner Matthew (JHU)
Khudanpur Sanjeev (JHU)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
ASR s cílovým mluvčím, diarizační kondicionování, ASR s více mluvčími, Whisper
Navrhujeme nový přístup, který umožňuje použití rozsáhlých modelů ASR pro jednoho mluvčího, jako je Whisper, pro ASR cílového mluvčího. Klíčovým tvrzením této metody je, že je mnohem snadnější modelovat relativní rozdíly mezi mluvčími učením podmínění na úrovni snímků na diarizaci výstupů než učení prostoru všech vnoření mluvčích. Zjistili jsme, že přidání i jediného členu zkreslení na typ diarizace výstupu před první transformační blok může transformovat modely ASR pro jednoho mluvčího na modely ASR pro cílového mluvčího. Náš přístup také podporuje ASR přiřazené mluvčímu sekvenčním generováním přepisů pro každého mluvčího ve diarizaci výstupu. Tato zjednodušená metoda překonává základní separaci řeči a diarizaci kaskády o 12,9 % absolutního ORC-WER na datové sadě NOTSOFAR-1.
@INPROCEEDINGS{FITPUB13520, author = "Alexander Polok and Dominik Klement and Matthew Wiesner and Sanjeev Khudanpur and Jan \v{C}ernock\'{y} and Luk\'{a}\v{s} Burget", title = "Target Speaker ASR with Whisper", pages = "1--5", booktitle = "Proceedings of ICASSP 2025", year = 2025, location = "Hyderabad, IN", publisher = "IEEE Biometric Council", ISBN = "979-8-3503-6874-1", doi = "10.1109/ICASSP49660.2025.10887683", language = "english", url = "https://www.fit.vut.cz/research/publication/13520" }