Detail publikace

Target Speaker ASR with Whisper

POLOK Alexander, KLEMENT Dominik, WIESNER Matthew, KHUDANPUR Sanjeev, ČERNOCKÝ Jan a BURGET Lukáš. Target Speaker ASR with Whisper. In: Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025, s. 1-5. ISBN 979-8-3503-6874-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887683

Název česky

ASR cílového mluvčího pomocí modelu Whisper

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Polok Alexander, Ing. (UPGM FIT VUT)
Klement Dominik, Bc. (FIT VUT)
Wiesner Matthew (JHU)
Khudanpur Sanjeev (JHU)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10887683

Klíčová slova

ASR s cílovým mluvčím, diarizační kondicionování, ASR s více mluvčími, Whisper

Abstrakt

Navrhujeme nový přístup, který umožňuje použití rozsáhlých modelů ASR pro jednoho mluvčího, jako je Whisper, pro ASR cílového mluvčího. Klíčovým tvrzením této metody je, že je mnohem snadnější modelovat relativní rozdíly mezi mluvčími učením podmínění na úrovni snímků na diarizaci výstupů než učení prostoru všech vnoření mluvčích. Zjistili jsme, že přidání i jediného členu zkreslení na typ diarizace výstupu před první transformační blok může transformovat modely ASR pro jednoho mluvčího na modely ASR pro cílového mluvčího. Náš přístup také podporuje ASR přiřazené mluvčímu sekvenčním generováním přepisů pro každého mluvčího ve diarizaci výstupu. Tato zjednodušená metoda překonává základní separaci řeči a diarizaci kaskády o 12,9 % absolutního ORC-WER na datové sadě NOTSOFAR-1.

Rok

2025

Strany

1-5

Sborník

Proceedings of ICASSP 2025

Konference

ICASSP 2025, International Conference on Acoustics, Speech, and Signal Processing, Hyderabad, IN

ISBN

979-8-3503-6874-1

Vydavatel

IEEE Biometric Council

Místo

Hyderabad, IN

DOI

10.1109/ICASSP49660.2025.10887683

BibTeX

@INPROCEEDINGS{FITPUB13520,
   author = "Alexander Polok and Dominik Klement and Matthew Wiesner and Sanjeev Khudanpur and Jan \v{C}ernock\'{y} and Luk\'{a}\v{s} Burget",
   title = "Target Speaker ASR with Whisper",
   pages = "1--5",
   booktitle = "Proceedings of ICASSP 2025",
   year = 2025,
   location = "Hyderabad, IN",
   publisher = "IEEE Biometric Council",
   ISBN = "979-8-3503-6874-1",
   doi = "10.1109/ICASSP49660.2025.10887683",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13520"
}