Detail publikace

DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition

POLOK Alexander, KLEMENT Dominik, KOCOUR Martin, HAN Jiangyu, LANDINI Federico Nicolás, YUSUF Bolaji, WIESNER Matthew, KHUDANPUR Sanjeev, ČERNOCKÝ Jan a BURGET Lukáš. DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition. Computer Speech and Language, 2025, s. 1-39. ISSN 0885-2308.
Název česky
Diarizací podmíněný model Whisper pro automatické rozpoznávání řeči cílového mluvčího
Typ
článek v časopise
Jazyk
angličtina
Autoři
Polok Alexander, Ing. (UPGM FIT VUT)
Klement Dominik, Bc. (FIT VUT)
Kocour Martin, Ing. (UPGM FIT VUT)
Han Jiangyu, M.Eng. (UPGM FIT VUT)
Landini Federico Nicolás (UPGM FIT VUT)
Yusuf Bolaji (UPGM FIT VUT)
Wiesner Matthew (JHU)
Khudanpur Sanjeev (JHU)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Klíčová slova

Diarizačně podmíněný šepot, adaptace šepotu na cílového mluvčího, diarizace mluvčího, dlouhodobá ASR, adaptace šepotu

Abstrakt

Automatické rozpoznávání řeči (ASR) s přiřazením mluvčího v prostředí s více mluvčími zůstává významnou výzvou, zejména když systémy podmíněné vkládáním mluvčích nedokážou zobecnit na neviditelné mluvčí. V této práci navrhujeme Diarizačně podmíněný šepot (DiCoW), nový přístup k ASR cílového mluvčího, který využívá výstupy diarizace mluvčích jako podmiňovací informace. DiCoW rozšiřuje předtrénovaný model Whisper přímou integrací diarizačních štítků, čímž eliminuje závislost na vkládání mluvčích a snižuje potřebu rozsáhlých trénovacích dat specifických pro mluvčí. Naše metoda zavádí techniky diarizace závislé na úrovni snímků (FDDT) a kladení dotazovacích klíčů (QKb) pro zpřesnění zaměření modelu na cílové mluvčí a zároveň efektivní zpracování překrývající se řeči. Využitím výstupů diarizace jako podmiňovacích signálů DiCoW zjednodušuje pracovní postup pro ASR s více mluvčími, zlepšuje zobecnění na neviditelné mluvčí a umožňuje spolehlivější transkripci v reálných nahrávkách s více mluvčími. Dále zkoumáme integraci konekcionistické časové klasifikace (CTC) do Whisperu a demonstrujeme její schopnost zlepšit efektivitu transkripce prostřednictvím hybridního dekódování. Ukazujeme, že náš přístup se neomezuje pouze na Whisper; podobné výhody poskytuje i při aplikaci na model Branchformer. Ověřujeme DiCoW na reálných datových sadách, včetně AMI a NOTSOFAR-1 z testu CHiME-8, a také na syntetických benchmarkech, jako jsou Libri2Mix a LibriCSS, což umožňuje přímé srovnání s předchozími metodami. Výsledky ukazují, že DiCoW vylepšuje schopnosti modelu ASR pro cílového mluvčího a zároveň zachovává přesnost a robustnost Whisperu na datech od jednoho mluvčího.

Rok
2025 (v tisku)
Strany
1-39
Časopis
Computer Speech and Language, ISSN 0885-2308
Vydavatel
Elsevier Science
BibTeX
@ARTICLE{FITPUB13524,
   author = "Alexander Polok and Dominik Klement and Martin Kocour and Jiangyu Han and Nicol\'{a}s Federico Landini and Bolaji Yusuf and Matthew Wiesner and Sanjeev Khudanpur and Jan \v{C}ernock\'{y} and Luk\'{a}\v{s} Burget",
   title = "DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition",
   pages = "1--39",
   journal = "Computer Speech and Language",
   year = 2025,
   ISSN = "0885-2308",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13524"
}
Nahoru