Detail publikace

DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition

POLOK, A.; KLEMENT, D.; KOCOUR, M.; HAN, J.; LANDINI, F.; YUSUF, B.; WIESNER, M.; KHUDANPUR, S.; ČERNOCKÝ, J.; BURGET, L. DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition. COMPUTER SPEECH AND LANGUAGE, 2026, vol. 95, no. 1, p. 1-19. ISSN: 0885-2308.
Název česky
Diarizací podmíněný model Whisper pro automatické rozpoznávání řeči cílového mluvčího
Typ
článek v časopise
Jazyk
anglicky
Autoři
URL
Klíčová slova

Diarizačně podmíněný šepot, adaptace šepotu na cílového mluvčího, diarizace mluvčího, dlouhodobá ASR, adaptace šepotu

Abstrakt

Automatické rozpoznávání řeči (ASR) s přiřazením mluvčího v prostředí s více mluvčími zůstává významnou výzvou, zejména když systémy podmíněné vkládáním mluvčích nedokážou zobecnit na neviditelné mluvčí. V této práci navrhujeme Diarizačně podmíněný šepot (DiCoW), nový přístup k ASR cílového mluvčího, který využívá výstupy diarizace mluvčích jako podmiňovací informace. DiCoW rozšiřuje předtrénovaný model Whisper přímou integrací diarizačních štítků, čímž eliminuje závislost na vkládání mluvčích a snižuje potřebu rozsáhlých trénovacích dat specifických pro mluvčí. Naše metoda zavádí techniky diarizace závislé na úrovni snímků (FDDT) a kladení dotazovacích klíčů (QKb) pro zpřesnění zaměření modelu na cílové mluvčí a zároveň efektivní zpracování překrývající se řeči. Využitím výstupů diarizace jako podmiňovacích signálů DiCoW zjednodušuje pracovní postup pro ASR s více mluvčími, zlepšuje zobecnění na neviditelné mluvčí a umožňuje spolehlivější transkripci v reálných nahrávkách s více mluvčími. Dále zkoumáme integraci konekcionistické časové klasifikace (CTC) do Whisperu a demonstrujeme její schopnost zlepšit efektivitu transkripce prostřednictvím hybridního dekódování. Ukazujeme, že náš přístup se neomezuje pouze na Whisper; podobné výhody poskytuje i při aplikaci na model Branchformer. Ověřujeme DiCoW na reálných datových sadách, včetně AMI a NOTSOFAR-1 z testu CHiME-8, a také na syntetických benchmarkech, jako jsou Libri2Mix a LibriCSS, což umožňuje přímé srovnání s předchozími metodami. Výsledky ukazují, že DiCoW vylepšuje schopnosti modelu ASR pro cílového mluvčího a zároveň zachovává přesnost a robustnost Whisperu na datech od jednoho mluvčího.

Rok
2026 (v tisku)
Strany
1–19
Časopis
COMPUTER SPEECH AND LANGUAGE, roč. 95, č. 1, ISSN 0885-2308
DOI
EID Scopus
BibTeX
@article{BUT198052,
  author="Alexander {Polok} and Dominik {Klement} and Martin {Kocour} and Jiangyu {Han} and Federico Nicolás {Landini} and Bolaji {Yusuf} and Matthew {Wiesner} and Sanjeev {Khudanpur} and Jan {Černocký} and Lukáš {Burget}",
  title="DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition",
  journal="COMPUTER SPEECH AND LANGUAGE",
  year="2026",
  volume="95",
  number="1",
  pages="1--19",
  doi="10.1016/j.csl.2025.101841",
  issn="0885-2308",
  url="https://www.sciencedirect.com/science/article/pii/S088523082500066X"
}
Soubory
Nahoru