Detail publikace

DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition

POLOK, A.; KLEMENT, D.; KOCOUR, M.; HAN, J.; LANDINI, F.; YUSUF, B.; WIESNER, M.; KHUDANPUR, S.; ČERNOCKÝ, J.; BURGET, L. DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition. COMPUTER SPEECH AND LANGUAGE, 2026, vol. 95, no. 1, p. 1-19. ISSN: 0885-2308.

Název česky

Diarizací podmíněný model Whisper pro automatické rozpoznávání řeči cílového mluvčího

Typ

článek v časopise

Jazyk

anglicky

Autoři

Polok Alexander, Ing. (UPGM)
Klement Dominik, Ing. (UPGM)
Kocour Martin, Ing. (UPGM)
Han Jiangyu (UPGM)
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Yusuf Bolaji (UPGM)
Wiesner Matthew, PhD.
Khudanpur Sanjeev
Černocký Jan, prof. Dr. Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)

URL

https://www.sciencedirect.com/science/article/pii/S088523082500066X

Klíčová slova

Diarizačně podmíněný šepot, adaptace šepotu na cílového mluvčího, diarizace mluvčího, dlouhodobá ASR, adaptace šepotu

Abstrakt

Automatické rozpoznávání řeči (ASR) s přiřazením mluvčího v prostředí s více mluvčími zůstává významnou výzvou, zejména když systémy podmíněné vkládáním mluvčích nedokážou zobecnit na neviditelné mluvčí. V této práci navrhujeme Diarizačně podmíněný šepot (DiCoW), nový přístup k ASR cílového mluvčího, který využívá výstupy diarizace mluvčích jako podmiňovací informace. DiCoW rozšiřuje předtrénovaný model Whisper přímou integrací diarizačních štítků, čímž eliminuje závislost na vkládání mluvčích a snižuje potřebu rozsáhlých trénovacích dat specifických pro mluvčí. Naše metoda zavádí techniky diarizace závislé na úrovni snímků (FDDT) a kladení dotazovacích klíčů (QKb) pro zpřesnění zaměření modelu na cílové mluvčí a zároveň efektivní zpracování překrývající se řeči. Využitím výstupů diarizace jako podmiňovacích signálů DiCoW zjednodušuje pracovní postup pro ASR s více mluvčími, zlepšuje zobecnění na neviditelné mluvčí a umožňuje spolehlivější transkripci v reálných nahrávkách s více mluvčími. Dále zkoumáme integraci konekcionistické časové klasifikace (CTC) do Whisperu a demonstrujeme její schopnost zlepšit efektivitu transkripce prostřednictvím hybridního dekódování. Ukazujeme, že náš přístup se neomezuje pouze na Whisper; podobné výhody poskytuje i při aplikaci na model Branchformer. Ověřujeme DiCoW na reálných datových sadách, včetně AMI a NOTSOFAR-1 z testu CHiME-8, a také na syntetických benchmarkech, jako jsou Libri2Mix a LibriCSS, což umožňuje přímé srovnání s předchozími metodami. Výsledky ukazují, že DiCoW vylepšuje schopnosti modelu ASR pro cílového mluvčího a zároveň zachovává přesnost a robustnost Whisperu na datech od jednoho mluvčího.

Rok

2026 (v tisku)

Strany

1–19

Časopis

COMPUTER SPEECH AND LANGUAGE, roč. 95, č. 1, ISSN 0885-2308

DOI

10.1016/j.csl.2025.101841

EID Scopus

2-s2.0-105008798895

BibTeX

@article{BUT198052,
  author="Alexander {Polok} and Dominik {Klement} and Martin {Kocour} and Jiangyu {Han} and Federico Nicolás {Landini} and Bolaji {Yusuf} and Matthew {Wiesner} and Sanjeev {Khudanpur} and Jan {Černocký} and Lukáš {Burget}",
  title="DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition",
  journal="COMPUTER SPEECH AND LANGUAGE",
  year="2026",
  volume="95",
  number="1",
  pages="1--19",
  doi="10.1016/j.csl.2025.101841",
  issn="0885-2308",
  url="https://www.sciencedirect.com/science/article/pii/S088523082500066X"
}

Soubory