Detail publikace

BUT/JHU System Description for CHiME-8 NOTSOFAR-1 Challenge

POLOK, A.; KLEMENT, D.; HAN, J.; SEDLÁČEK, Š.; YUSUF, B.; MACIEJEWSKI, M.; WIESNER, M.; BURGET, L. BUT/JHU System Description for CHiME-8 NOTSOFAR-1 Challenge. Proceedings of CHiME 2024 Workshop. Kos Island: International Speech Communication Association, 2024. p. 18-22.
Název česky
Popis VUT/JHU systému pro evaluaci CHiME-8 NOTSOFAR-1
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Polok Alexander, Ing. (UPGM)
Klement Dominik, Bc. (UPGM)
Han Jiangyu (UPGM)
Sedláček Šimon, Ing. (UPGM)
Yusuf Bolaji (UPGM)
Maciejewski Matthew
Wiesner Matthew, PhD.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
URL
Klíčová slova

multi-talker speech recognition, CHiME-8, NOTSOFAR-1, target-speaker

Abstrakt

Tento článek představuje naši metodu pro řešení úlohy NOTSOFAR-1 ve výzvě
CHIME-8, která vyžaduje, aby účastníci prováděli automatické rozpoznávání řeči
s více mluvčími (ASR) pomocí zvuku ze vzdálených mikrofonních polí. Modifikujeme
diarizační kanál Pyannote3, začleňujeme předem trénovaný WavLM jako místní EEND,
aby se efektivně přizpůsobil novým doménám, a zavádíme dva přístupy k ASR
s ohledem na diarizizaci tím, že Whisper podmiňujeme diarizovými výstupy pro ASR
cílových mluvčích. První metoda, kterou označujeme jako Query-Key Biasing,
upravuje Whisperův mechanismus pozornosti a poziční vložení pomocí masky
pozornosti, kterou lze naučit, aby se ve zvuku vyloučily segmenty necílových
mluvčích. Druhá metoda, nazvaná Frame-Level Diarization-Dependent
Transformations, aplikuje afinní, diarizaci závislé transformace s trénovatelnými
parametry na vstupy jednoho nebo více transformátorových bloků. Začleněním
mezikanálové komunikace do našich modelů také rozšiřujeme jak ASR, tak diarizační
systémy na vícekanálové nastavení. Nakonec uvádíme výkon těchto přístupů na
datovém souboru NOTSOFAR-1.

Rok
2024
Strany
18–22
Sborník
Proceedings of CHiME 2024 Workshop
Konference
8. mezinárodní workshop o zpracování řeči v každodenním prostředí (CHiME 2024), Kos Island - a satelite event of the Interspeech 2024 conference, GR
Vydavatel
International Speech Communication Association
Místo
Kos Island
DOI
BibTeX
@inproceedings{BUT194002,
  author="Alexander {Polok} and Dominik {Klement} and Jiangyu {Han} and Šimon {Sedláček} and Bolaji {Yusuf} and Matthew {Maciejewski} and Matthew {Wiesner} and Lukáš {Burget}",
  title="BUT/JHU System Description for CHiME-8 NOTSOFAR-1 Challenge",
  booktitle="Proceedings of CHiME 2024 Workshop",
  year="2024",
  pages="18--22",
  publisher="International Speech Communication Association",
  address="Kos Island",
  doi="10.21437/CHiME.2024-4",
  url="https://www.isca-archive.org/chime_2024/polok24_chime.pdf"
}
Soubory
Nahoru