Detail výsledku

BUT/JHU System Description for CHiME-8 NOTSOFAR-1 Challenge

POLOK, A.; KLEMENT, D.; HAN, J.; SEDLÁČEK, Š.; YUSUF, B.; MACIEJEWSKI, M.; WIESNER, M.; BURGET, L. BUT/JHU System Description for CHiME-8 NOTSOFAR-1 Challenge. Proceedings of CHiME 2024 Workshop. Kos Island: International Speech Communication Association, 2024. p. 18-22.
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Polok Alexander, Ing., UPGM (FIT)
Klement Dominik, Ing., FIT (FIT), UPGM (FIT)
Han Jiangyu, UPGM (FIT)
Sedláček Šimon, Ing., UPGM (FIT)
Yusuf Bolaji, UPGM (FIT)
Maciejewski Matthew
Wiesner Matthew, PhD., FIT (FIT)
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)
Abstrakt

This paper presents our method for tackling the CHIME-8 chal-
lenge's NOTSOFAR-1 task, which requires participants to per-
form multi-speaker automatic speech recognition (ASR) using
audio from distant microphone arrays. We modify the Pyan-
note3 diarization pipeline, incorporating pre-trained WavLM as
local EEND to adapt effectively to new domains, and we intro-
duce two diarization-aware approaches to ASR by condition-
ing Whisper on diarization outputs for target-speaker ASR. The
first method, which we refer to as Query-Key Biasing, modi-
fies Whisper's attention mechanism and positional embeddings
with a learnable attention mask to exclude non-target speaker
segments in the audio. The second method, called Frame-
Level Diarization-Dependent Transformations, applies affine,
diarization-dependent transformations with trainable parame-
ters to the inputs of one or more transformer blocks. We also
extend both the ASR and diarization systems to a multichannel
setup by incorporating cross-channel communication into our
models. Finally, we report the performance of these approaches
on the NOTSOFAR-1 dataset.

Klíčová slova

multi-talker speech recognition, CHiME-8, NOTSOFAR-1, target-speaker

URL
Rok
2024
Strany
18–22
Sborník
Proceedings of CHiME 2024 Workshop
Konference
8th International Workshop on Speech Processing in Everyday Environments (CHiME 2024)
Vydavatel
International Speech Communication Association
Místo
Kos Island
DOI
BibTeX
@inproceedings{BUT194002,
  author="Alexander {Polok} and Dominik {Klement} and Jiangyu {Han} and Šimon {Sedláček} and Bolaji {Yusuf} and Matthew {Maciejewski} and Matthew {Wiesner} and Lukáš {Burget}",
  title="BUT/JHU System Description for CHiME-8 NOTSOFAR-1 Challenge",
  booktitle="Proceedings of CHiME 2024 Workshop",
  year="2024",
  pages="18--22",
  publisher="International Speech Communication Association",
  address="Kos Island",
  doi="10.21437/CHiME.2024-4",
  url="https://www.isca-archive.org/chime_2024/polok24_chime.pdf"
}
Soubory
Projekty
Multilingvální a mezikulturní interakce v dialogových systémech pro bezpečnostně kritické aplikace závislé na kontextu a kontrolou zaujatosti, EU, HORIZON EUROPE, zahájení: 2024-01-01, ukončení: 2026-12-31, řešení
Nástroje boje proti hlasovým DeepFakes, MV, Programu bezpečnostního výzkumu ČR 2021-2026: vývoj, testování a evaluace nových bezpečnostních technologií (SECTECH) - II. veřejná soutěž, VB02000060, zahájení: 2024-01-01, ukončení: 2026-12-31, řešení
Praktické ověření možnosti integrace umělé inteligence pro příjem tísňových volání pomocí hlasového chatbota, vyvinutého v rámci výzkumného projektu BV č. VI20192022169, s technologií pro příjem tísňové komunikace 112 a 150 v ČR (TCTV 112), MV, 1 VS OPSEC, VK01020132, zahájení: 2023-01-06, ukončení: 2025-10-31, ukončen
Výměny pro výzkum řeči a technologií, EU, Horizon 2020, zahájení: 2021-01-01, ukončení: 2025-12-31, řešení
Výzkumné skupiny
Pracoviště
Nahoru