Detail publikace

Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers

KUMAR, S.; MADIKERI, S.; NIGMATULINA, I.; VILLATORO-TELLO, E.; MOTLÍČEK, P.; PANDIA, K.; DUBAGUNTA, P.; GANAPATHIRAJU, A. Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul: IEEE Signal Processing Society, 2024. p. 12592-12596. ISBN: 979-8-3503-4485-1.

Název česky

Víceúlohové rozpoznávání řeči a detekce změny mluvčího pro neznámý počet mluvčích

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

KUMAR, S.
Madikeri Srikanth
NIGMATULINA, I.
VILLATORO-TELLO, E.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
PANDIA, K.
DUBAGUNTA, P.
GANAPATHIRAJU, A.

URL

Klíčová slova

speaker change detection, speaker turn detection, speech recognition, multitask
learning, F1 score

Abstrakt

Tradičně byly systémy automatického rozpoznávání řeči (ASR) a detekce změny
řečníka (SCD) nezávisle trénovány tak, aby generovaly komplexní přepisy
doprovázené otočením řečníka. V poslední době se osvědčilo společné trénování
systémů ASR a SCD vkládáním žetonů otočení řečníka do cvičného textu ASR. V této
práci představujeme multitaskovou alternativu ke společnému tréninkovému
přístupu. Výsledky získané na zvukových mixech náhlavních souprav korpusu AMI
ukazují, že navrhovaný multitaskový trénink přináší absolutní zlepšení o 1,8 %
v pokrytí a čistotě F1 skóre na úloze SCD bez degradace ASR. Zkoumáme také
kompromisy mezi výkonem ASR a SCD při trénování pomocí kritérií pro více úloh.
Kromě toho ověřujeme informace o změně reproduktoru ve vložených prostorech
získaných po různých vrstvách transformátoru předem vyškoleného modelu s vlastním
dohledem, jako je XLSR-53, integrací klasifikátoru SCD na výstupu konkrétních
vrstev transformátoru. Výsledky ukazují, že použití různých prostorů pro vkládání
z modelu XLSR-53 pro multitaskové ASR a SCD je výhodné.1

Rok

2024

Strany

12592–12596

Sborník

ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

Konference

Mezinárodní konference o akustice řeči..., Seoul, KR

ISBN

979-8-3503-4485-1

Vydavatel

IEEE Signal Processing Society

Místo

Seoul

DOI

10.1109/ICASSP48485.2024.10446130

BibTeX

@inproceedings{BUT196785,
  author="KUMAR, S. and MADIKERI, S. and NIGMATULINA, I. and VILLATORO-TELLO, E. and MOTLÍČEK, P. and PANDIA, K. and DUBAGUNTA, P. and GANAPATHIRAJU, A.",
  title="Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers",
  booktitle="ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
  year="2024",
  pages="12592--12596",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446130",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446130"
}

Soubory

pdf kumar_icassp2024_Multitask_Speech_Recognition_and_Speaker_Change_Detection_for_Unknown_Number_of_Speakers.pdf 982 kB