Detail publikace

Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers

KUMAR, S.; MADIKERI, S.; NIGMATULINA, I.; VILLATORO-TELLO, E.; MOTLÍČEK, P.; PANDIA, K.; DUBAGUNTA, P.; GANAPATHIRAJU, A. Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul: IEEE Signal Processing Society, 2024. p. 12592-12596. ISBN: 979-8-3503-4485-1.
Název česky
Víceúlohové rozpoznávání řeči a detekce změny mluvčího pro neznámý počet mluvčích
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
KUMAR, S.
Madikeri Srikanth
NIGMATULINA, I.
VILLATORO-TELLO, E.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
PANDIA, K.
DUBAGUNTA, P.
GANAPATHIRAJU, A.
URL
Klíčová slova

speaker change detection, speaker turn detection, speech recognition, multitask
learning, F1 score

Abstrakt

Tradičně byly systémy automatického rozpoznávání řeči (ASR) a detekce změny
řečníka (SCD) nezávisle trénovány tak, aby generovaly komplexní přepisy
doprovázené otočením řečníka. V poslední době se osvědčilo společné trénování
systémů ASR a SCD vkládáním žetonů otočení řečníka do cvičného textu ASR. V této
práci představujeme multitaskovou alternativu ke společnému tréninkovému
přístupu. Výsledky získané na zvukových mixech náhlavních souprav korpusu AMI
ukazují, že navrhovaný multitaskový trénink přináší absolutní zlepšení o 1,8 %
v pokrytí a čistotě F1 skóre na úloze SCD bez degradace ASR. Zkoumáme také
kompromisy mezi výkonem ASR a SCD při trénování pomocí kritérií pro více úloh.
Kromě toho ověřujeme informace o změně reproduktoru ve vložených prostorech
získaných po různých vrstvách transformátoru předem vyškoleného modelu s vlastním
dohledem, jako je XLSR-53, integrací klasifikátoru SCD na výstupu konkrétních
vrstev transformátoru. Výsledky ukazují, že použití různých prostorů pro vkládání
z modelu XLSR-53 pro multitaskové ASR a SCD je výhodné.1

Rok
2024
Strany
12592–12596
Sborník
ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
Konference
Mezinárodní konference o akustice řeči..., Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul
DOI
BibTeX
@inproceedings{BUT196785,
  author="KUMAR, S. and MADIKERI, S. and NIGMATULINA, I. and VILLATORO-TELLO, E. and MOTLÍČEK, P. and PANDIA, K. and DUBAGUNTA, P. and GANAPATHIRAJU, A.",
  title="Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers",
  booktitle="ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
  year="2024",
  pages="12592--12596",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446130",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446130"
}
Soubory
Nahoru