Detail publikace
Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers
Madikeri Srikanth
NIGMATULINA, I.
VILLATORO-TELLO, E.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
PANDIA, K.
DUBAGUNTA, P.
GANAPATHIRAJU, A.
speaker change detection, speaker turn detection, speech recognition, multitask
learning, F1 score
Tradičně byly systémy automatického rozpoznávání řeči (ASR) a detekce změny
řečníka (SCD) nezávisle trénovány tak, aby generovaly komplexní přepisy
doprovázené otočením řečníka. V poslední době se osvědčilo společné trénování
systémů ASR a SCD vkládáním žetonů otočení řečníka do cvičného textu ASR. V této
práci představujeme multitaskovou alternativu ke společnému tréninkovému
přístupu. Výsledky získané na zvukových mixech náhlavních souprav korpusu AMI
ukazují, že navrhovaný multitaskový trénink přináší absolutní zlepšení o 1,8 %
v pokrytí a čistotě F1 skóre na úloze SCD bez degradace ASR. Zkoumáme také
kompromisy mezi výkonem ASR a SCD při trénování pomocí kritérií pro více úloh.
Kromě toho ověřujeme informace o změně reproduktoru ve vložených prostorech
získaných po různých vrstvách transformátoru předem vyškoleného modelu s vlastním
dohledem, jako je XLSR-53, integrací klasifikátoru SCD na výstupu konkrétních
vrstev transformátoru. Výsledky ukazují, že použití různých prostorů pro vkládání
z modelu XLSR-53 pro multitaskové ASR a SCD je výhodné.1
@inproceedings{BUT196785,
author="KUMAR, S. and MADIKERI, S. and NIGMATULINA, I. and VILLATORO-TELLO, E. and MOTLÍČEK, P. and PANDIA, K. and DUBAGUNTA, P. and GANAPATHIRAJU, A.",
title="Multitask Speech Recognition and Speaker Change Detection for Unknown Number of Speakers",
booktitle="ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
year="2024",
pages="12592--12596",
publisher="IEEE Signal Processing Society",
address="Seoul",
doi="10.1109/ICASSP48485.2024.10446130",
isbn="979-8-3503-4485-1",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446130"
}