Detail publikace

Leveraging Self-Supervised Learning for Speaker Diarization

HAN Jiangyu, LANDINI Federico Nicolás, ROHDIN Johan A., SILNOVA Anna, DIEZ Sánchez Mireia a BURGET Lukáš. Leveraging Self-Supervised Learning for Speaker Diarization. In: Proceedings of ICASSP 2025. Hyderabad: IEEE Biometric Council, 2025, s. 1-5. ISBN 979-8-3503-6874-1. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10889475
Název česky
Využití samoučení pro neurální diarizaci mluvčích
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
URL
Klíčová slova

Diarizace mluvčích, nedostatek dat, WavLM, Pyannote, data ze setkání ve vzdáleném poli

Abstrakt

Komplexní neuronová diarizace se v posledních několika letech značně vyvinula, ale nedostatek dat je stále hlavní překážkou pro další zlepšení. Metody samostudia, jako je WavLM, prokázaly slibný výkon u několika následných úloh, ale jejich aplikace na diarizaci mluvčího je poněkud omezená. V této práci zkoumáme použití WavLM ke zmírnění problému nedostatku dat pro trénování neuronové diarizace. Používáme stejný pipeline jako Pyannote a vylepšujeme lokální komplexní neuronovou diarizaci pomocí WavLM a Conformeru. Experimenty na datových sadách AMI, AISHELL-4 a AliMeeting ve vzdáleném poli ukazují, že naše metoda podstatně překonává základní linii Pyannote a dosahuje nových špičkových výsledků na AMI a AISHELL- 4. Kromě toho analýzou výkonu systému za různých scénářů množství dat ukazujeme, že reprezentace WavLM jsou mnohem odolnější vůči nedostatku dat než funkce filtračních bank, což umožňuje méně datově náročné strategie trénování. Dále jsme zjistili, že simulovaná data, obvykle používaná k trénování end-to-end modelů diarizace, nepomáhají při použití WavLM v našich experimentech. Dále jsme náš model také vyhodnotili na nedávném úkolu CHiME8 NOTSOFAR-1, kde dosahuje lepšího výkonu než základní linie Pyannote. Náš zdrojový kód je veřejně dostupný na adrese https://github.com/BUTSpeechFIT/DiariZen.

Rok
2025
Strany
1-5
Sborník
Proceedings of ICASSP 2025
Konference
ICASSP 2025, International Conference on Acoustics, Speech, and Signal Processing, Hyderabad, IN
ISBN
979-8-3503-6874-1
Vydavatel
IEEE Biometric Council
Místo
Hyderabad, IN
DOI
BibTeX
@INPROCEEDINGS{FITPUB13519,
   author = "Jiangyu Han and Nicol\'{a}s Federico Landini and A. Johan Rohdin and Anna Silnova and Mireia S\'{a}nchez Diez and Luk\'{a}\v{s} Burget",
   title = "Leveraging Self-Supervised Learning for Speaker Diarization",
   pages = "1--5",
   booktitle = "Proceedings of ICASSP 2025",
   year = 2025,
   location = "Hyderabad, IN",
   publisher = "IEEE Biometric Council",
   ISBN = "979-8-3503-6874-1",
   doi = "10.1109/ICASSP49660.2025.10889475",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13519"
}
Nahoru