Detail publikace
Leveraging Self-Supervised Learning for Speaker Diarization
Landini Federico Nicolás (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Diarizace mluvčích, nedostatek dat, WavLM, Pyannote, data ze setkání ve vzdáleném poli
Komplexní neuronová diarizace se v posledních několika letech značně vyvinula, ale nedostatek dat je stále hlavní překážkou pro další zlepšení. Metody samostudia, jako je WavLM, prokázaly slibný výkon u několika následných úloh, ale jejich aplikace na diarizaci mluvčího je poněkud omezená. V této práci zkoumáme použití WavLM ke zmírnění problému nedostatku dat pro trénování neuronové diarizace. Používáme stejný pipeline jako Pyannote a vylepšujeme lokální komplexní neuronovou diarizaci pomocí WavLM a Conformeru. Experimenty na datových sadách AMI, AISHELL-4 a AliMeeting ve vzdáleném poli ukazují, že naše metoda podstatně překonává základní linii Pyannote a dosahuje nových špičkových výsledků na AMI a AISHELL- 4. Kromě toho analýzou výkonu systému za různých scénářů množství dat ukazujeme, že reprezentace WavLM jsou mnohem odolnější vůči nedostatku dat než funkce filtračních bank, což umožňuje méně datově náročné strategie trénování. Dále jsme zjistili, že simulovaná data, obvykle používaná k trénování end-to-end modelů diarizace, nepomáhají při použití WavLM v našich experimentech. Dále jsme náš model také vyhodnotili na nedávném úkolu CHiME8 NOTSOFAR-1, kde dosahuje lepšího výkonu než základní linie Pyannote. Náš zdrojový kód je veřejně dostupný na adrese https://github.com/BUTSpeechFIT/DiariZen.
@INPROCEEDINGS{FITPUB13519, author = "Jiangyu Han and Nicol\'{a}s Federico Landini and A. Johan Rohdin and Anna Silnova and Mireia S\'{a}nchez Diez and Luk\'{a}\v{s} Burget", title = "Leveraging Self-Supervised Learning for Speaker Diarization", pages = "1--5", booktitle = "Proceedings of ICASSP 2025", year = 2025, location = "Hyderabad, IN", publisher = "IEEE Biometric Council", ISBN = "979-8-3503-6874-1", doi = "10.1109/ICASSP49660.2025.10889475", language = "english", url = "https://www.fit.vut.cz/research/publication/13519" }