Detail publikace

Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint

PRASAD, A.; CAROFILIS, A.; VANDERREYDT, G.; KHALIL, D.; MADIKERI, S.; MOTLÍČEK, P.; SCHUEPBACH, C. Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11921-11925. ISBN: 979-8-3503-4485-1.
Název česky
Fine-Tuning samoučicích modelů pro identifikaci jazyka pomocí ortonormálního omezení
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Prasad Amrutha (UPGM)
CAROFILIS, A.
VANDERREYDT, G.
KHALIL, D.
Madikeri Srikanth
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
SCHUEPBACH, C.
URL
Klíčová slova

Language Identification, Transformers, Wav2Vec2, fine-tuning, low-resource,
out-of-domain,

Abstrakt

Modely s vlastním dohledem trénované s vysokou jazykovou rozmanitostí, jako je
model XLS-R, lze efektivně vyladit pro úlohu rozpoznávání jazyka. Typicky se
během školení přidává koncový klasifikátor následovaný vrstvou sdružování
statistik. Běžně používané back-endové klasifikátory vyžadují natrénování velkého
počtu parametrů, což není ideální v podmínkách omezených dat. V této práci
zkoumáme back-endy s menšími parametry pomocí faktorizované neuronové sítě
s časovým zpožděním (TDNN-F). Architektura TDNN-F je také integrována do modelů
Emphasized Channel Attention, Propagation and Aggregation-TDNN (ECAPA-TDNN),
označovaných jako ECAPA-TDNN-F, což snižuje počet parametrů o 30 až 50 %
absolutně, s konkurenční přesností a beze změn. v minimálních nákladech. Výsledky
ukazují, že ECAPA-TDNN-F lze rozšířit na úkoly, kde je ECAPA-TDNN vhodný.
Testujeme také účinnost lineárního klasifikátoru a varianty, ortonormálního
lineárního klasifikátoru, dříve používaného v systémech typu x-vector. Modely
jsou trénovány s daty NIST LRE17 a vyhodnocovány na souborech dat NIST LRE17,
LRE22 a ATCO2 LID. Oba lineární klasifikátory překonávají konvenční back-endy se
zlepšením přesnosti mezi 0,9 % a 9,1 %

Rok
2024
Strany
11921–11925
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
Mezinárodní konference o akustice řeči..., Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul
DOI
EID Scopus
BibTeX
@inproceedings{BUT193354,
  author="PRASAD, A. and CAROFILIS, A. and VANDERREYDT, G. and KHALIL, D. and MADIKERI, S. and MOTLÍČEK, P. and SCHUEPBACH, C.",
  title="Fine-Tuning Self-Supervised Models for Language Identification Using Orthonormal Constraint",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="11921--11925",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446751",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446751"
}
Soubory
Nahoru