Detail publikace

HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition

MAI, F.; ZULUAGA-GOMEZ, J.; PARCOLLET, T.; MOTLÍČEK, P. HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition. In Proceedings of the Annual Conference of International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Dublin: International Speech Communication Association, 2023. p. 2213-2217. ISSN: 1990-9772.
Název česky
HyperConformer: HyperMixer s více hlavami pro efektivní rozpozná
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
MAI, F.
ZULUAGA-GOMEZ, J.
PARCOLLET, T.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
URL
Klíčová slova

Hypernetworks, HyperMixer, Efficient Auto- matic Speech Recognition, LibriSpeech, SpeechBrain

Abstrakt

Nejmodernější systémy ASR dosáhly slibných výsledků díky samostatnému modelování lokálních a globálních interakcí. Zatímco první lze efektivně vypočítat, globální interakce jsou obvykle modelovány pomocí mechanismů pozornosti, které jsou drahé pro dlouhé vstupní sekvence. Zde to řešíme rozšířením HyperMixeru, účinné alternativy k pozornosti vykazující lineární složitost, na architekturu Conformer pro rozpoznávání řeči, což vede k HyperConformer. Konkrétně vícehlavý HyperConformer dosahuje srovnatelného nebo vyššího výkonu rozpoznávání a zároveň je efektivnější než Conformer, pokud jde o inferenční rychlost, paměť, počet parametrů a dostupná trénovací data. HyperConformer dosahuje chybovosti slov 2,9 % na LibriSpeech test-clean s méně než 8M neurálními parametry a špičkovou pamětí během trénování 5,7 GB, tudíž trénovatelný s dostupným hardwarem. Rychlost kodéru je mezi 38 % u středně dlouhé řeči a 56 % u dlouhé řeči rychlejší než ekvivalentní konformer.1)

Rok
2023
Strany
2213–2217
Časopis
Proceedings of Interspeech, roč. 2023, č. 08, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of International Speech Communication Association, INTERSPEECH
Vydavatel
International Speech Communication Association
Místo
Dublin
DOI
EID Scopus
BibTeX
@inproceedings{BUT187786,
  author="MAI, F. and ZULUAGA-GOMEZ, J. and PARCOLLET, T. and MOTLÍČEK, P.",
  title="HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition",
  booktitle="Proceedings of the Annual Conference of International Speech Communication Association, INTERSPEECH",
  year="2023",
  journal="Proceedings of Interspeech",
  volume="2023",
  number="08",
  pages="2213--2217",
  publisher="International Speech Communication Association",
  address="Dublin",
  doi="10.21437/Interspeech.2023-1611",
  issn="1990-9772",
  url="https://www.isca-archive.org/interspeech_2023/mai23_interspeech.pdf"
}
Nahoru