Detail publikace

Unsupervised Word Segmentation from Discrete Speech Units in Low-Resource Settings

BOITO, M.; YUSUF, B.; ONDEL YANG, L.; VILLAVICENCIO, A.; BESACIER, L. Unsupervised Word Segmentation from Discrete Speech Units in Low-Resource Settings. In Proceedings of the the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages. Marseile: European Language Resources Association, 2022. p. 1-9. ISBN: 979-10-95546-91-7.
Název česky
Slovní segmentace s učením dohledu založená na diskrétních řečových jednotkách ve scénářích s nedostatkem zdrojů
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
BOITO, M.
Yusuf Bolaji (UPGM)
ONDEL YANG, L.
VILLAVICENCIO, A.
BESACIER, L.
URL
Klíčová slova

unsupervised word segmentation, speech discretization, acoustic unit discovery, low-resource settings

Abstrakt

Dokumentace jazyků pomáhá předcházet zániku ohrožených dialektů, z nichž se jinak očekává, že se mnohé vytratí. se objeví na konci století. Při dokumentování ústních jazyků je nekontrolovaná segmentace slov (UWS) z řeči užitečný, ale náročný úkol. Spočívá ve výrobě časových razítek pro dělení výpovědí na odpovídající menší segmenty na slova, která se provádějí z fonetických přepisů, nebo v případě, že neexistují, z výstupu řeči bez dozoru diskretizační modely. Tyto diskretizační modely jsou trénovány pouze pomocí surové řeči a vytvářejí diskrétní řečové jednotky, které mohou použít pro následné (textové) úlohy. V tomto článku porovnáváme pět z těchto modelů: tři Bayesovské a dva neurální přístupy, s ohledem na využitelnost vyrobených jednotek pro UWS. Pro úlohu UWS experimentujeme se dvěma Modely využívající jako náš cílový jazyk Mboshi (Bantu C25), nespisovný jazyk z Konga-Brazzaville. Dodatečně, hlásíme výsledky pro finštinu, maďarštinu, rumunštinu a ruštinu ve stejně nenáročných nastaveních, s použitím pouhých 4 hodin řeči. Naše výsledky naznačují, že neurální modely pro diskretizaci řeči je v našem prostředí obtížné využít, a že by tomu tak mohlo být nutné je přizpůsobit tak, aby byla omezena délka sekvence. Naše nejlepší výsledky UWS získáváme použitím Bayesovských modelů, které produkují vysoké kvalitní, přesto komprimované, diskrétní reprezentace vstupního řečového signálu.

Rok
2022
Strany
1–9
Sborník
Proceedings of the the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages
ISBN
979-10-95546-91-7
Vydavatel
European Language Resources Association
Místo
Marseile
EID Scopus
BibTeX
@inproceedings{BUT187752,
  author="BOITO, M. and YUSUF, B. and ONDEL YANG, L. and VILLAVICENCIO, A. and BESACIER, L.",
  title="Unsupervised Word Segmentation from Discrete Speech Units in Low-Resource Settings",
  booktitle="Proceedings of the the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages",
  year="2022",
  pages="1--9",
  publisher="European Language Resources Association",
  address="Marseile",
  isbn="979-10-95546-91-7",
  url="https://aclanthology.org/2022.sigul-1.1.pdf"
}
Nahoru