Detail publikace
Unsupervised Word Segmentation from Discrete Speech Units in Low-Resource Settings
unsupervised word segmentation, speech discretization, acoustic unit discovery, low-resource settings
Dokumentace jazyků pomáhá předcházet zániku ohrožených dialektů, z nichž se jinak očekává, že se mnohé vytratí. se objeví na konci století. Při dokumentování ústních jazyků je nekontrolovaná segmentace slov (UWS) z řeči užitečný, ale náročný úkol. Spočívá ve výrobě časových razítek pro dělení výpovědí na odpovídající menší segmenty na slova, která se provádějí z fonetických přepisů, nebo v případě, že neexistují, z výstupu řeči bez dozoru diskretizační modely. Tyto diskretizační modely jsou trénovány pouze pomocí surové řeči a vytvářejí diskrétní řečové jednotky, které mohou použít pro následné (textové) úlohy. V tomto článku porovnáváme pět z těchto modelů: tři Bayesovské a dva neurální přístupy, s ohledem na využitelnost vyrobených jednotek pro UWS. Pro úlohu UWS experimentujeme se dvěma Modely využívající jako náš cílový jazyk Mboshi (Bantu C25), nespisovný jazyk z Konga-Brazzaville. Dodatečně, hlásíme výsledky pro finštinu, maďarštinu, rumunštinu a ruštinu ve stejně nenáročných nastaveních, s použitím pouhých 4 hodin řeči. Naše výsledky naznačují, že neurální modely pro diskretizaci řeči je v našem prostředí obtížné využít, a že by tomu tak mohlo být nutné je přizpůsobit tak, aby byla omezena délka sekvence. Naše nejlepší výsledky UWS získáváme použitím Bayesovských modelů, které produkují vysoké kvalitní, přesto komprimované, diskrétní reprezentace vstupního řečového signálu.
@inproceedings{BUT187752,
author="BOITO, M. and YUSUF, B. and ONDEL YANG, L. and VILLAVICENCIO, A. and BESACIER, L.",
title="Unsupervised Word Segmentation from Discrete Speech Units in Low-Resource Settings",
booktitle="Proceedings of the the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages",
year="2022",
pages="1--9",
publisher="European Language Resources Association",
address="Marseile",
isbn="979-10-95546-91-7",
url="https://aclanthology.org/2022.sigul-1.1.pdf"
}