Detail publikace
Speech Technology for Unwritten Languages
BESACIER, L.
BLACK, A.
Hasegawa-Johnson Mark (FIT)
Metze Florian
NEUBIG, G.
STÜKER, S.
GODARD, P.
MÜLLER, M.
ONDEL YANG, L.
PALASKAR, S.
ARTHUR, P.
CIANNELLA, F.
DU, M.
LARSEN, E.
MERKX, D.
RIAD, R.
WANG, L.
Dupoux Emmanuel (FIT)
Speech processing, automatic speech recognition, unsupervised learning, speech synthesis, image retrieval.
Technologie abstraktní řeči hraje důležitou roli v našem každodenním životě. Řeč se mimo jiné používá pro interakci člověka s počítačem, například pro vyhledávání informací a online nakupování. V případě nepsaného jazyka je však bohužel obtížné vytvořit řečovou technologii, protože ji nelze vytvořit standardní kombinací předem trénovaných subsystémů řeč-text a text-řeč. Výzkum představený v tomto článku podniká první kroky směrem k technologii řeči pro nepsané jazyky. Cílem této práce bylo konkrétně 1) naučit se reprezentace řeči ve smyslu bez použití textu jako prostřední reprezentace a 2) otestovat dostatečnost naučených reprezentací k regeneraci řeči nebo přeloženého textu nebo k získání obrázků, které zobrazují význam promluvy v nepsaném jazyce. Výsledky naznačují, že je možné vytvářet systémy, které přecházejí přímo z řeči na význam a ze smyslu na řeč, čímž obejdou potřebu textu.
@article{BUT170325,
author="SCHARENBORG, O. and BESACIER, L. and BLACK, A. and HASEGAWA-JOHNSON, M. and METZE, F. and NEUBIG, G. and STÜKER, S. and GODARD, P. and MÜLLER, M. and ONDEL YANG, L. and PALASKAR, S. and ARTHUR, P. and CIANNELLA, F. and DU, M. and LARSEN, E. and MERKX, D. and RIAD, R. and WANG, L. and DUPOUX, E.",
title="Speech Technology for Unwritten Languages",
journal="IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING",
year="2020",
volume="2020",
number="28",
pages="964--975",
doi="10.1109/TASLP.2020.2973896",
issn="2329-9290",
url="https://ieeexplore.ieee.org/document/8998182"
}