Detail publikace

Speech Technology for Unwritten Languages

SCHARENBORG, O.; BESACIER, L.; BLACK, A.; HASEGAWA-JOHNSON, M.; METZE, F.; NEUBIG, G.; STÜKER, S.; GODARD, P.; MÜLLER, M.; ONDEL YANG, L.; PALASKAR, S.; ARTHUR, P.; CIANNELLA, F.; DU, M.; LARSEN, E.; MERKX, D.; RIAD, R.; WANG, L.; DUPOUX, E. Speech Technology for Unwritten Languages. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, 2020, vol. 2020, no. 28, p. 964-975. ISSN: 2329-9290.
Název česky
Řečové technologie pro jazyky bez psané formy
Typ
článek v časopise
Jazyk
anglicky
Autoři
SCHARENBORG, O.
BESACIER, L.
BLACK, A.
Hasegawa-Johnson Mark (FIT)
Metze Florian
NEUBIG, G.
STÜKER, S.
GODARD, P.
MÜLLER, M.
ONDEL YANG, L.
PALASKAR, S.
ARTHUR, P.
CIANNELLA, F.
DU, M.
LARSEN, E.
MERKX, D.
RIAD, R.
WANG, L.
Dupoux Emmanuel (FIT)
URL
Klíčová slova

Speech processing, automatic speech recognition, unsupervised learning, speech synthesis, image retrieval.

Abstrakt

Technologie abstraktní řeči hraje důležitou roli v našem každodenním životě. Řeč se mimo jiné používá pro interakci člověka s počítačem, například pro vyhledávání informací a online nakupování. V případě nepsaného jazyka je však bohužel obtížné vytvořit řečovou technologii, protože ji nelze vytvořit standardní kombinací předem trénovaných subsystémů řeč-text a text-řeč. Výzkum představený v tomto článku podniká první kroky směrem k technologii řeči pro nepsané jazyky. Cílem této práce bylo konkrétně 1) naučit se reprezentace řeči ve smyslu bez použití textu jako prostřední reprezentace a 2) otestovat dostatečnost naučených reprezentací k regeneraci řeči nebo přeloženého textu nebo k získání obrázků, které zobrazují význam promluvy v nepsaném jazyce. Výsledky naznačují, že je možné vytvářet systémy, které přecházejí přímo z řeči na význam a ze smyslu na řeč, čímž obejdou potřebu textu.

Rok
2020
Strany
964–975
Časopis
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 2020, č. 28, ISSN 2329-9290
DOI
UT WoS
000522357500002
EID Scopus
BibTeX
@article{BUT170325,
  author="SCHARENBORG, O. and BESACIER, L. and BLACK, A. and HASEGAWA-JOHNSON, M. and METZE, F. and NEUBIG, G. and STÜKER, S. and GODARD, P. and MÜLLER, M. and ONDEL YANG, L. and PALASKAR, S. and ARTHUR, P. and CIANNELLA, F. and DU, M. and LARSEN, E. and MERKX, D. and RIAD, R. and WANG, L. and DUPOUX, E.",
  title="Speech Technology for Unwritten Languages",
  journal="IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING",
  year="2020",
  volume="2020",
  number="28",
  pages="964--975",
  doi="10.1109/TASLP.2020.2973896",
  issn="2329-9290",
  url="https://ieeexplore.ieee.org/document/8998182"
}
Nahoru