Detail publikace

Speech Technology for Unwritten Languages

SCHARENBORG, O.; BESACIER, L.; BLACK, A.; HASEGAWA-JOHNSON, M.; METZE, F.; NEUBIG, G.; STÜKER, S.; GODARD, P.; MÜLLER, M.; ONDEL YANG, L.; PALASKAR, S.; ARTHUR, P.; CIANNELLA, F.; DU, M.; LARSEN, E.; MERKX, D.; RIAD, R.; WANG, L.; DUPOUX, E. Speech Technology for Unwritten Languages. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, 2020, vol. 2020, no. 28, p. 964-975. ISSN: 2329-9290.

Název česky

Řečové technologie pro jazyky bez psané formy

Typ

článek v časopise

Jazyk

anglicky

Autoři

SCHARENBORG, O.
BESACIER, L.
BLACK, A.
Hasegawa-Johnson Mark (FIT)
Metze Florian
NEUBIG, G.
STÜKER, S.
GODARD, P.
MÜLLER, M.
ONDEL YANG, L.
PALASKAR, S.
ARTHUR, P.
CIANNELLA, F.
DU, M.
LARSEN, E.
MERKX, D.
RIAD, R.
WANG, L.
Dupoux Emmanuel (FIT)

URL

Klíčová slova

Speech processing, automatic speech recognition, unsupervised learning, speech synthesis, image retrieval.

Abstrakt

Technologie abstraktní řeči hraje důležitou roli v našem každodenním životě. Řeč se mimo jiné používá pro interakci člověka s počítačem, například pro vyhledávání informací a online nakupování. V případě nepsaného jazyka je však bohužel obtížné vytvořit řečovou technologii, protože ji nelze vytvořit standardní kombinací předem trénovaných subsystémů řeč-text a text-řeč. Výzkum představený v tomto článku podniká první kroky směrem k technologii řeči pro nepsané jazyky. Cílem této práce bylo konkrétně 1) naučit se reprezentace řeči ve smyslu bez použití textu jako prostřední reprezentace a 2) otestovat dostatečnost naučených reprezentací k regeneraci řeči nebo přeloženého textu nebo k získání obrázků, které zobrazují význam promluvy v nepsaném jazyce. Výsledky naznačují, že je možné vytvářet systémy, které přecházejí přímo z řeči na význam a ze smyslu na řeč, čímž obejdou potřebu textu.

Rok

2020

Strany

964–975

Časopis

IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 2020, č. 28, ISSN 2329-9290

DOI

10.1109/TASLP.2020.2973896

UT WoS

000522357500002

EID Scopus

2-s2.0-85079642575

BibTeX

@article{BUT170325,
  author="SCHARENBORG, O. and BESACIER, L. and BLACK, A. and HASEGAWA-JOHNSON, M. and METZE, F. and NEUBIG, G. and STÜKER, S. and GODARD, P. and MÜLLER, M. and ONDEL YANG, L. and PALASKAR, S. and ARTHUR, P. and CIANNELLA, F. and DU, M. and LARSEN, E. and MERKX, D. and RIAD, R. and WANG, L. and DUPOUX, E.",
  title="Speech Technology for Unwritten Languages",
  journal="IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING",
  year="2020",
  volume="2020",
  number="28",
  pages="964--975",
  doi="10.1109/TASLP.2020.2973896",
  issn="2329-9290",
  url="https://ieeexplore.ieee.org/document/8998182"
}