Detail publikace
Customization of Automatic Speech Recognition Engines for Rare Word Detection Without Costly Model Re-Training
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
NIGMATULINA, I.
HELMKE, H.
OHNEISER, O.
KLEINERT, M.
EHR, H.
Speech Recognition; Model Adaptation; Integration of prior knowledge; Customization of model, Rare-word integration.
Díky Alexe, Siri nebo Google Assistant, automatické rozpoznávání řeči (ASR) změnilo náš každodenní život během poslední dekády. K dispozici jsou prototypové aplikace v oblasti řízení letového provozu (ATM). Předvyplňování záznamů radarových štítků podporou ASR nedávno dosáhlo úrovně technologické připravenosti před industrializací (TRL6). Zřídka vyslovovaná slova a slova související se vzdušným prostorem relevantní v kontextu ATM však zůstávají výzvou pro sofistikované aplikace. Open source sady nástrojů ASR nebo velké předem trénované modely pro odborníky - umožňující přizpůsobit ASR novým doménám - lze využít s typickým omezením dostupnosti určitého množství trénovacích dat specifických pro doménu, tj. typicky přepsané řeči pro přizpůsobení akustické a/nebo nebo jazykové modely. Obecně stačí, aby "univerzální" motor ASR spolehlivě rozpoznal několik stovek slov, která tvoří slovní zásobu hlasové komunikace mezi řídícími letového provozu a piloty. Pro každé letiště je však potřeba integrovat několik stovek závislých slov, která se vyslovují jen zřídka. Tyto náročné slovní entity obsahují speciální označení leteckých společností a názvy navigačních bodů jako "dexon" nebo "burok", které se objevují pouze v určité oblasti. Při použití jsou vysoce informativní, a proto vyžadují vysokou přesnost rozpoznávání. Umožnění přizpůsobení plug and play s minimem odborné manipulace předpokládá, že není potřeba žádné další školení, tj. jemné doladění univerzálního ASR. Tento článek představuje inovativní přístup k automatické integraci nových specifických slovních entit do univerzálního systému ASR. Míra rozpoznávání těchto regionálně specifických slovních entit s ohledem na univerzální ASR se zvyšuje šestkrát.
@inproceedings{BUT187995,
author="BHATTACHARJEE, M. and MOTLÍČEK, P. and NIGMATULINA, I. and HELMKE, H. and OHNEISER, O. and KLEINERT, M. and EHR, H.",
title="Customization of Automatic Speech Recognition Engines for Rare Word Detection Without Costly Model Re-Training",
booktitle="Proceedings of the 13th SESAR Innovation Days",
year="2023",
pages="1--8",
publisher="SESAR Joint Undertaking",
address="Seville",
doi="10.61009/SID.2023.1.10",
url="https://www.sesarju.eu/sites/default/files/documents/sid/2023/Papers/SIDs_2023_paper_18%20final.pdf"
}