Detail publikace
Written Term Detection Improves Spoken Term Detection
SARAÇLAR, M.
Vyhledávání klíčových slov, detekce mluvených výrazů, vyhledávání klíčových slov,
komplexní vyhledávání klíčových slov, multitaskingové učení, adaptace domény,
modelování maskovaného jazyka.
End-to-end (E2E) přístupy k vyhledávání klíčových slov (KWS) jsou podstatně
jednodušší z hlediska trénování a složitosti indexování ve srovnání s přístupy,
které využívají výstup systémů automatického rozpoznávání řeči (ASR). Toto
zjednodušení má však nevýhody v důsledku ztráty modularity. Zejména tam, kde
systémy KWS založené na ASR mohou těžit z externího nepárového textu
prostřednictvím jazykového modelu, současné formulace systémů KWS E2E takový
mechanismus nemají. Proto v tomto článku navrhujeme víceúlohový tréninkový cíl,
který umožňuje integraci nepárového textu do E2E KWS bez komplikování indexování
a vyhledávání. Kromě trénování modelu E2E KWS pro získávání textových dotazů
z mluvených dokumentů jej společně trénujeme pro získávání textových dotazů
z maskovaných písemných dokumentů. Empiricky ukazujeme, že tento přístup může
efektivně využít nespárovaný text pro KWS s výrazným zlepšením výkonu vyhledávání
v široké škále jazyků. Provádíme analýzu, která naznačuje, že těchto zlepšení
bylo dosaženo, protože navrhovaná metoda zlepšuje reprezentaci dokumentu pro
slova v nepárovém textu. Nakonec ukážeme, že navrhovanou metodu lze použít pro
adaptaci domény v nastaveních, kde jsou párovaná data v doméně vzácná nebo
neexistují.
@article{BUT193391,
author="YUSUF, B. and SARAÇLAR, M.",
title="Written Term Detection Improves Spoken Term Detection",
journal="IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING",
year="2024",
volume="32",
number="06",
pages="3213--3223",
doi="10.1109/TASLP.2024.3407476",
issn="2329-9290",
url="https://ieeexplore.ieee.org/document/10571348"
}