Detail publikace

Learning Document Embeddings Along With Their Uncertainties

KESIRAJU, S.; PLCHOT, O.; BURGET, L.; GANGASHETTY, S. Learning Document Embeddings Along With Their Uncertainties. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, 2020, vol. 2020, no. 28, p. 2319-2332. ISSN: 2329-9290.

Název česky

Učení embeddingů dokumentů včetně nejistoty

Typ

článek v časopise

Jazyk

anglicky

Autoři

Kesiraju Santosh, Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Gangashetty Suryakanth V (FIT)

URL

Klíčová slova

Bayesovské metody, embeddingy, identifikace tématu.

Abstrakt

Většina technik modelování textu přináší pouze bodové odhady vložení dokumentů a nedostatek zachycení nejistoty odhadů. Tyto nejistoty dávají představu o tom, jak dobře vložení představují dokument. Představujeme Bayesiánský podprostorový multinomiální model (Bayesian SMM), generativní log-lineární model, který se učí reprezentovat dokumenty ve formě Gaussových distribucí, čímž zakóduje nejistotu v jeho kovarianci. V navrhovaném Bayesian SMM se navíc věnujeme běžně se vyskytujícímu problému neporušitelnosti, který se objevuje během variační inference v modelech smíšeného logitu. Představujeme také generativní Gaussianův lineární klasifikátor pro identifikaci témat, který využívá nejistotu při vkládání dokumentů. Naše vnitřní hodnocení pomocí míry zmatenosti ukazuje, že navrhovaný bayesovský SMM lépe vyhovuje neviditelným testovacím datům ve srovnání s nejmodernějším modelem neurálních variačních dokumentů na (Fisher) řeči a (20Newsgroups) textových korpusech. Naše experimenty s identifikací témat ukazují, že navrhované systémy jsou robustní až příliš vhodné pro neviditelná data testů. Výsledky ID tématu ukazují, že navrhovaný model překonává nejmodernější nekontrolované tematické modely a dosahuje srovnatelných výsledků s nejmodernějšími plně supervizovanými diskriminačními modely.

Rok

2020

Strany

2319–2332

Časopis

IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 2020, č. 28, ISSN 2329-9290

DOI

10.1109/TASLP.2020.3012062

UT WoS

000562410300004

EID Scopus

2-s2.0-85090796297

BibTeX

@article{BUT168164,
  author="Santosh {Kesiraju} and Oldřich {Plchot} and Lukáš {Burget} and Suryakanth V {Gangashetty}",
  title="Learning Document Embeddings Along With Their Uncertainties",
  journal="IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING",
  year="2020",
  volume="2020",
  number="28",
  pages="2319--2332",
  doi="10.1109/TASLP.2020.3012062",
  issn="2329-9290",
  url="https://ieeexplore.ieee.org/document/9149686"
}