Detail publikace

Learning Document Embeddings Along With Their Uncertainties

KESIRAJU, S.; PLCHOT, O.; BURGET, L.; GANGASHETTY, S. Learning Document Embeddings Along With Their Uncertainties. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, 2020, vol. 2020, no. 28, p. 2319-2332. ISSN: 2329-9290.
Název česky
Učení embeddingů dokumentů včetně nejistoty
Typ
článek v časopise
Jazyk
anglicky
Autoři
URL
Klíčová slova

Bayesovské metody, embeddingy, identifikace tématu.

Abstrakt

Většina technik modelování textu přináší pouze bodové odhady vložení dokumentů a nedostatek zachycení nejistoty odhadů. Tyto nejistoty dávají představu o tom, jak dobře vložení představují dokument. Představujeme Bayesiánský podprostorový multinomiální model (Bayesian SMM), generativní log-lineární model, který se učí reprezentovat dokumenty ve formě Gaussových distribucí, čímž zakóduje nejistotu v jeho kovarianci. V navrhovaném Bayesian SMM se navíc věnujeme běžně se vyskytujícímu problému neporušitelnosti, který se objevuje během variační inference v modelech smíšeného logitu. Představujeme také generativní Gaussianův lineární klasifikátor pro identifikaci témat, který využívá nejistotu při vkládání dokumentů. Naše vnitřní hodnocení pomocí míry zmatenosti ukazuje, že navrhovaný bayesovský SMM lépe vyhovuje neviditelným testovacím datům ve srovnání s nejmodernějším modelem neurálních variačních dokumentů na (Fisher) řeči a (20Newsgroups) textových korpusech. Naše experimenty s identifikací témat ukazují, že navrhované systémy jsou robustní až příliš vhodné pro neviditelná data testů. Výsledky ID tématu ukazují, že navrhovaný model překonává nejmodernější nekontrolované tematické modely a dosahuje srovnatelných výsledků s nejmodernějšími plně supervizovanými diskriminačními modely.

Rok
2020
Strany
2319–2332
Časopis
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 2020, č. 28, ISSN 2329-9290
DOI
UT WoS
000562410300004
EID Scopus
BibTeX
@article{BUT168164,
  author="Santosh {Kesiraju} and Oldřich {Plchot} and Lukáš {Burget} and Suryakanth V {Gangashetty}",
  title="Learning Document Embeddings Along With Their Uncertainties",
  journal="IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING",
  year="2020",
  volume="2020",
  number="28",
  pages="2319--2332",
  doi="10.1109/TASLP.2020.3012062",
  issn="2329-9290",
  url="https://ieeexplore.ieee.org/document/9149686"
}
Nahoru