Detail publikace

Query-Based Keyphrase Extraction from Long Documents

DOČEKAL, M.; SMRŽ, P. Query-Based Keyphrase Extraction from Long Documents. In The International FLAIRS Conference Proceedings. 2022. Jensen Beach: LibraryPress@UF, 2022. p. 1-4. ISSN: 2334-0762.

Název česky

Extrakce klíčových frází z dlouhých dokumentů založená na dotazech

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Dočekal Martin, Ing. (UPGM)
Smrž Pavel, doc. RNDr., Ph.D. (UPGM)

URL

https://journals.flvc.org/FLAIRS/article/view/130737

Klíčová slova

klíčová fráze,klíčové slovo, dlouhé dokumenty, extrakce klíčových frází založená na dotazech, BERT,transformer

Abstrakt

Ve zpracování přirozeného jazyka si modely založené na architektuře Transformer vynucují omezení velikosti vstupu, což může být problematické, když je třeba zpracovat dlouhé dokumenty. Tento článek překonává zmíněný problém, pro extrakci klíčových frází, rozdělením dlouhých dokumentů na části, přičemž zachovává globální kontext pomocí dotazu definujícího téma, pro které by měly být extrahovány relevantní klíčové fráze. Vyvinutý systém využívá před-trénovaný model BERT pro odhadování pravděpodobnosti, že daný rozsah textu tvoří klíčovou frázi. Experimentovali jsme s různými velikostmi kontextů na dvou populárních datových sadách Inspec a SemEval a také na nové rozsáhlé datové sadě. Prezentované výsledky ukazují, že kratší kontext s dotazem překoná delší kontext bez dotazu na dlouhých dokumentech.

Rok

2022

Strany

1–4

Sborník

The International FLAIRS Conference Proceedings

Řada

2022

Svazek

2022

Číslo

Vydavatel

LibraryPress@UF

Místo

Jensen Beach

DOI

10.32473/flairs.v35i.130737

EID Scopus

2-s2.0-85131131836

BibTeX

@inproceedings{BUT179282,
  author="Martin {Dočekal} and Pavel {Smrž}",
  title="Query-Based Keyphrase Extraction from Long Documents",
  booktitle="The International FLAIRS Conference Proceedings",
  year="2022",
  series="2022",
  volume="2022",
  number="35",
  pages="1--4",
  publisher="LibraryPress@UF",
  address="Jensen Beach",
  doi="10.32473/flairs.v35i.130737",
  issn="2334-0762",
  url="https://journals.flvc.org/FLAIRS/article/view/130737"
}