Detail publikace

Query-Based Keyphrase Extraction from Long Documents

DOČEKAL, M.; SMRŽ, P. Query-Based Keyphrase Extraction from Long Documents. In The International FLAIRS Conference Proceedings. 2022. Jensen Beach: LibraryPress@UF, 2022. p. 1-4. ISSN: 2334-0762.
Název česky
Extrakce klíčových frází z dlouhých dokumentů založená na dotazech
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

klíčová fráze,klíčové slovo, dlouhé dokumenty, extrakce klíčových frází založená na dotazech, BERT,transformer

Abstrakt

Ve zpracování přirozeného jazyka si modely založené na architektuře Transformer vynucují omezení velikosti vstupu, což může být problematické, když je třeba zpracovat dlouhé dokumenty. Tento článek překonává zmíněný problém, pro extrakci klíčových frází, rozdělením dlouhých dokumentů na části, přičemž zachovává globální kontext pomocí dotazu definujícího téma, pro které by měly být extrahovány relevantní klíčové fráze. Vyvinutý systém využívá před-trénovaný model BERT pro odhadování pravděpodobnosti, že daný rozsah textu tvoří klíčovou frázi. Experimentovali jsme s různými velikostmi kontextů na dvou populárních datových sadách Inspec a SemEval a také na nové rozsáhlé datové sadě. Prezentované výsledky ukazují, že kratší kontext s dotazem překoná delší kontext bez dotazu na dlouhých dokumentech.

Rok
2022
Strany
1–4
Sborník
The International FLAIRS Conference Proceedings
Řada
2022
Svazek
2022
Číslo
35
Vydavatel
LibraryPress@UF
Místo
Jensen Beach
DOI
EID Scopus
BibTeX
@inproceedings{BUT179282,
  author="Martin {Dočekal} and Pavel {Smrž}",
  title="Query-Based Keyphrase Extraction from Long Documents",
  booktitle="The International FLAIRS Conference Proceedings",
  year="2022",
  series="2022",
  volume="2022",
  number="35",
  pages="1--4",
  publisher="LibraryPress@UF",
  address="Jensen Beach",
  doi="10.32473/flairs.v35i.130737",
  issn="2334-0762",
  url="https://journals.flvc.org/FLAIRS/article/view/130737"
}
Nahoru