Detail publikace
Query-Based Keyphrase Extraction from Long Documents
klíčová fráze,klíčové slovo, dlouhé dokumenty, extrakce klíčových frází založená na dotazech, BERT,transformer
Ve zpracování přirozeného jazyka si modely založené na architektuře Transformer vynucují omezení velikosti vstupu, což může být problematické, když je třeba zpracovat dlouhé dokumenty. Tento článek překonává zmíněný problém, pro extrakci klíčových frází, rozdělením dlouhých dokumentů na části, přičemž zachovává globální kontext pomocí dotazu definujícího téma, pro které by měly být extrahovány relevantní klíčové fráze. Vyvinutý systém využívá před-trénovaný model BERT pro odhadování pravděpodobnosti, že daný rozsah textu tvoří klíčovou frázi. Experimentovali jsme s různými velikostmi kontextů na dvou populárních datových sadách Inspec a SemEval a také na nové rozsáhlé datové sadě. Prezentované výsledky ukazují, že kratší kontext s dotazem překoná delší kontext bez dotazu na dlouhých dokumentech.
@inproceedings{BUT179282,
author="Martin {Dočekal} and Pavel {Smrž}",
title="Query-Based Keyphrase Extraction from Long Documents",
booktitle="The International FLAIRS Conference Proceedings",
year="2022",
series="2022",
volume="2022",
number="35",
pages="1--4",
publisher="LibraryPress@UF",
address="Jensen Beach",
doi="10.32473/flairs.v35i.130737",
issn="2334-0762",
url="https://journals.flvc.org/FLAIRS/article/view/130737"
}