Detail publikace

R2-D2: A Modular Baseline for Open-Domain Question Answering

FAJČÍK, M.; DOČEKAL, M.; ONDŘEJ, K.; SMRŽ, P. R2-D2: A Modular Baseline for Open-Domain Question Answering. In Findings of the Association for Computational Linguistics: EMNLP 2021. Findings of the Association for Computational Linguistics. Punta Cana: Association for Computational Linguistics, 2021. p. 854-870. ISBN: 978-1-955917-10-0.
Název česky
R2-D2: Modulární systém pro odpovídání na otázky nad otevřenou doménou
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

odpovídaní na otázky, QA, ODQA, kombinace modelů, korpusy pro vyhledávání 

Abstrakt

Tato práce představuje nový čtyřúrovňový systém pro odpovídání na otázky nad otevřenou doménou nazvaný R2-D2 (Rank twice, reaD twice). Systém se skládá z modulu pro vyhledání relevantních pasáží textu (retriever), modulu pro přehodnocení relevantních pasáží (passage reranker), modulu pro extrahování odpovědi přímo z textu (extractive reader), modulu pro vygenerování odpovědi (generative reader) a mechanizmu pro agregování finální odpovědi ze všech komponent. Práce demonstruje sílu systému na třech datových sadách: NaturalQuestions, TriviaQA a EfficientQA, kde systém dosahuje state-of-the-art výsledků na prvních dvou zmíněných. Naše analýzy ukazují: (i) kombinace komponent "extractive reader" a "generative reader" přináší absolutní zlepšení o 5% na metrice "exact match" a je nejméně dvakrát efektivnější než posteriorní zprůměrování výsledků modelů stejného typu s různými parametry, (ii) komponenta "extractie reader" s méně parametry může dosáhnout stejných celkových výsledků jako "generative reader" na extrakčních QA datových sadách.

Rok
2021
Strany
854–870
Sborník
Findings of the Association for Computational Linguistics: EMNLP 2021
Řada
Findings of the Association for Computational Linguistics
ISBN
978-1-955917-10-0
Vydavatel
Association for Computational Linguistics
Místo
Punta Cana
EID Scopus
BibTeX
@inproceedings{BUT175855,
  author="Martin {Fajčík} and Martin {Dočekal} and Karel {Ondřej} and Pavel {Smrž}",
  title="R2-D2: A Modular Baseline for Open-Domain Question Answering",
  booktitle="Findings of the Association for Computational Linguistics: EMNLP 2021",
  year="2021",
  series="Findings of the Association for Computational Linguistics",
  pages="854--870",
  publisher="Association for Computational Linguistics",
  address="Punta Cana",
  isbn="978-1-955917-10-0",
  url="https://aclanthology.org/2021.findings-emnlp.73.pdf"
}
Nahoru