Detail publikace
R2-D2: A Modular Baseline for Open-Domain Question Answering
Dočekal Martin, Ing. (UPGM)
Ondřej Karel, Ing. (FIT)
Smrž Pavel, doc. RNDr., Ph.D. (UPGM)
odpovídaní na otázky, QA, ODQA, kombinace modelů, korpusy pro vyhledávání
Tato práce představuje nový čtyřúrovňový systém pro odpovídání na otázky nad otevřenou doménou nazvaný R2-D2 (Rank twice, reaD twice). Systém se skládá z modulu pro vyhledání relevantních pasáží textu (retriever), modulu pro přehodnocení relevantních pasáží (passage reranker), modulu pro extrahování odpovědi přímo z textu (extractive reader), modulu pro vygenerování odpovědi (generative reader) a mechanizmu pro agregování finální odpovědi ze všech komponent. Práce demonstruje sílu systému na třech datových sadách: NaturalQuestions, TriviaQA a EfficientQA, kde systém dosahuje state-of-the-art výsledků na prvních dvou zmíněných. Naše analýzy ukazují: (i) kombinace komponent "extractive reader" a "generative reader" přináší absolutní zlepšení o 5% na metrice "exact match" a je nejméně dvakrát efektivnější než posteriorní zprůměrování výsledků modelů stejného typu s různými parametry, (ii) komponenta "extractie reader" s méně parametry může dosáhnout stejných celkových výsledků jako "generative reader" na extrakčních QA datových sadách.
@inproceedings{BUT175855,
author="Martin {Fajčík} and Martin {Dočekal} and Karel {Ondřej} and Pavel {Smrž}",
title="R2-D2: A Modular Baseline for Open-Domain Question Answering",
booktitle="Findings of the Association for Computational Linguistics: EMNLP 2021",
year="2021",
series="Findings of the Association for Computational Linguistics",
pages="854--870",
publisher="Association for Computational Linguistics",
address="Punta Cana",
isbn="978-1-955917-10-0",
url="https://aclanthology.org/2021.findings-emnlp.73.pdf"
}