Detail publikace

BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense

JON, J.; FAJČÍK, M.; DOČEKAL, M.; SMRŽ, P. BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense. In Proceedings of the Fourteenth Workshop on Semantic Evaluation. Barcelona: Association for Computational Linguistics, 2020. p. 374-390. ISBN: 978-1-952148-31-6.
Název česky
BUT-FIT na SemEval-2020 Úkol 4: Vícejazyčný zdravý rozum
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Zpracování přirozeného jazyka, zdravý rozum, předtrénované jazykové modely, vícejazyčný, strojový překlad

Abstrakt

Zúčastnili jsme se všech podúkolů. V úkolech A a B jsou naše podání založena na předtrénovaných modelech pro reprezentaci jazyka (konkrétně ALBERT) a na augmentaci dat. Experimentovali jsme s řešením úkolu pro jiný jazyk, konkrétně češtinu, s využitím vícejazyčných modelů a strojového prekladu , nebo překladu vstupů modelu. Ukazujeme, že se silným systémem pro strojový překlad může být náš systém použit v jiném jazyce s malou ztrátou přesnosti. V podúkolu C se náš systém, založený na pretrénovaném modelu BART, umístil na 1. místě v hodnocení prostřednictvím BLEU skóre, nicméně ukazujeme, že korelace mezi BLEU a lidským hodnocením, ve kterém náš systém skončil na 4. místě, je nízká. Analyzujeme metriky použité při hodnocení a navrhujeme další skóre na základě modelu z podúkolu B, který dobře koreluje s naším lidským hodnocením, stejně jako metodu přeřazení výstupů založenou na stejném principu. Provedli jsme analýzu chyb a datový sad pro všechny dílčí úkoly a prezentujeme naše zjištění.

Rok
2020
Strany
374–390
Sborník
Proceedings of the Fourteenth Workshop on Semantic Evaluation
ISBN
978-1-952148-31-6
Vydavatel
Association for Computational Linguistics
Místo
Barcelona
EID Scopus
BibTeX
@inproceedings{BUT168507,
  author="Josef {Jon} and Martin {Fajčík} and Martin {Dočekal} and Pavel {Smrž}",
  title="BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense",
  booktitle="Proceedings of the Fourteenth Workshop on Semantic Evaluation",
  year="2020",
  pages="374--390",
  publisher="Association for Computational Linguistics",
  address="Barcelona",
  isbn="978-1-952148-31-6",
  url="https://www.aclweb.org/anthology/2020.semeval-1.46/"
}
Nahoru