Detail publikace
BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense
Fajčík Martin, Ing., Ph.D. (UPGM)
Dočekal Martin, Ing. (UPGM)
Smrž Pavel, doc. RNDr., Ph.D. (UPGM)
Zpracování přirozeného jazyka, zdravý rozum, předtrénované jazykové modely, vícejazyčný, strojový překlad
Zúčastnili jsme se všech podúkolů. V úkolech A a B jsou naše podání založena na předtrénovaných modelech pro reprezentaci jazyka (konkrétně ALBERT) a na augmentaci dat. Experimentovali jsme s řešením úkolu pro jiný jazyk, konkrétně češtinu, s využitím vícejazyčných modelů a strojového prekladu , nebo překladu vstupů modelu. Ukazujeme, že se silným systémem pro strojový překlad může být náš systém použit v jiném jazyce s malou ztrátou přesnosti. V podúkolu C se náš systém, založený na pretrénovaném modelu BART, umístil na 1. místě v hodnocení prostřednictvím BLEU skóre, nicméně ukazujeme, že korelace mezi BLEU a lidským hodnocením, ve kterém náš systém skončil na 4. místě, je nízká. Analyzujeme metriky použité při hodnocení a navrhujeme další skóre na základě modelu z podúkolu B, který dobře koreluje s naším lidským hodnocením, stejně jako metodu přeřazení výstupů založenou na stejném principu. Provedli jsme analýzu chyb a datový sad pro všechny dílčí úkoly a prezentujeme naše zjištění.
@inproceedings{BUT168507,
author="Josef {Jon} and Martin {Fajčík} and Martin {Dočekal} and Pavel {Smrž}",
title="BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense",
booktitle="Proceedings of the Fourteenth Workshop on Semantic Evaluation",
year="2020",
pages="374--390",
publisher="Association for Computational Linguistics",
address="Barcelona",
isbn="978-1-952148-31-6",
url="https://www.aclweb.org/anthology/2020.semeval-1.46/"
}