Detail publikace

BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense

JON, J.; FAJČÍK, M.; DOČEKAL, M.; SMRŽ, P. BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense. In Proceedings of the Fourteenth Workshop on Semantic Evaluation. Barcelona: Association for Computational Linguistics, 2020. p. 374-390. ISBN: 978-1-952148-31-6.

Název česky

BUT-FIT na SemEval-2020 Úkol 4: Vícejazyčný zdravý rozum

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Jon Josef, Ing.
Fajčík Martin, Ing., Ph.D. (UPGM)
Dočekal Martin, Ing. (UPGM)
Smrž Pavel, doc. RNDr., Ph.D. (UPGM)

URL

https://www.aclweb.org/anthology/2020.semeval-1.46/

Klíčová slova

Zpracování přirozeného jazyka, zdravý rozum, předtrénované jazykové modely,
vícejazyčný, strojový překlad

Abstrakt

Zúčastnili jsme se všech podúkolů. V úkolech A a B jsou naše podání založena na
předtrénovaných modelech pro reprezentaci jazyka (konkrétně ALBERT) a na
augmentaci dat. Experimentovali jsme s řešením úkolu pro jiný jazyk, konkrétně
češtinu, s využitím vícejazyčných modelů a strojového prekladu , nebo překladu
vstupů modelu. Ukazujeme, že se silným systémem pro strojový překlad může být náš
systém použit v jiném jazyce s malou ztrátou přesnosti. V podúkolu C se náš
systém, založený na pretrénovaném modelu BART, umístil na 1. místě v hodnocení
prostřednictvím BLEU skóre, nicméně ukazujeme, že korelace mezi BLEU a lidským
hodnocením, ve kterém náš systém skončil na 4. místě, je nízká. Analyzujeme
metriky použité při hodnocení a navrhujeme další skóre na základě modelu
z podúkolu B, který dobře koreluje s naším lidským hodnocením, stejně jako metodu
přeřazení výstupů založenou na stejném principu. Provedli jsme analýzu chyb
a datový sad pro všechny dílčí úkoly a prezentujeme naše zjištění.

Rok

2020

Strany

374–390

Sborník

Proceedings of the Fourteenth Workshop on Semantic Evaluation

Konference

28. mezinárodní konference na výpočetní lingvistiku, Barcelona (online), ES

ISBN

978-1-952148-31-6

Vydavatel

Association for Computational Linguistics

Místo

Barcelona

UT WoS

001361895500046

EID Scopus

2-s2.0-85123684230

BibTeX

@inproceedings{BUT168507,
  author="Josef {Jon} and Martin {Fajčík} and Martin {Dočekal} and Pavel {Smrž}",
  title="BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense",
  booktitle="Proceedings of the Fourteenth Workshop on Semantic Evaluation",
  year="2020",
  pages="374--390",
  publisher="Association for Computational Linguistics",
  address="Barcelona",
  isbn="978-1-952148-31-6",
  url="https://www.aclweb.org/anthology/2020.semeval-1.46/"
}