Detail publikace
Testing of Various Approaches for Semiautomatic Parish Records Word Standardization
Words clustering, Parish records, Levenshtein distance, Soundex, Double Metaphone
Článek popisuje metody shlukování slov z přepsaných matriočních záznamů. Shlukování je zde důležité, neboť transliterované záznamy především ze 17. a 18. století mají spoustu různých variant a aby bylo umožněno vyhledávání a další práce se záznamy, je potřeba jejich rozřazení do skupin - standardizace. Prvním krokem standardizace je předzpracování, potom porovnání slov a nakonec samotné rozřazení. Nejdůležitějším krokem je zde porovnání slov, zde jsme tesovali různé metody - Levenstheinovu vzdálenost, Q-gram, Jaro-Winkler a pak také metody pro fonetické kódování jako je Soundex nebo Double-Metaphone. Testování bylo automatické s postupnou změnou parametrů, z testů jsme vypočítali metriku F-measure a vynesli ji do grafů pro všechny testované typy slov a různé varianty algoritmů.
@inproceedings{BUT162369,
author="Jaroslav {Rozman} and David {Hříbek} and František {Zbořil}",
title="Testing of Various Approaches for Semiautomatic Parish Records Word Standardization",
booktitle="JIST: Joint International Semantic Technology Conference",
year="2019",
series="Communications in Computer and Information Science",
journal="Communications in Computer and Information Science",
volume="1157",
number="1157",
pages="21--33",
publisher="Springer International Publishing",
address="Hangzhou",
doi="10.1007/978-981-15-3412-6\{_}3",
isbn="978-981-1534-11-9",
issn="1865-0929"
}