Detail publikace

Testing of Various Approaches for Semiautomatic Parish Records Word Standardization

ROZMAN, J.; HŘÍBEK, D.; ZBOŘIL, F. Testing of Various Approaches for Semiautomatic Parish Records Word Standardization. In JIST: Joint International Semantic Technology Conference. Communications in Computer and Information Science. Communications in Computer and Information Science. Hangzhou: Springer International Publishing, 2019. p. 21-33. ISBN: 978-981-1534-11-9. ISSN: 1865-0929.
Název česky
Testování různých přístupů pro poloautomatickou standardizaci slov v matričních záznamech
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Klíčová slova

Words clustering, Parish records, Levenshtein distance, Soundex, Double Metaphone

Abstrakt

Článek popisuje metody shlukování slov z přepsaných matriočních záznamů. Shlukování je zde důležité, neboť transliterované záznamy především ze 17. a 18. století mají spoustu různých variant a aby bylo umožněno vyhledávání a další práce se záznamy, je potřeba jejich rozřazení do skupin - standardizace.  Prvním krokem standardizace je předzpracování, potom porovnání slov a nakonec samotné rozřazení. Nejdůležitějším krokem je zde porovnání slov, zde jsme tesovali různé metody - Levenstheinovu vzdálenost, Q-gram, Jaro-Winkler a pak také metody pro fonetické kódování jako je Soundex nebo Double-Metaphone. Testování bylo automatické s postupnou změnou parametrů, z testů jsme vypočítali metriku F-measure a vynesli ji do grafů pro všechny testované typy slov a různé varianty algoritmů.

Rok
2019
Strany
21–33
Časopis
Communications in Computer and Information Science, roč. 1157, č. 1157, ISSN 1865-0929
Sborník
JIST: Joint International Semantic Technology Conference
Řada
Communications in Computer and Information Science
ISBN
978-981-1534-11-9
Vydavatel
Springer International Publishing
Místo
Hangzhou
DOI
UT WoS
000679332100003
EID Scopus
BibTeX
@inproceedings{BUT162369,
  author="Jaroslav {Rozman} and David {Hříbek} and František {Zbořil}",
  title="Testing of Various Approaches for Semiautomatic Parish Records Word Standardization",
  booktitle="JIST: Joint International Semantic Technology Conference",
  year="2019",
  series="Communications in Computer and Information Science",
  journal="Communications in Computer and Information Science",
  volume="1157",
  number="1157",
  pages="21--33",
  publisher="Springer International Publishing",
  address="Hangzhou",
  doi="10.1007/978-981-15-3412-6\{_}3",
  isbn="978-981-1534-11-9",
  issn="1865-0929"
}
Nahoru