Detail publikace
Implementing Random Indexing on GPU
Smrž Pavel, doc. RNDr., Ph.D. (UPGM)
random indexing, word space models, term co-occurence, GPGPU
Modely založené na vektorových prostorech (také word space nebo term space modely) jsou algebraické modely, používané pro reprezentaci dokumentů pomocí vektorů termů. V poslední době jim byla věnováno mnoho pozornosti díky jejich širokému spektru aplikací jako například filtrování a extrakce informací, indexování a přiřazení relevance. Oproti ostatním modelům mohou být výhodnější protože jsou matematicky dobře definované a existuje velká množina nástrojů pro jejich manipulaci. Random indexing je jedna z metod, použitelná pro výpočet vector space modelu ze sady dokumentů, založená na statistice distribuce spoluvýskytu jednotlivých termů. Aby tato metoda dala použitelné výsledky, je třeba velkého množství dat a značná výpočetní síla. Zde prezentujeme efektivní implementaci algoritmu random indexing na GPU, dovolující rychlé trénování i na velkých datasetech. Je omezená jen množstvím paměti, dostupné na GPU, avšak jsou navrženy i metody jak toto omezení obejít. Bylo dosaženo zrychlení řádově desetkrát pro trénování z náhodných seed vektorů, a ještě větší pro přetrénování. Implementace škáluje dobře jak s délkou term tak i seed vektorů.
@inproceedings{BUT76420,
author="Lukáš {Polok} and Pavel {Smrž}",
title="Implementing Random Indexing on GPU",
booktitle="Proceedings of the 19th High Performance Computing Symposium",
year="2011",
series="HPC '11",
pages="134--142",
publisher="SCS Publication House",
address="Boston",
isbn="978-1-61782-840-9",
url="http://dl.acm.org/citation.cfm?id=2048577.2048595"
}