Detail publikace
Constrained Classification of Large Imbalanced Data by Logistic Regression and Genetic Algorithm
Stríž Rostislav, Ing.
Kupčík Jan, Ing.
Zendulka Jaroslav, doc. Ing., CSc. (UIFS)
Hruška Tomáš, prof. Ing., CSc. (UIFS)
Nevyvážená data, klasifikace, genetický algoritmus, logistická regrese
Klasifikace nevyvážených dat je často diskutovaný problém, který nelze řešit běžnými klasifikačními technikami. V článku jsme se zabývali problémem binární klasifikace z rozsáhlých dat s omezením na minoritní třídu. Přestavujeme novou meta-učící metodu, která vytváří kandidátní modely pomocí cost-sensitive učení logistické regrese a tyto modely využívá jako počáteční chromozomy pro optimalizaci genetickým algoritmem. Tato metoda byla úspěšně testována na rozsáhlých datech z reálného prostředí z výzkumu v oblasti počítačové bezpečnosti. Experimenty dokazují, že kombinovaná metoda vede vždy k lepším výsledkům než použití metod logistické regrese a genetického algoritmu samostatně. Navíc, tato metoda produkuje snadno interpretovatelný klasifikační model, který poskytuje velmi rychlou klasifikaci nad neznámými daty.
@article{BUT103468,
author="Martin {Hlosta} and Rostislav {Stríž} and Jan {Kupčík} and Jaroslav {Zendulka} and Tomáš {Hruška}",
title="Constrained Classification of Large Imbalanced Data by Logistic Regression and Genetic Algorithm",
journal="International Journal of Machine Learning and Computing",
year="2013",
volume="2013",
number="3",
pages="214--218",
issn="2010-3700",
url="http://www.ijmlc.org/index.php?m=content&c=index&a=show&catid=36&id=304"
}