Detail publikace
Are we meeting a deadline? classification goal achievement in time in the presence of imbalanced data
Classification, imbalanced data, learning analytics, educational data mining
Článek se zabývá problémem konečného souboru entit, u kterých je požadováno dosažení cíle v předem stanoveném termínu. Například skupina studentů má předložit úlohu do specifikovaného data. Chceme predikovat, které entity v termínu cíl splní. Prediktivní modely jsou vytvořeny pouze na základě údajů z této populace. Predikce jsou prováděny v různých okamžicích s přihlédnutím k aktualizovaným údajům o entitách. Prvním příspěvkem článku je formální popis problému. Důležitou vlastnosyí navrhované metody tvorby modelu je využití vlastností entit, které již cíle dosáhly. Takový přístup nazýváme "Self-Learning". Vzhledem k tomu, že obvykle jen několik entit dosáhlo cíle na začátku a jejich počet postupně narůstá, problém z podstaty nevyvážený. Abychom zmírnili dopad nevyváženosti, zlepšili jsme metodu Self-Learning řešením ztráty informace a několika technikami vzorkování. Původní metoda Self-Learning a její modifikace byly vyhodnoceny v případové studii pro predikci odevzdání prvních úloh ve vysokoškolských kurzech distančního vzdělávání. Výsledky ukazují, že navrhovaná vylepšení překonávají dva specifikované bázové modely a původní metodu Self-Learning a také to, že nejlepších výsledků při řešení problému nevyváženosti bylo dosaženo použitím technik vycházejících z dané aplikační domény. Použitím Wilcoxonova testu jsme také prokázali, že tato zlepšení jsou statisticky významná.
@article{BUT155093,
author="Martin {Hlosta} and Zdeněk {Zdráhal} and Jaroslav {Zendulka}",
title="Are we meeting a deadline? classification goal achievement in time in the presence of imbalanced data",
journal="KNOWLEDGE-BASED SYSTEMS",
year="2018",
volume="2018",
number="160",
pages="278--295",
doi="10.1016/j.knosys.2018.07.021",
issn="0950-7051",
url="https://www.sciencedirect.com/science/article/pii/S0950705118303496"
}