21.5.2014
Pozývame Vás na seminár z matematickej štatistiky, s názvom Základní principy regresní analýzy kompozičních dat, ktorý sa uskutoční v stredu, 28. mája 2014, o 10:00 v Ústave merania SAV. Prednášať bude doc. RNDr. Eva Fišerová Ph.D., Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta Univerzity Palackého v Olomouci.
Abstrakt
Kompoziční data představují speciální typ mnohorozměrných dat, která v sobě nesou pouze relativní informaci a nelze je tudíž přímo zpracovávat standardními statistickými postupy (Aitchison, 1986; Pawlowsky-Glahn et al., 2007). Představme si například, že chceme analyzovat věkovou strukturu v populaci lidí na Zemi na základě údajů z členských zemí OSN, je-li věková struktura rozdělena do tří hlavních skupin (mladiství, střední generace, senioři). Hrubá data jsou přitom zcela zavádějící, neboť jednotlivé státy mají různý celkový počet obyvatel. Zdá se tedy intuitivní vyjádřit data v poměrech, aby bylo možné zjistit relativní příspěvky jednotlivých věkových skupin. Obecně tedy poměry nebo procenta jsou vhodnou reprezentací kompozičních dat, jejichž složky představují kvantitativní popis částí nějakého celku. Výběrový prostor kompozičních dat je simplex, který spolu s tzv. Aitchisonou geometrií tvoří euklidovský vektorový prostor. Jelikož většina standardních statistických metod je založena na euklidovské geometrii v reálném prostoru, nelze kompoziční data přímo zpracovávat. Je třeba nejprve zvolit reprezentaci kompozičních dat v reálném prostoru pomocí vhodných transformací logaritmů podílů složek a až poté aplikovat standardní statistické metody. Kvůli dosažení jednoznačnosti výsledků na simplexu je nutné, aby použité statistické postupy byly invariatní vzhledem k rotaci souřadnic v reálném prostoru.
V přednášce si ukážeme základní metodiku pro zpracování kompoziční dat. Podrobněji se budeme věnovat problematice regresní analýzy, kde se zaměříme jednak na regresi s kompoziční vysvětlovanou proměnnou, a jednak na regresi mezi složkami kompozičních dat. Úloha regrese s kompoziční vysvětlovanou proměnnou vede po transformaci logaritmů podílů složek k mnohorozměrnému regresnímu modelu. Regrese mezi složkami kompozičních dat představuje po transformaci úlohu modelování dat, kdy se chyby vyskytují jak ve vysvětlované, tak i ve vysvětlující proměnné. V nejjednodušším případě 3-složkových kompozičních dat lze úlohu řešit pomocí ortogonální regrese (Fišerová and Hron, 2010).
Literatura
-
Aitchison, J. (1986). The Statistical Analysis of Compositional Data. London: Chapman and Hall.
-
Fišerová, E., and K. Hron (2010). Total least squares solution for compositional data using linear models. Journal of Applied Statistics 37 (7), 1137-1152.
-
Pawlowsky-Glahn, V., Egozcue, J.J., and Tolosana-Delgado, J. (2007). Lecture Notes on Compositional Data Analysis.
|