Projekt vedeckej grantovej agentúry VEGA 1/3016/06
Doba riešenia: 01/2006 - 12/2008
Anglický názov: New nonlinear methods of mathematical statistics II
Vedúci projektu: Prof. RNDr. Andrej Pázman, DrSc. (FMFI UK, Bratislava)
Zástupca vedúceho projektu: Doc. RNDr. František Rublík, CSc.
Spoluriešiteľské inštitúcie: Fakulta matematiky, fyziky a informatiky UK, Matematický ústav SAV a Ústav merania SAV
Finančné zabezpečenie z VEGA: v roku 2008 241 tis. Sk (z toho ÚM SAV 141 tis. Sk)
Anotácia projektu
V projekte sa riešia niektoré aktuálne nelineárne úlohy v štatistických modeloch. Ide o úlohy optimalizácie návrhu nelineárneho experimentu, štatistického usudzovania v modeloch so zmiešanými (pevnými a náhodnými) efektmi, v modeloch s vysvetľujúcimi premennými, ktoré sú zaťažené chybami (errors-in-variables models), štúdium štruktúry nelineárnych modelov a testovania hypotéz v týchto modeloch, rozvoj nových štatistických metód zameraných na aplikácie v poisťovníctve, demografii, lingvistike, metrológii a biomedicínske aplikácie. Projekt priamo nadväzuje na projekt VEGA 1/0264/03 „Nové nelineárne metódy matematickej štatistiky".
Dosiahnuté výsledky
Boli pripravené rukopisy dvoch prác o testoch hypotézy polohy a škály, založených na poradiach, ktoré boli zaslané na publikovanie do časopisu Journal of Nonparametric Statistics. Práce boli vrátené na prepracovanie. Revízia bude pripravená v priebehu 3 mesiacov. Niektoré čiastkové výsledky boli publikované na konferencii Prague Stochastics 2006.
Preskúmané boli metódy konštrukcie približných konfidenčných intervalov pre variančný komponent v zmiešaných lineárnych modeloch. Bol pripravený rukopis článku a zaslaný na publikovanie do CC časopisu Kybernetika.
Bol navrhnutý nový iteračný algoritmus pre odhadovanie parametrov inverznej kalibračnej priamky (analysis function) a metóda konštrukcie približnej konfidenčnej oblasti pre parametre tejto priamky v situácii, keď v lineárnom kalibračnom probléme pripustíme, že všetky regresné premenné v modeli podliehajú chybám merania.
Navrhnutá bola metóda pre výpočet konfidenčných intervalov pre spoločnú strednú hodnotu v kľúčových medzilaboratórnych porovnávacích štúdiach. V rámci výskumu asymptotického správania sa štatistických odhadov boli odvodené nové podmienky pre platnosť asymptotickej linearizácie L-odhadov a dokázalo sa, že zvyškový člen v tejto linearizácii môže byť rádu 1/n za podmienok všeobecnejších ako sú známe z publikovaných prác.
V roku 2008 boli dosiahnuté tieto výsledky:
V rámci výskumu štatistických hypotéz homogénnosti bol skonštruovaný predpis na zostrojenie simultánnych konfidenčných intervalov pre podiel disperzií viacero štatistických populácií. Tieto intervaly sú síce len asymptotické v tom zmysle , že pravdepodobnosť pokrytia je pre rozsahy výberov idúce do nekonečna v limite nie menšia ako zvolená menovitá hodnota, avšak na druhej strane platnosť týchto intervalov nevyžaduje, aby skúmané štatistické populácie mali gaussovské rozdelenie a simulácie ukazujú, že za predpokladov normálnosti sa dosahuje dobrá zhoda s nominálnou hodnotou pravdepodobnosti pokrytia. (F. Rublík)
Bolo publikované 2-súborové neparametrické diskriminačné pravidlo, ktoré má dobré vlastnosti aj v prípade súborov s negaussovským rozdelením. Ako ukazujú simulácie, jeho výhodou je, že pravdepodobnosti nesprávneho rozhodnutia sú pre obidva súbory približne rovnaké ak sú rozsahy výberov porovnateľné , v prípade značne rozdielnych rozsahov a normálnosti rozdelení podľa simulácií nové pravidlo poskytuje lepšie výsledky ako pravidlo, založené na predpoklade gaussovskosti.
V lineárnom zmiešanom modeli s dvomi variančnými komponentmi sme skúmali vlastnosti a vzájomné vzťahy zovšeobecnených a približných konfidenčných intervalov pre variančný komponent zodpovedajúci náhodnému faktoru.
Ukázali sme, že pravdepodobnosť pokrytia určitých typov zovšeobecnených konfidenčných intervalov pre variančný komponent je garantovaná aspoň v niektorých limitných situáciách, čo v skúmanom probléme z frekventistického hľadiska približuje zovšeobecnené intervaly k tradičným približným riešeniam.
Vysvetlili sme v simuláciách pozorované prepojenie medzi dvojicami zovšeobecnených konfidenčných intervalov, ktorých nasimulované priemerné dĺžky sa zdali byť pri veľkých hodnotách podielu variančných komponentov takmer rovnaké.
Ukázali sme, že približný konfidenčný interval pôvodne navrhnutý El-Bassiounim a odporúčaný len na základe výsledkov simulačnej štúdie, má aj priaznivé teoretické vlastnosti vrátane garantovanej spodnej hranice pre jeho pravdepodobnosť pokrytia. Tiež sme ukázali, že tento interval možno považovať za aproximáciu Parkovho-Burdickovho zovšeobecneného intervalu.
Simulačné porovnanie konkrétnych zovšeobecnených procedúr s El-Bassiouniho približným intervalom viedlo k záveru, že aj keď metóda zovšeobecnenej inferencie vedie v našom probléme k uspokojivým riešeniam, vďaka nižšej výpočtovej náročnosti a inak porovnateľným výsledkom je pre praktické použitie asi vhodnejší približný El-Bassiouniho interval. (B. Arendacká)
Pomocou Bayesovskej Sanovovej vety (BST) bolo ukázané, že Metóda empirickej vierohodnosti (Empirical Likelihood) je asymptotickou formou Bayesovskej neparametrickej Metódy najväčšej posteriórnej pravdepodobnosti (MAP). Tým sa vyriešil dlhodobo nevyriešený problém vzťahu EL a bayesovských metód a zároveň bolo podané pravdepodobnostné zdôvodnenie EL a MAP. BST bola dokázaná aj pre Pólyovu urnovú schému. V roku 2008 bola preukázaná konzistentnosť metódy empirickej vierohodnosti a bayesovskej MAP metódy v prípade nesprávne špecifikovaného modelu. (M. Grendár)
Neštandardné matematicko-štatistické metódy sme aplikovali na analýzu vydychovaných plynov. Na nájdenie biomarkera sledovaného znaku (napr. fajčiarsky návyk) sme použili metódu odhadu podielu a rozdielu stredných hodnôt dvoch log-normálnych rozdelení s prislúchajúcimi konfidenčnými intervalmi na základe metódy zovšeobecnených pivotov. Simulačne sme overili pravdepodobnosť pokrytia skutočnej hodnoty s odhadnutým konfidenčným intervalom pre rôzne parametre rozdelení a veľkosti rozdelení.
Na nájdenie biomarkera sledovaného znaku a optimálneho deliaceho bodu sme použili ROC analýzu. Skonštruovali sme ROC krivku a Youdenov index s prislúchajúcimi bodovými asymptotickými konfidenčnými intervalmi pomocou vyhladených odhadov distribučných funkcií dvoch pozorovaných skupín.
Ďalej sme sa venovali porovnávaniu klasifikačných metód ako sú Fisherova lineárna diskriminačná analýza, dopredné neurónové siete a metóda oporných bodov. Ukázali sme, že v prípade predpokladu zašumených dát má robustná metóda oporných bodov potenciál lepšie klasifikovať subjekty do jednej z dvoch tried (napr. fajčiar nefajčiar). (K. Cimermanová)
Doterajšie prístupy k vyhodnoteniu meraní kalibrovaným meradlom sú v súčasnej dobe v mnohých oblastiach nedostačujúce (napr. v metrológii). Navrhla sa preto nová, adekvátnejšia cesta pre určenie intervalového odhadu a jeho neistoty pre neznámu meranú veličinu v prípade lineárnej jednorozmernej kalibrácie, pričom sa predpokladajú meracie chyby kalibračného aj kalibrovaného prístroja (komparatívna kalibrácia). Simulačne sa porovnával nový postup s „klasickými". Výsledky ukazujú, že nový prístup je omnoho adekvátnejší skutočnosti než „klasické". Navrhla sa konfidenčná oblasť pre parametre analytickej lineárnej funkcie (inverzia kalibračnej priamky). Navrhnuté konfidenčné oblasti sú pre praktické účely vyhovujúce a empiricky získané pravdepodobnosti pokrytia sú veľmi blízke teoretickým pre širokú oblasť parametrov. Ide o všeobecný model kalibrácie, ktorý pripúšťa aj korelované merania. Toto doteraz nebolo v teórii uvažované. Nové nami získané výsledky majú priamu aplikáciu v metrológii, fyzike, chémii, biológii.
Narábanie s digitalizovanými údajmi si vyžaduje výraznú modifikáciu „klasických" postupov, najmä v prípade malého súboru údajov a ak chyba vzniknutá digitalizáciou je zrovnateľná s neistotou meracieho prístroja. V týchto prípadoch nemožno digitalizáciu podceniť a treba vyvinúť nové štatistické algoritmy a procedúry na odhady neznámych meraných veličín. V prvej fáze sme sa zaoberali odhadom priamo meraných veličín. Je to aj príprava k odhadom v regresných modeloch v prípade digitalizovaných pozorovaní. Výsledky sú priamo aplikovateľné v metrológii.
V roku 2008 sme analyzovali sme situáciu, keď merania (pozorovania) sú digitalizované. Navrhla sa nová metóda odhadu parametra polohy a disperzie v prípade digitalizovaných dát spolu s približným konfidenčným intervalom. Odvodil sa odhad metódou maximálnej vierohodnosti (skutočnej) priamo meranej hodnoty v takomto prípade ako aj odhad pomocou fiduciálneho prístupu a porovnávali sa simulačne s inými doteraz používanými odhadmi. Zaoberali sme sa aj prípadom odhadu parametrov regresného modelu v prípade digitalizovaných pozorovaní.
Pokračoval výskum algoritmov na určenie referenčnej hodnoty a jej neistoty pri kľúčových porovnávacích štúdiách boli navrhnuté dvomi cestami - klasickým frekventistickým postupom a tzv. metrologickým prístupom. Simulačne sa overovala vhodnosť ich použitia a štatistické vlastnosti. (G. Wimmer, V. Witkovský)
Analyzovali sa spektrá výdychového vzduchu s cieľom odhalenia takých ukazovateľov, pomocou ktorých by sa mohli detekovať niektoré onemocnenia. (B: Arendacká, K. Cimermanová, K. Hornišová, F. Rublík, G. Wimmer, V. Witkovský)
Riešitelia projektu boli v roku 2008 organizátormi dvoch medzinárodných konferencii o matematickej štatistike:
- ROBUST 2008. Letná škola JČMF ROBUST 2008 - česko-slovenská konferencia venovaná vybraným trendom z matematickej štatistiky a teórie pravdepodobnosti. Konferencia ROBUST sa po prvýkrát vo svojej histórii konala na Slovensku. 8.-12.9.2008 v Roháčoch, Hotel Mier, Pribylina.
- Winter Workshop on Mathematical Statistics - Bratislava 2008. Medzinárodný zimný workshop z matematickej štatistiky, ktorý sa konal pri príležitosti životného jubilea prof. Andreja Pázmana. Konferencia sa konala v dňoch 15.-16.12.2008 v Malom kongresovom centre vydavateľstva VEDA v Bratislave.
Publikácie
- ARENDACKÁ, B.: O jednom intervalovom odhade pre variančný komponent. ODAM 2006, 7.9.-8.9.2006, Olomouc, ČR
- ARENDACKÁ, B.: Približné konfidenčné intervaly pre variančný komponent vo všeobecnom prípade modelu s dvomi komponentami. 14. zimní škola JČMF ROBUST 2006, Lhota nad Rohanovem 23.-27. ledna 2006. Poster.
- ARENDACKÁ, B.: Approximate and generalized approaches to confidence intervals on the variance components. PROBASTAT 2006. Fifth International Conference on Probability and Mathematical Statistics, June 5 - 9, 2006, Smolenice Castle, Slovak Republic. Prednáška.
- GRENDÁR M.: Trinity of conditional limit theorems. Fifth International Conference on Probability and Mathematical Statistics, June 5 - 9, 2006, Smolenice Castle, Slovak Republic. Poster.
- GRENDÁR, M.: Empirical Maximum Entropy Methods, in Bayesian inference and maximum entropy methods in science and engineering, A. Mohammad-Djafari (ed.), 419-425, AIP, Melville(NY), 2006.
- GRENDÁR, M.: Entropy and Effective Support Size, Entropy, 8/3, 169-174, 2006.
- GRENDÁR, M.: Criterion selection for Boltzmann Jaynes Inverse Problem: concluding considerations. Measurement Science Review, 6, 2006, 22-26.
- HORNIŠOVÁ, K.: Approximation of intrinsic curvature in one dimensional nonlinear regression model by moments of prior distribution of parameter. Measurement Science Review, 6, 2006, 40-49.
- HORNIŠOVÁ K.: Aproximácia vnútornej a parametrickej krivosti nelineárnych regresných modelov bez pouzitia derivácií. 14. zimní škola JČMF ROBUST 2006, Lhota nad Rohanovem 23.-27. ledna 2006. Poster.
- HORNIŠOVÁ K.: Optimal linearizations. Fifth International Conference on Probability and Mathematical Statistics, June 5 - 9, 2006, Smolenice Castle, Slovak Republic. Poster.
- RUBLÍK F.: On Testing the Hypothesis of Partial Common Principal Components, Proceedings Prague Stochastics 2006, pp 600-610.
- RUBLÍK F.: Asymptotic local power of the LR test for some homogeneity hypotheses on normal distributions. PROBASTAT 2006. Fifth International Conference on Probability and Mathematical Statistics, June 5 - 9, 2006, Smolenice Castle, Slovak Republic. Prednáška.
- WIMMER, G. - WITKOVSKÝ, V.: Scheffé-type confidence region for the calibration line. Austrian Journal of Statistics 35 (2-3), 2006, 397-406.
- WIMMER, G. - WITKOVSKÝ, V.: Univariate linear calibration via replicated errors-in-variables model. Journal of Statistcal Computation and Simulation, 2006. Accepted for publication.
- WITKOVSKÝ, V. - WIMMER G.: Exact and approximate confidence intervals for the comparison reference value. PROBASTAT 2006. Fifth International Conference on Probability and Mathematical Statistics, June 5 - 9, 2006, Smolenice Castle, Slovak Republic. Prednáška.
- WITKOVSKÝ, V. - WIMMER, G.: The weighted mid-P confidence interval for the difference of independent binomial proportions. In: Festschrift für Gabriel Altmann, Springer. Accepted for publication.
- WITKOVSKÝ, V.: Analýza dát pomocou lineárneho zmiešaného modelu. ROBUST 2006. Sborník prací 14. zimní školy JČMF ROBUST 2006, 23.-27. ledna 2006 ve Lhotě nad Rohanovem, JČMF Praha 2006, 387-402.
|