Nemparaméteres próbák alkalmazási köre

Tárgymutató
Általánosságban a nemparaméteres próbákról; alkalmazási feltételek; döntési folyamat; Wilcoxon-féle előjeles rangpróba; Mann-Whitney U-próba; Kruskal-Wallis próba; Friedman próba; futtatás: SPSS, R, Kézi számítások

Letölthető jegyzetek
StatOkos Jegyzet: Nemparaméteres próbák
StatOkos Jegyzet: Összefoglaló
Adatfájlok: SPSS
Adatfájlok: Excel
ÁLTALÁBAN
A NEMPARAMÉTERES PRÓBÁKRÓL
WILCOXON-FÉLE ELŐJELES RANGPRÓBA
A hipotézisvizsgálatok általános célja, hogy a populációból szerzett minták tulajdonságai között különbséget keressenek. Ezek az összehasonlítások alapvetően azt feltételezik, hogy a minták között nincs számottevő (szignifikáns) eltérés. Ezt a feltételezést nevezzük nullhipotézisnek (H0). A különbségek keresésére leggyakrabban a hipotézisvizsgálatok közé tartozó t-próbákat használjuk akkor, ha ismertek a populáció paraméterei, vagyis tudjuk, hogy a populációból vett minta követi a normál eloszlást. Azonban egyes esetekben a normalitás feltétele nem teljesül vagy csak egyszerűen megismerhetetlen a paraméter, ami a populációt jellemzi. Ilyen esetekben és ordinális mérési szintű változók esetén a nemparaméteres próbákat alkalmazzuk. A nemparaméteres próbák általánosan azt feltételezik, hogy a minták mediánjai (!) között nem találunk eltérést. A döntési kritérium ebben az esetben úgy fogalmazható meg, hogy a minták mediánjai megegyeznek vagy sem. Amennyiben nincs számottevő eltérés közöttük, akkor a nullhipotézist megtartjuk, vagyis a mintánk nem tér el:
-
egy előre meghatározott mediántól (Wilcoxon-féle előjeles rangpróba),
-
két független csoport a mediánja nem tér el egymástól (Mann-Whitney-féle U-próba)
-
egy elő- és utómérés mediánja nem különbözik (Wilcoxon-féle előjeles rangpróba)
-
több független csoport mediánja nem különbözik (Kruskal-Wallis próba)
-
vagy több, összefüggő mérés mediánja nem különbözik (Friedman próba)
Ellenkező esetben az eltérést feltételező ún. alternatív hipotézist (Ha) választjuk. A nemparaméteres próbák tehát folytonos (függő) változók mediánjait vagy ordinális mérési szintű változók mediánjait vizsgálják. Ez abból az összefüggésből ered, hogy a diszkrét (nominális) változóknak nincs sorba rendezhető értéke, amely a mediánszámítás alapja. Lehetséges, hogy a minta normalitása nem teljesül, így az egyes értékek rangsorolása biztosabb képet nyújt a populációról. A nemparaméteres próbák általános feltétele tehát, hogy a minták nem-normál eloszlásból származó folytonos változók vagy ordinális változók legyenek. A legtöbb statisztikai programban a kalkulációra kerülő p-érték alapján hozunk döntést. Ettől függetlenül mindkét értéket figyelembe vehetjük a számításaink során, ezek általában megegyező konklúziót mutatnak.
Amíg a t-próbákat általánosan paraméteres próbáknak is nevezzük azért, mert az előfeltételüknek minősülő normál eloszlás számos tulajdonságát ismerhetjük előre, addig egy nem-normál eloszlásnál már nehéz megmondani ezeket a paramétereket, hiszen számos variációjuk lehetséges. Abban az esetben, ha nincs előzetes információnk a populációból vett minta normalitását illetően, nekünk kell kideríteni, hogy megismerhető-e a paraméter. Ebben az esetben az eloszlások grafikus elemzése (hisztogram, Q-Q plot ábra) az egyik legfontosabb teendő, továbbá a normalitásvizsgálatok közé tartozó Saphiro-Wilk és/vagy Kolmogorov-Smirnov féle tesztek alkalmazhatók.

Általában a nemparaméteres próbákról
A nemparaméteres próbákat azért alkalmazzuk, mert a populáció eloszlását jellemző paraméter nem követi:
-
a normál eloszlást (folytonos változók esetén),
-
binomiális eloszlást (dichotóm adatsorok esetén)
-
vagy a poisson eloszlást (egy adott esemény bekövetkezésének eloszlása egy eseménytérben)
A folytonos adatsorok esetében a normál eloszlás meglétét a normalitásvizsgálatok segítségével végezhetjük. Erre vonatkozóan számos különböző leírást találunk. Konklúzióként azt tudjuk elmondani, hogy az adatsorok tesztelését érdemes első sorban a Saphiro-Wilk féle normalitásvizsgálattal ellenőrízni. Mivel ezt a statisztikai eljárást a szerzők n=50 elemszám mellett végezték el, eddig a határig biztos eredményt ad. A magasabb elemszámokkal is megbírkózik, megerősítésképpen elvégezhetjük a Kolmogorov-Smirnov féle normalitásvizsgálatot is. Mindkét próba nullhipotézise, hogy a minta normál eloszlású populációból származik, ellenkező esetben (szignifikáns eltérés esetén) az eloszlás nem normál, ilyenkor érdemes a nemparaméteres próbákat használni. Fontos felhívni a figyelmet arra is, hogy ha nincs lehetőségünk vagy tudásunk elvégezni a normalitásvizsgálatot, akkor az eloszlás alakját illetően meggyőződhetünk a hisztogram és a Q-Q plot ábra alapján is.
A legtöbb nemparaméteres próba rangosoroláson alapul, amelynek segítségével megpróbálják kiküszöbölni a paraméteres eloszlásoktól való eltérést, azonban nem minden nemparaméteres próba dolgozik ezzel a metódussal. A rangsorolás alapja, hogy az adatsorokat (34, 56, 56, 71, 12) növekvő sorrendbe helyezve (12, 34, 56, 56, 71) egyesével sorszámot kapnak (1, 2, 3, 4, 5). Ezek a sorszámok az azonos számok esetén is növekvők lesznek (1, 2, 3, 4, 5), azonban a sorszámozás végeztével az azonos sorszámúak között átlagot vonunk (1, 2, 3,5, 3,5, 5). Az így kapott rangsor alkalmassá válik a későbbi összehasonlításra. Fontos kiemelni, hogy csak akkor használjunk nemparaméteres próbát, amikor biztosak vagyunk benne, hogy a paraméteres próbák feltételeinek mindegyike vagy többszörös feltétel esetén nagyobb része sérül. A nemparametrikus eljárások a parametrikus eljárásokkal szemben kevésbé robosztusak, így bizonytalanság esetén javasolt inkább a paraméteres pár megfelelő használata.

A legtöbb információnk a paraméterről akkor van, ha az követi a normál eloszlás alakját és attól nem tér el számottevően (bal oldali eloszlás). Azonban számos esetben tapasztalhatjuk azt, hogy ez a feltétel nem teljesül (jobb oldali eloszlás). Ekkor nem tudunk biztosat mondani a paraméterről, leginkább azért, mert az eltérő eloszlások nagyon sok "formát ölthetnek". Más esetben pedig egyszerűen nincs lehetőségünk megismerni a populációt jellemző paramétert.


A Q-Q plot ábra normál eloszlás esetén (bal felső sarok) követi az ábra közepén lineárian növekvő egyenest. Minél inkább eltérő a pontok halmaza, annál biztosabb, hogy az adatsor nem követi a normál eloszlást.
A hisztogramra képzeletben rávetítve a normál eloszlásra jellemző haranggörbét (Gauss-görbe) megfigyelhetjük, hogy attól milyen eltérések mutatkoznak. A hisztogram "oszlopainak" illeszkednie kell a görbéhez. Ettől eltérő formák esetén nem teljesül a normalitás.

Wilcoxon-féle rangpróba
A Wilcoxon-féle előjeles rangpróba célja, hogy megvizsgálja a rendelkezésre álló minták (minta) különbségét. Egyszerre használatos akkor, amikor egy előre meghatározott medián értékhez szeretnénk hasonlítani a mintánkat és akkor is, amikor egy csoporton végzünk két összefüggő mérést. Ezekben az esetekben a teszt azt vizsgálja, hogy a különbségek mediánja mennyire tér el a nullától.
A próba feltétele, hogy a minta nem-normális eloszlású populációból származzon. A függő (vizsgált) változónak folytonosnak (metrikus skála) vagy ordinális mérési szintűnek kell lennie kell lennie. Diszkrét változók esetében a próba nem alkalmazható, hiszen ott mediánt nem tudunk meghatározni.
Nullhipotézis: a populációk mediánja nem tér el nullától
Alternatív hipotézis: a populációátlag eltér nullától
Ha a próba eredménye szignifikáns, elvetjük a nullhipotézist és az alternatív hipotézist választjuk.
Hivatkozása: W(df - szabadságfok) = próba értéke, Z = z értéke, p = szignifikancia

módszerek a wilcoxon-féle rangpróba futtatására
Mann-whitney u próba

A Mann-Whitney U próba célja, hogy két független populáció mintáját hasonlítsa össze. Ezek a minták ugyanannak a függő változónak két csoporton történt mérései. Ehhez mintákat kell vennünk, két független csoportból, melyeken ugyanazt a jelenséget mérjük. A kapott változó mediánjait vetjük össze, így lehet kifejezni, hogy a két független mérés eredményei között nulla (azaz nincs) a különbség.
A próba feltétele, hogy a minták nem-normális eloszlású populációból származzanak, emiatt a függő (vizsgált) változónak vagy folytonosnak (metrikus skála) vagy ordinális skálán mértnek kell lennie. Diszkrét változók és ordinális adatsorok esetében a próba nem alkalmazható, hiszen ott mediánokat nem tudunk meghatározni. Bár alkalmazási módja megfelel a kétmintás (független mintás) t-próbának, nem tekinthető annak nem paraméteres verziójának.
Nullhipotézis: a populáció mediánjai egyenlők
Alternatív hipotézis: a populáció mediánjai eltérők
Ha a próba eredménye bármelyik kritérium szerint szignifikáns, elvetjük a nullhipotézist.
Hivatkozása: U(df - szabadságfok) = próba értéke, Z = z értéke, p = szignifikancia
módszerek a mann-whitney u próba futtatására
A Kruskal-Wallis próba célja, hogy három vagy több független populáció mintáját hasonlítsa össze. Ezek a minták ugyanannak a függő változónak több csoporton történt mérései. Ehhez mintákat kell vennünk, több független csoportból, melyeken ugyanazt a jelenséget mérjük. A kapott változó mediánjait vetjük össze, így lehet kifejezni, hogy a független mérések eredményei között nulla (azaz nincs) a különbség.
A próba feltétele, hogy a minták nem-normális eloszlású populációból származzanak, emiatt a függő (vizsgált) változónak vagy folytonosnak (metrikus skála) vagy ordinális skálán mértnek kell lennie. Diszkrét változók és ordinális adatsorok esetében a próba nem alkalmazható, hiszen ott mediánokat nem tudunk meghatározni. Bár alkalmazási módja megfelel a kétmintás (független mintás) t-próbának, nem tekinthető annak nem paraméteres verziójának.
Nullhipotézis: a populáció mediánjai egyenlők
Alternatív hipotézis: a populáció mediánjai eltérők
Ha a próba eredménye bármelyik kritérium szerint szignifikáns, elvetjük a nullhipotézist.
Hivatkozása: U(df - szabadságfok) = próba értéke, Z = z értéke, p = szignifikancia
KRUSKAL-WALLIS PRÓBA

módszerek a kruskal-wallis próba futtatására
Friedman próba
A Friedman próba célja, hogy ugyanannak a populációnak három vagy több összetartozó mintáját hasonlítsa össze. Ezek az összetartozó minták általában ugyanazon az egyedeken mért többszöri vizsgálatok, vagy valamilyen módon összepárosítható adatok. Ehhez mintákat kell vennünk a populációból (háromnál többet időben egymást követőe) és az ott kapott értékek különbségének nullához kell közelítenie vagy pont nullának kell lennie. Így lehet kifejezni, hogy a páros mérés eredményei között nulla (azaz nincs) a különbség.
A próba feltétele, hogy a különbséget adó minta normális eloszlású populációból származzon, emiatt a függő (vizsgált) változónak folytonosnak (metrikus skála) kell lennie. Diszkrét változók és ordinális adatsorok esetében a próba nem alkalmazható, hiszen ott átlagértéket nem tudunk meghatározni. A gyakorlatban kivételt képeznek a Likert-skálák, amelyeket ordinális jellegük ellenére, metrikusnak tekintünk az elemzések során.
Nullhipotézis: a populáció átlagainak a különbsége nulla
Alternatív hipotézis: a populáció átlagainak különbsége eltér nullától
Ha a próba eredménye bármelyik kritérium (t-érték, p-érték, konfidencia intervallum) szerint szignifikáns, elvetjük a nullhipotézist.
Hivatkozása: t(df: szabadságfok (n-1)) = t értéke, p = szignifikancia
