Faktor- és Klaszterelemzés

Tárgymutató
Általánosan a faktorokról és klaszterekről, Faktorelemzés, Főkomponens elemzés, Klaszterelemzés, Példák SPSS-ben

Letölthető jegyzetek
StatOkos Jegyzet: Faktor- és Klaszterelemzés
StatOkos Jegyzet: Összefoglaló
Adatfájlok: SPSS
Adatfájlok: Excel
BEVEZETŐ
ÁLTALÁBAN A FAKTOROKRÓL ÉS KLASZTEREKRŐL
FAKTOR- ÉS FŐKOMPONENS
KLASZTERELEMZÉS
BEVEZETŐ
BEVEZETŐ
A többváltozós statisztikai eljárások ismérve a szignifikancia próbákkal ellentétben, hogy általánosságban nem két esetet, csoportot vagy mintát hasonlítanak össze, hanem annál több változóval operálnak. A többváltozós statisztikai eljárások három nagy csoportja a varianciaanalízisek, az olyan eljárások, amelyek a változók közötti kapcsolatokat tárják fel, illetve azok a próbák, amelyek a változók számát hivatottak csökkenteni vagy rendszerezni. Ebből az is következik, hogy a feltáró jellegű munkák gyakrabban használnak többváltozós módszereket. Emellett az is elmondható, hogy a szignifikanciapróbákat inkább kísérleti módszertanban, többváltozós eljárásokat pedig jellemzően kérdőíves kutatások esetén alkalmazunk. Természetesen ez nem kizárólagos, minden esetben a kutatás jellege és sajátosságai a mérvadóak. Az alábbi példák az IBM SPSS szoftverhez készültek.
A VÁLTOZÓK SZÁMOSSÁGÁNAK REDUKÁLÁSA, OSZTÁLYOZÁSA
Általánosságban a faktorelemzésről és a klaszterelemzésről
A legtöbb kutatás – főleg amit kérdőívekkel végeznek - igencsak hosszadalmas feltáró munkát eredményezhet. Akik dolgoztak már valaha kérdőívvel, azok tudják, hogy egy hosszabb kérdőív nagyon sok kérdést tartalmaz. Nem meglepő az sem, ha 70-100 kérdést is meg kell válaszolni a pontos méréshez. Vannak kérdőívek, melyeket már korábbi mérések alapján validáltak és a megadott keretrendszeren belül alkalmazhatjuk őket, számítva arra, hogy mi is hasonló eredményeket kapunk. Azonban számos esetben, főleg akkor, ha új kérdőívet kell fejleszteni, sokszor még maguk a kutatók sincsenek tisztában azzal, hogy a végső eredmény miként fog megjelenni a saját adataikban. Mivel általánosságban nagyon sok adatunk van, szükség van arra is, hogy rendet tehessünk közöttük és valamiféleképpen csoportosítsuk ezeket, csökkentve ezáltal a kutatásban szereplő változók számát. Erre van segítségünkre a faktorelemzés és a klaszteranalízis. Ilyen esetekben lehet segítségünkre a faktor és klaszter. A faktorelemzés lényege, hogy több változóból kisebb számú új változót generálunk az eredeti változók közötti kapcsolatok és látens struktúra feltárásával. Klaszterelemzés ezzel szemben a függő változókon keresztül próbálja a magas elemszámú populációt úgy felosztani, hogy azok bizonyos tulajdonságuk alapján közös csoportot képezzenek. Ezek az adatredukciós technikák nagyban megkönnyítik a kutatással foglalkozók munkáját, ugyanis elképzelhető, hogy a kutatás megválaszolásához nem kell 70 darab különböző kérdés, hanem helyette három nagy "kérdéscsoport" is ugyanolyan vagy közel hasonló eredményt ad. Vagy képzeljünk el egy 1000 főt tömörítő populációt, ahol a kutatónak el kell osztania négy különböző gyógyszerkészítményt alvászavarra. Úgy, hogy az a tüneteknek és a gyógyulásnak megfelelően négy csoportot alkosson.
Emberek válaszai
Kevesebb változó létrehozása a válaszok (változók) alapján
Változók
Változók
Megbízhatóan mérnek a kérdéseid? Vizsgáld meg a megbízhatóságot (reliabilitást) a Cronbach's Alpha mutató segítségével!
Faktorelemzés
Emberek válaszai
Változók
A meglévő és új emberek besorolása csoportokba a válaszok (változók) alapján
Klaszterelemzés

A faktorelemzés során a változókat redukálunk faktorokra (forrás: researchgate.com)
Faktorelemzés és főkomponens elemzés
A faktorelemzés nem egy konkrét eljárás, hanem több különböző módszer együttese, melyek lényege az adatok tömörítése és a lehetséges multikollinearitás (vagyis a változók között ne legyen szoros korreláció) szűrése. A faktorelemzés módszerei ezt a két célt egyesítik: a faktoraink nem korrelálnak majd egymással és a korábbi változóink tömörítéséből jönnek létre. A faktorelemzéshez erősen kapcsolódik a főkomponens elemzés is. Mind a két eljárás hasonló bázison alapul, mégis más szempontból közelítik meg az adott problémát. Amennyiben egy 100 kérdésből álló adatsorunkra gondolunk, két lehetőséget legalább figyelembe tudunk venni. Az egyik az, hogy már előzetes feltevésünk van a kérdőív egyedi kérdéseivel, eseteivel és hibáival kapcsolatban és tudjuk – más kutatóktól például -, hogy a kérdőív 100 kérdéséből bizonyos mennyiségre nem feltétlenül van szükségünk ahhoz, hogy magyarázó modellt alkossunk. Ebben az esetben faktorelemzést alkalmazunk.
Ezzel szemben, ha feltáró jelleggel szeretnénk elemezni és nem tudjuk, hogy milyen hibák és egyedi esetek jellemzik a kérdőívünket, akkor főkomponenselemzést használunk, ugyanis míg előbbi a teljes variancia egy kis hányadát használja fel, addig főkomponens elemzés a teljes varianciát. Nagyon egyszerűen megfogalmazva: a faktorelemzés esetében valamivel több előzetes tudásunk van, mint a főkomponens elemzés esetében. Mégis utóbbi az, melyet a faktorokkal kapcsolatban elsődlegesen azonosítani szoktunk.
A faktorelemzés mellett szóló másik érv lehet, hogy a multikollinearitás nem okoz problémát a futtatásakor. Ez azért fontos, mert lesz olyan eset, amikor a változók korrelálnak, ekkor faktorelemzés helyett, főkomponens elemzést érdemes alkalmazni.
KLASZTERELEMZÉS
A többváltozós statisztika egyik eszköze volt a faktoranalízis, melynek segítségével a változóinkat tudtuk tömöríteni és egyfajta újrarendezés során csökkenteni a számukat. Ennek ellenére számos olyan helyzettel találkozunk, amely szintén segít az egyszerűsített látásmód kialakításában. A klaszterelemzés segítségével az általunk kiválasztott szempontok alapján csoportba tudjuk rendezni a vizsgált populációnkat, új osztályokat létrehozva ezáltal. A folyamat ebben az esetben akkor hatékony, ha a csoportok tagjai egymás között hasonlóságot mutatnak. A klaszterelemzés tehát nem a változóinkat csökkenti, hanem a megfigyelt populációt rendezi csoportokba.
Hasonló elven működik a diszkriminanciaelemzés, azonban ott ismereteink már vannak a csoportosítást illetően, míg a klaszterelemzés ilyen szempontból „meglepetéseket” tartogat számunkra. Csakúgy mint más többváltozós elemzéseknél, itt is elengedhetetlen a minta szűrése, ugyanis a kiugró értékek rontják a modellt és nem illeszthetőek be egyértelműen a klaszterbe. A folyamat során hierarchikus és nem hierarchikus klaszterbe sorolás közül választhatunk. A mögöttes mechanizmusuk más és más, lényegében annyit kell tudnunk, hogy a fennálló információk alapján külön-külön folyamatban kerülnek rendezésre a populáció elemei. Ennek eredményeképpen haladhatunk egy nagy klaszter felé, de ugyanúgy egy nagy halmazból több klaszter is létrehozható; ennek igénye a kutató és a kutatási kérdés szubjektivitása szerint változhat. A klaszterekbe rendezés fontos ismérve lehet az elemek közötti távolság is, valamint az, hogy logikailag indokolt-e a klaszter létrehozása, ugyanis nagyon alacsony elemszámú klasztereket létrehozni és értelmezni nehéz és olykor értelmetlen feladat.
A klaszterelemzés során halmazokat keresünk a populáción belül (forrás: wikipedia)
