top of page

Faktor- és Klaszterelemzés

abc-accomplished-alphabet-48898.jpg

Tárgymutató

Általánosan a faktorokról és klaszterekről, Faktorelemzés, Főkomponens elemzés, Klaszterelemzés, Példák SPSS-ben

Market Analysis

Letölthető jegyzetek

StatOkos Jegyzet: Faktor- és Klaszterelemzés
StatOkos Jegyzet: Összefoglaló

Adatfájlok: SPSS

Adatfájlok: Excel 

Used Books

Ajánlott könyvek

Barna Ildikó – Székelyi Mária: Túlélőkészlet SPSS-hez
Andy Field: Discovering Statistics Using SPSS
Sajtos László – Mitev Ariel: SPSS kutatási és adatelemzési kézikönyv

ÁLTALÁBAN A FAKTOROKRÓL ÉS KLASZTEREKRŐL

FAKTOR- ÉS FŐKOMPONENS

KLASZTERELEMZÉS

bevfk

BEVEZETŐ

BEVEZETŐ

A többváltozós statisztikai eljárások ismérve a szignifikancia próbákkal ellentétben, hogy általánosságban nem két esetet, csoportot vagy mintát hasonlítanak össze, hanem annál több változóval operálnak. A többváltozós statisztikai eljárások három nagy csoportja a varianciaanalízisek, az olyan eljárások, amelyek a változók közötti kapcsolatokat tárják fel, illetve azok a próbák, amelyek a változók számát hivatottak csökkenteni vagy rendszerezni. Ebből az is következik, hogy a feltáró jellegű munkák gyakrabban használnak többváltozós módszereket. Emellett az is elmondható, hogy a szignifikanciapróbákat inkább kísérleti módszertanban, többváltozós eljárásokat pedig jellemzően kérdőíves kutatások esetén alkalmazunk. Természetesen ez nem kizárólagos, minden esetben a kutatás jellege és sajátosságai a mérvadóak.  Az alábbi példák az IBM SPSS szoftverhez készültek.

klasz1

A VÁLTOZÓK SZÁMOSSÁGÁNAK REDUKÁLÁSA, OSZTÁLYOZÁSA

Általánosságban a faktorelemzésről és a klaszterelemzésről

A legtöbb kutatás – főleg amit kérdőívekkel végeznek - igencsak hosszadalmas feltáró munkát eredményezhet. Akik dolgoztak már valaha kérdőívvel, azok tudják, hogy egy hosszabb kérdőív nagyon sok kérdést tartalmaz. Nem meglepő az sem, ha 70-100 kérdést is meg kell válaszolni a pontos méréshez. Vannak kérdőívek, melyeket már korábbi mérések alapján validáltak és a megadott keretrendszeren belül alkalmazhatjuk őket, számítva arra, hogy mi is hasonló eredményeket kapunk. Azonban számos esetben, főleg akkor, ha új kérdőívet kell fejleszteni, sokszor még maguk a kutatók sincsenek tisztában azzal, hogy a végső eredmény miként fog megjelenni a saját adataikban. Mivel általánosságban nagyon sok adatunk van, szükség van arra is, hogy rendet tehessünk közöttük és valamiféleképpen csoportosítsuk ezeket, csökkentve ezáltal a kutatásban szereplő változók számát. Erre van segítségünkre a faktorelemzés és a klaszteranalízis. Ilyen esetekben lehet segítségünkre a faktor és klaszter. A faktorelemzés lényege, hogy több változóból kisebb számú új változót generálunk az eredeti változók közötti kapcsolatok és látens struktúra feltárásával. Klaszterelemzés ezzel szemben a függő változókon keresztül próbálja a magas elemszámú populációt úgy felosztani, hogy azok bizonyos tulajdonságuk alapján közös csoportot képezzenek. Ezek az adatredukciós technikák nagyban megkönnyítik a kutatással foglalkozók munkáját, ugyanis elképzelhető, hogy a kutatás megválaszolásához nem kell 70 darab különböző kérdés, hanem helyette három nagy "kérdéscsoport" is ugyanolyan vagy közel hasonló eredményt ad. Vagy képzeljünk el egy 1000 főt tömörítő populációt, ahol a kutatónak el kell osztania négy különböző gyógyszerkészítményt alvászavarra. Úgy, hogy az a tüneteknek és a gyógyulásnak megfelelően négy csoportot alkosson.

 

Emberek válaszai

Kevesebb változó létrehozása a válaszok (változók) alapján

Változók

Változók

Megbízhatóan mérnek a kérdéseid? Vizsgáld meg a megbízhatóságot (reliabilitást) a Cronbach's Alpha mutató segítségével!

Faktorelemzés

Emberek válaszai

Változók

A meglévő és új emberek besorolása csoportokba a válaszok (változók) alapján

Klaszterelemzés

Conceptual-overview-of-Exploratory-Facto

A faktorelemzés során a változókat redukálunk faktorokra (forrás: researchgate.com)

klasz2

Faktorelemzés és főkomponens elemzés

 

A faktorelemzés nem egy konkrét eljárás, hanem több különböző módszer együttese, melyek lényege az adatok tömörítése és a lehetséges multikollinearitás (vagyis a változók között ne legyen szoros korreláció) szűrése. A faktorelemzés módszerei ezt a két célt egyesítik: a faktoraink nem korrelálnak majd egymással és a korábbi változóink tömörítéséből jönnek létre. A faktorelemzéshez erősen kapcsolódik a főkomponens elemzés is. Mind a két eljárás hasonló bázison alapul, mégis más szempontból közelítik meg az adott problémát. Amennyiben egy 100 kérdésből álló adatsorunkra gondolunk, két lehetőséget legalább figyelembe tudunk venni. Az egyik az, hogy már előzetes feltevésünk van a kérdőív egyedi kérdéseivel, eseteivel és hibáival kapcsolatban és tudjuk – más kutatóktól például -, hogy a kérdőív 100 kérdéséből bizonyos mennyiségre nem feltétlenül van szükségünk ahhoz, hogy magyarázó modellt alkossunk. Ebben az esetben faktorelemzést alkalmazunk.

Ezzel szemben, ha feltáró jelleggel szeretnénk elemezni és nem tudjuk, hogy milyen hibák és egyedi esetek jellemzik a kérdőívünket, akkor főkomponenselemzést használunk, ugyanis míg előbbi a teljes variancia egy kis hányadát használja fel, addig főkomponens elemzés a teljes varianciát. Nagyon egyszerűen megfogalmazva: a faktorelemzés esetében valamivel több előzetes tudásunk van, mint a főkomponens elemzés esetében. Mégis utóbbi az, melyet a faktorokkal kapcsolatban elsődlegesen azonosítani szoktunk. 

A faktorelemzés mellett szóló másik érv lehet, hogy a multikollinearitás nem okoz problémát a futtatásakor. Ez azért fontos, mert lesz olyan eset, amikor a változók korrelálnak, ekkor faktorelemzés helyett, főkomponens elemzést érdemes alkalmazni.

 

klasz3

KLASZTERELEMZÉS

A többváltozós statisztika egyik eszköze volt a faktoranalízis, melynek segítségével a változóinkat tudtuk tömöríteni és egyfajta újrarendezés során csökkenteni a számukat. Ennek ellenére számos olyan helyzettel találkozunk, amely szintén segít az egyszerűsített látásmód kialakításában. A klaszterelemzés segítségével az általunk kiválasztott szempontok alapján csoportba tudjuk rendezni a vizsgált populációnkat, új osztályokat létrehozva ezáltal. A folyamat ebben az esetben akkor hatékony, ha a csoportok tagjai egymás között hasonlóságot mutatnak. A klaszterelemzés tehát nem a változóinkat csökkenti, hanem a megfigyelt populációt rendezi csoportokba. 

Hasonló elven működik a diszkriminanciaelemzés, azonban ott ismereteink már vannak a csoportosítást illetően, míg a klaszterelemzés ilyen szempontból „meglepetéseket” tartogat számunkra. Csakúgy mint más többváltozós elemzéseknél, itt is elengedhetetlen a minta szűrése, ugyanis a kiugró értékek rontják a modellt és nem illeszthetőek be egyértelműen a klaszterbe. A folyamat során hierarchikus és nem hierarchikus klaszterbe sorolás közül választhatunk. A mögöttes mechanizmusuk más és más, lényegében annyit kell tudnunk, hogy a fennálló információk alapján külön-külön folyamatban kerülnek rendezésre a populáció elemei. Ennek eredményeképpen haladhatunk egy nagy klaszter felé, de ugyanúgy egy nagy halmazból több klaszter is létrehozható; ennek igénye a kutató és a kutatási kérdés szubjektivitása szerint változhat. A klaszterekbe rendezés fontos ismérve lehet az elemek közötti távolság is, valamint az, hogy logikailag indokolt-e a klaszter létrehozása, ugyanis nagyon alacsony elemszámú klasztereket létrehozni és értelmezni nehéz és olykor értelmetlen feladat. 

 

A klaszterelemzés során halmazokat keresünk a populáción belül  (forrás: wikipedia)

1000px-EM-Gaussian-data.svg.png
bottom of page