Mérőeszközeink: a valóság kielégítő, az igazság silány

StatOkos
2018. aug. 26.
10 perc olvasás

Frissítve: 2018. szept. 5.

A kutatásmódszertan és a kísérleti eredmények értelmezésének egyik legnagyobb problémája talán nem is az, hogy a meglévő adatainkkal helyes következtetéseket tudunk-e levonni. Jóval nagyobb probléma - vagy kérdés -, hogy az adataink azt mutatják-e, amire kíváncsiak vagyunk.

Képzeljünk el egy kísérletet, amelyben a vizsgálati személyek reakcióidejét vizsgáljuk. Az ember idegrendszerének kommunikációs sebessége és észlelése, reakciókészsége viszonylag gyors, így nem mindegy, hogy a reakcióidőt milyen pontossági fokkal/tartománnyal adjuk meg.

Ha csak egyszerűen másodpercekben gondolkodunk, vélhetően nem fogunk eléggé jól differenciáló mérőeszközt alkotni, ugyanis az ember reakcióideje század- és ezredmásodpercekben is nyomonkövethető. Mit jelent ez általánosságban? Azt, hogy ismernünk kell a mérni kívánt jelenség tulajdonságait ahhoz, hogy a megfelelő mérőeszközt és mérési tartományt meg tudjuk határozni. Ez a pszichológiai/társadalomtudományi kutatásokban rendkívül fontos - főleg a kérdőíves módszerek esetében -, hiszen például egy kémiai kísérlettel ellentétben a mérési hibák inkább mutatnak nagyobb változatosságot.

"Példa: Három üveggyöngy tömege pontosan 0,100 g. Táramérlegen a legkisebb, még megkülönböztethető tömeg 0,01 g, analitikai mérlegen viszont 0,1 mg = 0,0001 g. Amennyiben táramérlegen mérünk, akkor 0,10 ± 0,01 g formában adhatjuk meg az eredményt, míg analitikai mérlegen mérve 0,1000 ± 0,0001 g alakban. Ez azt jelenti, hogy legrosszabb esetben 0,09 g-ot vagy 0,11 g-ot mérünk a táramérlegen (vagyis ± 10 % a relatív hiba), illetve 0,0999 g-ot vagy 0,1001 g-ot az analitikai mérlegen (ahol csak ± 0,1 % a relatív hiba)."

Forrás: http://cheminst.emk.nyme.hu/gyakorlat/04a-03b-pontossag.pdf

A hozott példát, összevetve egy ember "mérhetőségével" igencsak meglepő és látszólag értelmetlen helyzetben találjuk magunkat. Ha a századpontosságú (0,01) mérés esetén 10%-os relatív hibagyakoriságról beszélünk (ezredpontosságú esetében már csak 1%!), akkor joggal feltehetjük a kérdést, hogy vajon a humán vizsgálati-személyek reakcióidős vizsgálatában megengedett század/ezredpontosságú mérési korlátaink valóban megfelelő mérőeszközt adnak a kutatók kezébe? Ha matematikai eszközökkel szeretnénk magyarázni a "pontosság" fogalmát, akkor a válaszunk feltehetően az, hogy: nem.

Vagyis egy 10%-os relatív hibagyakoriság mellett szinte értelmetlennek tűnik a vizsgálat lefolytatása. 1%-os relatív hibagyakoriság esetében már elégedettek lehetünk.

Ám például az emberekhez kapcsolható reakcióidős vizsgálatokat nehezen tudjuk ilyen finoman differenciálni más pszichometriai mérőeszközökhöz képest (papír alapú tesztek általában). Azonban tudnunk kell azt, hogy a kísérletes pszichológiai vizsgálatok javarészt olyan viselkedéses különbségeket keresnek, amit még emberi léptékkel is van értelme kutatni, ezért a mérési hibákat más léptékben és más megítéléssel fogadjuk el. Például a szignifikancia szintje a pszichológiai vizsgálatokban p=0.05 (ez azt jelenti, hogy a hibának csak 5%-át okozza véletlen), ezzel szemben egy finomabb mérést megengedő kutatás (általában más tudományterületen) p=0.01 vagy p=0.001 is lehet. Ezzel éppen arra szeretnénk felhívni a figyelmet, hogy bár az ember viselkedéses tulajdonságai mérhetők, magából az emberből eredeztethető tulajdonságok helyeznek korlátot a mérőeszközök elé és ezáltal a mérést végző elé is.

A reakcióidő egy fontos emberi tulajdonság

Másik fontos kérdés, hogy a mérni kívánt jelenség valóban azt mutatja-e, amire mi kíváncsiak vagyunk. Az elmúlt évek egyik nagy port kavart kérdése volt például, hogy az fMRI készülékek hiába mérnek valamit, vélhetően nem azt mérik, amit a kutatók szeretnének mérni. Ehhez tekintsük meg a Medicalonline.hu cikkét:

" Ha elfogadjuk azt az egyre nyilvánvalóbb tényt, hogy az idegtudomány állításainak nagy része alaptalan, máris nagy lépést tettünk előre az agy jobb megértése felé, írja szerkesztőségi közleményében a New Scientist. Az idegtudomány gyermekbetegségektől szenved, csak a töredéke igaz annak, amit az agyunk működéséről tudunk.

Igazán váratlan eredményt hozott az a kísérlet, amikor Craig Bennett, a Santa Barbarai University of California idegtudósa egy döglött lazacot tett fMRI-be: a hal agya és gerincveleje idegi aktivitás jeleit mutatta. Ennek megfelelően a vizsgálatról beszámoló cikket Bennett és munkatársai a Journal of Serendipitous and Unexpected Results című lapban tették közzé (Neural Correlates of Interspecies Perspective Taking in the Post-Mortem Atlantic Salmon: An Argument For Proper Multiple Comparisons Correction).

Mint a 2010-es cikk szerzői írják, egy tipikus fMRI az agyról 130.000 három dimenziós pixelből (voxel) álló képet készít, ez az óriási adatmennyiség pedig szinte biztossá teszi a fals pozitív eredmények születését. Az adatokból többszörös összehasonlításokat kellene végezni, azonban a vizsgálók ezt legtöbbször elmulasztják.

Ingfei Chen a lazacos kísérletről beszámoló New Scientist-cikkben a következőképp magyarázza az fMRI működését: a kutatók speciális szoftverek segítségével keresnek ebben az óriási adathalmazban olyan voxel-csoportokat, amelyek együtt villannak fel akkor, amikor a kísérleti alany valamilyen tevékenységet végez a berendezésben, pl. olyan képeket néz, amelyek érzelmi válaszokat váltanak ki. Azonban a voxelek/3D-s képpontok véletlenszerű fluktuációi nagy kihívást jelentenek az értelmezésben. Az lenne az ideális, ha az adatsort kétszer rögzítenék, azaz két különböző felvétel is készülne, az első felvétel során a kutatók azonosítanák, hogy mely voxel-csoportok aktiválódnak a kísérlet során, majd a második alkalommal speciálisan ezeket a voxel-csoportokat vizsgálnák, és ellenőriznék, hogy nem véletlenszerű felvillanás volt-e az első eredmény. Azonban ezt a szabályt, mint Edward Vul és Harold Pinter kutatásai kimutatták, az fMRI-vizsgálatok fele nem követi. Ezek a vizsgálatok tehát vudu-összefüggéseket tárnak fel, írja Vul és Pinter (Perspectives on Psychological Science, Puzzlingly High Correlations in fMRI Studies of Emotion, Personality, and Social Cognition), és különösen az jellemző rájuk, hogy a személyiség összetevőivel kapcsolatban (pl. szeretet, empátia, vallásosság, szorongás, félelem stb.) túlzottan leegyszerűsítő képet propagálnak. A téves elméleti következtetések a gyakorlatban is nagy kárt okoznak, gondoljunk csak arra, hogy az fMRI-eredményeket már bírósági tárgyalásokon is használják.

Vul és Pinter 2008-as tanulmánya nagy hullámokat vert az idegtudósok körében, ezért az eredményeit ellenőrizték: Chris Baker és munkatársai megnézték az öt legnevesebb szaklapban 2008-ban publikált fMRI-s kutatásokat, és azt találták, hogy azok 42 százaléka elkövette a fentebb említett hibát (double dipping). (Nature Neuroscience, Circular analysis in systems neuroscience: the dangers of double dipping). Bakerék azt is megjegyezték, hogy ez a rossz gyakorlat az egyetlen idegsejtet vizsgáló állatkísérletekben és a genetikai analízisekben egyaránt gyakori.

Azonban a helyzet még ennél is sokkal rosszabb, írja a New Scientist szerkesztőségi közleménye: a molekuláris vizsgálatok és azok, amelyek az agyi struktúra és a mentális betegségek kapcsolatát hivatottak feltárni, szintén hibásak, az idegtudomány egész területét újra kell tervezni, a korábbi vizsgálatokat ellenőrizni kell, és új eszközöket is keresni kell a valódi pontosság érdekében.

Mi az oka annak, hogy a legtöbb közölt kutatási eredmény hamis?

Az, hogy a kutatási eredmények nagy része hamis, sajnos nem pusztán az idegtudományok esetében igaz. A téma szakértője, a Stanford Egyetem epidemiológusa, John Ioannidis 15 évnyi kutatás után 2005-ben publikálta nagy megdöbbenést kiváltó tanulmányát, melynek címe: Mi az oka annak, hogy a legtöbb közölt kutatási eredmény hamis? (PLoS Medicine.) Ebben arra a következtetésre jutott, hogy a publikált eredmények legalább fele helytelen (orvostudománnyal kapcsolatos megállapításairól a MedicalOnline is beszámolt), rosszul használja a statisztikát vagy gyengécske a vizsgálati dizájn.

Érdekes módon a kutatók nem háborodtak fel Ioannidis megállapításain, hanem nagy energiával vetették magukat a vitába, és elkezdték kiküszöbölni a hibákat, írja a New Scientist. Az idegtudományt érintő legújabb kritika része ennek a vitának, amely minden bizonnyal igen sokáig fog tartani, hiszen, teszi hozzá Ingfei Chen, a tudósokat nagy erők lökik a hibás eredmények publikációja felé: hatalmas a nyomás, hogy közölhető felfedezéseket tegyenek, a negatív eredmények közlési gyakorlata még kialakulatlan, a kutatásokat csak igen ritkán ellenőrzik/ismétlik meg (az orvostudományi kutatások zöme is reprodukálatlan), és a nyert adatokat gyakran addig értelmezgetik, amíg azok a kívánt eredményt nem mutatják. Az idegtudomány, mint mondják, példát vehet a genetikáról, ami egy évtizede hasonló krízist élt meg, és azóta a gyermekkorból talán elkezdett a felnőttkor felé haladni: rájöttünk, hogy a redukcionista egy gén – egy fehérje – egy betegség – egy gyógyszer szemlélet téves, a betegségek sokkal komplexebbek ennél, és nemcsak az derült ki, hogy óriási genetikai sötét anyag van a kromoszómáinkban, de már elkezdtük ennek feltárását is. Ma már nyilvánvaló, hogy téves volt az intelligencia vagy az addikció vagy a homoszexualitás génjét keresni, és ugyanez a helyzet a komplex személyiségvonásokért, a szerelemért vagy a vallásosságért vagy a szorongásért felelős agyi régiókkal is. Ha az idegtudomány megoldja aktuális krízisét, sokkal erősebbé fog válni, teszik hozzá a bizakodók.

5 vizsgálatból 4 fals eredményt ad

Bizakodó Tal Yarkoni idegtudós is, aki a New Scientistnek azt nyilatkozta, hogy 2008 óta kevesebb a vudu-korrelációt publikáló tanulmány, és a vizsgálatok a dupla mintavételezés követelményének is egyre inkább megfelelnek, az idegtudósok belátják, hogy a személyiségvonások sok-sok különböző agyi régióval hozhatók összefüggésbe, amelyek komplex interakcióban vannak egymással. Azok az elméletek, amelyek néhány agyi terület, pl. az amigdala specifikus szerepét hirdették a személyiség kialakulásában, egyre inkább az álmok világába tartoznak.

A felnőtté válási folyamatban azonban az idegtudománynak további kihívásokkal kell szembenéznie: tavaly a már említett Craig Bennett azt is demonstrálta, hogy egy-egy fMRI-vizsgálatot vagy 7 ezer féleképp lehet elemezni, és ugyanazon adatmennyiség alapján az eredmények igencsak eltérnek egymástól. Azaz a kutatók véletlenül vagy akár szándékosan olyan eredményekre juthatnak, ami a számukra a legszimpatikusabb.

Ennél is nagyobb veszélyre hívja fel a figyelmet Ioannidis és munkatársainak egy idei tanulmánya. Most nem csak az fMRI-vizsgálatokat elemezték, hanem 730 olyan tanulmányt, amelyek neurológiai betegségek, pl. Alzheimer-kór vagy krónikus fájdalom kockázati tényezőit, illetve terápiás módszereit mutatták be, és számos módszert alkalmaztak, így genetikai és kognitív teszteket, klinikai vizsgálatokat. Megnézték, hogy az egyes vizsgálatok milyen statisztikai erővel rendelkeztek, azaz milyen eséllyel voltak képesek valami olyat felfedezni, ami tényleg valós. Az eredmény gyászos: az átlagos statisztikai erő 20 százalék körüli (Nature Reviews Neuroscience, Power failure: why small sample size undermines the reliability of neuroscience), aminek az oka legtöbbször az, hogy túl kevés vizsgálati alannyal dolgoznak. Más szavakkal: napjainkban 5 vizsgálatból 4 fals negatív vagy fals pozitív eredményt ad. A strukturális MRI-vizsgálatok eredményeinek validitása még ennél is szánalmasabb: itt a vizsgálatok 92 százaléka eredményez hibás következtetéseket, amikor pl. mentális állapotokat, pl. az autizmust vagy a depressziót akarják az agy szerkezeti sajátosságaival összekapcsolni. Az idegtudomány komoly bajban van, mondja Ioannidis.

Tudásunknak az a része, ami kiállta az idő próbáját, persze nem kérdőjelezendő meg, így Ioannidis nem vonja kétségbe az anatómia tankönyvek állításait. A Broca-mező sérülése agyvérzés következtében nyilvánvalóan befolyásolja a beszédképességet, így biztosak lehetünk abban, hogy szerepe van a nyelv gyakorlásában – ilyen óriási hatást nem lehet figyelmen kívül hagyni akkor sem, ha kicsi a vizsgált emberek száma. A probléma az újabb kutatási eredményekkel van, különösen azon kutatások esetén, amelyek apró részeire akarják szedni és úgy vizsgálni a komplex mentális folyamatokat.

Hitelességi becslések

Az epidemiológus megoldási javaslatokkal is szolgál az idegtudomány bajaira. Érdemes növeli a minta elemszámát: bár egy-egy fMRI-vizsgálat 500 dollár/óra költsége tetemes, még mindig jobban költjük el a pénzt, ha kevesebb, de nagyobb vizsgálatot finanszírozunk. Az fMRI-t egyébként mindössze 20 éve fedezték fel, meg kell tanulnunk, hogyan kell jól használni. További előrelépést jelentene, ha az idegtudósok megosztanák valamennyi eredményüket, és igyekeznének mások eredményeit reprodukálni. A 2010-ben indult Open fMRI Project pl. lehetőséget ad arra, hogy a kutatók feltöltsék adataikat, amit aztán a többiek reanalizálhatnak és validálhatnak. A kutatók hitelességi becsléseket is tehetnének vizsgálati eredményeik kapcsán, ez megmondaná, mennyire valószínű, hogy egy tökéletesen tervezett, nagy esetszámú vizsgálat a kérdéses vizsgálat eredményeivel azonos eredményt produkálna.

A tudomány egy evolúciós folyamat, az ellentmondások és a cáfolatok természetes részét képezik. Ha tanulunk a múlt hibáiból, mondja Ioannidis, az agy tanulmányozása napról napra több valódi eredményt fog hozni.

Dr. Kazai Anita

Forrás: http://medicalonline.hu/tudomany/cikk/bajban_van_az_idegtudomany"

Az agy számos mérhető jelenséget produkál

Másik érdekes tanúlságot a pszichológiai kutatásokkal kapcsolatban fogalmazták meg:

"Hatalmas pofont kapott a pszichológia, mint tudomány

A támadást egy szociálpszichológus, a virginiai Center for Open Sciencevezetője, Brian Nosek vitte be, amikor 269 szerzőtársával közösen megismételtek 98 olyan pszichológiai kutatást, melyeknek eredménye a vezető szaklapokban jelent meg a közelmúltban. Eredményeiket a Science-ben publikálták.

Az eredeti és most megismételt kísérletek nagyon széles skálán mozogtak, a bizonytalanság kifejezésének kérdésétől kezdve, át azon, hogy hogyan reagálnak gyerekek és felnőttek félelmetes ingerekre, egészen odáig, hogy hogyan érdemes hatékonyan számtant tanítani. Azaz pont olyan témák voltak, melyekkel rendszeresen összeakadhatunk a pszichológiai szakirodalomban.

És azt találták, hogy a száz kísérletükből mindössze 39 esetben sikerült az eredeti feltételek megteremtésével az eredeti eredményt elérni. (A 98-féle kísérlet közül kettőt két csapat is megismételt, egymástól függetlenül, így jött ki a százas minta.)

A 39 százalékos reprodukálhatósági arány a kutatóstáb szubjektív megítélésén múlt, azaz hogy sikeresnek vagy sikertelennek ítélték-e az újra végigvitt kísérletet, ugyanakkor egy másik módszer, amit bevetettek, még lesújtóbb képet mutatott. Míg az eredeti kutatások 97 százaléka mutatott fel szignifikáns hatást, addig a megismételt kutatásoknak csak a 36 százalékánál találtak ilyet. Sőt, általában a mért hatás mértéke is átlagot tekintve fele akkora volt a második körben, mint az eredeti tanulmányokban.

Nosek szerint mindebből nem derül ki semmi arról, hogy egyes konkrét tanulmányok igazak-e vagy hamisak. Mind az eredeti, mind a megismételt kutatás lehet hibás vagy lehet közöttük olyan kritikus különbség, amit most nem vettek észre. De nem is egyes kutatások eredményének a cáfolata volt a céljuk, hanem hogy megmutassák, még a legnevesebb folyóiratok publikációi sem esnek át elég alapos vizsgálaton.

A mostani ellenőrző kísérletsorozat a 2011-ben indított Reprodukálhatósági Projekt névre keresztelt munkának az eleme. Korábban ennek a projektnek köszönhetően sikerült felfedni több komolyabb csalásgyanús statisztikafelhasználását, ami amolyan identitásválságot is okozott a pszichológián belül. Vannak, akik szerint a reprodukálhatósági hibaarány akár jóval magasabb is lehet. A Stanford Egyetem kutatója, John Ioannidis szerint ez akár elérheti a nyolcvan százalékot is.

Mindez azért lehet így, mert Nosek és kollégái csak a legnevesebb, szakmailag legkitűnőbb folyóiratok munkáira fókuszáltak, ráadásul kísérleteket az eredeti kutatókkal együttműködve végezték, azaz minden feltétel adott volt, hogy a reprodukálhatóság megvalósulhasson. És így sikerült csak 39 százalékban megtenni ezt.

Ugyanakkor már ez a nagy ívű együttműködés a kutatás készítői és a megismétlő csapat tagjai között arra utal, hogy minden fél nyitott a fejlődésre Ioannidis szerint. Olyan már korábban is volt, hogy egy-egy kutatásba belekötöttek, mert nem sikerült ugyanazt az eredményt elérni megismételt körülmények között. De ilyen nagy számban, egyszerre, ezt még soha senki nem tette le az asztalra. Mindez alapjaiban alakíthatja át azt, ahogy a pszichológiáról fogunk a jövőben gondolkodni.

Nosek szerint amúgy komoly gond van a szakfolyóiratok szerkesztési elvével is, az is vezethetett ehhez a helyzethez. Komoly, pontos de unalmas tanulmányokat nem szeret senki sem publikálni, mindenki az úgynevezett statisztikai jackpotra hajt, amikor az adatsoraiból valami nagy mondás lesz kiolvasható. Szerinte mindez nem is csak a pszichológia problémája, más tudományterületek is hasonlóval küzdenek.

Egy korábbi elemzés szerint 53, magasan jegyzett folyóiratban megjelent, a rák biológiájával foglalkozó tanulmány közül csak hat volt reprodukálható. Minden területen hatalmas a verseny, hogy nagyot szólva a legnevesebb lapokban publikáljanak a kutatók, ez viszi előre igazán a karrierjüket. És ez akaratlanul is, de mindenhol felülírja időnként az objektivitást. Arról, hogy hogyan burjánzik túl a józan észen a publikációs kényszer, tavaly írtunk már egyszer.

De mindebből nem az jön, hogy akkor az egész pszichológia valami szemfényvesztő vudu dolog, mint mondjuk Matolcsy közgazdaságtanai. Komoly tudományterületről van szó, ami már rengeteget tett, hogy segítsen megértetni az emberi agy működését. Nosek szerint látni kell, hogy egyrészt a reprodukálhatóság egy nagyon kemény dolog.

A tudósok jellemzően nehéz problémákkal foglalkoznak, olyan kérdéseket vizsgálnak, mire nem tudják a választ. Szóval az, hogy valami nem jól sül el a kutatási folyamat során, azt jelenti, hogy nem kaptuk meg a helyes választ azonnal. De ebben semmi meglepő nincs. Van pár módszer, amivel segíteni lehetne az előrehaladást. Ilyen lenne például, ha a kutatók jobban megosztanák a kutatásaik részleteit, nyilvánosan elérhető adatbázisokat építenének.

Egyben az összes következtetést is feltennék, amit levontak a tanulmány során. Ha az alkalmazott módszertani elvek jobban áttekinthetőek lennének a publikációkban, azzal máris nagyot nyerne minden tudományterület. De Nosek szerint lehetne minden kutatás végére mellékelni egy instrukciós listát is, hogy ha valaki meg akarja ismételni a kísérletet, tudja, hogy vágjon bele. (via Nature, Vox, Science)

Horváth Bence

forrás: https://444.hu/2015/08/30/hatalmas-pofont-kapott-a-pszichologia-mint-tudomany"

Mit látunk? Azt, hogy a kutatások másik fontos eleme, hogy azok mérései reprodukálhatóak legyenek. Emellett újra fontos hangsúlyozni, hogy a társadalomtudományok olyan populációt és jelenségeket mérnek, amelynek a reprodukálási lehetősége nem lehetséges kis hibahatárral. Ezért is van az, hogy míg a természettudományos- és reálterületek arra is képesek, hogy "törvényeket" alkossanak meg, addig a pszichológiához kapcsolódóan legfeljebb a pszichofizika törvényeiről beszélhetünk (Weber-törvénye).

Mire kell tehát figyelnünk? Arra, hogy ismerjük a mérni kívánt jelenségünket, állítsuk fel a mérési pontosságot az értelmezési kereteknek megfelelően (annál ne elégedjünk meg sem alacsonyabb, sem magasabb tartománnyal), azt mérjük, amire kíváncsiak vagyunk és a méréseink lehetőleg reprodukálhatóak, de mindenek előtt megbízhatóak legyenek! Ehhez további olvasnivalót a kutatásmódszertan menüpontban találhattok.

STATOKOS | STATISZTIKAI ÉS MÓDSZERTANI ADATBÁZIS

Mérőeszközeink: a valóság kielégítő, az igazság silány

Mi az oka annak, hogy a legtöbb közölt kutatási eredmény hamis?

5 vizsgálatból 4 fals eredményt ad

Hitelességi becslések

Friss bejegyzések

Comentarios