SPSS: diferència entre les revisions
m (Text replacement - "[[Imatge:" to "[[Image:") |
|||
(98 revisions intermèdies per 5 usuaris que no es mostren) | |||
Línia 22: | Línia 22: | ||
'''Lloc, dates i durada''': El curs té una durada de 20 hores repartides en 5 sessios: | '''Lloc, dates i durada''': El curs té una durada de 20 hores repartides en 5 sessios: | ||
'''Certificació''': es lliurarà un certificat d’assistència a tots els alumnes que assisteixin al 80% de les hores lectives del curs. En el certificat constarà el nombre d’hores del curs i el registre corresponent. | '''Certificació''': es lliurarà un certificat d’assistència a tots els alumnes que assisteixin al 80% de les hores lectives del curs. En el certificat constarà el nombre d’hores del curs i el registre corresponent. | ||
Línia 80: | Línia 49: | ||
- material i mètodes: descriptiu, variables (edat, pes o prim si/no i estat civil) | - material i mètodes: descriptiu, variables (edat, pes o prim si/no i estat civil) | ||
- resultats: | - resultats: | ||
1. comparar | 1. comparar la proporció de prims en cadascun dels estats civils (objectiu principal) | ||
2. comparar | 2. comparar les mitjanes d'edat dels prims i dels no prims (confusió) | ||
3. comparar la mitjana d'edat amb l'estat civil (confusió) | |||
- conclusions: en funció dels resultats | - conclusions: en funció dels resultats | ||
Línia 92: | Línia 62: | ||
L'SPSS funciona com qualsevol altre programa, amb els iconos i els menús de la part de dalt que anirem veient per què serveixen alguns d'ells poc a poc. L'SPSS a més té varies pantalles que serveixen per diferents coses. Ara les veurem, només per conèixer-les. | L'SPSS funciona com qualsevol altre programa, amb els iconos i els menús de la part de dalt que anirem veient per què serveixen alguns d'ells poc a poc. L'SPSS a més té varies pantalles que serveixen per diferents coses. Ara les veurem, només per conèixer-les. | ||
#La pantalla que ens surt primer de tot és la pantalla on hi hauran les '''nostres dades''' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf1.JPG (Figura 1)]. A les files normalment hi ha els pacients i a les columnes les diferents variables que hem recollit. Si mirem la part de baix de la pantalla, veurem que hi ha dues pestanyes: la que posa ''data view'' que és la que acabem de veure i la que posa ''variable view''. Aneu a la que posa ''variable view'' i veureu que ara canvia: les files ara son les variables i les columnes son les característiques de cadascuna de les variables. [[ | #La pantalla que ens surt primer de tot és la pantalla on hi hauran les '''nostres dades''' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf1.JPG (Figura 1)]. A les files normalment hi ha els pacients i a les columnes les diferents variables que hem recollit. Si mirem la part de baix de la pantalla, veurem que hi ha dues pestanyes: la que posa ''data view'' que és la que acabem de veure i la que posa ''variable view''. Aneu a la que posa ''variable view'' i veureu que ara canvia: les files ara son les variables i les columnes son les característiques de cadascuna de les variables. [[Image:SPSSf1.JPG|thumb|320px|center|Figura 1]] | ||
#Després tenim la pantalla que es diu '''sintaxi''' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf2.JPG (Figura 2)]. És on s'escriuran les ordres per a l'anàlisi de les nostres dades. Molta gent no ho fa servir,però és molt útil fer servir la sintaxi ja que així guardem pas per pas tot el què fem i si algun dia canviem alguna dada o afegim més pacients amb 10 segons tornem a tenir tot l'anàlisi fet.[[ | #Després tenim la pantalla que es diu '''sintaxi''' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf2.JPG (Figura 2)]. És on s'escriuran les ordres per a l'anàlisi de les nostres dades. Molta gent no ho fa servir,però és molt útil fer servir la sintaxi ja que així guardem pas per pas tot el què fem i si algun dia canviem alguna dada o afegim més pacients amb 10 segons tornem a tenir tot l'anàlisi fet.[[Image:SPSSf2.JPG|thumb|320px|center|Figura 2]] | ||
#I finalment tenim la pantalla dels '''resultats o output''' en anglès, que és on ens sortiran les taules i gràfics que nosaltres li direm que ens faci. De moment no veiem la pantalla perquè com que no tenim dades no podem tenir cap resultat. | #I finalment tenim la pantalla dels '''resultats o output''' en anglès, que és on ens sortiran les taules i gràfics que nosaltres li direm que ens faci. De moment no veiem la pantalla perquè com que no tenim dades no podem tenir cap resultat. | ||
Línia 103: | Línia 73: | ||
*Per '''importar una base de dades en Access''', hem de fer el següent. Haurem d'anar a ''file'' -> ''open database'' -> ''new query'' -> ens hem de posar damunt de ''MS Access Database'' -> ''siguiente''. | *Per '''importar una base de dades en Access''', hem de fer el següent. Haurem d'anar a ''file'' -> ''open database'' -> ''new query'' -> ens hem de posar damunt de ''MS Access Database'' -> ''siguiente''. | ||
*Ara ens demana on tenim la base de dades en Access. Per dir-li on la tenim piquem a ''browse'' i busquem la nostra base de dades en Access -> i un cop la tenim anem a ''l'OK''. | *Ara ens demana on tenim la base de dades en Access. Per dir-li on la tenim piquem a ''browse'' i busquem la nostra base de dades en Access -> i un cop la tenim anem a ''l'OK''. | ||
*Ara ens surt una pantalla amb la taula principal de la nostra base de dades i totes les seves variables. Hem d'arrastrar el nom de la taula, en aquest cas ''principal'' a la finestra del costat on posa ''retrieve fields in this order''. Ens han de sortir les nostres variables al quadre de la dreta. Un cop comprovat [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf3.JPG (figura 3)] fem ''siguiente'' -> ''siguiente'' un altre cop. [[ | *Ara ens surt una pantalla amb la taula principal de la nostra base de dades i totes les seves variables. Hem d'arrastrar el nom de la taula, en aquest cas ''principal'' a la finestra del costat on posa ''retrieve fields in this order''. Ens han de sortir les nostres variables al quadre de la dreta. Un cop comprovat [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf3.JPG (figura 3)] fem ''siguiente'' -> ''siguiente'' un altre cop. [[Image:SPSSf3.JPG|thumb|640px|center|Figura 3]] | ||
*En aquesta pantalla on veiem totes les variables poden passar varies coses [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf4.JPG (figura 4)]: | *En aquesta pantalla on veiem totes les variables poden passar varies coses [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf4.JPG (figura 4)]: | ||
**Que hagueu posat als noms de les variables símbol raro que a l'SPSS no li agradi. En aquest cas us el farà canviar. | **Que hagueu posat als noms de les variables símbol raro que a l'SPSS no li agradi. En aquest cas us el farà canviar. | ||
**Que tingueu una variable amb diferents categories, com és el cas del nostre ''estat civil''. Com veieu, hi ha un quadradet que podem marcar o no. Si no el marquem, la variable romandrà tal quan l'hem fet, per tant, serà una variable ''tipus text''. Si el marquem, la variable es convertirà en numèrica i el text que és es convertirà en etiqueta. Això és el què ens interessa, per tant, marquem el quadradet. | **Que tingueu una variable amb diferents categories, com és el cas del nostre ''estat civil''. Com veieu, hi ha un quadradet que podem marcar o no. Si no el marquem, la variable romandrà tal quan l'hem fet, per tant, serà una variable ''tipus text''. Si el marquem, la variable es convertirà en numèrica i el text que és es convertirà en etiqueta. Això és el què ens interessa, per tant, marquem el quadradet. | ||
[[ | [[Image:SPSSf4.JPG|thumb|640px|center|Figura 4]] | ||
*''Siguiente'' -> marquem l'opció de ''paste it'' -> ''finalizar''. Veureu que se us ha obert una nova finestra, és l'arxiu de la ''sintaxi'' de l'SPSS. I en aquest arxiu de ''sintaxi'' veiem que s'hi han escrit les ordres d'importar la base de dades a la fulla de ''dades'' de l'SPSS, però encara no les hem importat! | *''Siguiente'' -> marquem l'opció de ''paste it'' -> ''finalizar''. Veureu que se us ha obert una nova finestra, és l'arxiu de la ''sintaxi'' de l'SPSS. I en aquest arxiu de ''sintaxi'' veiem que s'hi han escrit les ordres d'importar la base de dades a la fulla de ''dades'' de l'SPSS, però encara no les hem importat! | ||
*És molt útil escriure a dalt de cada ordre de sintaxi què és el què fa. Per exemple, sobre de la sintaxi que hem enganxat per importar la base de dades, podem escriure el següent per saber d'aquí uns mesos què vol dir. Per escriure a la sintaxi i que després al tirar-la no doni error, hem d'escriure el què volem entre un asterisc (*) i un punt (.), tal com es veu en el següent quadre: | *És molt útil escriure a dalt de cada ordre de sintaxi què és el què fa. Per exemple, sobre de la sintaxi que hem enganxat per importar la base de dades, podem escriure el següent per saber d'aquí uns mesos què vol dir. Per escriure a la sintaxi i que després al tirar-la no doni error, hem d'escriure el què volem entre un asterisc (*) i un punt (.), tal com es veu en el següent quadre: | ||
*Importar base de dades. | *Importar base de dades. | ||
*Per importar-les de veritat hem d'aprendre un nou concepte de l'SPSS: ''executar o tirar la sintaxi''. La sintaxi son ordres escrites que el què faran és importar la base de dades, crearan variables o ens calcularan i ensenyaran resultats. I per executar aquestes ordres el què hem de fer és seleccionar-les (seleccionar el text) i després prémer el botó del play [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf5.JPG (figura 5)]. I el què passa és que ara ja si importem realment la base de dades. Ho podem anar a comprovar mirant la finestra de les ''dades'' de l'SPSS [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf6.JPG (figura 6)]. Si veieu asteriscs a la data és que la columna és massa estreta, l'heu de fer més gran. | *Per importar-les de veritat hem d'aprendre un nou concepte de l'SPSS: ''executar o tirar la sintaxi''. La sintaxi son ordres escrites que el què faran és importar la base de dades, crearan variables o ens calcularan i ensenyaran resultats. I per executar aquestes ordres el què hem de fer és seleccionar-les (seleccionar el text) i després prémer el botó del play [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf5.JPG (figura 5)]. I el què passa és que ara ja si importem realment la base de dades. Ho podem anar a comprovar mirant la finestra de les ''dades'' de l'SPSS [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf6.JPG (figura 6)]. Si veieu asteriscs a la data és que la columna és massa estreta, l'heu de fer més gran. | ||
[[ | [[Image:SPSSf5.JPG|thumb|640px|center|Figura 5]] | ||
[[ | [[Image:SPSSf6.JPG|thumb|640px|center|Figura 6]] | ||
Doncs ja tenim la base de dades a l'SPSS. | Doncs ja tenim la base de dades a l'SPSS. | ||
Línia 144: | Línia 114: | ||
|Estat civil | |Estat civil | ||
|Estat civil | |Estat civil | ||
|Solter, casat/emparellat | |Solter, casat/emparellat. | ||
|- | |- | ||
|} | |} | ||
Línia 155: | Línia 125: | ||
Les variables tenen algunes propietats que caldrà saber. Si anem a la pestanya de ''variable view'' podrem veure-ho [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf8.JPG (Figura 8)]. | Les variables tenen algunes propietats que caldrà saber. Si anem a la pestanya de ''variable view'' podrem veure-ho [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf8.JPG (Figura 8)]. | ||
[[ | [[Image:SPSSf8.JPG|thumb|640px|center|Figura 8]] | ||
*Primer de tot, el ''nom'' o ''name'' de la variable. És el nom curt que li donem a la variable i és de la forma que li hem de dir quan volguem escriure a la sintaxi. | *Primer de tot, el ''nom'' o ''name'' de la variable. És el nom curt que li donem a la variable i és de la forma que li hem de dir quan volguem escriure a la sintaxi. | ||
*Una variable pot ser de varis ''tipus''. Els que més farem servir serà: | *Una variable pot ser de varis ''tipus''. Els que més farem servir serà: | ||
Línia 172: | Línia 142: | ||
Ara tenim una pantalla amb el llistat de variables a l'esquerra i tot de sub-menús a la dreta [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf9.JPG (Figura 9)]. | Ara tenim una pantalla amb el llistat de variables a l'esquerra i tot de sub-menús a la dreta [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf9.JPG (Figura 9)]. | ||
[[ | [[Image:SPSSf9.JPG|thumb|640px|center|Figura 9]] | ||
*'''NHC''': a ''label'' o ''etiqueta'' hi posarem la descripció del què és: '''Número d'història clínica'''. La resta ho deixem tal com està. | *'''NHC''': a ''label'' o ''etiqueta'' hi posarem la descripció del què és: '''Número d'història clínica'''. La resta ho deixem tal com està. | ||
*'''datan''': a ''label'' hi posem '''Data de naixement'''. A ''type'' veiem que hi ha un desplegable amb diferents tipus de formats de data. Escollim el que més ens sigui útil `per la nostra finalitat. Agafeu sempre el que tingui l'any amb 4 xifres, que si s'agafa l'any amb 2 xifres hi poden haver problemes. | *'''datan''': a ''label'' hi posem '''Data de naixement'''. A ''type'' veiem que hi ha un desplegable amb diferents tipus de formats de data. Escollim el que més ens sigui útil `per la nostra finalitat. Agafeu sempre el que tingui l'any amb 4 xifres, que si s'agafa l'any amb 2 xifres hi poden haver problemes. | ||
Línia 200: | Línia 170: | ||
Un cop tenim les variables definides tal com ens agrada, haurem de crear la variable '''edat''' a partir de la data de naixement i de la data d'avui [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf7.JPG (Figura 7)]. També es pot fer a partir d'una altra data que tingueu com a variable en la base de dades. | Un cop tenim les variables definides tal com ens agrada, haurem de crear la variable '''edat''' a partir de la data de naixement i de la data d'avui [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf7.JPG (Figura 7)]. També es pot fer a partir d'una altra data que tingueu com a variable en la base de dades. | ||
[[ | [[Image:SPSSf7.JPG|thumb|640px|center|Figura 7]] | ||
Anem a ''transform'' | Anem a ''transform'' | ||
Línia 238: | Línia 208: | ||
I ens surt aquesta pantalla [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf10.JPG (Figura 10)], on haurem de dir a la dreta els valors antics i a l'esquerra els nous. Nosaltres volem que els prims siguin els que pesen menys de 70. | I ens surt aquesta pantalla [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf10.JPG (Figura 10)], on haurem de dir a la dreta els valors antics i a l'esquerra els nous. Nosaltres volem que els prims siguin els que pesen menys de 70. | ||
[[ | [[Image:SPSSf10.JPG|thumb|640px|center|Figura 10]] | ||
-> empleneu segons els criteris | -> empleneu segons els criteris | ||
Línia 313: | Línia 283: | ||
*la mostra, que són els individus que nosaltres hem estudiat i amb els que treballarem, és a dir els que tenim a la base de dades | *la mostra, que són els individus que nosaltres hem estudiat i amb els que treballarem, és a dir els que tenim a la base de dades | ||
Quan describim la nostra mostra, el que volem en realitat no és dir, per exemple, que la mitjana d'edat dels homes casats que hem estudiat és de X anys, sinó que volem ''extrapolar'' aquest valor per poder dir que la mitjana d'edat de ''tots'' els homes casats de Barcelona és de X anys. Per fer aquest pas necessitem els intervals de confiança, que ens diran un interval de valors entre els quals podem estar relativament segurs que hi ha el veritable valor de la mitjana d'edat dels homes casats de Barcelona. El que ens diu en realitat l'interval, és que si agafessim 100 mostres de la població que volem estudiar (totes del mateix tamany de la nostra), en 95 de les 100 el valor de la mitjana estaria dins d'aquell interval. Pot ser una mica liat, però és important entendre-ho. | Quan describim la nostra mostra, el que volem en realitat no és dir, per exemple, que la mitjana d'edat dels homes casats que hem estudiat és de X anys, sinó que volem ''extrapolar'' aquest valor per poder dir que la mitjana d'edat de ''tots'' els homes casats de Barcelona és de X anys. Per fer aquest pas necessitem els intervals de confiança, que ens diran un interval de valors entre els quals podem estar relativament segurs que hi ha el veritable valor de la mitjana d'edat dels homes casats de Barcelona. El que ens diu en realitat l'interval, és que si agafessim 100 mostres de la població que volem estudiar (totes del mateix tamany de la nostra), en 95 de les 100 el valor de la mitjana estaria dins d'aquell interval. Pot ser una mica liat, però és important entendre-ho: es tracta que confiem que el 95% de les vegades l'interval conté el paràmetre, però no sabem si el nostre interval concret pertany a aquest 95% o al 5% que falla. | ||
Com més gran és una mostra (més persones estudiem), més estret serà l'interval de confiança i per tant més informació tindrem. No és evidentment el mateix dir que la mitjana d'edat és de 45 anys amb un interval que va de 20 a 70 anys (per això no calia fer cap estudi!), que no pas dir que és de 45 anys amb un interval de 44 a 46 anys. Per això és important treballar amb mostres grans, sempre que els diners i el temps ens ho permetin! | Com més gran és una mostra (més persones estudiem), més estret serà l'interval de confiança i per tant més informació tindrem. No és evidentment el mateix dir que la mitjana d'edat és de 45 anys amb un interval que va de 20 a 70 anys (per això no calia fer cap estudi!), que no pas dir que és de 45 anys amb un interval de 44 a 46 anys. Per això és important treballar amb mostres grans, sempre que els diners i el temps ens ho permetin! | ||
Línia 336: | Línia 306: | ||
*Per descriure la variable edat, com que és quantitativa haurem de fer un ''explore'' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf11.JPG (Figura 11)]: | *Per descriure la variable edat, com que és quantitativa haurem de fer un ''explore'' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf11.JPG (Figura 11)]: | ||
[[ | [[Image:SPSSf11.JPG|thumb|640px|center|Figura 11]] | ||
Anem a ''Analyze'' -> | Anem a ''Analyze'' -> | ||
Línia 342: | Línia 312: | ||
''Explore'' -> passem la variable edat a la caixa de la dreta on posa ''dependent list'' | ''Explore'' -> passem la variable edat a la caixa de la dreta on posa ''dependent list'' | ||
*Veurem que hi ha dos botons per triar les opcions d'aquesta funció [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf12.JPG (Figura 12)]: [[ | *Veurem que hi ha dos botons per triar les opcions d'aquesta funció [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf12.JPG (Figura 12)]: [[Image:SPSSf12.JPG|thumb|640px|center|Figura 12]] | ||
**El que posa ''statistics'' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf13.JPG (Figura 13)]: amb aquest triem les opcions següents: [[ | **El que posa ''statistics'' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf13.JPG (Figura 13)]: amb aquest triem les opcions següents: [[Image:SPSSf13.JPG|thumb|640px|center|Figura 13]] | ||
**El que posa ''plots'' que son gràfics: [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf14.JPG (Figura 14)]: amb aquest triem les opcions següents: [[ | **El que posa ''plots'' que son gràfics: [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf14.JPG (Figura 14)]: amb aquest triem les opcions següents: [[Image:SPSSf14.JPG|thumb|640px|center|Figura 14]] | ||
Fem paste -> | Fem paste -> | ||
anem a la finestra de la sintaxi i executem l'ordre que ens acaba d'enganxar. | anem a la finestra de la sintaxi i executem l'ordre que ens acaba d'enganxar. | ||
Ja tenim els resultats. Ens hauria d'haver sortit una nova finestra, aquest cop de resultats amb la següent pinta [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf15.JPG (Figura 15)]: [[ | Ja tenim els resultats. Ens hauria d'haver sortit una nova finestra, aquest cop de resultats amb la següent pinta [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf15.JPG (Figura 15)]: [[Image:SPSSf15.JPG|thumb|640px|center|Figura 15]] | ||
Intentarem explicar una mica tots aquests números, ara. Anem per passos: | Intentarem explicar una mica tots aquests números, ara. Anem per passos: | ||
Línia 364: | Línia 334: | ||
També ens haurien d'haver sortit uns gràfics. Aquest [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf16.JPG (Figura 16)] | També ens haurien d'haver sortit uns gràfics. Aquest [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf16.JPG (Figura 16)] | ||
[[ | [[Image:SPSSf16.JPG|thumb|320px|center|Figura 16: el Box Plot]] | ||
és un ''boxplot''. A l'eix vertical hi ha els valors de l'edat, i a l'horitzontal......... no hi ha res :) La línia horitzontal més gruixuda del mig de la caixa central representa la mediana. Les línies horitzontals que delimiten la caixa són els percentils 25 i 75 (a.k.a. quartil 1 i quartil 3). Els límits de les potes que surten cap amunt i cap avall són els valors considerats normals o no anòmals. Tot aquest dibuix, com més simètric sigui, vol dir que més normal és la nostra mostra. En aquest cas veiem que la mediana està una mica més avall del que li tocaria (no està al mig de la caixa), el que vol dir que els individus de més edat estan més dispersos que els més joves. Bueno, una mica complicat, no? La cosa és que sabem que per sota la mediana hi ha el 50% dels individus, però aquest 50% està en menys espai (menys valors diferents d'edat) que el 50% superior. | és un ''boxplot''. A l'eix vertical hi ha els valors de l'edat, i a l'horitzontal......... no hi ha res :) La línia horitzontal més gruixuda del mig de la caixa central representa la mediana. Les línies horitzontals que delimiten la caixa són els percentils 25 i 75 (a.k.a. quartil 1 i quartil 3). Els límits de les potes que surten cap amunt i cap avall són els valors considerats normals o no anòmals. Tot aquest dibuix, com més simètric sigui, vol dir que més normal és la nostra mostra. En aquest cas veiem que la mediana està una mica més avall del que li tocaria (no està al mig de la caixa), el que vol dir que els individus de més edat estan més dispersos que els més joves. Bueno, una mica complicat, no? La cosa és que sabem que per sota la mediana hi ha el 50% dels individus, però aquest 50% està en menys espai (menys valors diferents d'edat) que el 50% superior. | ||
Línia 371: | Línia 341: | ||
Aquest altre gràfic [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf17.JPG (Figura 17)] | Aquest altre gràfic [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf17.JPG (Figura 17)] | ||
[[ | [[Image:SPSSf17.JPG|thumb|320px|center|Figura 17: l'histograma]] | ||
és un histograma, que tots coneixem més. No és més que la freqüència de cadascun dels valors. A la dreta de tot veiem el nostre valor anòmal de 146 anys. | és un histograma, que tots coneixem més. No és més que la freqüència de cadascun dels valors. A la dreta de tot veiem el nostre valor anòmal de 146 anys. | ||
Línia 383: | Línia 353: | ||
posem les opcions tal com podem veure a la [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf18.JPG Figura 18] i [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf19.JPG Figura 19] | posem les opcions tal com podem veure a la [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf18.JPG Figura 18] i [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf19.JPG Figura 19] | ||
[[ | [[Image:SPSSf18.JPG|thumb|640px|center|Figura 18]] | ||
[[ | [[Image:SPSSf19.JPG|thumb|640px|center|Figura 19]] | ||
paste -> | paste -> | ||
anem a la sintaxi i executem l'última ordre | anem a la sintaxi i executem l'última ordre | ||
Ara, repetiu el procés però en comptes de marcar ''bar chart'' com a gràfic | |||
marqueu ''pie chart'' perquè us faci el pastel. | |||
Ens hauria de sortir el següent quadre [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf20.JPG Figura 20]: | Ens hauria de sortir el següent quadre [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf20.JPG Figura 20]: | ||
[[ | [[Image:SPSSf20.JPG|thumb|640px|center|Figura 20]] | ||
I el següents gràfics [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf21.JPG Figura 21] i [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf22.JPG Figura 22] | I el següents gràfics [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf21.JPG Figura 21] i [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf22.JPG Figura 22] | ||
[[ | [[Image:SPSSf21.JPG|thumb|320px|center|Figura 21: gràfic de barres]] | ||
[[ | [[Image:SPSSf22.JPG|thumb|320px|center|Figura 22: gràfic de sectors]] | ||
I per l'anàlisi de dades: | I per l'anàlisi de dades: | ||
Línia 456: | Línia 429: | ||
=Anàlisi bivariat= | =Anàlisi bivariat= | ||
Avui aprendrem a relacionar dues variables entre sí, tant per descriure-les com per fer proves estadístiques que ens diguin si estan relacionades o no (per | ==Introducció== | ||
Avui aprendrem a relacionar dues variables entre sí, tant per descriure-les com per fer proves estadístiques que ens diguin si estan relacionades o no. | |||
El primer que hem de fer és saber el que volem saber, per allò de quien no sabe lo que busca no interpreta lo que encuentra. La variable principal del nostre estudi és ESTÀ PRIM, que a partir d'ara l'anomenarem '''variable dependent''' ja que és la que volem explicar (volem explicar perquè alguna gent està més prima que l'altre: potser és per què són solters? o serà per què són més joves?). Les altres variables son les variables explicatives o '''variables independents'''. | |||
L'esquema de l'anàlisi de l'estudi serà el següent: | |||
#Descriure la relació de la variable ESTÀ PRIM amb l'ESTAT CIVIL (objectiu principal del nostre estudi). | |||
#I la relació de la variable ESTA PRIM amb l'EDAT (no és un objectiu, però si que volem saber si l'edat és un confusor i per això ho hem de mirar). Normalment es tenen moltes altres variables a part de les dues principals, aquestes anirien aquí. | |||
Comencem amb un resum de quines proves estadístiques s'han d'utilitzar segons el tipus de variables que volguem relacionar: | Comencem amb un resum de quines proves estadístiques s'han d'utilitzar segons el tipus de variables que volguem relacionar: | ||
Línia 468: | Línia 449: | ||
|- | |- | ||
|'''Categòrica binària''' | |'''Categòrica binària''' | ||
|align=center| | |align=center|Xi-quadrat | ||
|align=center| | |align=center|Xi-quadrat | ||
|align=center|t de student | |align=center|t de student | ||
|- | |- | ||
|'''Categòrica (>2)''' | |'''Categòrica (>2)''' | ||
|align=center| | |align=center|Xi-quadrat | ||
|align=center| | |align=center|Xi-quadrat | ||
|align=center|ANOVA | |align=center|ANOVA | ||
|- | |- | ||
Línia 483: | Línia 464: | ||
|} | |} | ||
Per exemple volem relacionar | Sabent això, quin prova usarieu per relacionar ESTÀ PRIM amb ESTAT CIVIL? | ||
I ESTÀ PRIM amb EDAT? | |||
Bé, avui veurem (o ho intentarem) aquestes proves, però abans un parell de punts importants (i, a vegades, difícils d'entendre): | |||
==La hipòtesi nula i la hipòtesi alternativa== | |||
Sense entrar en disquisicions estadístiques, sempre que fem una prova estadística hem de tenir una hipòtesi. Es sol dir hipòtesi nula a la que diu que no hi ha relació entre les dues variables (un fàrmac no baixa la tensió arterial, o els solters són iguals de grassos que els casats). En canvi la hipòtesi alternativa diu que hi ha relació. Això no es sol dir explícitament, però és el que hi ha sota de les proves estadístiques: el que volem és refutar la hipòtesi nula. | |||
Relacionat amb això hi han els errors α i β, però a la pràctica no serveix de gaire coneixe'ls i anem justos de temps. | |||
==La famosa ''p'' i els nostres vells amics, els intervals de confiança== | |||
Molta gent encara dóna el resultat de les proves estadísitques (chi-quadrat, t de student, etc.) amb el valor de la ''p''. Tothom parla de la ''p'', però que és la ''p''? Doncs es pot entendre com la probabilitat d'haver obtingut els resultats que hem obtingut si fos certa la hipòtesi nula (la que diu que les dues variables no estan relacionades). Per això quan aquest valor ''p'' és molt petit (habitualment inferior al 5%, o sigui a 0,05) es diu que la relació entre les dues variables és significativa. | |||
L'ús de la ''p'' té diferents problemes: | |||
#El seu valor està '''MOLT''' influit pel tamany de la mostra. Com més gent tinguem, més petita serà la ''p'' (i per tant més significativa) encara que la relació entre les variables sigui la mateixa | |||
#No dóna cap informació sobre la magnitud de la relació entre les dues variables, o sigui si estan molt o poc relaciondes | |||
#Un últim problema és que ''filosòficament'' ens dóna la informació contrària a la que nosaltres voldriem saber. Ens diu la probabilitat d'haver obtingut aquells resultats en el cas que la hipòtesi nula fos certa, però no seria més interessant saber la probabilitat que la hipòtesi nula fos certa tenint en compte els resultats que hem obtingut? El problema és que això ens fica de ple en l'estadística ''bayesiana'' (la que fem servir normalment es diu ''freqüentista''), que no la saben utilitzar ni tan sols la majoria dels estadísitcs. Ja fa anys que es diu que és el futur, però el futur no acaba d'arribar... | |||
Per aquests problemes és molt més recomenable utilitzar intervals de confiança que no pas la ''p''!!! Bé, de fet sobretot pel problema 2, ja que en realitat els intervals de confiança també estan molt influits pel tamany de la mostra. | |||
==Significació estadística vs. significació clínica== | |||
Relacionat amb els problemes que hem vist de la ''p'', hi ha una trampa encara massa freqüent en molts articles (sobretot de revistes cutres). Si una farmacèutica agafa 20.000 hipertensos, i a 10.000 els hi dóna placebo i als altres 10.000 un nou fàrmac ultrarevolucionario. Per simplificar les coses, diremt que això ho han fet amb una t de student, ja que tenen una variable binària (placebo o veneno) i una de continua (la tensió arterial). La conclusió de l'estudi, com no (sinó no estaria publicat), és que el nou fàrmac reudeix significativament la tensió arterial. Quines trampes té això? Doncs vàries: | |||
#Ens diuen que la diferència és significativa, o sigui que la ''p'' deu ser inferior a 0,05. I? Quina és la diferència real en mmHg? Té alguna importància clínica baixar de 160 a 158? Amb tanta gent a la mostra, una disminució mínima pot ser significativa! | |||
#Només faltaria que un nou fàrmac no fos millor que placebo, i la majoria de medicaments es segueixen provant contra placebo. A mi què m'interessa d'un nou antiagregant, que previngui més AVC que un placebo o que en previngui més que l'AAS? Pues eso. | |||
Bé, dit tot això, anem a repassar les diferents proves de podem utilitzar en l'anàlisi bivariat: | |||
==Xi-quadrat== | |||
Anem pel primer punt de l'anàlisi de l'estudi: mirar la relació de l'ESTAT CIVIL i d'ESTA PRIM, objectiu principal de l'estudi. Per això hem d'utilitzar la '''Xi-quadrat''', que serveix per relacionar dues variables categòriques (binàries o no), i en aquest cas l'utilitzarem per saber si les variables ESTÀ PRIM I ESTAT CIVIL estan relacionades. La nostra hipotesi és que els solters estan més prims que els casats (això seria la hipotesi alternativa, la nula és que no hi ha diferència en el percentatge de prims entre els dos grups: casats i solters) | |||
El primer que fem és fer una descripció bivariada d'aquestes variables. Això ho fem amb una '''taula 2x2''', amb el procediment ''crosstabs'' del SPSS [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf26.JPG (Figura 26)]: | |||
[[Image:SPSSf26.JPG|thumb|640px|center|Figura 26]] | |||
Anem a ''analyze'' -> | |||
''descriptive statistics'' -> | |||
''crosstabs'' i ens surt la següent pantalla [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf27.JPG (Figura 27)]: | |||
[[Image:SPSSf27.JPG|thumb|640px|center|Figura 27]] | |||
Apretem ''cells'' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf27.JPG (Figura 27)] i se'ns obre una pantalla -> | |||
a ''rows'' o files de la taula 2x2 posem la variable independent, ESTAT CIVIL -> | |||
a ''columns'' o columnes de la taula 2x2 posem la variable depenent ESTA PRIM -> | |||
''continue'' -> | |||
ara apretem a ''statistics'' i li marquem les opcions tal com mostra la [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf28.JPG (Figura 28)] -> | |||
''continue'' -> | |||
''paste'' | |||
[[Image:SPSSf28.JPG|thumb|640px|center|Figura 28]] | |||
I obtenim tot de taules i números que explicarem per passos primer quins hem de mirar i després, què signifiquen: | |||
#'''La primera taula''' ens diu quants pacients son vàlids i quants missing. Si tenim un missing en qualsevol de les dues variables no s'usarà aquell pacient per als càlculs. | |||
#En '''la segona taula''' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf29.JPG (Figura 29)] veiem la descripció de les dades sense res estadístic, és a dir la taula 2x2. Es percentatges que ens interessen son els que estan encerclats: veiem que el percentatge de prims entre els solters és molt superior al percentatge entre els casats [[Image:SPSSf29.JPG|thumb|640px|center|Figura 29]] | |||
#'''La tercera taula''' és la famosa xi-quadrat [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf30.JPG (Figura 30)]. | |||
##'''Condicions d'aplicació de la xi-quadrat'''. Per poder fer una prova de xi-quadrat (que és el que toca) cal que totes les caselles de la taula tinguin almenys 5 casos esperats (això ens ho diu el peu de taula de la tercera taula). Si no es complís podriem usar el test de Fisher (només si les dues variables són binàries, a no ser que volguem assassinar el nostre PC), i si alguna variable té més de dues categories podriem intentar agrupar-les per guanyar número de casos en cada casella. [[Image:SPSSf30.JPG|thumb|320px|center|Figura 30]] | |||
##Aquí el què hem de mirar és la significació de ''Pearson chi-square'' -> veure l'apartat '''valoració de la significació estadística'''. | |||
#'''La quarta taula''' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf31.JPG (Figura 31)], tenim la ''odds ratio'' (cercles)-> veure l'apartat '''valoració de la magnitud de l'associació'''.[[Image:SPSSf31.JPG|thumb|640px|center|Figura 31]] | |||
===Valoració de la magnitud de l'associació: odds ratio=== | |||
Aquí ve l'explicació dels números que hem vist. | |||
Hi ha diverses formes de mesurar l'associació de dues variables categòriques (avís: el següent pot estar basat en experiències i/o manies personals, i no té perquè ser del tot acadèmic): | |||
#Quan una variable és causa de l'altra, o podria ser-ho. Per exemple el fet que estar solter provoca que s'estigui més prim. Hi ha dues mesures clàssiques en epidemiologia que no vé malament conèixer: | |||
##La '''odds ratio''' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf31.JPG (Figura 31)], que vé a ser (encara que no ho és exactament) quantes vegades més risc hi ha de malaltia en un grup que en un altre. Per exemple podriem dir que els fumadors tenen 3 cops més risc de fer un infart que els no fumadors (''odds ratio'' de 3). En el nostre cas, la ''odds'' ratio de 13,6 vol dir que els solters (serien els fumadors) tenen 13,6 vegades més ''risc'' d'estar prims (serie l'equivalent a fer un infart) que els gordos (els no fumadors). A la ''odds ratio'' li podem donar un interval de confiança (que ens dóna l'SPSS), que si no passa per l'1 podem dir que és estadísticament significatiu (cuidao que aquí és per 1, no per 0!). En aquest veieu que l'interval no passa per 1, el que vol dir que '''els solters tenen més risc d'estar prims que els casats''', i aquesta diferència (que ja haviem vist a la taula 2x2) és estadísticament significativa. | |||
##El '''risc relatiu''' (que l'SPSS el pot fer però es lia), s'interpreta igual que la ''odds ratio'', i en aquest cas sí que és exactament quantes vegades més de risc tenen els exposats (els solters) que els no exposats (els casats) d'estar prims (la ''malaltia'' del nostre estudi) | |||
#'''Diferència de proporcions'''. Una altra forma de valorar la magnitud de l'efecte, si no hi ha una variable que pugui ser la causa de l'altra, sinó que està al mateix nivell com per exemple les variables binàries portar sabates grogues si/no i portar camises liles si / no (els dos fets es poden associar, però un no causa l'altre ni a la inversa). En aquest cas no es sol fer una ''odds ratio'' o un risc relatiu, sinó la diferència entre les dues proporcions, junt amb el seu interval de confiança. Problema: l'SPSS no ho fa. Si aquest interval no passa per 0, es pot dir que l'associació entre portar sabates grogues i portar camises liles és estadísticament significativa (cuidao que aquí és per 0, no per 1!) | |||
===Valoració de la significació estadística: la ''p''=== | |||
Però si volem, per un motiu desconegut, donar un valor de ''p'' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf30.JPG (Figura 30)], tenim la prova de xi-quadrat (per tant veieu que el títol de tot l'apartat és fals, perquè hem fet moltes més coses que una simple xi-quadrat per veure la relació de dues variables categòriques: el món és més que una ''p''!): | |||
El valor de la ''p'' en aquest cas és 0,000 (impossible que sigui exactament 0, però en tot cas és inferior a 0,05). Però ens servei d'alguna cosa aquesta ''p''? Només sabem que els solters i els casats no estan igual de grassos (i no ho estan de forma estadísticament significativa), però no sabem quin dels dos grups està més gras, ni quant més gras està. Sempre és molt més important mirar les dades (i entendre-les!) que mirar la ditxosa ''p''. Sinó no sabriem que són els solters els que estan més prims, i que tenen un risc 13 cops superior d'estar-ho si els comparem amb els casats. | |||
==t de student== | |||
Segons l'esquema del principi, ara ens tocaria mirar si els joves son més prims o no. És a dir si la mitjana d'edat dels prims és igual que la mitjana d'edat dels no prims. I per això usem la t de Student, que serveix per relacionar una variable binària amb una continua, és a dir ens diu si la mitjana de la variable continua és igual (o no) en els dos grups de la variable binària. | |||
Les variables que fem servir aquí son ''edat'' (variable independent) i ''esta prim'' (variable dependent). | |||
'''Condicions d'aplicació de la T d'Student'''. | |||
Abans de decidir si fem la proba o no, hem de comprovar les condicions d'aplicació: ''Que la que la variable continua (edat) segueixi una distribució normal en cadascun dels dos grups. Això no ho hem explicat, però en general es pot assumir que es compleix si cada grup té almenys 30 persones. De tota manera hi ha proves per saber si és així o no (test de Kolmogorov-Smirnov i gràfics p-p per si algú vol aprofundir). Si aquesta condició no es compleix, no podríem usar la t de Student i hauríem de passar a una prova no paramètrica (en aquest cas la U de Mann-Withney).'' | |||
En el nostre cas, com que ens passem de 30 a cada grup, assumim que si que podem fer la proba de la T d'Student. | |||
Amb l'SPSS això es fa de la següent manera: | |||
anem a ''analyze'' -> | |||
''compare means'' -> | |||
''independent samples t-test'' que és la t d'Student [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf23.JPG (Figura 23)] | |||
[[Image:SPSSf23.JPG|thumb|640px|center|Figura 23]] | |||
a ''test variables'' hi posem la variable quantitativa, ''l'edat'' [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf24.JPG (Figura 24)]-> | |||
a ''grouping variable'' li posem la qualitativa, ''esta prim'' -> | |||
li hem de dir quin son els 2 grups que volem comparar apretant a ''define variable groups'' -> | |||
al ''grup 1'' li podem la categoria 0 (no) de la variable ''esta prim''-> | |||
al ''grup 2'' li posem la categoria 1 (si) de la variable ''esta prim'' -> | |||
''continue'' (veiem que on hi havien interrogants ha aparegut un 0 i un 1) -> | |||
''paste'' -> | |||
anem a la finestra de la sintaxi i executem el què se'ns ha copiat i obtenim el següent en els resultats [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf25.JPG (Figura 25)]: | |||
[[Image:SPSSf24.JPG|thumb|640px|center|Figura 24]] | |||
[[Image:SPSSf25.JPG|thumb|640px|center|Figura 25: Resultats]] | |||
I de tots aquests números quins en interessen? | |||
*A la primera taula podem veure les mitjanes d'edat dels dos grups. La mitjana d'edat dels prims és molt inferior a la dels grassos: els prims són més joves! | |||
*A la segona taula hi hem de mirar vàries coses: | |||
**Primer de tot, tenim dues opcions de resultats: la primera fila ''equal variances assumed'' o la segona fila ''equal variances not assumed''. Això és la proba de l'homogeneïtat de les variàncies. Per saber quina de les dues files hem d'usar, hem de mirar la primera significació. | |||
***Si aquesta és major de 0,05, fem servir la primera fila ja que això vol dir que les variances son iguals. | |||
***Si com en el nostre cas la significació és inferior a 0,05 , vol dir que les variances no son iguals i que hem de mirar la fila de baix. | |||
**Un cop hem decidit quina de les dues files fem servir, veieu que ens dóna tant la ''p'' com l'interval de confiança de la diferència de mitjanes. Aquest interval ens diu que si fessim 100 vegades aquest mateix estudi (sempre amb el mateix tamany de mostra), en 95 vegades la veritable diferència entre les mitjanes estaria en aquest interval. Això és molt més informatiu que la ''p'', perquè ens dóna una idea de '''quant''' diferents són les dues mitjanes, no només si són estadísticament diferents. I si es tracta de saber la significació, tampoc ens cal la ''p''! Sempre que l'interval no inclogui el valor 0 (el valor 0 diria que les dues mitjanes són iguals), hi ha significació estadística.(o sigui la ''p'' serà inferior a 0,05). Recordeu, però, mirar sempre la significació clínica i no només l'estadística! Per tant, el què ens interessa aquí és: | |||
***La diferència de mitjanes i el seu interval de confiança. | |||
***I en segon terme, la p. | |||
En el nostre estudi: la diferència de mitjanes és de 23,4 anys (IC95% 15,2-31,6), el que vol dir que els prims són 23 anys més joves que els grassos. La signifiació, lògicament, és inferior a 0,05 perquè l'interval de confiança no passa pel 0. Per tant concloem que si que hi ha diferències (no només estadístiques sinó també clíniques, 23 anys són molts anys de diferència!) en l'edat dels prims i els no prims. | |||
==ANOVA== | |||
És similar a la t de student però enlloc de dos grups en tenim tres (per tant una variable continua i una de categòrica no binària). No tenim temps de fer un exemple, però en el SPSS està en el menú [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf32.JPG (Figura 32)]. | |||
[[Image:SPSSf32.JPG|thumb|640px|center|Figura 32]] | |||
==Correlació== | |||
Serveix per saber si dues variables continues (per exemple el pes i l'edat) estan relacionades. Com que no tenim massa temps (ni és l'objectiu del nostre estudi), dir només que el normal és fer una correlació de Pearson, però que si no es compleixen les condicions d'aplicació (les dues variables han de ser normals o majors de 30 pacients) usem la correlació d'Spearman. | |||
Aquí teniu l'exemple de relació de dues variables contínues, només perquè sapigueu que es poden fer [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf33.JPG (Figura 33)]. També és molt útil fer la representació gràfica amb un ''Scatter Plot''. La sintaxi per fer-ho seria la següent (podeu copiar-la i tirar-la directament a la sintaxi): | |||
CORRELATIONS | |||
/VARIABLES=pes edat | |||
/PRINT=TWOTAIL NOSIG | |||
/MISSING=PAIRWISE . | |||
GRAPH | |||
/SCATTERPLOT(BIVAR)=edat WITH pes | |||
/MISSING=LISTWISE . | |||
Per fer que us surti la línia, heu de fer 2 clics sobre el gràfic en la finestra de resultats | |||
i marcar el botó on hi ha dibuixada la tendència lineal. | |||
[[Image:SPSSf33.JPG|thumb|640px|center|Figura 33]] | |||
En aquest cas tenim el valor de la ''p'' que ens dóna i el valor de la correlació de Pearson que va de 1 a -1, i en funció del valor la correlació és més o menys forta: | |||
*de -1 a -0,7 o de 1 a 0,7 és una correlació molt forta negativa o positiva respectivament. | |||
*de -0,7 a -0,3 o de 0,7 a 0,3 és una correlació dèbil negativa o positiva respectivament. | |||
*de -0,3 a 0 o de 0,3 a 0 no hi ha correlació. | |||
En el nostre estudi, no era una proba que haguéssim de fer per als nostres objectius, però les conclusions serien que l'edat i el pes es correlacionen de forma positiva, tot i que dèbil (0,519), i aquesta correlació és estadísticament significativa (p<0,05). | |||
==(Breu) introducció a l'anàlisi multivariant== | |||
Però tornem al nostre estudi. Hem vist que la variable ESTÀ PRIM s'associa tant a ser solter com a ser jove. Llavors, què causa estar prim? Un de les dues? Les dues? Cap? Això és el que intenta resoldre l'anàlisi multivariant, que és aquell que relaciona més de dues variables alhora (3 en aquest cas). Una de les seves funcions més importants és poder controlar un problema molt freqüent en ciències de la salut: la confusió. | |||
La hipòtesi principal de l'estudi era que ESTÀ PRIM s'associa amb ESTAT CIVIL, però pel mig ens ha aparegut la variable EDAT que hem vist que també s'associa a ESTÀ PRIM. Per dir que una variable és confusora (l'EDAT és una ferma candidata a ser-ho en aquest estudi i en la immensa majoria d'estudis, com ho són el sexe, la classe social, etc.) cal que s'associi tant a la variable dependent (ESTÀ PRIM) com a la variable independent principal (ESTAT CIVIL). Això segon no ho hem comprovat. Quina prova usarieu per veure la relació entre l'EDAT i l'ESTAT CIVIL? Vinga, ara us toca treballar a vosaltres! | |||
Us hauria de sortir això [http://www.traba.org/wikitraba/index.php/Imatge:SPSSf34.JPG (Figura 34)] (vigileu al posar els valors de la variable estat civil que no son 0 i 1!): | |||
[[Image:SPSSf34.JPG|thumb|640px|center|Figura 34]] | |||
Vist el resultat, ja podem dir que l'EDAT és una variable confusora, és a dir que confon la relació entre ESTÀ PRIM i ESTAT CIVIL, ja que ella s'associa a totes dues. Això pot implicar que la relació que hem trobat entre ESTÀ PRIM i ESTAT CIVIL pot ser falsa, i que el que passi és que els solters estan més prims que els casats però no per aquest fet sinó perquè són més joves (cosa que hem comprovat), i els joves alhora són més prims que els grans (cosa que també hem comprovat). | |||
Per saber la veritable relació entre ESTÀ PRIM i ESTAT CIVIL hem d'AJUSTAR per edat (segur que heu sentit molts cops aquesta paraula!) que no vol dir res més que tenir en compte l'efecte de l'edat en la relació de les dues variables que realment ens interessen. Això és el que permet fer l'anàlisi multivariant, que és tot el món de les regressions, en aquest cas la regressió logística que és la més freqüent en ciències de la salut. Només d'aquesta forma podriem saber si l'ESTAT CIVIL per si sol fa que la gent estigui més prima! | |||
Això, però, ja no ho explicarem. Alguna feina hem de deixar pels tècnics, no? :) | |||
==Presentació de resultats i conclusions== | |||
Un cop hem tret tots els resultats que ens interessen, és hora d'ordenar-los per poder-los presentar i treure'n conclusions. L'objectiu de l'estudi era saber per quines variables s'associaven al fet d'estar prim, o sigui per què alguna gent de la mostra està més prima que altra (en el món real: per què alguna gent fa infarts i altres no). Hem vist que l'estat civil és un dels factors implicats, que els solters estan significativament més prims que els casats (en el món real: els fumadors tenen més infarts que no els no fumadors). Però hem vist també que l'edat s'associa al pes, en el sentit que els prims són significativament més joves que els grassos. Finalment hem comprovat que els dos factors (estat civil i edat) estan també relacionats entre sí en el sentit que els solters són significativament més joves. Amb tot això hem creat un triangle amorós (confús, en aquest cas) que només la regressió logística pot ajudar a aclarir. | |||
==Despedida y cierre== | |||
I fins aquí la classe. Ens ha quedat moltes coses per veure, a part de l'anàlisi multivariant, com per exemple totes les proves no paramètriques (com la U de Mann-Withney), tot l'apartat de supervivència (què fer quan una de les variables és el temps) o què fer quan tenim diferents mesures d'una mateixa variable en un mateix individu (estadística de mesures repetides). Però bé, això ja és tota una altra història. | |||
Gràcies a tots! | |||
<font color=red>Fi de la tercera classe i del curs :(</font> | <font color=red>Fi de la tercera classe i del curs :(</font> |
Revisió de 14:10, 3 juny 2014
Programa: Metodologia de la recerca 2 (Procediments estadístics aplicats a un treball de recerca)
Objectius docents:
- Contribuir a la utilització correcta del paquet estadístic SPSS com a instrument que permet descriure les variables mesurades en un treball de recerca i analitzar les seves relacions.
- Interpretar els resultats de les proves estadístiques.
- Millorar les habilitats per avaluar l'adequació dels mètodes estadístics utilitzats en un treball de recerca.
Unitat Docent de Medicina Familiar i Comunitària de Barcelona Ciutat
Metodologia docent: teoría mínima (en negre) i la gran majoria treball pràctic amb els ordinadors.
Docents: autoaprenentatge, MFE.
Alumnes: els curs està dirigit als residents de tercer any de MfiC o qualsevol que estigui interessat.
Avaluació per docents: es repartirà un qüestionari de valoració del curs.
Lloc, dates i durada: El curs té una durada de 20 hores repartides en 5 sessios:
Certificació: es lliurarà un certificat d’assistència a tots els alumnes que assisteixin al 80% de les hores lectives del curs. En el certificat constarà el nombre d’hores del curs i el registre corresponent.
Introducció al SPSS per a Windows
Per què necessito jo l'SPSS?
La situació és la següent: jo ja tinc escrit el protocol de l'estudi i ja tinc fet el treball de camp (o auditoria d'històries clíniques) i tinc totes les dades passades a l'Acces. És en aquest punt on jo necessito l'SPSS ja que em servirà per descriure i analitzar estadísticament les meves dades. Tot i que també va molt bé per recodificar variables i crear-ne de noves. No és un programa per la recollida de dades, a no ser que us hi vulgueu deixar la vista i la paciència!
No és l'únic programa que hi ha per això, però si el més utilitzat. És de pago i cada any surt una nova versió no del tot compatible amb l'anterior. Tot i així és el més utilitzat. Altres programes per exemple son EpiInfo (gratuit), R (lliure) i Stata (de pago).
D'on el trec?
Com ja hem dit, és un programa de pago i la única forma legal de tenir-lo és comprar-lo o que el compri l'organització on treballes. En aquest cas cap de les dues condicions es compleix. Però un altre cop més, haurem de lluitar contra les adversitats.
I un cop instal·lat, per on començo?
Un cop el tinguem instal·lat el primer que hem de fer és apagar l'ordinador i seure en una taula amb els integrants del grup de treball del progecte que volem analitzar per a tenir clar què volem i com ho volem. Si tenim ben fet el protocol, això serà poca estona. Hem de tenir clarament definits els objectius i quins resultats volem obtenir a partir de les dades que hem recollit. Si això no ho tenim clar, ens liarem amb tots els números que ens dóna l'SPSS i ens desesperarem.
Així doncs, hem de tenir clar perquè volem treure les dades:
- Volem fer un abstract per enviar a un congrés? Les necessitem per fer un informe pel FIS? Les volem per fer un article?
- Un cop sabem perquè les volem, hem de saber exactament quins resultats volem i aquests derivaran dels objectius. Per tant, hem de saber exactament els objectius que nosaltres volem presentar. És molt útil fer un esquema d'això, per no liar-nos un cop estem amb l'SPSS.
En el nostre exercici volem fer un abstract per enviar en un congrés: - objectiu: els homes solters, són més prims? - material i mètodes: descriptiu, variables (edat, pes o prim si/no i estat civil) - resultats: 1. comparar la proporció de prims en cadascun dels estats civils (objectiu principal) 2. comparar les mitjanes d'edat dels prims i dels no prims (confusió) 3. comparar la mitjana d'edat amb l'estat civil (confusió) - conclusions: en funció dels resultats
Si ja tenim tot això clar, ja podem obrir l'ordinador i entrar a l'SPSS.
Components de l'SPSS
Per obrir l'SPSS normalment si s'instal·la amb les opcions per defecte, el tindreu a l'escritorio o sinó a inicio -> programas -> SPSS for Windows.
L'SPSS funciona com qualsevol altre programa, amb els iconos i els menús de la part de dalt que anirem veient per què serveixen alguns d'ells poc a poc. L'SPSS a més té varies pantalles que serveixen per diferents coses. Ara les veurem, només per conèixer-les.
- La pantalla que ens surt primer de tot és la pantalla on hi hauran les nostres dades (Figura 1). A les files normalment hi ha els pacients i a les columnes les diferents variables que hem recollit. Si mirem la part de baix de la pantalla, veurem que hi ha dues pestanyes: la que posa data view que és la que acabem de veure i la que posa variable view. Aneu a la que posa variable view i veureu que ara canvia: les files ara son les variables i les columnes son les característiques de cadascuna de les variables.
- Després tenim la pantalla que es diu sintaxi (Figura 2). És on s'escriuran les ordres per a l'anàlisi de les nostres dades. Molta gent no ho fa servir,però és molt útil fer servir la sintaxi ja que així guardem pas per pas tot el què fem i si algun dia canviem alguna dada o afegim més pacients amb 10 segons tornem a tenir tot l'anàlisi fet.
- I finalment tenim la pantalla dels resultats o output en anglès, que és on ens sortiran les taules i gràfics que nosaltres li direm que ens faci. De moment no veiem la pantalla perquè com que no tenim dades no podem tenir cap resultat.
Seguim... important la base de dades de l'Access
Per començar a analitzar les dades, el primer que necessitem és que aquestes dades vagin a parar a l'SPSS. Normalment les dades les tindrem en un Access. Si no és així, el procés d'importar la informació no és gaire diferent. Això ho fem de la següent manera:
- Pels que heu fet l'exercici d'Access, farem servir aquella base de dades que vam fer. Si no la teniu aquí, us la podeu baixar d'aquí.
- Per importar una base de dades en Access, hem de fer el següent. Haurem d'anar a file -> open database -> new query -> ens hem de posar damunt de MS Access Database -> siguiente.
- Ara ens demana on tenim la base de dades en Access. Per dir-li on la tenim piquem a browse i busquem la nostra base de dades en Access -> i un cop la tenim anem a l'OK.
- Ara ens surt una pantalla amb la taula principal de la nostra base de dades i totes les seves variables. Hem d'arrastrar el nom de la taula, en aquest cas principal a la finestra del costat on posa retrieve fields in this order. Ens han de sortir les nostres variables al quadre de la dreta. Un cop comprovat (figura 3) fem siguiente -> siguiente un altre cop.
- En aquesta pantalla on veiem totes les variables poden passar varies coses (figura 4):
- Que hagueu posat als noms de les variables símbol raro que a l'SPSS no li agradi. En aquest cas us el farà canviar.
- Que tingueu una variable amb diferents categories, com és el cas del nostre estat civil. Com veieu, hi ha un quadradet que podem marcar o no. Si no el marquem, la variable romandrà tal quan l'hem fet, per tant, serà una variable tipus text. Si el marquem, la variable es convertirà en numèrica i el text que és es convertirà en etiqueta. Això és el què ens interessa, per tant, marquem el quadradet.
- Siguiente -> marquem l'opció de paste it -> finalizar. Veureu que se us ha obert una nova finestra, és l'arxiu de la sintaxi de l'SPSS. I en aquest arxiu de sintaxi veiem que s'hi han escrit les ordres d'importar la base de dades a la fulla de dades de l'SPSS, però encara no les hem importat!
- És molt útil escriure a dalt de cada ordre de sintaxi què és el què fa. Per exemple, sobre de la sintaxi que hem enganxat per importar la base de dades, podem escriure el següent per saber d'aquí uns mesos què vol dir. Per escriure a la sintaxi i que després al tirar-la no doni error, hem d'escriure el què volem entre un asterisc (*) i un punt (.), tal com es veu en el següent quadre:
*Importar base de dades.
- Per importar-les de veritat hem d'aprendre un nou concepte de l'SPSS: executar o tirar la sintaxi. La sintaxi son ordres escrites que el què faran és importar la base de dades, crearan variables o ens calcularan i ensenyaran resultats. I per executar aquestes ordres el què hem de fer és seleccionar-les (seleccionar el text) i després prémer el botó del play (figura 5). I el què passa és que ara ja si importem realment la base de dades. Ho podem anar a comprovar mirant la finestra de les dades de l'SPSS (figura 6). Si veieu asteriscs a la data és que la columna és massa estreta, l'heu de fer més gran.
Doncs ja tenim la base de dades a l'SPSS.
Propietats i creació de variables
Com veiem en la nostra base de dades, les variables que tenim, no son les que realment necessitem per als resultats que hem decidit que volem:
Variables que tenim | Variables que volem | Categories |
NHC | ||
Data de naixement | Edat | |
Pes | Pes | |
Pes | Esta prim | Si, no. |
Estat civil | Estat civil | Solter, casat/emparellat. |
Per tant, haurem de crear dues noves variables a partir de les que tenim: l'edat i prim si/no. Però abans, una mica de nomenclatura.
Definició de les variables: tipus, etiquetes i valors perduts o missings
Les variables tenen algunes propietats que caldrà saber. Si anem a la pestanya de variable view podrem veure-ho (Figura 8).
- Primer de tot, el nom o name de la variable. És el nom curt que li donem a la variable i és de la forma que li hem de dir quan volguem escriure a la sintaxi.
- Una variable pot ser de varis tipus. Els que més farem servir serà:
- Tipus numèric, és a dir un número. Tot i que aquest número pot ser un número real (com el nostre pes) o una variable numèrica on cada número correspongui a una categoria (com és el cas del nostre estat civil). Com veieu, aquesta variable és numèrica, però en realitat, és categòrica.
- Tipus string o text. Val més no fer-les servir massa, ja que hi ha moltes funcions que l'SPSS no ens deixa fer amb una variable de tipus text. En el nostre àmbit de treball hi ha algunes variables que ens interessaran fer-les d'aquest tipus com el CIP (lletres i números).
- Tipus data com la nostra data de naixement.
- Una variable, també es defineix per la seva etiqueta o label. És una frase que descriu la variable, ja que el nom sol a vegades no és suficient per saber de què parlem. Si la variable és numèrica, se solen posar les unitats amb les quals hem creat la variable. Per exemple, la variable pes, la seva etiqueta seria Pes en kg. Si perdem uns minuts en això, ens servirà perquè després a les taules de resultats ens surtin com a títol les etiquetes i no només els noms de les variables.
- A la vegada, en una variable numèrica pot ser que cadascun dels números correspongui a una categoria, i a aquesta categoria també se li pot posar etiqueta (és la columna values).
Anem a posar etiquetes a les nostres variables:
Anem a data -> després a define variable properties -> les seleccionem totes i amb el botó de la fletxa, les passem a l'altra caixa -> continue
Ara tenim una pantalla amb el llistat de variables a l'esquerra i tot de sub-menús a la dreta (Figura 9).
- NHC: a label o etiqueta hi posarem la descripció del què és: Número d'història clínica. La resta ho deixem tal com està.
- datan: a label hi posem Data de naixement. A type veiem que hi ha un desplegable amb diferents tipus de formats de data. Escollim el que més ens sigui útil `per la nostra finalitat. Agafeu sempre el que tingui l'any amb 4 xifres, que si s'agafa l'any amb 2 xifres hi poden haver problemes.
- pes: posarem l'etiqueta a Pes en kg. com que aquesta només volem que tingui 1 decimal, posem els decimals a 1.
- ecivil: li posarem l'etiqueta Estat civil. Aquesta, ens interessa que els no consta sigui missing (que no es tinguin en compte a l'anàlisi), per tant, a la columna de missing, farem un clic a la fila de la categoria del no consta. Com veieu, aquí les etiquetes de les diferents categories de la variable ja estan posades, ja que ho hem fet així a l'importar la base de dades. Però quan creem una variable de nou, li haurem de posar.
Ja hem acabat de descriure les propietats de les variables. Ara, enganxem la sintaxi picant a paste i anem a la finestra de la sintaxi per veure què ens ha fet. Veiem que ens ha escrit això:
*Define Variable Properties. *NHC. VARIABLE LABELS NHC 'Número dhistòria clínica'. *datan. VARIABLE LABELS datan 'Data de naixement'. FORMATS datan (EDATE10). *pes. VARIABLE LABELS pes 'Pes en kg'. FORMATS pes (F8.1). *ecivil. VARIABLE LABELS ecivil 'Estat civil'. MISSING VALUES ecivil ( 2 ). EXECUTE.
Ho executem, marcant-ho i després picant el play. Podem anar a comprovar que a la finestra de la variable view ha aparegut la descripció de les variables a la columna de la label. I us preguntareu, perquè no ho puc escriure directament a la columna aquesta sense fer tanta tonteria? Doncs és perquè si algun dia heu de tornar a importar la base de dades (com passarà en breu), tot això que hàgiu fet sense haver-ho escrit a la sintaxi ho haureu de tornar a fer. Cosa que no passa si ho hem copiat tot a la sintaxi.
Creació de la variable edat: la funció compute
Un cop tenim les variables definides tal com ens agrada, haurem de crear la variable edat a partir de la data de naixement i de la data d'avui (Figura 7). També es pot fer a partir d'una altra data que tingueu com a variable en la base de dades.
Anem a transform -> compute -> a target variable posem en nom de la variable que volem crear, és a dir, edat -> a Type & Label li posem l'etiqueta de Edat en anys.
Per calcular l'edat, el què hem de fer és restar-li a la data d'avui la data de naixement. Amb això ens dóna la data, però en segons. Per tant, hem de convertir l'edat en egons a edat en anys, multiplicant per (3600 min)*(365.25 dies)*(24 hores).
-> busquem la funció que es diu DATE.DMY(day,month,year) -> i la passem a la caixa de numeric expression -> escrivim la data d'avui o la que ens interessi -> li restem la data de naixement (datan) -> i ho convertim en anys tal com es pot veure en la imatge -> paste per enganxar-ho a la sintaxi -> anem a la pantalla de la sintaxi -> executem les instruccions per crear la variable edat
En principi, a la finestra de les dades se'ns hauria d'haver creat una nova variable que es diu edat i com a etiqueta posa edat en anys.
Una altre forma de crear l'edat, per si no recordeu els números que multipliquen, és amb la funció següent:
COMPUTE edat= TRUNC (CTIMEDAYS (DATE.DMY(05,03,2007)-datan)/365.25).La funció CTIMEDAYS transforma en dies un temps en segons, i la funció TRUNC fa que el número calculat sigui sense decimals.
Creació de la variable prim si/no: la funció recode
Ara el què volem crear és una variable que sigui prim i que les seves categories siguin si o no, ja que la meva hipòtesi és que els solters son més prims. Però jo el què tinc és el pes. Així que he de crear una nova variable categòrica (li direm pes2) a partir d'una numèrica. Això ho farem amb la funció recode into different variables.
Anem a transform -> recode -> into different variables -> passem amb la fletxa a la caixa de la dreta la variable que ens interessa: el pes -> a output variable i name li donem el nou nom de la variable pes2 -> a label li posem l'etiqueta de pes2: Està prim. -> premem change (pas important! que sino no funciona res de res :) -> anem a old and new values
I ens surt aquesta pantalla (Figura 10), on haurem de dir a la dreta els valors antics i a l'esquerra els nous. Nosaltres volem que els prims siguin els que pesen menys de 70.
-> empleneu segons els criteris -> per afegir el criteri, apretar add -> quan haguem acabat, continue que ens porta a la pantalla anterior -> paste -> tirem la part questa de sintaxi que se'ns ha escrit:
RECODE pes (Lowest thru 70=1) (70 thru Highest=0) (ELSE=Copy) INTO pes2 . VARIABLE LABELS pes2 'Està prim'. EXECUTE .
-> ara ens falta posar les etiquetes de les categories, pt anem a data -> define variable properties -> passem pes2 a la caixa de la dreta -> continue -> definim els noms de les categories i el què nosaltres creguem necessari -> paste -> anem a la sintaxi i la tirem.
Ja tenim la nova variable pes2 amb la seva etiqueta i les etiquetes de les seves categories.
Fi de la primera classe.
Anàlisi descriptiu de les dades i detecció de valors anòmals
L'anàlisi descriptiu de les nostres dades té tres funcions:
- Detecció dels valors missing, és a dir dades que no coneixem. En la immensa majoria d'estudis hi ha dades que no coneixem, bé perquè ens hem oblidat de recollir-les (cosa que té solució) o bé perquè són valors realment desconeguts (cosa de més difícil solució, almenys pels que no som estadístics). És fonamental conèixer el percentatge de valors desconeguts de cada variable, ja que si és superior al 10% podem tenir problemes. A més, sempre que fem proves estadístiques amb dues variables juntes, només s'utilitzaran els registres on es conegui el valor de les dues!
- Detecció de valors anòmals que se'ns hagin pogut escapar al picar les dades a la base de dades. Evidentment, si detectem algun valor anòmal hem d'anar a la base de dades i canviar-lo (arreglar-lo si podem saber el valor real, o passar-lo a missing si no el podem saber --> sempre és millor no tenir informació que tenir informació incorrecta!). Mai canvieu un valor a ma a l'SPSS perquè si en algun moment torneu a importar la base de dades aquest canvi no es farà i haureu de tornar a retocar a ma i un a un tots els valors anòmals que hi haguessin.
- Descripció de la mostra estudiada a nivell univariant.
Abans de poder fer l'anàlisi descriptiu de les variables, hem de fer una mica de teoria. Primer de tot, hem de saber quin tipus de variables tenim al davant i quina és la millor manera per descriure-la. Un cop sabem això, ens serà molt més fàcil demanar-li a l'SPSS allò que volem.
Tipus de variables existents
- Categòriques:
- Variables categòriques, com per exemple el (dona / home), està prim o l'estat civil. Si tenen només dues categories (com el sexe o està prim) es diuen binàries
- Variables ordinals, que són un tipus especial de variables categòriques on les diferents categories segueixen un ordre, com per exemple la classe funcional de la insuficiència cardíaca
- Quantitatives:
- Variables discretes, que representen habitualment recomptes (per exemple el número d'intervencions que se li han fet a una persona)
- Variables continues, que representen mesures (per exemple l'edat o el pes)
En principi i sempre que sigui possible, en un estudi és millor recollir les variables com a quantitatives ja que sempre es poden transformar posteriorment en categòriques, però a l'inrevés no es pot fer. Per exemple sempre és millor recollir la pressió arterial i després si cal recodificar-la en control SI / NO, que no pas recollir directament si està controlat o no ja que podem estar perdent informació que més endavant ens pot interessar.
Descripció de les variables categòriques (frequencies)
- Mesures estadístiques:
- Freqüencia (percentatge) de cadascun dels valors, o sigui el número de vegades que apareix un valor entre el número total de registres.
- Quan estem estudiant la freqüència d'una malaltia i segons el tipus d'estudi, parlem de prevalença (percentatge de casos que hi ha en un moment donat) o d'incidència (nous casos apareguts en un periode de temps)
- Gràfics:
- Diagrama de barres
- Diagrama de sectors
- I tot això, com ho fem en SPSS? Amb el Frequencies.
Descripció de les variables quantitatives (explore)
- Mesures estadístiques:
- Basades en "moments": mitjana (valor de tendència central) i desviació estàndar (valor de dispersió). Són les més freqüents, però no sempre les millors. El més raonable és descriure-les amb la mitjana (valor de tendència central) i el seu intèrval de confiança (valor de dispersió), que ja ho explicarem després.
- Basades en "ordenacions": mediana (valor de tendència central) i percentils (valor de dispersió). Potser són menys freqüents, però mai enganyen.
- Gràfics:
- Histograma (variables continues) o diagrama de barres (variables discretes), que permeten mostrar la freqüència de cadascun dels valors i ens permeten fer-nos una idea de la seva distribució.
- Boxplot: Dóna molta informació però no estem gaire acostumats a interpretar-lo.
- I tot això, com ho fem en SPSS? Amb l'explore.
Els intervals de confiança, aquests grans desconeguts
Tots hem sentit parlar dels intervals de confiança del 95%, però sabem què són? Per entendre-ho, hem de diferenciar entre:
- la població, que és el conjunt d'individus a qui voldrem aplicar les conclusions del nostre estudi (per exemple, tots els homes de Barcelona)
- la mostra, que són els individus que nosaltres hem estudiat i amb els que treballarem, és a dir els que tenim a la base de dades
Quan describim la nostra mostra, el que volem en realitat no és dir, per exemple, que la mitjana d'edat dels homes casats que hem estudiat és de X anys, sinó que volem extrapolar aquest valor per poder dir que la mitjana d'edat de tots els homes casats de Barcelona és de X anys. Per fer aquest pas necessitem els intervals de confiança, que ens diran un interval de valors entre els quals podem estar relativament segurs que hi ha el veritable valor de la mitjana d'edat dels homes casats de Barcelona. El que ens diu en realitat l'interval, és que si agafessim 100 mostres de la població que volem estudiar (totes del mateix tamany de la nostra), en 95 de les 100 el valor de la mitjana estaria dins d'aquell interval. Pot ser una mica liat, però és important entendre-ho: es tracta que confiem que el 95% de les vegades l'interval conté el paràmetre, però no sabem si el nostre interval concret pertany a aquest 95% o al 5% que falla.
Com més gran és una mostra (més persones estudiem), més estret serà l'interval de confiança i per tant més informació tindrem. No és evidentment el mateix dir que la mitjana d'edat és de 45 anys amb un interval que va de 20 a 70 anys (per això no calia fer cap estudi!), que no pas dir que és de 45 anys amb un interval de 44 a 46 anys. Per això és important treballar amb mostres grans, sempre que els diners i el temps ens ho permetin!
A qualsevol paràmetre estadístic (mitjana, mediana, percentatge, etc.) se li pot donar un interval de confiança, però l'SPSS només ho fa amb les mitjanes (i no amb les proporcions o les medianes, per exemple). Això és un dèficit força greu del programa!
Quan parlem de proves estadístiques, tornarem a parlar dels intervals de confiança, que és el que hauriem d'usar enlloc de les famoses p! Ens engayen molts menys!
Ara sí, obrim l'ordinador i anem a l'SPSS!
- Primer de tot tornem a importar la base de dades d'Access, i a definir i crear les variables de l'altre dia. Recordeu que teniu la sintaxi!
- El que volem avui és, per cada variable de la base de dades:
- Trobar els missings
- Trobar valors anòmals: edats o pesos impossibles; categories d'estat civil no definides (no n'hi han perquè hem fet bé l'Access!). Si trobem valors anòmals (que deberiamos), hem d'anar a l'Access, arreglar-ho (o convertir-lo a missing!) i tornar a importar la base de dades a l'SPSS
- Descriure les dades
- Intentar entendre els intervals de confiança
- Fer els gràfics més adequats en cada cas, i veure que l'SPSS no és precisament el millor programa per fer gràfics
- Començar a veure com es relacionen les diferents variables (per exemple mirant les mitjanes de pes en els casats i en els solters), però això ho farem en les pròximes classes!
Farem l'exemple d'una variable quantitativa (edat) i d'una categòrica (estat civil).
Anàlisi descriptiu de l'edat (quantitativa -> explore)
- Per descriure la variable edat, com que és quantitativa haurem de fer un explore (Figura 11):
Anem a Analyze -> Descriptives -> Explore -> passem la variable edat a la caixa de la dreta on posa dependent list
- Veurem que hi ha dos botons per triar les opcions d'aquesta funció (Figura 12):
- El que posa statistics (Figura 13): amb aquest triem les opcions següents:
- El que posa plots que son gràfics: (Figura 14): amb aquest triem les opcions següents:
Fem paste -> anem a la finestra de la sintaxi i executem l'ordre que ens acaba d'enganxar.
Ja tenim els resultats. Ens hauria d'haver sortit una nova finestra, aquest cop de resultats amb la següent pinta (Figura 15):
Intentarem explicar una mica tots aquests números, ara. Anem per passos:
- A la primera taula tenim el número de casos vàlids (o sigui que tenen valor), i el número de missings (només 1 en aquest cas). Si fos un estudi real hauriem de buscar aquest cas, i mirar de recuperar la seva data de naixement per introduir-la a l'Access i tornar-ho a importat tot a l'SPSS.
- A la segona taula tenim els estadístics descriptius de la variable, que ens serviran per descriure-la (lògicament) però també per trobar valors anòmals:
- En primer lloc tenim la mitjana, que és..... la mitjana de tota la vida! Lo únic que aquí tenim el seu interval de confiança, que està bé posar-lo sempre! Més avall hi ha la desviació estàndar, però no dóna massa informació tot i que encara hi ha gent que la posa junt amb la mitjana enlloc de posar-hi l'interval. No ho feu mai!
- Més avall tenim la mediana, que és el valor central de la mostra. Això vol dir que si agafessim tots els valors de les edats de la mostra i els ordenessim del més petit al més gran, la mediana seria el valor que quedaria just al mig. En aquest cas la mediana i la mitjana són força diferents, el que en alguns casos vol dir que hi ha valors anòmals que distorionen la mitjana. Imagineu per exemple que hi hagués una edat de 1500 anys: això faria pujar molt la mitjana, però la mediana quedaria imperturbable!
- I després tenim el mínim i el màxim. Tot i que l'esperança de vida ha pujat força, una edat de 146,01 sóna malament, no? Doncs això és un valor anòmal. Cal anar a la base de dades, buscar-lo i intentar saber el valor correcte. Ara mateix, però, el més fàcil és convertir-lo a missing a l'Access (heu de buscar una data de naixement del 1800!) i tornar a importar a SPSS (però no ho feu encara lo d'importar, ja que alomillor trobem altres valors anòmals en altres variables).
- A la tercera taula tenim els percentils, que són els valors que deixen per sota seu un determinat percentatge de la mostra. Millor amb un exemple: on posa 10 i sota seu posa 21,8426, vol dir que el 10% de la mostra té menys de 21,8426 anys. El percentil 50, com veieu, és la mediana, que vol dir que és el valor que deixa per sota seu a la meitat de la mostra (la meitat dels individus tenen menys de 40,5257 anys, i l'altra meitat en té més). Veieu que en alguns percentils (25, 50 i 75) hi ha dues files de resultats? Bé, això són dues formes de calcular-los, en general han de donar molt similar i és igual amb quins ens quedem.
I quin d'aquests valors ens dóna més informació? Un truco: mireu la mitjana i la mediana.
- Si creieu que clínicament són dos valors similars, descriviu la variable amb la mitjana (valor de tendència central) i l'intèrval de confiança del 95% (valor de dispersió).
- Si creieu que són clínicament diferents, useu la mediana (valor de tendència central) i el percentil 25 i 75 (valors de dispersió).
També ens haurien d'haver sortit uns gràfics. Aquest (Figura 16)
és un boxplot. A l'eix vertical hi ha els valors de l'edat, i a l'horitzontal......... no hi ha res :) La línia horitzontal més gruixuda del mig de la caixa central representa la mediana. Les línies horitzontals que delimiten la caixa són els percentils 25 i 75 (a.k.a. quartil 1 i quartil 3). Els límits de les potes que surten cap amunt i cap avall són els valors considerats normals o no anòmals. Tot aquest dibuix, com més simètric sigui, vol dir que més normal és la nostra mostra. En aquest cas veiem que la mediana està una mica més avall del que li tocaria (no està al mig de la caixa), el que vol dir que els individus de més edat estan més dispersos que els més joves. Bueno, una mica complicat, no? La cosa és que sabem que per sota la mediana hi ha el 50% dels individus, però aquest 50% està en menys espai (menys valors diferents d'edat) que el 50% superior.
El boxplot també ens mostra, 1 a 1, els valors que considera anòmals. En aquest cas ens ensenya un punt que represneta el valor que ens sortia com a màxim a la taula anterior (el senyor de 146 anys!). El 77 que hi ha al costat vol dir que és el cas que està a la fila 77 de la base de dades (no vol dir el que té la NHC 77!), i així el podem trobar més fàcil :)
Aquest altre gràfic (Figura 17)
és un histograma, que tots coneixem més. No és més que la freqüència de cadascun dels valors. A la dreta de tot veiem el nostre valor anòmal de 146 anys.
Anàlisi descriptiu d'estat civil (qualitativa -> frequencies)
Ara anem per lo fàcil, la variable estat civil.
Anem a analyze -> descriptive statistics -> frequencies -> posem les opcions tal com podem veure a la Figura 18 i Figura 19
paste -> anem a la sintaxi i executem l'última ordre
Ara, repetiu el procés però en comptes de marcar bar chart com a gràfic marqueu pie chart perquè us faci el pastel.
Ens hauria de sortir el següent quadre Figura 20:
I el següents gràfics Figura 21 i Figura 22
I per l'anàlisi de dades:
- Missings. Veiem que el primer quadre de la Figura 20 ens indica quants casos son vàlids i quants missing. Anem a la segona taula, en la columna de porcentaje i veiem que el percentatge de missings és del 3%, i per tant, com que no passa del 10%, la variable és vàlida.
- Valors anòmals. Que en principi si hem fet bé la base de dades en Access, hem posat bé les etiquetes i hem definit bé els missings no ens n'hauria de sortir cap de raro ni sense nom.
- Resultats.
- De les taules. Els hem de mirar a la columna de porcentaje válido, i no és més que el percentatge que cadascuna de les categories de la variable estat civil, sense tenir en compte els missings, ja que els exclou (a la columna anterior sí que conten).
- Dels gràfics. El gràfic de barres (Figura 21), en aquest cas, com que la variable té dues categories, no ens dóna molta informació. Si en tingués més, possiblement ens donaria informació més útil. En aquest cas, potser seria millor utilitzar el de sectors Figura 22.
I ara vosaltres sols :)
Intenteu fer el mateix amb les variables que ens queden: pes i està prim.
Quan acabeu amb aquestes dues variables, podeu tornar a tirar la sintaxi i us sortiran els nous resultats, ara sense valors anòmals.
I tot això, per què ho volem?
Doncs el més probable per un àbstract, per un pòster, per una presentació, per un article...
Imagineu-vos que en l'abstract us demanen una taula on es descrigui la vostra població... quins números hi posaríeu segons el què hem estat explicant? Intenteu emplenar la següent taula:
Descripció | Quin valor de tendència central descriuria millor aquesta variable? | Valor | Quin valor de dispersió descriuria millor aquesta variable? (només quantitatives) | Valor |
Edat | . | . | . | . |
Pes | . | . | . | . |
Esta prim | . | . | . | . |
Estat civil | . | . | . | . |
Pel què fa als gràfics, podeu triar el que més informació dóna en funció del què voleu dir. Amb l'SPSS podeu modificar els gràfics fent 2 clics sobre del gràfic. Si us sobra temps, podeu jugar-hi una estona.
Doncs això és tot per avui!
Fi de la segona classe
Anàlisi bivariat
Introducció
Avui aprendrem a relacionar dues variables entre sí, tant per descriure-les com per fer proves estadístiques que ens diguin si estan relacionades o no.
El primer que hem de fer és saber el que volem saber, per allò de quien no sabe lo que busca no interpreta lo que encuentra. La variable principal del nostre estudi és ESTÀ PRIM, que a partir d'ara l'anomenarem variable dependent ja que és la que volem explicar (volem explicar perquè alguna gent està més prima que l'altre: potser és per què són solters? o serà per què són més joves?). Les altres variables son les variables explicatives o variables independents.
L'esquema de l'anàlisi de l'estudi serà el següent:
- Descriure la relació de la variable ESTÀ PRIM amb l'ESTAT CIVIL (objectiu principal del nostre estudi).
- I la relació de la variable ESTA PRIM amb l'EDAT (no és un objectiu, però si que volem saber si l'edat és un confusor i per això ho hem de mirar). Normalment es tenen moltes altres variables a part de les dues principals, aquestes anirien aquí.
Comencem amb un resum de quines proves estadístiques s'han d'utilitzar segons el tipus de variables que volguem relacionar:
Categòrica binària | Categòrica (>2) | Continua | |
Categòrica binària | Xi-quadrat | Xi-quadrat | t de student |
Categòrica (>2) | Xi-quadrat | Xi-quadrat | ANOVA |
Continua | t de student | ANOVA | Correlació |
Sabent això, quin prova usarieu per relacionar ESTÀ PRIM amb ESTAT CIVIL?
I ESTÀ PRIM amb EDAT?
Bé, avui veurem (o ho intentarem) aquestes proves, però abans un parell de punts importants (i, a vegades, difícils d'entendre):
La hipòtesi nula i la hipòtesi alternativa
Sense entrar en disquisicions estadístiques, sempre que fem una prova estadística hem de tenir una hipòtesi. Es sol dir hipòtesi nula a la que diu que no hi ha relació entre les dues variables (un fàrmac no baixa la tensió arterial, o els solters són iguals de grassos que els casats). En canvi la hipòtesi alternativa diu que hi ha relació. Això no es sol dir explícitament, però és el que hi ha sota de les proves estadístiques: el que volem és refutar la hipòtesi nula.
Relacionat amb això hi han els errors α i β, però a la pràctica no serveix de gaire coneixe'ls i anem justos de temps.
La famosa p i els nostres vells amics, els intervals de confiança
Molta gent encara dóna el resultat de les proves estadísitques (chi-quadrat, t de student, etc.) amb el valor de la p. Tothom parla de la p, però que és la p? Doncs es pot entendre com la probabilitat d'haver obtingut els resultats que hem obtingut si fos certa la hipòtesi nula (la que diu que les dues variables no estan relacionades). Per això quan aquest valor p és molt petit (habitualment inferior al 5%, o sigui a 0,05) es diu que la relació entre les dues variables és significativa.
L'ús de la p té diferents problemes:
- El seu valor està MOLT influit pel tamany de la mostra. Com més gent tinguem, més petita serà la p (i per tant més significativa) encara que la relació entre les variables sigui la mateixa
- No dóna cap informació sobre la magnitud de la relació entre les dues variables, o sigui si estan molt o poc relaciondes
- Un últim problema és que filosòficament ens dóna la informació contrària a la que nosaltres voldriem saber. Ens diu la probabilitat d'haver obtingut aquells resultats en el cas que la hipòtesi nula fos certa, però no seria més interessant saber la probabilitat que la hipòtesi nula fos certa tenint en compte els resultats que hem obtingut? El problema és que això ens fica de ple en l'estadística bayesiana (la que fem servir normalment es diu freqüentista), que no la saben utilitzar ni tan sols la majoria dels estadísitcs. Ja fa anys que es diu que és el futur, però el futur no acaba d'arribar...
Per aquests problemes és molt més recomenable utilitzar intervals de confiança que no pas la p!!! Bé, de fet sobretot pel problema 2, ja que en realitat els intervals de confiança també estan molt influits pel tamany de la mostra.
Significació estadística vs. significació clínica
Relacionat amb els problemes que hem vist de la p, hi ha una trampa encara massa freqüent en molts articles (sobretot de revistes cutres). Si una farmacèutica agafa 20.000 hipertensos, i a 10.000 els hi dóna placebo i als altres 10.000 un nou fàrmac ultrarevolucionario. Per simplificar les coses, diremt que això ho han fet amb una t de student, ja que tenen una variable binària (placebo o veneno) i una de continua (la tensió arterial). La conclusió de l'estudi, com no (sinó no estaria publicat), és que el nou fàrmac reudeix significativament la tensió arterial. Quines trampes té això? Doncs vàries:
- Ens diuen que la diferència és significativa, o sigui que la p deu ser inferior a 0,05. I? Quina és la diferència real en mmHg? Té alguna importància clínica baixar de 160 a 158? Amb tanta gent a la mostra, una disminució mínima pot ser significativa!
- Només faltaria que un nou fàrmac no fos millor que placebo, i la majoria de medicaments es segueixen provant contra placebo. A mi què m'interessa d'un nou antiagregant, que previngui més AVC que un placebo o que en previngui més que l'AAS? Pues eso.
Bé, dit tot això, anem a repassar les diferents proves de podem utilitzar en l'anàlisi bivariat:
Xi-quadrat
Anem pel primer punt de l'anàlisi de l'estudi: mirar la relació de l'ESTAT CIVIL i d'ESTA PRIM, objectiu principal de l'estudi. Per això hem d'utilitzar la Xi-quadrat, que serveix per relacionar dues variables categòriques (binàries o no), i en aquest cas l'utilitzarem per saber si les variables ESTÀ PRIM I ESTAT CIVIL estan relacionades. La nostra hipotesi és que els solters estan més prims que els casats (això seria la hipotesi alternativa, la nula és que no hi ha diferència en el percentatge de prims entre els dos grups: casats i solters)
El primer que fem és fer una descripció bivariada d'aquestes variables. Això ho fem amb una taula 2x2, amb el procediment crosstabs del SPSS (Figura 26):
Anem a analyze -> descriptive statistics -> crosstabs i ens surt la següent pantalla (Figura 27):
Apretem cells (Figura 27) i se'ns obre una pantalla -> a rows o files de la taula 2x2 posem la variable independent, ESTAT CIVIL -> a columns o columnes de la taula 2x2 posem la variable depenent ESTA PRIM -> continue -> ara apretem a statistics i li marquem les opcions tal com mostra la (Figura 28) -> continue -> paste
I obtenim tot de taules i números que explicarem per passos primer quins hem de mirar i després, què signifiquen:
- La primera taula ens diu quants pacients son vàlids i quants missing. Si tenim un missing en qualsevol de les dues variables no s'usarà aquell pacient per als càlculs.
- En la segona taula (Figura 29) veiem la descripció de les dades sense res estadístic, és a dir la taula 2x2. Es percentatges que ens interessen son els que estan encerclats: veiem que el percentatge de prims entre els solters és molt superior al percentatge entre els casats
- La tercera taula és la famosa xi-quadrat (Figura 30).
- Condicions d'aplicació de la xi-quadrat. Per poder fer una prova de xi-quadrat (que és el que toca) cal que totes les caselles de la taula tinguin almenys 5 casos esperats (això ens ho diu el peu de taula de la tercera taula). Si no es complís podriem usar el test de Fisher (només si les dues variables són binàries, a no ser que volguem assassinar el nostre PC), i si alguna variable té més de dues categories podriem intentar agrupar-les per guanyar número de casos en cada casella.
- Aquí el què hem de mirar és la significació de Pearson chi-square -> veure l'apartat valoració de la significació estadística.
- La quarta taula (Figura 31), tenim la odds ratio (cercles)-> veure l'apartat valoració de la magnitud de l'associació.
Valoració de la magnitud de l'associació: odds ratio
Aquí ve l'explicació dels números que hem vist.
Hi ha diverses formes de mesurar l'associació de dues variables categòriques (avís: el següent pot estar basat en experiències i/o manies personals, i no té perquè ser del tot acadèmic):
- Quan una variable és causa de l'altra, o podria ser-ho. Per exemple el fet que estar solter provoca que s'estigui més prim. Hi ha dues mesures clàssiques en epidemiologia que no vé malament conèixer:
- La odds ratio (Figura 31), que vé a ser (encara que no ho és exactament) quantes vegades més risc hi ha de malaltia en un grup que en un altre. Per exemple podriem dir que els fumadors tenen 3 cops més risc de fer un infart que els no fumadors (odds ratio de 3). En el nostre cas, la odds ratio de 13,6 vol dir que els solters (serien els fumadors) tenen 13,6 vegades més risc d'estar prims (serie l'equivalent a fer un infart) que els gordos (els no fumadors). A la odds ratio li podem donar un interval de confiança (que ens dóna l'SPSS), que si no passa per l'1 podem dir que és estadísticament significatiu (cuidao que aquí és per 1, no per 0!). En aquest veieu que l'interval no passa per 1, el que vol dir que els solters tenen més risc d'estar prims que els casats, i aquesta diferència (que ja haviem vist a la taula 2x2) és estadísticament significativa.
- El risc relatiu (que l'SPSS el pot fer però es lia), s'interpreta igual que la odds ratio, i en aquest cas sí que és exactament quantes vegades més de risc tenen els exposats (els solters) que els no exposats (els casats) d'estar prims (la malaltia del nostre estudi)
- Diferència de proporcions. Una altra forma de valorar la magnitud de l'efecte, si no hi ha una variable que pugui ser la causa de l'altra, sinó que està al mateix nivell com per exemple les variables binàries portar sabates grogues si/no i portar camises liles si / no (els dos fets es poden associar, però un no causa l'altre ni a la inversa). En aquest cas no es sol fer una odds ratio o un risc relatiu, sinó la diferència entre les dues proporcions, junt amb el seu interval de confiança. Problema: l'SPSS no ho fa. Si aquest interval no passa per 0, es pot dir que l'associació entre portar sabates grogues i portar camises liles és estadísticament significativa (cuidao que aquí és per 0, no per 1!)
Valoració de la significació estadística: la p
Però si volem, per un motiu desconegut, donar un valor de p (Figura 30), tenim la prova de xi-quadrat (per tant veieu que el títol de tot l'apartat és fals, perquè hem fet moltes més coses que una simple xi-quadrat per veure la relació de dues variables categòriques: el món és més que una p!):
El valor de la p en aquest cas és 0,000 (impossible que sigui exactament 0, però en tot cas és inferior a 0,05). Però ens servei d'alguna cosa aquesta p? Només sabem que els solters i els casats no estan igual de grassos (i no ho estan de forma estadísticament significativa), però no sabem quin dels dos grups està més gras, ni quant més gras està. Sempre és molt més important mirar les dades (i entendre-les!) que mirar la ditxosa p. Sinó no sabriem que són els solters els que estan més prims, i que tenen un risc 13 cops superior d'estar-ho si els comparem amb els casats.
t de student
Segons l'esquema del principi, ara ens tocaria mirar si els joves son més prims o no. És a dir si la mitjana d'edat dels prims és igual que la mitjana d'edat dels no prims. I per això usem la t de Student, que serveix per relacionar una variable binària amb una continua, és a dir ens diu si la mitjana de la variable continua és igual (o no) en els dos grups de la variable binària.
Les variables que fem servir aquí son edat (variable independent) i esta prim (variable dependent).
Condicions d'aplicació de la T d'Student. Abans de decidir si fem la proba o no, hem de comprovar les condicions d'aplicació: Que la que la variable continua (edat) segueixi una distribució normal en cadascun dels dos grups. Això no ho hem explicat, però en general es pot assumir que es compleix si cada grup té almenys 30 persones. De tota manera hi ha proves per saber si és així o no (test de Kolmogorov-Smirnov i gràfics p-p per si algú vol aprofundir). Si aquesta condició no es compleix, no podríem usar la t de Student i hauríem de passar a una prova no paramètrica (en aquest cas la U de Mann-Withney).
En el nostre cas, com que ens passem de 30 a cada grup, assumim que si que podem fer la proba de la T d'Student.
Amb l'SPSS això es fa de la següent manera:
anem a analyze -> compare means -> independent samples t-test que és la t d'Student (Figura 23)
a test variables hi posem la variable quantitativa, l'edat (Figura 24)-> a grouping variable li posem la qualitativa, esta prim -> li hem de dir quin son els 2 grups que volem comparar apretant a define variable groups -> al grup 1 li podem la categoria 0 (no) de la variable esta prim-> al grup 2 li posem la categoria 1 (si) de la variable esta prim -> continue (veiem que on hi havien interrogants ha aparegut un 0 i un 1) -> paste -> anem a la finestra de la sintaxi i executem el què se'ns ha copiat i obtenim el següent en els resultats (Figura 25):
I de tots aquests números quins en interessen?
- A la primera taula podem veure les mitjanes d'edat dels dos grups. La mitjana d'edat dels prims és molt inferior a la dels grassos: els prims són més joves!
- A la segona taula hi hem de mirar vàries coses:
- Primer de tot, tenim dues opcions de resultats: la primera fila equal variances assumed o la segona fila equal variances not assumed. Això és la proba de l'homogeneïtat de les variàncies. Per saber quina de les dues files hem d'usar, hem de mirar la primera significació.
- Si aquesta és major de 0,05, fem servir la primera fila ja que això vol dir que les variances son iguals.
- Si com en el nostre cas la significació és inferior a 0,05 , vol dir que les variances no son iguals i que hem de mirar la fila de baix.
- Un cop hem decidit quina de les dues files fem servir, veieu que ens dóna tant la p com l'interval de confiança de la diferència de mitjanes. Aquest interval ens diu que si fessim 100 vegades aquest mateix estudi (sempre amb el mateix tamany de mostra), en 95 vegades la veritable diferència entre les mitjanes estaria en aquest interval. Això és molt més informatiu que la p, perquè ens dóna una idea de quant diferents són les dues mitjanes, no només si són estadísticament diferents. I si es tracta de saber la significació, tampoc ens cal la p! Sempre que l'interval no inclogui el valor 0 (el valor 0 diria que les dues mitjanes són iguals), hi ha significació estadística.(o sigui la p serà inferior a 0,05). Recordeu, però, mirar sempre la significació clínica i no només l'estadística! Per tant, el què ens interessa aquí és:
- La diferència de mitjanes i el seu interval de confiança.
- I en segon terme, la p.
- Primer de tot, tenim dues opcions de resultats: la primera fila equal variances assumed o la segona fila equal variances not assumed. Això és la proba de l'homogeneïtat de les variàncies. Per saber quina de les dues files hem d'usar, hem de mirar la primera significació.
En el nostre estudi: la diferència de mitjanes és de 23,4 anys (IC95% 15,2-31,6), el que vol dir que els prims són 23 anys més joves que els grassos. La signifiació, lògicament, és inferior a 0,05 perquè l'interval de confiança no passa pel 0. Per tant concloem que si que hi ha diferències (no només estadístiques sinó també clíniques, 23 anys són molts anys de diferència!) en l'edat dels prims i els no prims.
ANOVA
És similar a la t de student però enlloc de dos grups en tenim tres (per tant una variable continua i una de categòrica no binària). No tenim temps de fer un exemple, però en el SPSS està en el menú (Figura 32).
Correlació
Serveix per saber si dues variables continues (per exemple el pes i l'edat) estan relacionades. Com que no tenim massa temps (ni és l'objectiu del nostre estudi), dir només que el normal és fer una correlació de Pearson, però que si no es compleixen les condicions d'aplicació (les dues variables han de ser normals o majors de 30 pacients) usem la correlació d'Spearman.
Aquí teniu l'exemple de relació de dues variables contínues, només perquè sapigueu que es poden fer (Figura 33). També és molt útil fer la representació gràfica amb un Scatter Plot. La sintaxi per fer-ho seria la següent (podeu copiar-la i tirar-la directament a la sintaxi):
CORRELATIONS /VARIABLES=pes edat /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . GRAPH /SCATTERPLOT(BIVAR)=edat WITH pes /MISSING=LISTWISE .
Per fer que us surti la línia, heu de fer 2 clics sobre el gràfic en la finestra de resultats i marcar el botó on hi ha dibuixada la tendència lineal.
En aquest cas tenim el valor de la p que ens dóna i el valor de la correlació de Pearson que va de 1 a -1, i en funció del valor la correlació és més o menys forta:
- de -1 a -0,7 o de 1 a 0,7 és una correlació molt forta negativa o positiva respectivament.
- de -0,7 a -0,3 o de 0,7 a 0,3 és una correlació dèbil negativa o positiva respectivament.
- de -0,3 a 0 o de 0,3 a 0 no hi ha correlació.
En el nostre estudi, no era una proba que haguéssim de fer per als nostres objectius, però les conclusions serien que l'edat i el pes es correlacionen de forma positiva, tot i que dèbil (0,519), i aquesta correlació és estadísticament significativa (p<0,05).
(Breu) introducció a l'anàlisi multivariant
Però tornem al nostre estudi. Hem vist que la variable ESTÀ PRIM s'associa tant a ser solter com a ser jove. Llavors, què causa estar prim? Un de les dues? Les dues? Cap? Això és el que intenta resoldre l'anàlisi multivariant, que és aquell que relaciona més de dues variables alhora (3 en aquest cas). Una de les seves funcions més importants és poder controlar un problema molt freqüent en ciències de la salut: la confusió.
La hipòtesi principal de l'estudi era que ESTÀ PRIM s'associa amb ESTAT CIVIL, però pel mig ens ha aparegut la variable EDAT que hem vist que també s'associa a ESTÀ PRIM. Per dir que una variable és confusora (l'EDAT és una ferma candidata a ser-ho en aquest estudi i en la immensa majoria d'estudis, com ho són el sexe, la classe social, etc.) cal que s'associi tant a la variable dependent (ESTÀ PRIM) com a la variable independent principal (ESTAT CIVIL). Això segon no ho hem comprovat. Quina prova usarieu per veure la relació entre l'EDAT i l'ESTAT CIVIL? Vinga, ara us toca treballar a vosaltres!
Us hauria de sortir això (Figura 34) (vigileu al posar els valors de la variable estat civil que no son 0 i 1!):
Vist el resultat, ja podem dir que l'EDAT és una variable confusora, és a dir que confon la relació entre ESTÀ PRIM i ESTAT CIVIL, ja que ella s'associa a totes dues. Això pot implicar que la relació que hem trobat entre ESTÀ PRIM i ESTAT CIVIL pot ser falsa, i que el que passi és que els solters estan més prims que els casats però no per aquest fet sinó perquè són més joves (cosa que hem comprovat), i els joves alhora són més prims que els grans (cosa que també hem comprovat).
Per saber la veritable relació entre ESTÀ PRIM i ESTAT CIVIL hem d'AJUSTAR per edat (segur que heu sentit molts cops aquesta paraula!) que no vol dir res més que tenir en compte l'efecte de l'edat en la relació de les dues variables que realment ens interessen. Això és el que permet fer l'anàlisi multivariant, que és tot el món de les regressions, en aquest cas la regressió logística que és la més freqüent en ciències de la salut. Només d'aquesta forma podriem saber si l'ESTAT CIVIL per si sol fa que la gent estigui més prima!
Això, però, ja no ho explicarem. Alguna feina hem de deixar pels tècnics, no? :)
Presentació de resultats i conclusions
Un cop hem tret tots els resultats que ens interessen, és hora d'ordenar-los per poder-los presentar i treure'n conclusions. L'objectiu de l'estudi era saber per quines variables s'associaven al fet d'estar prim, o sigui per què alguna gent de la mostra està més prima que altra (en el món real: per què alguna gent fa infarts i altres no). Hem vist que l'estat civil és un dels factors implicats, que els solters estan significativament més prims que els casats (en el món real: els fumadors tenen més infarts que no els no fumadors). Però hem vist també que l'edat s'associa al pes, en el sentit que els prims són significativament més joves que els grassos. Finalment hem comprovat que els dos factors (estat civil i edat) estan també relacionats entre sí en el sentit que els solters són significativament més joves. Amb tot això hem creat un triangle amorós (confús, en aquest cas) que només la regressió logística pot ajudar a aclarir.
Despedida y cierre
I fins aquí la classe. Ens ha quedat moltes coses per veure, a part de l'anàlisi multivariant, com per exemple totes les proves no paramètriques (com la U de Mann-Withney), tot l'apartat de supervivència (què fer quan una de les variables és el temps) o què fer quan tenim diferents mesures d'una mateixa variable en un mateix individu (estadística de mesures repetides). Però bé, això ja és tota una altra història.
Gràcies a tots!
Fi de la tercera classe i del curs :(