SPSS

De wikiTraba
Salta a la navegació Salta a la cerca


Programa: Metodologia de la recerca 2 (Procediments estadístics aplicats a un treball de recerca)

Objectius docents:

  • Contribuir a la utilització correcta del paquet estadístic SPSS com a instrument que permet descriure les variables mesurades en un treball de recerca i analitzar les seves relacions.
  • Interpretar els resultats de les proves estadístiques.
  • Millorar les habilitats per avaluar l'adequació dels mètodes estadístics utilitzats en un treball de recerca.

Unitat Docent de Medicina Familiar i Comunitària de Barcelona Ciutat

Metodologia docent: teoría mínima (en negre) i la gran majoria treball pràctic amb els ordinadors.

Docents: autoaprenentatge, MFE.

Alumnes: els curs està dirigit als residents de tercer any de MfiC o qualsevol que estigui interessat.

Avaluació per docents: es repartirà un qüestionari de valoració del curs.

Lloc, dates i durada: El curs té una durada de 20 hores repartides en 5 sessios:

EAP Sessió 1 Sessió 2 Sessió 3 Sessió 4 Sessió 5
Raval Nord ??? 20-4-07 12:30h-14:30h Pendent Pendent Pendent
Raval Sud ??? 20-4-07 10h-12h Pendent Pendent Pendent
La Pau 18-4-07 16h-18h Pendent Pendent Pendent Pendent

Certificació: es lliurarà un certificat d’assistència a tots els alumnes que assisteixin al 80% de les hores lectives del curs. En el certificat constarà el nombre d’hores del curs i el registre corresponent.

Introducció al SPSS per a Windows

Per què necessito jo l'SPSS?

La situació és la següent: jo ja tinc escrit el protocol de l'estudi i ja tinc fet el treball de camp (o auditoria d'històries clíniques) i tinc totes les dades passades a l'Acces. És en aquest punt on jo necessito l'SPSS ja que em servirà per descriure i analitzar estadísticament les meves dades. Tot i que també va molt bé per recodificar variables i crear-ne de noves. No és un programa per la recollida de dades, a no ser que us hi vulgueu deixar la vista i la paciència!

No és l'únic programa que hi ha per això, però si el més utilitzat. És de pago i cada any surt una nova versió no del tot compatible amb l'anterior. Tot i així és el més utilitzat. Altres programes per exemple son EpiInfo (gratuit), R (lliure) i Stata (de pago).

D'on el trec?

Com ja hem dit, és un programa de pago i la única forma legal de tenir-lo és comprar-lo o que el compri l'organització on treballes. En aquest cas cap de les dues condicions es compleix. Però un altre cop més, haurem de lluitar contra les adversitats.

I un cop instal·lat, per on començo?

Un cop el tinguem instal·lat el primer que hem de fer és apagar l'ordinador i seure en una taula amb els integrants del grup de treball del progecte que volem analitzar per a tenir clar què volem i com ho volem. Si tenim ben fet el protocol, això serà poca estona. Hem de tenir clarament definits els objectius i quins resultats volem obtenir a partir de les dades que hem recollit. Si això no ho tenim clar, ens liarem amb tots els números que ens dóna l'SPSS i ens desesperarem.

Així doncs, hem de tenir clar perquè volem treure les dades:

  • Volem fer un abstract per enviar a un congrés? Les necessitem per fer un informe pel FIS? Les volem per fer un article?
  • Un cop sabem perquè les volem, hem de saber exactament quins resultats volem i aquests derivaran dels objectius. Per tant, hem de saber exactament els objectius que nosaltres volem presentar. És molt útil fer un esquema d'això, per no liar-nos un cop estem amb l'SPSS.
 En el nostre exercici volem fer un abstract per enviar en un congrés:
 - objectiu: els homes solters, són més prims?
 - material i mètodes: descriptiu, variables (edat, pes o prim si/no i estat civil)
 - resultats: 
   1. comparar les mitjanes de pes per a cadascun dels estats civils
   2. comparar la proporció de prims en cadascun dels estats civils
 - conclusions: en funció dels resultats

Si ja tenim tot això clar, ja podem obrir l'ordinador i entrar a l'SPSS.

Components de l'SPSS

Per obrir l'SPSS normalment si s'instal·la amb les opcions per defecte, el tindreu a l'escritorio o sinó a inicio -> programas -> SPSS for Windows.

L'SPSS funciona com qualsevol altre programa, amb els iconos i els menús de la part de dalt que anirem veient per què serveixen alguns d'ells poc a poc. L'SPSS a més té varies pantalles que serveixen per diferents coses. Ara les veurem, només per conèixer-les.

  1. La pantalla que ens surt primer de tot és la pantalla on hi hauran les nostres dades (Figura 1). A les files normalment hi ha els pacients i a les columnes les diferents variables que hem recollit. Si mirem la part de baix de la pantalla, veurem que hi ha dues pestanyes: la que posa data view que és la que acabem de veure i la que posa variable view. Aneu a la que posa variable view i veureu que ara canvia: les files ara son les variables i les columnes son les característiques de cadascuna de les variables.
    Figura 1
  2. Després tenim la pantalla que es diu sintaxi (Figura 2). És on s'escriuran les ordres per a l'anàlisi de les nostres dades. Molta gent no ho fa servir,però és molt útil fer servir la sintaxi ja que així guardem pas per pas tot el què fem i si algun dia canviem alguna dada o afegim més pacients amb 10 segons tornem a tenir tot l'anàlisi fet.
    Figura 2
  3. I finalment tenim la pantalla dels resultats o output en anglès, que és on ens sortiran les taules i gràfics que nosaltres li direm que ens faci. De moment no veiem la pantalla perquè com que no tenim dades no podem tenir cap resultat.

Seguim... important la base de dades de l'Access

Per començar a analitzar les dades, el primer que necessitem és que aquestes dades vagin a parar a l'SPSS. Normalment les dades les tindrem en un Access. Si no és així, el procés d'importar la informació no és gaire diferent. Això ho fem de la següent manera:

  • Pels que heu fet l'exercici d'Access, farem servir aquella base de dades que vam fer. Si no la teniu aquí, us la podeu baixar d'aquí.
  • Per importar una base de dades en Access, hem de fer el següent. Haurem d'anar a file -> open database -> new query -> ens hem de posar damunt de MS Access Database -> siguiente.
  • Ara ens demana on tenim la base de dades en Access. Per dir-li on la tenim piquem a browse i busquem la nostra base de dades en Access -> i un cop la tenim anem a l'OK.
  • Ara ens surt una pantalla amb la taula principal de la nostra base de dades i totes les seves variables. Hem d'arrastrar el nom de la taula, en aquest cas principal a la finestra del costat on posa retrieve fields in this order. Ens han de sortir les nostres variables al quadre de la dreta. Un cop comprovat (figura 3) fem siguiente -> siguiente un altre cop.
    Figura 3
  • En aquesta pantalla on veiem totes les variables poden passar varies coses (figura 4):
    • Que hagueu posat als noms de les variables símbol raro que a l'SPSS no li agradi. En aquest cas us el farà canviar.
    • Que tingueu una variable amb diferents categories, com és el cas del nostre estat civil. Com veieu, hi ha un quadradet que podem marcar o no. Si no el marquem, la variable romandrà tal quan l'hem fet, per tant, serà una variable tipus text. Si el marquem, la variable es convertirà en numèrica i el text que és es convertirà en etiqueta. Això és el què ens interessa, per tant, marquem el quadradet.
Figura 4
  • Siguiente -> marquem l'opció de paste it -> finalizar. Veureu que se us ha obert una nova finestra, és l'arxiu de la sintaxi de l'SPSS. I en aquest arxiu de sintaxi veiem que s'hi han escrit les ordres d'importar la base de dades a la fulla de dades de l'SPSS, però encara no les hem importat!
  • És molt útil escriure a dalt de cada ordre de sintaxi què és el què fa. Per exemple, sobre de la sintaxi que hem enganxat per importar la base de dades, podem escriure el següent per saber d'aquí uns mesos què vol dir. Per escriure a la sintaxi i que després al tirar-la no doni error, hem d'escriure el què volem entre un asterisc (*) i un punt (.), tal com es veu en el següent quadre:
 *Importar base de dades.
  • Per importar-les de veritat hem d'aprendre un nou concepte de l'SPSS: executar o tirar la sintaxi. La sintaxi son ordres escrites que el què faran és importar la base de dades, crearan variables o ens calcularan i ensenyaran resultats. I per executar aquestes ordres el què hem de fer és seleccionar-les (seleccionar el text) i després prémer el botó del play (figura 5). I el què passa és que ara ja si importem realment la base de dades. Ho podem anar a comprovar mirant la finestra de les dades de l'SPSS (figura 6). Si veieu asteriscs a la data és que la columna és massa estreta, l'heu de fer més gran.
Figura 5
Figura 6

Doncs ja tenim la base de dades a l'SPSS.

Propietats i creació de variables

Com veiem en la nostra base de dades, les variables que tenim, no son les que realment necessitem per als resultats que hem decidit que volem:

Variables que tenim Variables que volem Categories
NHC
Data de naixement Edat
Pes Pes
Pes Esta prim Si, no.
Estat civil Estat civil Solter, casat/emparellat.

Per tant, haurem de crear dues noves variables a partir de les que tenim: l'edat i prim si/no. Però abans, una mica de nomenclatura.


Definició de les variables: tipus, etiquetes i valors perduts o missings

Les variables tenen algunes propietats que caldrà saber. Si anem a la pestanya de variable view podrem veure-ho (Figura 8).

Figura 8
  • Primer de tot, el nom o name de la variable. És el nom curt que li donem a la variable i és de la forma que li hem de dir quan volguem escriure a la sintaxi.
  • Una variable pot ser de varis tipus. Els que més farem servir serà:
    • Tipus numèric, és a dir un número. Tot i que aquest número pot ser un número real (com el nostre pes) o una variable numèrica on cada número correspongui a una categoria (com és el cas del nostre estat civil). Com veieu, aquesta variable és numèrica, però en realitat, és categòrica.
    • Tipus string o text. Val més no fer-les servir massa, ja que hi ha moltes funcions que l'SPSS no ens deixa fer amb una variable de tipus text. En el nostre àmbit de treball hi ha algunes variables que ens interessaran fer-les d'aquest tipus com el CIP (lletres i números).
    • Tipus data com la nostra data de naixement.
  • Una variable, també es defineix per la seva etiqueta o label. És una frase que descriu la variable, ja que el nom sol a vegades no és suficient per saber de què parlem. Si la variable és numèrica, se solen posar les unitats amb les quals hem creat la variable. Per exemple, la variable pes, la seva etiqueta seria Pes en kg. Si perdem uns minuts en això, ens servirà perquè després a les taules de resultats ens surtin com a títol les etiquetes i no només els noms de les variables.
  • A la vegada, en una variable numèrica pot ser que cadascun dels números correspongui a una categoria, i a aquesta categoria també se li pot posar etiqueta (és la columna values).

Anem a posar etiquetes a les nostres variables:

 Anem a data
 -> després a define variable properties
 -> les seleccionem totes i amb el botó de la fletxa, les passem a l'altra caixa
 -> continue

Ara tenim una pantalla amb el llistat de variables a l'esquerra i tot de sub-menús a la dreta (Figura 9).

Figura 9
  • NHC: a label o etiqueta hi posarem la descripció del què és: Número d'història clínica. La resta ho deixem tal com està.
  • datan: a label hi posem Data de naixement. A type veiem que hi ha un desplegable amb diferents tipus de formats de data. Escollim el que més ens sigui útil `per la nostra finalitat. Agafeu sempre el que tingui l'any amb 4 xifres, que si s'agafa l'any amb 2 xifres hi poden haver problemes.
  • pes: posarem l'etiqueta a Pes en kg. com que aquesta només volem que tingui 1 decimal, posem els decimals a 1.
  • ecivil: li posarem l'etiqueta Estat civil. Aquesta, ens interessa que els no consta sigui missing (que no es tinguin en compte a l'anàlisi), per tant, a la columna de missing, farem un clic a la fila de la categoria del no consta. Com veieu, aquí les etiquetes de les diferents categories de la variable ja estan posades, ja que ho hem fet així a l'importar la base de dades. Però quan creem una variable de nou, li haurem de posar.

Ja hem acabat de descriure les propietats de les variables. Ara, enganxem la sintaxi picant a paste i anem a la finestra de la sintaxi per veure què ens ha fet. Veiem que ens ha escrit això:

 *Define Variable Properties.
 *NHC.
 VARIABLE LABELS NHC  'Número dhistòria clínica'.
 *datan.
 VARIABLE LABELS datan  'Data de naixement'.
 FORMATS datan (EDATE10).
 *pes.
 VARIABLE LABELS pes  'Pes en  kg'.
 FORMATS pes (F8.1).
 *ecivil.
 VARIABLE LABELS ecivil  'Estat civil'.
 MISSING VALUES ecivil ( 2 ).
 EXECUTE.

Ho executem, marcant-ho i després picant el play. Podem anar a comprovar que a la finestra de la variable view ha aparegut la descripció de les variables a la columna de la label. I us preguntareu, perquè no ho puc escriure directament a la columna aquesta sense fer tanta tonteria? Doncs és perquè si algun dia heu de tornar a importar la base de dades (com passarà en breu), tot això que hàgiu fet sense haver-ho escrit a la sintaxi ho haureu de tornar a fer. Cosa que no passa si ho hem copiat tot a la sintaxi.

Creació de la variable edat: la funció compute

Un cop tenim les variables definides tal com ens agrada, haurem de crear la variable edat a partir de la data de naixement i de la data d'avui (Figura 7). També es pot fer a partir d'una altra data que tingueu com a variable en la base de dades.

Figura 7
 Anem a transform 
 -> compute 
 -> a target variable posem en nom de la variable que volem crear, és a dir, edat 
 -> a Type & Label li posem l'etiqueta de Edat en anys.

Per calcular l'edat, el què hem de fer és restar-li a la data d'avui la data de naixement. Amb això ens dóna la data, però en segons. Per tant, hem de convertir l'edat en egons a edat en anys, multiplicant per (3600 min)*(365.25 dies)*(24 hores).

 -> busquem la funció que es diu DATE.DMY(day,month,year) 
 -> i la passem a la caixa de numeric expression
 -> escrivim la data d'avui o la que ens interessi
 -> li restem la data de naixement (datan)
 -> i ho convertim en anys tal com es pot veure en la imatge
 -> paste per enganxar-ho a la sintaxi
 -> anem a la pantalla de la sintaxi
 -> executem les instruccions per crear la variable edat

En principi, a la finestra de les dades se'ns hauria d'haver creat una nova variable que es diu edat i com a etiqueta posa edat en anys.

Una altre forma de crear l'edat, per si no recordeu els números que multipliquen, és amb la funció següent:

COMPUTE edat= TRUNC (CTIMEDAYS (DATE.DMY(05,03,2007)-datan)/365.25).La funció CTIMEDAYS transforma en dies un temps en segons, i la funció TRUNC fa que el número calculat sigui sense decimals.

Creació de la variable prim si/no: la funció recode

Ara el què volem crear és una variable que sigui prim i que les seves categories siguin si o no, ja que la meva hipòtesi és que els solters son més prims. Però jo el què tinc és el pes. Així que he de crear una nova variable categòrica (li direm pes2) a partir d'una numèrica. Això ho farem amb la funció recode into different variables.

 Anem a transform
 -> recode
 -> into different variables
 -> passem amb la fletxa a la caixa de la dreta la variable que ens interessa: el pes
 -> a output variable i name li donem el nou nom de la variable pes2
 -> a label li posem l'etiqueta de pes2: Està prim.
 -> premem change (pas important! que sino no funciona res de res :)
 -> anem a old and new values 

I ens surt aquesta pantalla (Figura 10), on haurem de dir a la dreta els valors antics i a l'esquerra els nous. Nosaltres volem que els prims siguin els que pesen menys de 70.

Figura 10
 -> empleneu segons els criteris
 -> per afegir el criteri, apretar add
 -> quan haguem acabat, continue que ens porta a la pantalla anterior
 -> paste
 -> tirem la part questa de sintaxi que se'ns ha escrit:
 RECODE
   pes
   (Lowest thru 70=1)  (70 thru Highest=0)  (ELSE=Copy)  INTO  pes2 .
 VARIABLE LABELS pes2 'Està prim'.
 EXECUTE .
 -> ara ens falta posar les etiquetes de les categories, pt anem a data
 -> define variable properties
 -> passem pes2 a la caixa de la dreta
 -> continue
 -> definim els noms de les categories i el què nosaltres creguem necessari
 -> paste
 -> anem a la sintaxi i la tirem.

Ja tenim la nova variable pes2 amb la seva etiqueta i les etiquetes de les seves categories.

Fi de la primera classe.

Anàlisi descriptiu de les dades i detecció de valors anòmals

L'anàlisi descriptiu de les nostres dades té tres funcions:

  1. Detecció dels valors missing, és a dir dades que no coneixem. En la immensa majoria d'estudis hi ha dades que no coneixem, bé perquè ens hem oblidat de recollir-les (cosa que té solució) o bé perquè són valors realment desconeguts (cosa de més difícil solució, almenys pels que no som estadístics). És fonamental conèixer el percentatge de valors desconeguts de cada variable, ja que si és superior al 10% podem tenir problemes. A més, sempre que fem proves estadístiques amb dues variables juntes, només s'utilitzaran els registres on es conegui el valor de les dues!
  2. Detecció de valors anòmals que se'ns hagin pogut escapar al picar les dades a la base de dades. Evidentment, si detectem algun valor anòmal hem d'anar a la base de dades i canviar-lo (arreglar-lo si podem saber el valor real, o passar-lo a missing si no el podem saber --> sempre és millor no tenir informació que tenir informació incorrecta!). Mai canvieu un valor a ma a l'SPSS perquè si en algun moment torneu a importar la base de dades aquest canvi no es farà i haureu de tornar a retocar a ma i un a un tots els valors anòmals que hi haguessin.
  3. Descripció de la mostra estudiada a nivell univariant.

Abans de poder fer l'anàlisi descriptiu de les variables, hem de fer una mica de teoria. Primer de tot, hem de saber quin tipus de variables tenim al davant i quina és la millor manera per descriure-la. Un cop sabem això, ens serà molt més fàcil demanar-li a l'SPSS allò que volem.

Tipus de variables existents

  • Categòriques:
    • Variables categòriques, com per exemple el (dona / home), està prim o l'estat civil. Si tenen només dues categories (com el sexe o està prim) es diuen binàries
    • Variables ordinals, que són un tipus especial de variables categòriques on les diferents categories segueixen un ordre, com per exemple la classe funcional de la insuficiència cardíaca
  • Quantitatives:
    • Variables discretes, que representen habitualment recomptes (per exemple el número d'intervencions que se li han fet a una persona)
    • Variables continues, que representen mesures (per exemple l'edat o el pes)


En principi i sempre que sigui possible, en un estudi és millor recollir les variables com a quantitatives ja que sempre es poden transformar posteriorment en categòriques, però a l'inrevés no es pot fer. Per exemple sempre és millor recollir la pressió arterial i després si cal recodificar-la en control SI / NO, que no pas recollir directament si està controlat o no ja que podem estar perdent informació que més endavant ens pot interessar.

Descripció de les variables categòriques (frequencies)

  • Mesures estadístiques:
    • Freqüencia (percentatge) de cadascun dels valors, o sigui el número de vegades que apareix un valor entre el número total de registres.
    • Quan estem estudiant la freqüència d'una malaltia i segons el tipus d'estudi, parlem de prevalença (percentatge de casos que hi ha en un moment donat) o d'incidència (nous casos apareguts en un periode de temps)
  • Gràfics:
    • Diagrama de barres
    • Diagrama de sectors
  • I tot això, com ho fem en SPSS? Amb el Frequencies.

Descripció de les variables quantitatives (explore)

  • Mesures estadístiques:
    • Basades en "moments": mitjana (valor de tendència central) i desviació estàndar (valor de dispersió). Són les més freqüents, però no sempre les millors. El més raonable és descriure-les amb la mitjana (valor de tendència central) i el seu intèrval de confiança (valor de dispersió), que ja ho explicarem després.
    • Basades en "ordenacions": mediana (valor de tendència central) i percentils (valor de dispersió). Potser són menys freqüents, però mai enganyen.
  • Gràfics:
    • Histograma (variables continues) o diagrama de barres (variables discretes), que permeten mostrar la freqüència de cadascun dels valors i ens permeten fer-nos una idea de la seva distribució.
    • Boxplot: Dóna molta informació però no estem gaire acostumats a interpretar-lo.
  • I tot això, com ho fem en SPSS? Amb l'explore.

Els intervals de confiança, aquests grans desconeguts

Tots hem sentit parlar dels intervals de confiança del 95%, però sabem què són? Per entendre-ho, hem de diferenciar entre:

  • la població, que és el conjunt d'individus a qui voldrem aplicar les conclusions del nostre estudi (per exemple, tots els homes de Barcelona)
  • la mostra, que són els individus que nosaltres hem estudiat i amb els que treballarem, és a dir els que tenim a la base de dades

Quan describim la nostra mostra, el que volem en realitat no és dir, per exemple, que la mitjana d'edat dels homes casats que hem estudiat és de X anys, sinó que volem extrapolar aquest valor per poder dir que la mitjana d'edat de tots els homes casats de Barcelona és de X anys. Per fer aquest pas necessitem els intervals de confiança, que ens diran un interval de valors entre els quals podem estar relativament segurs que hi ha el veritable valor de la mitjana d'edat dels homes casats de Barcelona. El que ens diu en realitat l'interval, és que si agafessim 100 mostres de la població que volem estudiar (totes del mateix tamany de la nostra), en 95 de les 100 el valor de la mitjana estaria dins d'aquell interval. Pot ser una mica liat, però és important entendre-ho.

Com més gran és una mostra (més persones estudiem), més estret serà l'interval de confiança i per tant més informació tindrem. No és evidentment el mateix dir que la mitjana d'edat és de 45 anys amb un interval que va de 20 a 70 anys (per això no calia fer cap estudi!), que no pas dir que és de 45 anys amb un interval de 44 a 46 anys. Per això és important treballar amb mostres grans, sempre que els diners i el temps ens ho permetin!

A qualsevol paràmetre estadístic (mitjana, mediana, percentatge, etc.) se li pot donar un interval de confiança, però l'SPSS només ho fa amb les mitjanes (i no amb les proporcions o les medianes, per exemple). Això és un dèficit força greu del programa!

Quan parlem de proves estadístiques, tornarem a parlar dels intervals de confiança, que és el que hauriem d'usar enlloc de les famoses p! Ens engayen molts menys!

Ara sí, obrim l'ordinador i anem a l'SPSS!

  • Primer de tot tornem a importar la base de dades d'Access, i a definir i crear les variables de l'altre dia. Recordeu que teniu la sintaxi!
  • El que volem avui és, per cada variable de la base de dades:
    • Trobar els missings
    • Trobar valors anòmals: edats o pesos impossibles; categories d'estat civil no definides (no n'hi han perquè hem fet bé l'Access!). Si trobem valors anòmals (que deberiamos), hem d'anar a l'Access, arreglar-ho (o convertir-lo a missing!) i tornar a importar la base de dades a l'SPSS
    • Descriure les dades
    • Intentar entendre els intervals de confiança
    • Fer els gràfics més adequats en cada cas, i veure que l'SPSS no és precisament el millor programa per fer gràfics
    • Començar a veure com es relacionen les diferents variables (per exemple mirant les mitjanes de pes en els casats i en els solters), però això ho farem en les pròximes classes!

Farem l'exemple d'una variable quantitativa (edat) i d'una categòrica (estat civil).

Anàlisi descriptiu de l'edat (quantitativa -> explore)

  • Per descriure la variable edat, com que és quantitativa haurem de fer un explore (Figura 11):
Figura 11
 Anem a Analyze ->
 Descriptives ->
 Explore -> passem la variable edat a la caixa de la dreta on posa dependent list
  • Veurem que hi ha dos botons per triar les opcions d'aquesta funció (Figura 12):
    Figura 12
    • El que posa statistics (Figura 13): amb aquest triem les opcions següents:
      Figura 13
    • El que posa plots que son gràfics: (Figura 14): amb aquest triem les opcions següents:
      Figura 14
 Fem paste ->
 anem a la finestra de la sintaxi i executem l'ordre que ens acaba d'enganxar.

Ja tenim els resultats. Ens hauria d'haver sortit una nova finestra, aquest cop de resultats amb la següent pinta (Figura 15):

Figura 15

Intentarem explicar una mica tots aquests números, ara. Anem per passos:

  • A la primera taula tenim el número de casos vàlids (o sigui que tenen valor), i el número de missings (només 1 en aquest cas). Si fos un estudi real hauriem de buscar aquest cas, i mirar de recuperar la seva data de naixement per introduir-la a l'Access i tornar-ho a importat tot a l'SPSS.
  • A la segona taula tenim els estadístics descriptius de la variable, que ens serviran per descriure-la (lògicament) però també per trobar valors anòmals:
    • En primer lloc tenim la mitjana, que és..... la mitjana de tota la vida! Lo únic que aquí tenim el seu interval de confiança, que està bé posar-lo sempre! Més avall hi ha la desviació estàndar, però no dóna massa informació tot i que encara hi ha gent que la posa junt amb la mitjana enlloc de posar-hi l'interval. No ho feu mai!
    • Més avall tenim la mediana, que és el valor central de la mostra. Això vol dir que si agafessim tots els valors de les edats de la mostra i els ordenessim del més petit al més gran, la mediana seria el valor que quedaria just al mig. En aquest cas la mediana i la mitjana són força diferents, el que en alguns casos vol dir que hi ha valors anòmals que distorionen la mitjana. Imagineu per exemple que hi hagués una edat de 1500 anys: això faria pujar molt la mitjana, però la mediana quedaria imperturbable!
    • I després tenim el mínim i el màxim. Tot i que l'esperança de vida ha pujat força, una edat de 146,01 sóna malament, no? Doncs això és un valor anòmal. Cal anar a la base de dades, buscar-lo i intentar saber el valor correcte. Ara mateix, però, el més fàcil és convertir-lo a missing a l'Access (heu de buscar una data de naixement del 1800!) i tornar a importar a SPSS (però no ho feu encara lo d'importar, ja que alomillor trobem altres valors anòmals en altres variables).
  • A la tercera taula tenim els percentils, que són els valors que deixen per sota seu un determinat percentatge de la mostra. Millor amb un exemple: on posa 10 i sota seu posa 21,8426, vol dir que el 10% de la mostra té menys de 21,8426 anys. El percentil 50, com veieu, és la mediana, que vol dir que és el valor que deixa per sota seu a la meitat de la mostra (la meitat dels individus tenen menys de 40,5257 anys, i l'altra meitat en té més). Veieu que en alguns percentils (25, 50 i 75) hi ha dues files de resultats? Bé, això són dues formes de calcular-los, en general han de donar molt similar i és igual amb quins ens quedem.

I quin d'aquests valors ens dóna més informació? Un truco: mireu la mitjana i la mediana.

  1. Si creieu que clínicament són dos valors similars, descriviu la variable amb la mitjana (valor de tendència central) i l'intèrval de confiança del 95% (valor de dispersió).
  2. Si creieu que són clínicament diferents, useu la mediana (valor de tendència central) i el percentil 25 i 75 (valors de dispersió).

També ens haurien d'haver sortit uns gràfics. Aquest (Figura 16)

Figura 16: el Box Plot

és un boxplot. A l'eix vertical hi ha els valors de l'edat, i a l'horitzontal......... no hi ha res :) La línia horitzontal més gruixuda del mig de la caixa central representa la mediana. Les línies horitzontals que delimiten la caixa són els percentils 25 i 75 (a.k.a. quartil 1 i quartil 3). Els límits de les potes que surten cap amunt i cap avall són els valors considerats normals o no anòmals. Tot aquest dibuix, com més simètric sigui, vol dir que més normal és la nostra mostra. En aquest cas veiem que la mediana està una mica més avall del que li tocaria (no està al mig de la caixa), el que vol dir que els individus de més edat estan més dispersos que els més joves. Bueno, una mica complicat, no? La cosa és que sabem que per sota la mediana hi ha el 50% dels individus, però aquest 50% està en menys espai (menys valors diferents d'edat) que el 50% superior.

El boxplot també ens mostra, 1 a 1, els valors que considera anòmals. En aquest cas ens ensenya un punt que represneta el valor que ens sortia com a màxim a la taula anterior (el senyor de 146 anys!). El 77 que hi ha al costat vol dir que és el cas que està a la fila 77 de la base de dades (no vol dir el que té la NHC 77!), i així el podem trobar més fàcil :)


Aquest altre gràfic (Figura 17)

Figura 17: l'histograma

és un histograma, que tots coneixem més. No és més que la freqüència de cadascun dels valors. A la dreta de tot veiem el nostre valor anòmal de 146 anys.

Anàlisi descriptiu d'estat civil (qualitativa -> frequencies)

Ara anem per lo fàcil, la variable estat civil.

 Anem a analyze ->
 descriptive statistics ->
 frequencies ->
 posem les opcions tal com podem veure a la Figura 18 i Figura 19
Figura 18
Figura 19
 paste ->
 anem a la sintaxi i executem l'última ordre

Ens hauria de sortir el següent quadre Figura 20:

Figura 20

I el següents gràfics Figura 21 i Figura 22

Figura 21: gràfic de barres
Figura 22: gràfic de sectors

I per l'anàlisi de dades:

  1. Missings. Veiem que el primer quadre de la Figura 20 ens indica quants casos son vàlids i quants missing. Anem a la segona taula, en la columna de porcentaje i veiem que el percentatge de missings és del 3%, i per tant, com que no passa del 10%, la variable és vàlida.
  2. Valors anòmals. Que en principi si hem fet bé la base de dades en Access, hem posat bé les etiquetes i hem definit bé els missings no ens n'hauria de sortir cap de raro ni sense nom.
  3. Resultats.
    1. De les taules. Els hem de mirar a la columna de porcentaje válido, i no és més que el percentatge que cadascuna de les categories de la variable estat civil, sense tenir en compte els missings, ja que els exclou (a la columna anterior sí que conten).
    2. Dels gràfics. El gràfic de barres (Figura 21), en aquest cas, com que la variable té dues categories, no ens dóna molta informació. Si en tingués més, possiblement ens donaria informació més útil. En aquest cas, potser seria millor utilitzar el de sectors Figura 22.

I ara vosaltres sols :)

Intenteu fer el mateix amb les variables que ens queden: pes i està prim.

Quan acabeu amb aquestes dues variables, podeu tornar a tirar la sintaxi i us sortiran els nous resultats, ara sense valors anòmals.

I tot això, per què ho volem?

Doncs el més probable per un àbstract, per un pòster, per una presentació, per un article...

Imagineu-vos que en l'abstract us demanen una taula on es descrigui la vostra població... quins números hi posaríeu segons el què hem estat explicant? Intenteu emplenar la següent taula:

Descripció Quin valor de tendència central descriuria millor aquesta variable? Valor Quin valor de dispersió descriuria millor aquesta variable? (només quantitatives) Valor
Edat . . . .
Pes . . . .
Esta prim . . . .
Estat civil . . . .

Pel què fa als gràfics, podeu triar el que més informació dóna en funció del què voleu dir. Amb l'SPSS podeu modificar els gràfics fent 2 clics sobre del gràfic. Si us sobra temps, podeu jugar-hi una estona.

Doncs això és tot per avui!

Fi de la segona classe

Anàlisi bivariat

Introducció

Avui aprendrem a relacionar dues variables entre sí, tant per descriure-les com per fer proves estadístiques que ens diguin si estan relacionades o no.

El primer que hem de fer és saber el que volem saber, per allò de quien no sabe lo que busca no interpreta lo que encuentra. La variable principal del nostre estudi és ESTÀ PRIM, que a partir d'ara l'anomenarem variable dependent ja que és la que volem explicar (volem explicar perquè alguna gent està més prima que l'altre: per què són solters? perquè són més joves?). Les altres variables son les variables explicatives o variables indepensents.

L'esquema de l'anàlisi de l'estudi serà en següent:

  1. Descriure la relació de la variable ESTÀ PRIM amb l'ESTAT CIVIL (objectiu principal del nostre estudi).
  2. I la relació de la variable ESTA PRIM amb l'EDAT (no és un objectiu, però si que volem saber si l'edat és un confusor i per això ho hem de mirar). Normalment es tenen moltes altres variables a part de l'edat, aquestes anirien aquí.

Comencem amb un resum de quines proves estadístiques s'han d'utilitzar segons el tipus de variables que volguem relacionar:

Categòrica binària Categòrica (>2) Continua
Categòrica binària Chi-quadrat Chi-quadrat t de student
Categòrica (>2) Chi-quadrat Chi-quadrat ANOVA
Continua t de student ANOVA Correlació


Sabent això, quin prova usarieu per relacionar ESTÀ PRIM amb ESTAT CIVIL?

I ESTÀ PRIM amb EDAT?


Bé, avui veurem (o ho intentarem) aquestes proves, però abans un parell de punts importants (i, a vegades, difícils d'entendre):

La hipòtesi nula i la hipòtesi alternativa

Sense entrar en disquisicions estadístiques, sempre que fem una prova estadística hem de tenir una hipòtesi. Es sol dir hipòtesi nula a la que diu que no hi ha relació entre les dues variables (un fàrmac no baixa la tensió arterial, o els solters són iguals de grassos que els casats). En canvi la hipòtesi alternativa diu que hi ha relació. Això no es sol dir explícitament, però és el que hi ha sota de les proves estadístiques: el que volem és refutar la hipòtesi nula.

Relacionat amb això hi han els errors α i β, però a la pràctica no serveix de gaire coneixe'ls i anem justos de temps.

La famosa p i els nostres vells amics, els intervals de confiança

Molta gent encara dóna el resultat de les proves estadísitques (chi-quadrat, t de student, etc.) amb el valor de la p. Tothom parla de la p, però que és la p? Doncs es pot entendre com la probabilitat d'haver obtingut els resultats que hem obtingut si fos certa la hipòtesi nula (la que diu que les dues variables no estan relacionades). Per això quan aquest valor p és molt petit (habitualment inferior al 5%, o sigui a 0,05) es diu que la relació entre les dues variables és significativa.

L'ús de la p té diferents problemes:

  1. El seu valor està MOLT influit pel tamany de la mostra. Com més gent tinguem, més petita serà la p (i per tant més significativa) encara que la relació entre les variables sigui la mateixa
  2. No dóna cap informació sobre la magnitud de la relació entre les dues variables, o sigui si estan molt o poc relaciondes
  3. Un últim problema és que filosòficament ens dóna la informació contrària a la que nosaltres voldriem saber. Ens diu la probabilitat d'haver obtingut aquells resultats en el cas que la hipòtesi nula fos certa, però no seria més interessant saber la probabilitat que la hipòtesi nula fos certa tenint en compte els resultats que hem obtingut? El problema és que això ens fica de ple en l'estadística bayesiana (la que fem servir normalment es diu inferencial), que no la saben utilitzar ni tan sols la majoria dels estadísitcs. Ja fa anys que es diu que és el futur, però el futur no acaba d'arribar...


Per aquests problemes és molt més recomenable utilitzar intervals de confiança que no pas la p!!! Bé, de fet sobretot pel problema 2, ja que en realitat els intervals de confiança també estan molt influits pel tamany de la mostra.

Significació estadística vs. significació clínica

Relacionat amb els problemes que hem vist de la p, hi ha una trampa encara massa freqüent en molts articles (sobretot de revistes cutres). Si una farmacèutica agafa 20.000 hipertensos, i a 10.000 els hi dóna placebo i als altres 10.000 un nou fàrmac ultrarevolucionario. Per simplificar les coses, diremt que això ho han fet amb una t de student, ja que tenen una variable binària (placebo o veneno) i una de continua (la tensió arterial). La conclusió de l'estudi, com no (sinó no estaria publicat), és que el nou fàrmac reudeix significativament la tensió arterial. Quines trampes té això? Doncs vàries:

  1. Ens diuen que la diferència és significativa, o sigui que la p deu ser inferior a 0,05. I? Quina és la diferència real en mmHg? Té alguna importància clínica baixar de 160 a 158? Amb tanta gent a la mostra, una disminució mínima pot ser significativa!
  2. Només faltaria que un nou fàrmac no fos millor que placebo, i la majoria de medicaments es segueixen provant contra placebo. A mi què m'interessa d'un nou antiagregant, que previngui més AVC que un placebo o que en previngui més que l'AAS? Pues eso.


Bé, dit tot això, anem a repassar les diferents proves de podem utilitzar en l'anàlisi bivariat:

Xi-quadrat

Anem pel primer punt de l'anàlisi de l'estudi: mirar la relació de l'ESTAT CIVIL i d'ESTA PRIM, objectiu principal de l'estudi. Per això hem d'utilitzar la Xi-quadrat, que serveix per relacionar dues variables categòriques (binàries o no), i en aquest cas l'utilitzarem per saber si les variables ESTÀ PRIM I ESTAT CIVIL estan relacionades. La nostra hipotesi és que els solters estan més prims que els casats (això seria la hipotesi alternativa, la nula és que no hi ha diferència en el percentatge de prims entre els dos grups: casats i solters)

El primer que fem és fer una descripció bivariada d'aquestes variables. Això ho fem amb una taula 2x2, amb el procediment crosstabs del SPSS (Figura 26):

Figura 26

[captura/es opcio/ns: recomptes fila/columna segons el que ens interessa, percentatges, esperats]

[captura output, només la taula sense taula chi-quadrat]

Explicar el que es veu: missings, percentatges, possible relació entre les variables (diferent percentatge, o no, de prims entre els solters i els casats --> posar aquest percentatge)..................

Per poder fer una prova de chi-quadrat (que és el que toca) cal que totes les caselles de la taula tinguin almenys 5 casos esperats (dir si es compleix aquí.....................................). Si no es complís podriem usar el test de Fisher (només si les dues variables són binàries, a no ser que volguem assassinar el nostre PC), i si alguna variable té més de dues categories podriem intentar agrupar-les per guanyar número de casos en cada casella.

Bé, ara tornem a fer el procediment i demanem més informació:

[captura opcions demanant risc i xi-quadrat]

I ens surt això:

[captura output risc / chi-quadrat]

Valoració de la magnitud de l'associació

Hi ha diverses formes de mesurar-ho (avís: el següent pot estar basat en experiències i/o manies personals, i no té perquè ser del tot acadèmic):

  1. Si no hi ha una variable que pugui ser la causa de l'altra, sinó que estan al mateix nivell com per exemple les variables binàries portar sabates grogues si/no i portar camises liles si / no (els dos fets es poden associar, però un no causa l'altre ni a la inversa). En aquest cas el millor és fer la diferència entre les dues proporcions, junt amb el seu interval de confiança. Problema: l'SPSS no ho fa. Però per exemple posem que, entre tots els usuaris de sabates grogues, un 71% porta camises liles, mentre que només un 23% dels que no porten sabates grogues sí que porta camises liles. Restant aquestes dues proporcions tenim 71-23=48%, que és la diferència de proporcions. Segons la gent que tinguéssim a la mostra, aquest 48% tindria un interval de confiança més o menys ampli que ens informaria de si la diferència és molt gran o no. Si aquest interval no passa per 0, es pot dir que l'associació entre portar sabates grogues i portar camises liles és estadísticament significativa
  2. Si s'intueix que una variable és causa de l'altra, o podria ser-ho. Per exemple el fet que està solter provoca que s'estigui més prim. Malgrat en aquest cas també podem fer una diferència de proporcions (i estaria ben fet!), hi ha dues mesures clàssiques en epidemiologia que no vé malament conèixer:
    1. el risc relatiu, que és la divisió entre les dues proporcions (no la resta com en el cas anterior). Mirant la taula, quin és el risc relatiu de la variable estat civil en el cas del nostre estudi? Com l'interpretariu (o explicar................. i s'hauria d'explicar també perquè es diu RR de l'estat civil i no RR d'estar prim, i si el resultat indica que els solters són més prims o més grassos................Tot això aquí o a OR........... i vigilar que SPSS fa coses molt rares amb les OR..............). Al risc relatiu també li podem donar un interval de confiança (l'SPSS ho fa?????????????....................). Si aquest interval no passa per 1 (no per 0 com abans, ja que ara estem dividint les proporcions i no restant-les, i si aquestes són idèntiques donaran 1!)
    2. la odds ratio, que és el risc relatiu a lo anglosajón (i per tant molt més usat en articles british i americans). Al principi és una mica complicats d'entendre. Una odds (sense ratio) és el número de casos en què passa una cosa entre el número de casos en què no passa. Per tant és molt semblant a un percentatge (número de casos en què passa una cosa dividit per la suma del número de casos en què passa i el número de casos en què no passa). Per exemple .......... (posar exemple real de prims/no prims en comparació amb prims/total...................). Això seria la odds d'estar prim, i la podem calcular en els solters i en els casats. Dividint aquestes dues odds tenim la odds ratio (igual que abans dividíem els dos percentatges per tenir el risc relatiu. Igual que pel risc relatiu, a la odds ratio també li podem donar un interval de confiança, que si no passa per l'1 podem dir que és estadísticament significatiu. Segur que heu sentit a parlar molts cops de la odds ratio: per exemple pel risc de fer un infart podem parlar de la odds ratio de fumar, de ser hipertens, etc.

Valoració de la significació estadística

Amb l'apartat anterior ja ho podíem fer (que l'interval de confiança de la diferència de proporcions no passi per 0, o que el del risc relatiu o la odds ratio no passin per 1). Però si volem, per un motiu desconegut, donar un valor de p, tenim la prova de chi-quadrat (per tant veieu que el títol de tot l'apartat és fals, perquè hem fet moltes més coses que una simple xi-quadrat per veure la relació de dues variables categòriques: el món és més que una p!):

[captura]

Però ens servei d'alguna cosa aquesta p? Només sabem que els solters i els casats no estan igual de grassos (canviar si no és significativa.............................), però no sabem quin dels dos grups està més gras, ni quant més gras està. Sempre és molt més important mirar les dades (i entendre-les!) que mirar la ditxosa p.

t de student

Segons l'esquema del principi, ara ens tocaria mirar si els joves son més prims o no. És a dir si la mitjana d'edat dels prims és igual que la mitjana d'edat dels no prims. I per això usem la t de Student, que serveix per relacionar una variable binària amb una continua, és a dir ens diu si la mitjana de la variable continua és igual (o no) en els dos grups de la variable binària.

Les variables que fem servir aquí son edat (variable independent) i esta prim (variable dependent).

Condicions d'aplicació de la T d'Student. Abans de decidir si fem la proba o no, hem de comprovar les condicions d'aplicació: Que la que la variable continua (edat) segueixi una distribució normal en cadascun dels dos grups. Això no ho hem explicat, però en general es pot assumir que es compleix si cada grup té almenys 30 persones. De tota manera hi ha proves per saber si és així o no (test de Kolmogorov-Smirnov i gràfics p-p per si algú vol aprofundir). Si aquesta condició no es compleix, no podríem usar la t de Student i hauríem de passar a una prova no paramètrica (en aquest cas la U de Mann-Withney).

En el nostre cas, com que ens passem de 30 a cada grup, assumim que si que podem fer la proba de la T d'Student.

Amb l'SPSS això es fa de la següent manera:

 anem a analyze ->
 compare means ->
 independent samples t-test que és la t d'Student (Figura 23)
Figura 23
 a test variables hi posem la variable quantitativa, l'edat (Figura 24)->
 a grouping variable li posem la qualitativa, esta prim -> 
 li hem de dir quin son els 2 grups que volem comparar apretant a define variable groups ->
 al grup 1 li podem la categoria 0 (no) de la variable esta prim->
 al grup 2 li posem la categoria 1 (si) de la variable esta prim ->
 continue (veiem que on hi havien interrogants ha aparegut un 0 i un 1) ->
 paste ->
 anem a la finestra de la sintaxi i executem el què se'ns ha copiat i obtenim el següent en els resultats (Figura 25): 
Figura 24
Figura 25: Resultats

I de tots aquests números quins en interessen?

  • A la primera taula podem veure les mitjanes d'edat dels dos grups.
  • A la segona taula hi hem de mirar vàries coses:
    • Primer de tot, tenim dues opcions de resultats: la primera fila equal variances assumed o la segona fila equal variances not assumed. Això és la proba de l'homogeneïtat de les variàncies. Per saber quina de les dues files hem d'usar, hem de mirar la primera significació.
      • Si aquesta és major de 0,05, fem servir la primera fila ja que això vol dir que les variances son iguals.
      • Si com en el nostre cas la significació és inferior a 0,05 , vol dir que les variances no son iguals i que hem de mirar la fila de baix.
    • Un cop hem decidit quina de les dues files fem servir, veieu que ens dóna tant la p com l'interval de confiança de la diferència de mitjanes. Aquest interval ens diu que si fessim 100 vegades aquest mateix estudi (sempre amb el mateix tamany de mostra), en 95 vegades la veritable diferència entre les mitjanes estaria en aquest interval. Això és molt més informatiu que la p, perquè ens dóna una idea de quant diferents són les dues mitjanes, no només si són estadísticament diferents. I si es tracta de saber la significació, tampoc ens cal la p! Sempre que l'interval no inclogui el valor 0 (el valor 0 diria que les dues mitjanes són iguals), hi ha significació estadística.(o sigui la p serà inferior a 0,05). Recordeu, però, mirar sempre la significació clínica i no només l'estadística! Per tant, el què ens interessa aquí és:
      • La diferència de mitjanes i el seu interval de confiança.
      • I en segon terme, la p.

En el nostre estudi: la diferència de mitjanes és de 23,4 anys (IC95% 15,2-31,6) amb una p inferior a 0,05. Per tant concloem que si que hi ha diferències (estadístiques i clíniques) en l'edat dels prims i els no prims ja que l'intèrval de confiança no passa pel 0 i perquè la p és inferior a 0,05.

ANOVA

És similar a la t de student però enlloc de dos grups en tenim tres (per tant una variable continua i una de categòrica no binària). No tenim temps de fer un exemple, però en el SPSS està en el menú:

[captura menú]

Correlació

Serveix per saber si dues variables continues (per exemple el pes i l'edat) estan relacionades. Com que no tenim massa temps (ni és l'objectiu del nostre estudi), dir només que el normal és fer una correlació de Pearson, però que si no es compleixen les condicions d'aplicació (.................) usem la correlació d'Spearman:

[captura menú]

[captura opcions demanant Pearson i Spearman]

En aquest cas sí que ens solem quedar amb el valor de la p que ens dóna:

[captura marcant la p?]

(Breu) introducció a l'anàlisi multivariant

Però tornem al nostre estudi. Hem vist que la variable ESTÀ PRIM s'associa tant a ser solter com a ser jove. Llavors, què causa estar prim? Un de les dues? Les dues? Cap? Això és el que intenta resoldre l'anàlisi multivariant, que és aquell que relaciona més de dues variables alhora (3 en aquest cas). Una de les seves funcions més importants és poder controlar un problema molt freqüent en ciències de la salut: la confusió.

La hipòtesi principal de l'estudi era que ESTÀ PRIM s'associa amb ESTAT CIVIL, però pel mig ens ha aparegut la variable EDAT que hem vist que també s'associa a ESTÀ PRIM. Per dir que una variable és confusora (l'EDAT és una ferma candidata a ser-ho en aquest estudi i en la immensa majoria d'estudis, com ho són el sexe, la classe social, etc.) cal que s'associi tant a la variable dependent (ESTÀ PRIM) com a la variable independent principal (ESTAT CIVIL). Això segon no ho hem comprovat. Quina prova usarieu per veure la relació entre l'EDAT i l'ESTAT CIVIL? Vinga, ara us toca treballar a vosaltres!

Quin és el resultat?


Vist el resultat (assegurar.................), ja podem dir que l'EDAT és una variable confusora, és a dir que confon la relació entre ESTÀ PRIM i ESTAT CIVIL, ja que ella s'associa a totes dues. Això pot implicar que la relació que hem trobat entre ESTÀ PRIM i ESTAT CIVIL pot ser falsa, i que el que passi és que els solters estan més prims que els casats però no per aquest fet sinó perquè són més joves (cosa que hem comprovat), i els joves alhora són més prims que els grans (cosa que també hem comprovat).

Per saber la veritable relació entre ESTÀ PRIM i ESTAT CIVIL hem d'AJUSTAR per edat (segur que heu sentit molts cops aquesta paraula!) que no vol dir res més que tenir en compte l'efecte de l'edat en la relació de les dues variables que realment ens interessen. Això és el que peremt fer l'anàlisi multivariant, que és tot el món de les regressions, en aquest cas la regressió logística que és la més freqüent en ciències de la salut. Només d0aquesta forma podriem saber si l'ESTAT CIVIL per si sol fa que la gent estigui més prima!

Això, però, ja no ho explicarem. Alguna feina hem de deixar pels tècnics, no? :)

Presentació de resultats i conclusions

Un cop hem tret tots els resultats que ens interessen, és hora d'ordenar-los per poder-los presentar i treure'n conclusions...

Despedida y cierre

I fins aquí la classe. Ens ha quedat moltes coses per veure, a part de l'anàlisi multivariant, com per exemple totes les proves no paramètriques (com la U de Mann-Withney), tot l'apartat de supervivència (què fer quan una de les variables és el temps) o què fer quan tenim diferents mesures d'una mateixa variable en un mateix individu (estadística de mesures repetides). Però bé, això ja és tota una altra història.

Gràcies a tots!

Fi de la tercera classe i del curs :(