SPSS: diferència entre les revisions
Línia 329: | Línia 329: | ||
**Descriure les dades | **Descriure les dades | ||
**Intentar entendre els intervals de confiança | **Intentar entendre els intervals de confiança | ||
**Fer els gràfics més adequats en cada cas | **Fer els gràfics més adequats en cada cas, i veure que l'SPSS no és precisament el millor programa per fer gràfics | ||
**Començar a veure com es relacionen les diferents variables (per exemple mirant les mitjanes de pes en els casats i en els solters), però això ho farem en les pròximes classes! | **Començar a veure com es relacionen les diferents variables (per exemple mirant les mitjanes de pes en els casats i en els solters), però això ho farem en les pròximes classes! | ||
<font color=red>Fi de la segona classe</font> | <font color=red>Fi de la segona classe</font> |
Revisió del 18:01, 17 abr 2007
Programa: Metodologia de la recerca 2 (Procediments estadístics aplicats a un treball de recerca)
Objectius docents:
- Contribuir a la utilització correcta del paquet estadístic SPSS com a instrument que permet descriure les variables mesurades en un treball de recerca i analitzar les seves relacions.
- Interpretar els resultats de les proves estadístiques.
- Millorar les habilitats per avaluar l'adequació dels mètodes estadístics utilitzats en un treball de recerca.
Unitat Docent de Medicina Familiar i Comunitària de Barcelona Ciutat
Metodologia docent: teoría mínima (en negre) i la gran majoria treball pràctic amb els ordinadors.
Docents: autoaprenentatge, MFE.
Alumnes: els curs està dirigit als residents de tercer any de MfiC o qualsevol que estigui interessat.
Avaluació per docents: es repartirà un qüestionari de valoració del curs.
Lloc, dates i durada: El curs té una durada de 20 hores repartides en 5 sessios:
EAP | Sessió 1 | Sessió 2 | Sessió 3 | Sessió 4 | Sessió 5 |
Raval Nord | ??? | 20-4-07 12:30h-14:30h | Pendent | Pendent | Pendent |
Raval Sud | ??? | 20-4-07 10h-12h | Pendent | Pendent | Pendent |
La Pau | 18-4-07 16h-18h | Pendent | Pendent | Pendent | Pendent |
Certificació: es lliurarà un certificat d’assistència a tots els alumnes que assisteixin al 80% de les hores lectives del curs. En el certificat constarà el nombre d’hores del curs i el registre corresponent.
Introducció al SPSS per a Windows
Per què necessito jo l'SPSS?
La situació és la següent: jo ja tinc escrit el protocol de l'estudi i ja tinc fet el treball de camp (o auditoria d'històries clíniques) i tinc totes les dades passades a l'Acces. És en aquest punt on jo necessito l'SPSS ja que em servirà per descriure i analitzar estadísticament les meves dades. Tot i que també va molt bé per recodificar variables i crear-ne de noves. No és un programa per la recollida de dades, a no ser que us hi vulgueu deixar la vista i la paciència!
No és l'únic programa que hi ha per això, però si el més utilitzat. És de pago i cada any surt una nova versió no del tot compatible amb l'anterior. Tot i així és el més utilitzat. Altres programes per exemple son EpiInfo (gratuit), R (lliure) i Stata (de pago).
D'on el trec?
Com ja hem dit, és un programa de pago i la única forma legal de tenir-lo és comprar-lo o que el compri l'organització on treballes. En aquest cas cap de les dues condicions es compleix. Però un altre cop més, haurem de lluitar contra les adversitats.
I un cop instal·lat, per on començo?
Un cop el tinguem instal·lat el primer que hem de fer és apagar l'ordinador i seure en una taula amb els integrants del grup de treball del progecte que volem analitzar per a tenir clar què volem i com ho volem. Si tenim ben fet el protocol, això serà poca estona. Hem de tenir clarament definits els objectius i quins resultats volem obtenir a partir de les dades que hem recollit. Si això no ho tenim clar, ens liarem amb tots els números que ens dóna l'SPSS i ens desesperarem.
Així doncs, hem de tenir clar perquè volem treure les dades:
- Volem fer un abstract per enviar a un congrés? Les necessitem per fer un informe pel FIS? Les volem per fer un article?
- Un cop sabem perquè les volem, hem de saber exactament quins resultats volem i aquests derivaran dels objectius. Per tant, hem de saber exactament els objectius que nosaltres volem presentar. És molt útil fer un esquema d'això, per no liar-nos un cop estem amb l'SPSS.
En el nostre exercici volem fer un abstract per enviar en un congrés: - objectiu: els homes solters, són més prims? - material i mètodes: descriptiu, variables (edat, pes o prim si/no i estat civil) - resultats: 1. comparar les mitjanes de pes per a cadascun dels estats civils 2. comparar la proporció de prims en cadascun dels estats civils - conclusions: en funció dels resultats
Si ja tenim tot això clar, ja podem obrir l'ordinador i entrar a l'SPSS.
Components de l'SPSS
Per obrir l'SPSS normalment si s'instal·la amb les opcions per defecte, el tindreu a l'escritorio o sinó a inicio -> programas -> SPSS for Windows.
L'SPSS funciona com qualsevol altre programa, amb els iconos i els menús de la part de dalt que anirem veient per què serveixen alguns d'ells poc a poc. L'SPSS a més té varies pantalles que serveixen per diferents coses. Ara les veurem, només per conèixer-les.
- La pantalla que ens surt primer de tot és la pantalla on hi hauran les nostres dades (Figura 1). A les files normalment hi ha els pacients i a les columnes les diferents variables que hem recollit. Si mirem la part de baix de la pantalla, veurem que hi ha dues pestanyes: la que posa data view que és la que acabem de veure i la que posa variable view. Aneu a la que posa variable view i veureu que ara canvia: les files ara son les variables i les columnes son les característiques de cadascuna de les variables.
- Després tenim la pantalla que es diu sintaxi (Figura 2). És on s'escriuran les ordres per a l'anàlisi de les nostres dades. Molta gent no ho fa servir,però és molt útil fer servir la sintaxi ja que així guardem pas per pas tot el què fem i si algun dia canviem alguna dada o afegim més pacients amb 10 segons tornem a tenir tot l'anàlisi fet.
- I finalment tenim la pantalla dels resultats o output en anglès, que és on ens sortiran les taules i gràfics que nosaltres li direm que ens faci. De moment no veiem la pantalla perquè com que no tenim dades no podem tenir cap resultat.
Seguim... important la base de dades de l'Access
Per començar a analitzar les dades, el primer que necessitem és que aquestes dades vagin a parar a l'SPSS. Normalment les dades les tindrem en un Access. Si no és així, el procés d'importar la informació no és gaire diferent. Això ho fem de la següent manera:
- Pels que heu fet l'exercici d'Access, farem servir aquella base de dades que vam fer. Si no la teniu aquí, us la podeu baixar d'aquí.
- Per importar una base de dades en Access, hem de fer el següent. Haurem d'anar a file -> open database -> new query -> ens hem de posar damunt de MS Access Database -> siguiente.
- Ara ens demana on tenim la base de dades en Access. Per dir-li on la tenim piquem a browse i busquem la nostra base de dades en Access -> i un cop la tenim anem a l'OK.
- Ara ens surt una pantalla amb la taula principal de la nostra base de dades i totes les seves variables. Hem d'arrastrar el nom de la taula, en aquest cas principal a la finestra del costat on posa retrieve fields in this order. Ens han de sortir les nostres variables al quadre de la dreta. Un cop comprovat (figura 3) fem siguiente -> siguiente un altre cop.
- En aquesta pantalla on veiem totes les variables poden passar varies coses (figura 4):
- Que hagueu posat als noms de les variables símbol raro que a l'SPSS no li agradi. En aquest cas us el farà canviar.
- Que tingueu una variable amb diferents categories, com és el cas del nostre estat civil. Com veieu, hi ha un quadradet que podem marcar o no. Si no el marquem, la variable romandrà tal quan l'hem fet, per tant, serà una variable tipus text. Si el marquem, la variable es convertirà en numèrica i el text que és es convertirà en etiqueta. Això és el què ens interessa, per tant, marquem el quadradet.
- Siguiente -> marquem l'opció de paste it -> finalizar. Veureu que se us ha obert una nova finestra, és l'arxiu de la sintaxi de l'SPSS. I en aquest arxiu de sintaxi veiem que s'hi han escrit les ordres d'importar la base de dades a la fulla de dades de l'SPSS, però encara no les hem importat!
- És molt útil escriure a dalt de cada ordre de sintaxi què és el què fa. Per exemple, sobre de la sintaxi que hem enganxat per importar la base de dades, podem escriure el següent per saber d'aquí uns mesos què vol dir. Per escriure a la sintaxi i que després al tirar-la no doni error, hem d'escriure el què volem entre un asterisc (*) i un punt (.), tal com es veu en el següent quadre:
*Importar base de dades.
- Per importar-les de veritat hem d'aprendre un nou concepte de l'SPSS: executar o tirar la sintaxi. La sintaxi son ordres escrites que el què faran és importar la base de dades, crearan variables o ens calcularan i ensenyaran resultats. I per executar aquestes ordres el què hem de fer és seleccionar-les (seleccionar el text) i després prémer el botó del play (figura 5). I el què passa és que ara ja si importem realment la base de dades. Ho podem anar a comprovar mirant la finestra de les dades de l'SPSS (figura 6). Si veieu asteriscs a la data és que la columna és massa estreta, l'heu de fer més gran.
Doncs ja tenim la base de dades a l'SPSS.
Propietats i creació de variables
Com veiem en la nostra base de dades, les variables que tenim, no son les que realment necessitem per als resultats que hem decidit que volem:
Variables que tenim | Variables que volem | Categories |
NHC | ||
Data de naixement | Edat | |
Pes | Pes | |
Pes | Esta prim | Si, no. |
Estat civil | Estat civil | Solter, casat/emparellat, vidu. |
Per tant, haurem de crear dues noves variables a partir de les que tenim: l'edat i prim si/no. Però abans, una mica de nomenclatura.
Definició de les variables: tipus, etiquetes i valors perduts o missings
Les variables tenen algunes propietats que caldrà saber. Si anem a la pestanya de variable view podrem veure-ho (Figura 8).
- Primer de tot, el nom o name de la variable. És el nom curt que li donem a la variable i és de la forma que li hem de dir quan volguem escriure a la sintaxi.
- Una variable pot ser de varis tipus. Els que més farem servir serà:
- Tipus numèric, és a dir un número. Tot i que aquest número pot ser un número real (com el nostre pes) o una variable numèrica on cada número correspongui a una categoria (com és el cas del nostre estat civil). Com veieu, aquesta variable és numèrica, però en realitat, és categòrica.
- Tipus string o text. Val més no fer-les servir massa, ja que hi ha moltes funcions que l'SPSS no ens deixa fer amb una variable de tipus text. En el nostre àmbit de treball hi ha algunes variables que ens interessaran fer-les d'aquest tipus com el CIP (lletres i números).
- Tipus data com la nostra data de naixement.
- Una variable, també es defineix per la seva etiqueta o label. És una frase que descriu la variable, ja que el nom sol a vegades no és suficient per saber de què parlem. Si la variable és numèrica, se solen posar les unitats amb les quals hem creat la variable. Per exemple, la variable pes, la seva etiqueta seria Pes en kg. Si perdem uns minuts en això, ens servirà perquè després a les taules de resultats ens surtin com a títol les etiquetes i no només els noms de les variables.
- A la vegada, en una variable numèrica pot ser que cadascun dels números correspongui a una categoria, i a aquesta categoria també se li pot posar etiqueta (és la columna values).
Anem a posar etiquetes a les nostres variables:
Anem a data -> després a define variable properties -> les seleccionem totes i amb el botó de la fletxa, les passem a l'altra caixa -> continue
Ara tenim una pantalla amb el llistat de variables a l'esquerra i tot de sub-menús a la dreta (Figura 9).
- NHC: a label o etiqueta hi posarem la descripció del què és: Número d'història clínica. La resta ho deixem tal com està.
- datan: a label hi posem Data de naixement. A type veiem que hi ha un desplegable amb diferents tipus de formats de data. Escollim el que més ens sigui útil `per la nostra finalitat. Agafeu sempre el que tingui l'any amb 4 xifres, que si s'agafa l'any amb 2 xifres hi poden haver problemes.
- pes: posarem l'etiqueta a Pes en kg. com que aquesta només volem que tingui 1 decimal, posem els decimals a 1.
- ecivil: li posarem l'etiqueta Estat civil. Aquesta, ens interessa que els no consta sigui missing (que no es tinguin en compte a l'anàlisi), per tant, a la columna de missing, farem un clic a la fila de la categoria del no consta. Com veieu, aquí les etiquetes de les diferents categories de la variable ja estan posades, ja que ho hem fet així a l'importar la base de dades. Però quan creem una variable de nou, li haurem de posar.
Ja hem acabat de descriure les propietats de les variables. Ara, enganxem la sintaxi picant a paste i anem a la finestra de la sintaxi per veure què ens ha fet. Veiem que ens ha escrit això:
*Define Variable Properties. *NHC. VARIABLE LABELS NHC 'Número dhistòria clínica'. *datan. VARIABLE LABELS datan 'Data de naixement'. FORMATS datan (EDATE10). *pes. VARIABLE LABELS pes 'Pes en kg'. FORMATS pes (F8.1). *ecivil. VARIABLE LABELS ecivil 'Estat civil'. MISSING VALUES ecivil ( 2 ). EXECUTE.
Ho executem, marcant-ho i després picant el play. Podem anar a comprovar que a la finestra de la variable view ha aparegut la descripció de les variables a la columna de la label. I us preguntareu, perquè no ho puc escriure directament a la columna aquesta sense fer tanta tonteria? Doncs és perquè si algun dia heu de tornar a importar la base de dades (com passarà en breu), tot això que hàgiu fet sense haver-ho escrit a la sintaxi ho haureu de tornar a fer. Cosa que no passa si ho hem copiat tot a la sintaxi.
Creació de la variable edat: la funció compute
Un cop tenim les variables definides tal com ens agrada, haurem de crear la variable edat a partir de la data de naixement i de la data d'avui (Figura 7). També es pot fer a partir d'una altra data que tingueu com a variable en la base de dades.
Anem a transform -> compute -> a target variable posem en nom de la variable que volem crear, és a dir, edat -> a Type & Label li posem l'etiqueta de Edat en anys.
Per calcular l'edat, el què hem de fer és restar-li a la data d'avui la data de naixement. Amb això ens dóna la data, però en segons. Per tant, hem de convertir l'edat en egons a edat en anys, multiplicant per (3600 min)*(365.25 dies)*(24 hores).
-> busquem la funció que es diu DATE.DMY(day,month,year) -> i la passem a la caixa de numeric expression -> escrivim la data d'avui o la que ens interessi -> li restem la data de naixement (datan) -> i ho convertim en anys tal com es pot veure en la imatge -> paste per enganxar-ho a la sintaxi -> anem a la pantalla de la sintaxi -> executem les instruccions per crear la variable edat
En principi, a la finestra de les dades se'ns hauria d'haver creat una nova variable que es diu edat i com a etiqueta posa edat en anys.
Una altre forma de crear l'edat, per si no recordeu els números que multipliquen, és amb la funció següent:
COMPUTE edat= TRUNC (CTIMEDAYS (DATE.DMY(05,03,2007)-datan)/365.25).La funció CTIMEDAYS transforma en dies un temps en segons, i la funció TRUNC fa que el número calculat sigui sense decimals.
Creació de la variable prim si/no: la funció recode
Ara el què volem crear és una variable que sigui prim i que les seves categories siguin si o no, ja que la meva hipòtesi és que els solters son més prims. Però jo el què tinc és el pes. Així que he de crear una nova variable categòrica (li direm pes2) a partir d'una numèrica. Això ho farem amb la funció recode into different variables.
Anem a transform -> recode -> into different variables -> passem amb la fletxa a la caixa de la dreta la variable que ens interessa: el pes -> a output variable i name li donem el nou nom de la variable pes2 -> a label li posem l'etiqueta de pes2: Està prim. -> premem change (pas important! que sino no funciona res de res :) -> anem a old and new values
I ens surt aquesta pantalla (Figura 10), on haurem de dir a la dreta els valors antics i a l'esquerra els nous. Nosaltres volem que els prims siguin els que pesen menys de 70.
-> empleneu segons els criteris -> per afegir el criteri, apretar add -> quan haguem acabat, continue que ens porta a la pantalla anterior -> paste -> tirem la part questa de sintaxi que se'ns ha escrit:
RECODE pes (Lowest thru 70=1) (70 thru Highest=0) (ELSE=Copy) INTO pes2 . VARIABLE LABELS pes2 'Està prim'. EXECUTE .
-> ara ens falta posar les etiquetes de les categories, pt anem a data -> define variable properties -> passem pes2 a la caixa de la dreta -> continue -> definim els noms de les categories i el què nosaltres creguem necessari -> paste -> anem a la sintaxi i la tirem.
Ja tenim la nova variable pes2 amb la seva etiqueta i les etiquetes de les seves categories.
Fi de la primera classe.
Anàlisi descriptiu de les dades i detecció de valors anòmals
L'anàlisi descriptiu de les nostres dades té dues funcions:
- Detecció dels valors missing, és a dir dades que no coneixem. En la immensa majoria d'estudis hi ha dades que no coneixem, bé perquè ens hem oblidat de recollir-les (cosa que té solució) o bé perquè són valors realment desconeguts (cosa de més difícil solució, almenys pels que no som estadístics). És fonamental conèixer el percentatge de valors desconeguts de cada variable, ja que si és superior al 10% podem tenir problemes. A més, sempre que fem proves estadístiques amb dues variables juntes, només s'utilitzaran els registres on es conegui el valor de les dues!
- Detecció de valors anòmals que se'ns hagin pogut escapar al picar les dades a la base de dades. Evidentment, si detectem algun valor anòmal hem d'anar a la base de dades i canviar-lo. Mai canvieu un valora a ma a l'SPSS perquè si en algun moment torneu a importar la base de dades aquest canvi no es farà i haureu de tornar a retocar a ma i un a un tots els valors anòmals que hi haguessin.
- Descripció de la mostra o població estudiada a nivell univariant.
Com que això és un exercici, a la base de dades hi hem posat un valor anòmal perquè el detectem i modifiquem.
Abans de poder fer l'anàlisi descriptiu de les variables, hem de fer una mica de teoria. Primer de tot, hem de saber quin tipus de variables tenim al davant i quina és la millor manera per descriure-la. Un cop sabem això, ens serà molt més fàcil demanar-li a l'SPSS allò que volem.
Tipus de variables existents
- Categòriques:
- Variables categòriques, com per exemple el (dona / home) o l'estat civil
- Variables ordinals, que són un tipus especial de variables categòriques on les diferents categories segueixen un ordre, com per exemple la classe funcional de la insuficiència cardiaca
- Quantitatives:
- Variables discretes, que representen habitualment recomptes (per exemple el número d'intervencions que se li han fet a una persona)
- Variables continues, que representen mesures (per exemple l'edat o el pes)
En principi i sempre que sigui possible, en un estudi és millor recollir les variables com a quantitatives ja que sempre es poden transformar posteriorment en categòriques, però a l'inrevés no es pot fer. Per exemple sempre és millor recollir la pressió arterial i després si cal recodificar-la en hipertens SI / NO, que no pas recollir directament si és hipertens o no ja que podem eswtar perdent informació que més endavant ens pot interessar.
Descripció de les variables categòriques
- Mesures estadístiques:
- Freqüencia (percentatge) de cadascun dels valors, o sigui el número de vegades que apareix un valor entre el número total de registres.
- Quan estem estudiant la freqüència d'una malaltia i segons el tipus d'estudi, parlem de prevalença (percentatge de casos que hi ha en un moment donat) o d'incidència (nous casos apareguts en un periode de temps)
- Gràfics:
- Diagrama de barres
- Diagrama de sectors
Descripció de les variables quantitatives
- Mesures estadístiques:
- Basades en "moments": mitjana i desviació estàndar. Són les més freqüents, però no sempre les millors.
- Basades en "ordenacions": mediana i percentils. Potser són menys freqüents, però mai enganyen.
- Gràfics:
- Histograma (variables continues) o diagrama de barres (variables discretes), que permeten mostrar la freqüència de cadascun dels valors i ens permeten fer-nos una idea de la seva distribució.
- Boxplot: Dóna molta informació però no estem gaire acostumats a interpretar-lo.
- Tallo y hoja: És l'únic gràfic que permet mostrar tots i cadascun dels valors de la mostra, però també estem poc acostumats a veure'l. En el fons acaba sent com un histograma.
- I tot això, com ho fem en SPSS? Explorar.
Els intervals de confiança, aquells grans desconeguts
Tots hem sentit parlar dels intervals de confiança del 95%, però sabem què són? Per entendre-ho, hem de diferenciar entre:
- la població, que és el conjunt d'individus a qui voldrem aplicar les conclusions del nostre estudi (per exemple, tots els homes de Barcelona)
- la mostra, que són els individus que nosaltres hem estudiat i amb els que treballarem, és a dir els que tenim a la base de dades
Quan describim la nostra mostra, el que volem en realitat no és dir, per exemple, que la mitjana d'edat dels homes casats que hem estudiat és de X anys, sinó que volem extrapolar aquest valor per poder dir que la mitjana d'edat de tots els homes casats de Barcelona és de X anys. Per fer aquest pas necessitem els intervals de confiança, que ens diran un interval de valors entre els quals podem estar relativament segurs que hi ha el veritable valor de la mitjana d'edat dels homes casats de Barcelona. El que ens diu en realitat l'interval, és que si agafessim 100 mostres d'aquell tamany de la població que volem estudiar, en 95 de les 100 el valor de la mitjana estaria dins d'aquell interval. Pot ser una mica liat, però és important entendre-ho.
Com més gran és una mostra (més persones estudiem), més estret serà l'interval de confiança i per tant més informació tindrem. No és evidentment el mateix dir que la mitjana d'edat és de 45 anys amb un interval que va de 20 a 70 anys (per això no calia fer cap estudi!), que no pas dir que és de 45 anys amb un interval de 44 a 46 anys. Per això és important treballar amb mostres grans, sempre que els diners i el temps ens ho permetin!
A qualsevol paràmetre estadístic (mitjana, mediana, percentatge, etc.) se li pot donar un interval de confiança, però l'SPSS només ho fa amb les mitjanes (i no amb les proporcions o les medianes, per exemple). Això és un dèficit força greu del programa!
Quan parlem de proves estadístiques, tornarem a parlar dels intervals de confiança, que és el que hauriem d'usar enlloc de les famoses p! Ens engayen molts menys!
Ara sí, obrim l'ordinador i anem a l'SPSS!
- El que volem és, per cada variable de la base de dades:
- Trobar els missings
- Trobar valors anòmals: Edats o pesos impossibles; categories d'estat civil no definides (no n'hi han perquè hem fet bé l'Access!)
- Descriure les dades
- Intentar entendre els intervals de confiança
- Fer els gràfics més adequats en cada cas, i veure que l'SPSS no és precisament el millor programa per fer gràfics
- Començar a veure com es relacionen les diferents variables (per exemple mirant les mitjanes de pes en els casats i en els solters), però això ho farem en les pròximes classes!
Fi de la segona classe