R: diferència entre les revisions

593 bytes afegits ,  2 juny 2005
cap resum d'edició
Cap resum de modificació
Línia 7: Línia 7:


R es un software de análisis estadístico de código abierto basado en el lenguaje S, desarrollado a principio de los años 90. El programa [http://www.insightful.com/products/splus/default.asp S-Plus] utiliza el mismo lenguaje S, pero se trata de un software propietario y con un precio prohibitivo para la mayoría de los mortales.
R es un software de análisis estadístico de código abierto basado en el lenguaje S, desarrollado a principio de los años 90. El programa [http://www.insightful.com/products/splus/default.asp S-Plus] utiliza el mismo lenguaje S, pero se trata de un software propietario y con un precio prohibitivo para la mayoría de los mortales.
Este artículo muestra los principios de este software y algunas de sus principales funciones. En algunas secciones se muestran pequeños ejemplos para clarificar lo que se explica.
Al final del artículo se muestra un ejemplo adaptado de la realidad en el que se aplican varias de las técnicas explicadas.


== Instalación y ejecución ==
== Instalación y ejecución ==
Línia 377: Línia 381:
  hombres<-subset(base1,sexo==1)
  hombres<-subset(base1,sexo==1)


Sin embargo, hay muchas otras funciones para la manipulación de bases de datos. A continuación se muestran algunas de ellas mediante un ejemplo real que se puede reproducir paso a paso.
Sin embargo, hay muchas otras funciones para la manipulación de bases de datos. En el ejemplo del final del artículo se muestran varias de ellas
 
Se parte de dos tablas distintas en formato .dbf exportadas desde [http://office.microsoft.com/es-hn/FX010858003082.aspx M$ Excel], y que se pueden descargar (AÚN NO!!!):
 
* La tabla [http://acrida.2mydns.com/wikitraba/arxius/bajas.dbf bajas.dbf] contiene un registro para cada una de las bajas laborales concedidas durante 2004 en una empresa X (a leer en catalán). Puede haber más de una baja por individuo. La base contiene la identificación del trabajador y las fechas de inicio y final de la baja.
 
* La tabla [http://acrida.2mydns.com/wikitraba/arxius/bajas.dbf plantilla.dbf] contiene los datos referentes a todos los trabajadores de la empresa X, con un sólo registro por individuo. Contiene la identificación del trabajador (permite el cruce con bajas.dbf), su fecha de nacimiento, el sexo y sus datos laborales (tipo de contrato, lugar de trabajo y categoría laboral).
 
En ambas bases de datos se han eliminado todas las variables que pudieran identificar a los individuos.
 
El primer procedimiento a realizar es la captura de las bases de datos mediante el procedimiento explicado anteriormente:
 
baixes<-read.dbf("c:/rutacompleta/baixes.dbf)
plantilla<-read.dbf("c:/rutacompleta/baixes.dbf)


== Transformación de datos ==
== Transformación de datos ==
Línia 832: Línia 823:


Una vez tenemos el código fuente tanto de las funciones como de las ayudas que deseamos incluir en el paquete, debemos efectuar una serie de procedimientos para empaquetarlo de forma que sea directamente instalable en R. Para hacerlo.......
Una vez tenemos el código fuente tanto de las funciones como de las ayudas que deseamos incluir en el paquete, debemos efectuar una serie de procedimientos para empaquetarlo de forma que sea directamente instalable en R. Para hacerlo.......
== Integración con [[Latex|LaTeX]] ==
R permite la exportación de objetos en formato [[Latex|LaTeX]] para su procesamiento en dicho sistema.
=== Sistema pedestre ===
Una forma rápida de exportar objetos a [[Latex|LaTeX]] es mediante la librería ''xtable'' (tipo 3).
=== Sistema refinado: Sweave ===
== Un ejemplo casi-real ==
Se parte de dos tablas distintas en formato .dbf exportadas desde [http://office.microsoft.com/es-hn/FX010858003082.aspx M$ Excel], y que se pueden descargar (AÚN NO!!!) desde los siguientes enlaces:
* La tabla [http://acrida.2mydns.com/wikitraba/arxius/bajas.dbf bajas.dbf] contiene un registro para cada una de las bajas laborales concedidas durante 2004 en una empresa X (a leer en catalán). Puede haber más de una baja por individuo. La base contiene la identificación del trabajador y las fechas de inicio y final de la baja.
* La tabla [http://acrida.2mydns.com/wikitraba/arxius/bajas.dbf plantilla.dbf] contiene los datos referentes a todos los trabajadores de la empresa X, con un sólo registro por individuo. Contiene la identificación del trabajador (permite el cruce con bajas.dbf), su fecha de nacimiento, el sexo y sus datos laborales (tipo de contrato, lugar de trabajo y categoría laboral).
Los datos tienen la misma estructura que un caso real, pero han sido modificados para evitar que se pudiera identificar a los individuos.
1-Captura de las bases de datos descargadas:
baixes<-read.dbf("c:/rutacompleta/baixes.dbf)
plantilla<-read.dbf("c:/rutacompleta/baixes.dbf)


== Sistema de ayuda ==
== Sistema de ayuda ==