viernes, 25 de enero de 2013

Introducción a R

Navegando por la red descubrimos un interesante artículo en el blog GenBeta Dev (blog especializado en lenguajes de programación, aplicaciones para móviles, bases de datos, desarrollo web, etc.) sobre la historia de uno de los lenguajes más populares en el análisis de datos: R.

Recomendamos su lectura ya que nos ha resultado interesante. Click aquí para leer el artículo.



miércoles, 23 de enero de 2013

Test Estadísticos: Mann Whitney y Kruskal Wallis

Continuamos con la serie de artículos sobre test estadísticos. En semanas anteriores hemos escrito sobre la prueba t-Student, Spearman, Wilcoxon, Shapiro-WilksPrueba F, Chi-Cuadrado, Fisher, McNemar, Binomial, Correlación de Pearson,  ahora escribiremos la teoría de los test de Mann-Whitney y Kruskal Wallis.

MANN-WHITNEY
 
La prueba de Mann-Whitney U es una de las pruebas de significación más conocidas. Es apropiada cuando dos muestras independientes de observaciones se miden en un nivel ordinal, es decir que podemos decir cuál es la mayor de estas dos observaciones.

Determina si el grado de coincidencia entre dos distribuciones observadas es inferior a la esperada por suerte en la hipótesis nula que las dos muestras vienen de una misma población.

Prueba de significación estadística no paramétrica para probar la hipótesis nula de que el parámetro de localización (generalmente la mediana) es el mismo cuando se comparan dos grupos independientes, cualquiera que sea el tipo de distribución de la variable (distribución normal o de otro tipo).

Se usa cuando se quiere comparar dos poblaciones usando muestras independientes, es decir, es una prueba alternativa a la prueba de t para comparar dos medias usando muestras independientes.

La hipótesis nula es que la mediana de las dos poblaciones son iguales y la hipótesis alterna puede ser que la mediana de la población 1 sea mayor (menor ó distinta) de la mediana de la población 2.

Prueba de Mann-Whitney para muestras independientes:

•    Si tenemos dos series de valores de una variable continua obtenidas en dos muestras independientes: X1, X2,..., Xn, Y1, Y2,..., Ym, procederemos a ordenar conjuntamente todos los valores en sentido creciente, asignándoles su rango, corrigiendo con el rango medio los empates.
•    Calculamos luego la suma de rangos para las observaciones de la primera muestra Sx, y la suma de rangos de la segunda muestra Sy.
•    Si los valores de la población de la que se extrajo la muestra aleatoria de X se localizan por debajo de los valores de Y, entonces la muestra de X tendrá probablemente rangos más bajos, lo que se reflejará en un valor menor de Sx del teóricamente probable.
•    Si la menor de las sumas de rangos es excesivamente baja, muy improbable en el caso de que fuera cierta la hipótesis nula, ésta será rechazada. 


KRUSKAL-WALLIS
 
Prueba de significación estadística no paramétrica para contrastar la hipótesis nula cuando los parámetros de localización de dos o más grupos son iguales.
La prueba de Kruskal-Wallis, es una alternativa a la prueba F del análisis de varianza para diseños de clasificación simple. En este caso se comparan varios grupos pero usando la mediana de cada uno de ellos, en lugar de las medias.

En este caso se comparan varios grupos pero usando la mediana de cada uno de ellos, en lugar de las medias.
•    Ho: La mediana de las k poblaciones consideradas son iguales y,
•    Ha: Al menos una de las poblaciones tiene mediana distinta a las otras.
 

Donde, n es el total de datos.

Este contraste, que es válido únicamente para variables continuas, compara la función de distribución (probabilidad acumulada) teórica con la observada, y calcula un valor de discrepancia, representado habitualmente como D, que corresponde a la discrepancia máxima en valor absoluto entre la distribución observada y la distribución teórica, proporcionando asimismo un valor de probabilidad P, que corresponde, si estamos verificando un ajuste a la distribución normal, a la probabilidad de obtener una distribución que discrepe tanto como la observada si verdaderamente se hubiera obtenido una muestra aleatoria, de tamaño n, de una distribución normal.
 
Si esa probabilidad es grande no habrá por tanto razones estadísticas para suponer que nuestros datos no proceden de una distribución, mientras que si es muy pequeña, no será aceptable suponer ese modelo probabilístico para los datos.

sábado, 19 de enero de 2013

Curso gratuito de R en Coursera

Descubrimos en el blog perosnal de José María Mateos llamado Las penas del Agente Smith, una entrada sobre un curso gratuito de Análisis de Datos con R.


Comienza el 22 de enero y durará 8 semanas y como os comento se basa en el software R de código abierto y gratuito orientado al análisis estadístico. El curso se realiza a través de la plataforma web Coursera, es gratuito e impartido por el profesor Jeff Leek, profesos de bioestadística en Johns Hopkins Bloomberg School of Public Health.

viernes, 18 de enero de 2013

Prueba Estadística “t” de Student

Continuando con la serie de entradas sobre los diferentes test estadísticos (ver las ya publicadas en en el Blog: Spearman, Wilcoxon y Shapiro-Wilks, prueba de F, Chi Cuadrado, Fisher, McNemar, Binomial, Correlación De Pearson), nos llega el turno de estudiar la prueba t de Student.

¿Qué hay que saber de la "t" de Student? 

Se utiliza para determinar si hay una diferencia significativa entre las medias de dos grupos, es decir que se utiliza cuando deseamos comparar dos medias.
Se utiliza para la comparación de dos medias de poblaciones independientes y normales.
Asumimos que las variables dependientes tienen una distribución normal. 

Especificamos el nivel de la probabilidad (nivel de la alfa, nivel de la significación, p) que estamos dispuestos a aceptar  (p < .05 es un valor común que se utiliza).
  • Con una prueba t, tenemos una variable independiente y una dependiente.
  • La variable independiente (por ejemplo sexo) solo puede tener dos niveles (hombre y mujer).
  • Si la independiente tuviera más de dos niveles, después utilizaríamos un análisis de la variación unidireccional (ANOVA).
  • La prueba estadística para t de Student es el valor t. Conceptualmente, la t-valor representa el número de unidades estándares que están separando las medias de los dos grupos.
  • Si nuestra t-prueba produce una t-valor que da lugar a una probabilidad de .01, decimos que la probabilidad de conseguir la diferencia que encontramos sería por casualidad de 1 de cada 100 veces.

Cuatro factores contribuyen para indicar si la diferencia entre dos medias de los grupos se puede considerar significativa:
  • Cuanto mayor es la diferencia entre las dos medias, mayor es la probabilidad que una diferencia estadística significativa existe.
  • El tamaño de la muestra es extremadamente importante en la determinación de la significación de la diferencia entre las medias. Aumentando el tamaño de la muestra, las medias tienden a ser más estables y más representativas.
  • Un nivel más grande de la alfa requiere menos diferencia entre las medias (p <0 font="font">.05). 
  •  Se debe utilizar una hipótesis (con dos colas) no directivas.

Asunciones subyacentes la prueba de t:
  • Las muestras se han dibujado aleatoriamente a partir de sus poblaciones respectivas.
  • La población se debe distribuir normalmente.
  • Unimodal (un modo).
  • Simétrico (las mitades izquierdas y derechas son imágenes espejo), el mismo número de gente arriba o abajo de la media.
  • Acampanado (altura máxima (moda) en el medio).
  • Media, moda, y mediana se localizan en el centro.
  • Asintótico (cuanto más lejos se aleja la curva de la media, más cercana será el eje de X; pero la curva nunca debe tocar el eje de X).
  • El número de personas en las poblaciones debe tener la misma varianza (s2 = s2).Si no es el caso se utiliza otro cálculo para el error estándar.

Existen 2 tipos de prueba t de Student

  • Test t para diferencia par ( grupos dependientes, test t correlacionado) : df= n (número de pares) -1

Esto se refiere a la diferencia entre las cuentas medias de una sola muestra de individuos que se determina antes del tratamiento y después del tratamiento. Puede también comparar las cuentas medias de muestras de individuos que se aparean de cierta manera (por ejemplo los hermanos, madres, hijas, las personas que se emparejan en términos de las características particulares).
  • Test t para muestras independientes
Esto se refiere a la diferencia entre los promedios de dos poblaciones.

Básicamente, el procedimiento compara los promedios de dos muestras que fueron seleccionadas independientemente una de la otra.

Un ejemplo sería comparar cuentas matemáticas de un grupo experimental con un grupo de control.
¿Cómo decido qué tipo de t-prueba a utilizar?

Error tipo I:
  • Rechaza una hipótesis nula que sea realmente verdad. La probabilidad de hacer un error tipo I depende del nivel alfa que se seleccionó.
  • Si se fijó la probabilidad alfa en p < 05, entonces existe un 5% de posibilidades de hacer un error de tipo I.
  • Se puede reducir la posibilidad de hacer un error tipo I fijando un nivel alfa más pequeño (p < .01). El problema haciendo esto es que se aumenta la posibilidad de un error tipo II.
Error tipo II:
  • Falla en rechazar una hipótesis nula que sea falsa.
  • La idea básica para calcular una prueba de Student es encontrar la diferencia entre las medias de los dos grupos y dividirla por el error estándar (de la diferencia), es decir la desviación de estándar de la distribución de las diferencias.
  • Un intervalo de confianza para una prueba t con dos colas es calculado multiplicando los valores críticos por el error de estándar y agregando y restando eso de la diferencia de las dos medias.
  • El efecto tamaño se utiliza para calcular la diferencia práctica. Si existen varios miles de pacientes, es muy fácil encontrar una diferencia estadísticamente significativa
Saber si esa diferencia es práctica o significativa es otra pregunta. 
  • Con los estudios implicando diferencias de grupo, el tamaño del efecto es la diferencia de las dos medias dividido por la desviación estándar del grupo control (o la desviación estándar media de ambos grupos si no hay grupo de control).
  • Generalmente, el tamaño del efecto es solamente importante si existe una significación estadística.
  • Un efecto tamaño de 2 se considera pequeño, 5 se considera medio, y 8 se considera grande.
¿Quieres ayudarnos a mantener vivo el blog?

jueves, 10 de enero de 2013

Libros interesantes de Estadística

Uno de los objetivos de Blog de Estadística, es proporcionar información a nuestros visitantes sobre técnicas estadísticas y de análisis de datos. Para lograrlo, todas las semanas vamos  a promocionar una serie de libros relacionados con la estadística que podréis comprar gracias a Amazon en papel o en formato digital.
  • Estadística para ingenieros y científicos de William Navidi: 900 páginas. Editor: McGraw-Hill Interamericana de España S.L.; Edición: 1 (10 de abril de 2006). Idioma: Español. ISBN-10: 9701056299. ISBN-13: 978-970105629.
  • Estadística de María Álvarez: En este libro, estructurado en 12 capítulos, la autora presenta, con el rigor matemático imprescindible, los principios fundamentales de la Estadística. Se incluyen además numerosos ejemplos relacionados con aspectos demográficos y económicos actuales, lo que facilita la comprensión sobre la correcta utilización de la Estadística en la investigación aplicada.433 páginas.
  • Cómo mentir con Estadísticas de Darrell Huff. Versión Kindle. Lo que estas páginas, escritas con ingenio y humor, nos ofrecen es, en realidad, un curso de sentido común para aprender a descubrir los ardides con los que cada día pretenden engañarnos, manipulando cifras y gráficas, los medios de comunicación, los políticos, la publicidad. Lo que aquí se nos cuenta resulta divertido; pero es bueno tomarlo en serio, porque, como nos dice el autor: "los desaprensivos ya conocen estos trucos; los hombres honrados deben aprenderlos en defensa propia".
Comprando directamente desde los enlaces inferiores, obtendrás el mejor precio y ayudarás a mantener nuestro blog:   

miércoles, 9 de enero de 2013

Test Estadísticos: Spearman, Wilcoxon y Shapiro-Wilks

Hace unos días escribimos un post sobre algunos de los principales test estadísticos (Prueba de F, Chi Cuadrado, Fisher, McNemar, Binomial, Correlación de Pearson). En el post actual hablaremos brevemente del test de correlación de Spearman, Wilcoxon y Shapiro Willks.

TEST DE CORRELACIÓN DE SPEARMAN
Es una medición no paramétrica de correlación, asume una función monotónica arbitraria para describir la relación entre dos variables, sin hacer ningunas asunciones sobre la distribución de frecuencia de las variables.
A la diferencia del coeficiente del test de Pearson, no requiere la asunción que la relación entre las variables es linear, ni que las variables sean medidas en escalas del intervalo; puede ser utilizado para variables medidas en nivel ordinal.
Se utiliza si no se cumplen las condiciones de aplicación del test de Pearson.
Es una variante del test de correlación de Pearson se aplica cuando cada valor en sí no es tan importante como su situación respecto a los restantes.
Sus valores se interpretan exactamente igual que los del coeficiente de correlación de Pearson.
La correlación de Spearman mide el grado de asociación entre dos variables cuantitativas que siguen una tendencia siempre creciente o siempre decreciente.
Es más general que el Coeficiente de correlación de Pearson, la correlación de Spearman, en cambio se puede calcular para relaciones exponenciales o logarítmicas entre las variables.

TEST DE WILCOXON
Contrasta la hipótesis nula de que la muestra procede de una población en la que la magnitud de las diferencias positivas y negativas entre los valores de las variables es la misma.
Prueba estadística no paramétrica para la comparación de dos muestras (dos tratamientos).
Las distribuciones de datos no necesitan seguir la distribución normal.
Es por tanto una prueba menos restrictiva que la prueba t-Student.

PRUEBA DE SHAPIRO-WILKS.
Aunque esta prueba es menos conocida es la que se recomienda para contrastar el ajuste de nuestros datos a una distribución normal, sobre todo cuando la muestra es pequeña (n<30 font="font">
Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilístico normal.