miércoles, 28 de noviembre de 2012

Regresión y Correlación



Regresión es una palabra un tanto rara. La utilizan los biólogos, los médicos, los psicólogos... y suena como  "ir hacia atrás", "volver al pasado", y  realmente este es verdadero significado del vocablo.Fue un biólogo y estadístico inglés, SIR FRANCIS GALTON, quien introdujo en 1889 el término regresión en Estadística. Empleó este concepto para indicar la relación que existía entre la estatura de los niños de una muestra y  la estatura de su  padre.
Observó, que si los padres son  altos, los hijos generalmente también  lo son, y si los padres son  bajos los hijos son  también  de menor estatura. Pero  ocurría un  hecho curioso: cuando el padre es muy alto o muy bajo, aparece una perceptible "regresión"hacia la estatura media de la población, de modo  que sus hijos retroceden hacia la media de la que sus padres, por cierto, están muy alejados. Hoy día, el término no se utiliza en ese sentido.En muchas ocasiones, se desea conocer algo acerca de la relación o dependencia entre dos características cuantitativas, o  másde una, consideradas sobre la misma población objeto de estudio (por ejemplo la talla y el peso). Hay muchos casos en los que ya de antemano se "sospecha" que puede existir algún  tipo  de relación, y  por consiguiente, se pretende saber por ejemplo, en el caso de que tengamos 
únicamente dos variables:
1.- Si ambas variables están  realmente relacionadas entre sí o  si, por el
contrario, pueden considerarse independientes.
2.- Si existe dependencia, es necesario  conocer el "grado  de relación", así
como el "tipo" de relación entre ambas.
3.- Si puede predecirse la variable que es considerada como  dependiente a
partir de los valores de la otra, que es considerada independiente, y si es así,con qué precisión.

¿Cuándo existe regresión?
De una forma general, lo  primero  que suele hacerse para ver si dos variables
aleatorias están relacionadas o  no  (de ahora en  adelante las llamaremos X e Y,
denotando con Y a la variable dependiente, y X a la variable independiente o regresora),consiste en tomar una muestra aleatoria. Sobre cada individuo de la muestra se analizan las dos características en estudio, de modo que para cada individuo tenemos un 


Tipos de regresión
Si las dos variables X e Y se relacionan  según  un  modelo  de línea recta,
hablaremos de Regresión Lineal Simple: Y=a+bx.
Cuando las variables X e Y se relacionan según  una línea curva, hablaremos de
Regresión no lineal o curvilínea. Aquí podemos distinguir entre Regresión parabólica,Exponencial, Potencial, etc.Cuando tenemos más de una variable independiente (X1, X2,..., Xp), y una sola variable dependiente Y, hablaremos de Regresión múltiple, que, se las denomina, regresoras, predictoras o independientes.

Análisis de Correlación: El análisis de correlación emplea métodos para medir la significación del grado o intensidad de asociación entre dos o más variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión. El concepto de correlación está estrechamente vinculado al concepto de regresión, pues, para que una ecuación de regresión sea razonable los puntos muéstrales deben estar ceñidos a la ecuación de regresión; además el coeficiente de correlación debe ser:

- Grande cuando el grado de asociación es alto (cerca de +1 o -1, y pequeño cuando- Es bajo, cerca de cero.- Independiente de las unidades en que se miden las variables.






ANOVA


El análisis de la varianza (Anova) se debe al estadístico-genético Sir Ronald Aylmer Fisher (1890-1962),autor del libro "Statistics Methods for Research Workers" publicado en 1925 y pionero de la aplicación de métodos estadísticos en el diseño de experimentos, introduciendo el concepto de aleatorización. El Anova se puede utilizar en las situaciones en las que nos interesa analizar una respuesta cuantitativa,llamada habitualmente variable dependiente, medida bajo ciertas condiciones experimentales identificadas por una o más variables categóricas (por ejemplo tratamiento, sexo), llamadas variables independientes. Cuando hay una sola variable que proporciona condiciones experimentales distintas, el análisis recibe el nombre de Anova de un factor.Entre las pruebas de comparación múltiples a posteriori, que se utilizan a continuación de las técnicas del Anova, se encuentra la prueba HSD de Tukey. John Tukey es, asimismo  conocido por introducir la transformación rápida de Fourier, aunque trabajó en muchas áreas incluyendo sobre todo la filosofía de la estadística.Cuando el análisis de la varianza no es  aplicable debido a incumplimientos de las suposiciones del modelo,es necesario aplicar la prueba de Kruskal-Wallis para el contraste de k medianas. Esta prueba es una ampliación de la prueba de Mann-Whitney-Wilcoxon para dos medianas.La prueba de Kruskal-Wallis fue propuesta por William Henry Kruskal (1919- ) y W. Allen Wallis (1912-1998) en el artículo "Use of ranks in one-criterion variance analysis" publicado en el “Journal of American Statistics Association” en 1952.


SPSS: ANOVA de un Factor


El análisis de varianza (ANOVA) de un factor nos sirve para comparar varios grupos en una variable cuantitativa. Esta prueba es una generalización del contraste de igualdad de medias para dos muestras independientes. Se aplica para contrastar la igualdad de medias de tres o más poblacionesindependientes y con distribución normal. Supuestas k poblaciones independientes, las hipótesis del contraste son siguientes:
1. H0: μ1=μ2= …=μk Las medias poblacionales son iguales
2. H1: Al menos dos medias poblacionales son distintas

Para realizar el contraste ANOVA, se requieren k muestras independientes de la variable de interés. Una variable de agrupación denominada Factor y clasifica las observaciones de la variable en las distintas muestras.

Suponiendo que la hipótesis nula es cierta, el estadístico utilizado en el análisis de varianza sigue una distribución F de Fisher-Snedecor con k-1 y n-k grados de libertad, siendo k el número de muestras y n el número total de observaciones que participan en el estudio.


Para llevar a cabo un ANOVA de un factor:
Seleccionamos la opción:  Menú:
Analizar:
Comparar medias: ANOVA de un factor.

Al seleccionar el menú aparece el siguiente cuadro de diálogo:Si hacemos




Si hacemos clic en Opciones, aparece el cuadro de diálogo:





Aquí podemos solicitar los estadísticos que nos interesan para el contraste y marcar la opción para los valores perdidos.Marcamos Descriptivos y Homogeneidad de varianzas (el estadístico F del ANOVA de un factor se basa en el cumplimiento de 2 supuestos fundamentales: normalidad y homocedasticidad).


Utilizamos los contrastes llamados comparaciones múltiples post-hoc o a posteriori para saber qué media difiere de qué otra. Esas comparacionespermiten controlar la tasa de error al efectuar varios contrastes utilizando las mismas medias.Si hacemos clic en Post hoc aparece el cuadro



El cuadro de post hoc muestra las distintas pruebas post hoc para hacer comparaciones múltiples por parejas o pruebas de rango. Si la conclusión del contraste es rechazar la igualdad de medias se puede plantear qué grupos dos a dos son los que tienen medias significativamente distintas. Una forma de hacerlo sería plantear contrastes de igualdad de medias para dos muestras independientes con la prueba T de Student. Otra forma es utilizar una de las pruebas Post hoc que ofrece el análisis de la varianza. En particular, la prueba de Scheffé realiza todos los contrastes de igualdad de medias dos a dos y constituye dos distintos grupos homogéneos a partir de los resultados de los contrastes por parejas. Algunos autores destacan la prueba de Scheffé como más conservadora, así como la más utilizada, a pesar de que en muchas áreas se está imponiendo la de Bonferroni (Lizasoain y Joaristi; 2003: 363).

La tabla que contiene el estadístico de Levene nos permite contrastar la hipótesis de igualdad de varianzas poblacionales. Si el nivel crítico (sig.) es menor o igual que 0,05, debemos rechazar la hipótesis de igualdad de varianzas. Si es mayor , aceptamos la hipótesis de  igualdad de varianzas.






Prueba de homogeneidad de varianzas


Estadístico de  Levene
gl1
gl2 Sig.
gl2 Sig.
.929
3 64 .432
3 64 .432
3 64 .432



El siguiente paso nos lleva a la tabla de ANOVA, que nos ofrece el estadístico F con su nivel de significación. Si el nivel de significación (sig.) intraclase es menor o igual que 0,05, rechazamos la hipótesis de igualdad de medias, si es mayor – aceptamos la igualdad de medias, es decir, no existen diferencias significativas entre los grupos.




Suma de
cuadrados
gl
Media cuadrática
F
Sig.
Inter-grupos

Intra-grupos
Total

.482

30.518

31.000
3

67

64

.161
.477
.337
.798


Desde la tabla de comparaciones post-hoc vemos posibles combinaciones dos a dos entre los niveles de la variable factor (Variable 2), las diferencias entre las categorías de la variable 1 en cada grupo, el error típico de diferencias y nivel crítico asociado a cada diferencia (significación). Los grupos cuyas medias difieren de forma significativa (a nivel de 0,05) son los que presentan diferencias estadísticamente significativas entre sí.Cuando la F de la tabla de análisis de la varianza es no significativa, la conclusión es que el factor no influye en la variable dependiente, es decir, los distintos niveles del factor se comportan de igual forma en lo que a la variable dependiente se refiere.Pero si tal F es significativa sólo se puede concluir que, por lo menos, dos niveles del factor producen distintos efectos en al dependiente. Quiere esto decir que habrá que estudiar entre qué niveles se den esas diferencias significativas



jueves, 15 de noviembre de 2012

Prueba T



En estadística, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el estadístico utilizado tiene una distribución t de Student si la hipótesis nula es cierta. Se aplica cuando la población estudiada sigue una distribución normal pero el tamaño muestral es demasiado pequeño como para que el estadístico en el que está basada la inferencia esté normalmente distribuido, utilizándose una estimación de la desviación típica en lugar del valor real.


Historia

El estadístico t fue introducido por William Sealy Gosset en 1908, un químico que trabajaba para la cervecería Guinness de Dublín. Student era su seudónimo de escritor. Gosset había sido contratado gracias a la política de Claude Guiness de reclutar a los mejores graduados de Oxford y Cambridge, y con el objetivo de aplicar los nuevos avances en bioquímica y estadística al proceso industrial de Guiness. Gosset desarrolló el test t como una forma sencilla de monitorizar la calidad de la famosa cerveza Publicó su test en la revista inglesa en el año 1908, pero fue forzado a utilizar un seudónimo por su empleador, para mantener en secreto los procesos industriales que se estaban utilizando en la producción. Aunque de hecho, la identidad de Gosset era conocida por varios de sus compañeros estadísticos.










Entre los usos mas frecuentes de las pruebas t se encuentran:

El test de locación de muestra única por el cual se comprueba si la media de una población distribuida normalmente tiene un valor especificado en un hipótesis nula.


El test de locación para dos muestras, por el cual se comprueba si la media de dos poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente llamados test t de Student, a pesar de que estrictamente hablando, tal nombre sólo debería ser utilizado si la varianza de las dos poblaciones pueden ser asumidas como iguales; la forma de los test que se utiliza cuando esta asunción se deja de lado suele ser llamada a veces como Prueba t de Welch. Estas pruebas suelen ser comunmente nombradas como pruebas t desapareadas o de muestras independientes, debido a que se tienen su aplicación mas típica cuando las unidades estadísticas que definen a ambas muestras que están siendo comparadas no se superponen.


El test de hipótesis nula por el cual se demuestra que la diferencia entre dos respuestas medidas en las mismas unidades estadísticas es cero. Por ejemplo, supóngase que se mide el tamaño del tumor de un paciente con cáncer. Si el tratamiento resulta efectivo, lo esperable seria que el tumor de muchos pacientes disminuyera de tamaño luego de seguir el tratamiento.

jueves, 25 de octubre de 2012

Importancia de Inferencia Estadística

Autor (as):Crisnelda Yépez 
                  Adriana Giménez 
                  Desireé Navarro

La Estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadística es más que eso, es decir, es el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica. Dentro de la estadistica se encuentra la estadistica inferencial la cual es una herramienta que nos permite estudiar sistemática y metodologicamente una muestra, entiéndase esta como un grupo de elementos los cuales se desean estudiar. La importancia de la estadística inferencial en las Investigaciones Biológicas radica en que a través de estos métodos estadísticos se puede estudiar analíticamente múltiples procedimientos y o experimentos Biológicos encontrando respuestas verificables y pertinentes para estos estudiar.

Al  hablar de estadística Inferencial se debe tomar en cuenta procesos o métodos tales como la estimación de parámetros entiéndase estimador como la medida de resumen que se calcula en una muestra y parámetro como el correspondiente del estimador en una población por lo que este sistema nos permite dentro de la investigaciones biológicas obtener datos de una muestra y extrapolarlas a una población garantizando así la verificabilidad y confianza del estudio.


Otro  Aspecto Importante a mencionar dentro de la Estadística Inferencial es la formulación y contraste de hipótesis que no es mas que una conjetura proposición o afirmación relativa a un parámetro poblacional, que debe ser analizada en base a la diferencia de los resultados obtenidos a partir de una muestra. El contraste de hipótesis nos permite dentro de una investigación científica utilizar procedimientos estadísticos para confirmar o rechazar las diferentes hipótesis planteadas y de esta manera tomar decisiones acertadas y confiables al concluir estudio de este tipo.


Las investigaciones Biológicas son de gran importancia para el desarrollo de las diferentes formas de vida por lo que estos estudios deben ser altamente confiable y seguros para exponer sus resultados es aquí donde la estadistica inferencial juega un papel relevante ya que a través de sus diferentes formas de análisis permiten objetivamente determinar, analizar resultados confiables.

Un estudio biológico sin un buen estudio estadístico es un estudio incompleto.