Residuos de Haberman |
Top Previous Next |
Todos sabemos que cuando analizamos tablas, lo que estamos deseando ver es si existe una asociación o no entre las dos variables que estamos analizando. Cuando se ha observado una muestra, aquello que ha visto en ella es fruto de esa observación; los resultados de esa observación son lo que conocemos como frecuencias reales u observadas. Estas frecuencias observadas, ordenadas en forma de tabla, dan lugar, gracias a unas sencillas operaciones matemáticas, a un concepto del que muchos han oído hablar: las frecuencias esperadas. Las frecuencias esperadas son aquellas observaciones que cabría esperar, si no hubiera asociación alguna entre las variables tabuladas. Su cálculo es muy sencillo: si tomamos el total marginal de la columna i, y lo multiplicamos por el total marginal de la fila j, dividiendo posteriormente por el total de observaciones, obtendremos un número llamado frecuencia esperada de la celda ij. Esta frecuencia esperada —la misma que en las pruebas derivadas de c2— es muy utilizada para realizar contrastes de frecuencias. Esta frecuencia esperada será la base del análisis de residuos y también de las posteriores pruebas estadísticas que analizaremos. Ya estamos a punto de conocer lo que es un residuo: la diferencia entre la frecuencia observada y la frecuencia esperada. Así de simple. Valores positivos significarán que en la muestra se han observado más casos de los que cabría esperar; de la misma forma, valores negativos implican que en la muestra real se han dado menos valores de los que cabría esperar. Claro, lo que no sabemos es si ese número, esa diferencia, es significativa estadísticamente. Hagamos unos pocos números y busquemos el poder asignar significación a esa diferencia. Podemos comenzar por normalizar o estandarizar los residuos. Para ello podemos considerar que la frecuencia esperada es la media de las frecuencias, y que una aproximación a la desviación típica de la distribución de frecuencias puede ser la raíz cuadrada de la frecuencia esperada. Esto lo podríamos expresar de la siguiente forma:
De esta forma estamos eliminando el efecto que sobre su valor puedan tener los marginales de las dos variables, ya que de forma independiente a las categorías, cuanto mayor sean los marginales, más probabilidad tendremos que los residuos sean grandes. Pero todavía seguimos sin poder saber si ese resultado es significativo o no lo es. Haberman (1978) propone que ajustemos esa fórmula de la siguiente forma: siendo fi y cj los totales marginales de fila y columna de la celda valorada. Ahora sí; este estadístico se distribuye aproximadamente como una normal, y por tanto valores superiores a ± 1,96 serán estadísticamente significativos al nivel 0,05. ¿Y para qué sirve todo esto?. Para afirmar que las categorías relacionadas en una tabla con valores residuales positivos y mayores de 1,96 sienten una fuerte atracción, y de la misma forma, valores inferiores a - 1,96 implican un fuerte rechazo entre las categorías valoradas. Valores entre - 1,96 y 1,96 no son estadísticamente significativos, por lo que no podremos lanzar hipótesis sobre su validez. Proceso de cálculoFichero > Residuos de Haberman.gbw Órdenes > Tabulación - > Frecuencias - > Seleccionar las variables VAR1 en columna, VAR2 en filas Imaginemos la relación entre dos variables que muestran la propensión a una valoración alta en una dimensión relacionada con la calidad de servicio y la edad del trabajador. La primera variable se mide con una escala de tres categorías (alta, media y baja > VAR1) y la segunda se mide con una escala de tres categorías también (novel, ayudante y experto > VAR2). La tabla de frecuencias resultante la mostramos combinando la frecuencia observada con la frecuencia esperada, y es la siguiente:
Si analizamos esta tabla viendo sus valores residuales, obtenemos que:
El valor del residual directo, lo podemos contemplar como un indicador de la distancia entre la frecuencia observada y la esperada, pero esa distancia no tiene significación estadística, tan sólo tiene una significación dentro de los propios valores de la tabla. Podemos ver que 21,45 es el valor más alto, es decir, en esa contingencia se produce la diferencia más importante entre lo observado y lo esperado. El segundo residual, el residual normalizado, nos permite trabajar en términos relativos y en este caso podemos comparar las importancias relativas del residual, pero seguimos sin tener significancia estadística. Es sólo con el tercer valor, el residuo corregido de Haberman, donde ese indicador de diferencia podemos considerar que sigue una distribución aproximadamente normal. Si fijamos nuestra hipótesis nula en la independencia de las categorías, podemos observar que un valor mayor que ±1,96 difieren de 0 con una probabilidad superior a 0,95. Es decir el valor 6,31 de la contingencia alta - novel se interpreta diciendo que “la relación entre la propensión a valorar de forma alta y ser trabajador novel es positiva y estadísticamente significativa: el número de asociaciones es estadísticamente mayor que el número que cabría esperar si ser trabajador novel y puntuar alto fueran categorías independientes”. |