Residuos de Haberman

Todos sabemos que cuando analizamos tablas, lo que estamos deseando ver es si existe una asociación o no entre las dos variables que estamos analizando. Cuando se ha observado una muestra, aquello que ha visto en ella es fruto de esa observación; los resultados de esa observación son lo que conocemos como frecuencias reales u observadas. Estas frecuencias observadas, ordenadas en forma de tabla, dan lugar, gracias a unas sencillas operaciones matemáticas, a un concepto del que muchos han oído hablar: las frecuencias esperadas.

Las frecuencias esperadas son aquellas observaciones que cabría esperar, si no hubiera asociación alguna entre las variables tabuladas. Su cálculo es muy sencillo: si tomamos el total marginal de la columna i, y lo multiplicamos por el total marginal de la fila j, dividiendo posteriormente por el total de observaciones, obtendremos un número llamado frecuencia esperada de la celda ij. Esta frecuencia esperada —la misma que en las pruebas derivadas de c2— es muy utilizada para realizar contrastes de frecuencias.

Esta frecuencia esperada será la base del análisis de residuos y también de las posteriores pruebas estadísticas que analizaremos.

Ya estamos a punto de conocer lo que es un residuo: la diferencia entre la frecuencia observada y la frecuencia esperada. Así de simple. Valores positivos significarán que en la muestra se han observado más casos de los que cabría esperar; de la misma forma, valores negativos implican que en la muestra real se han dado menos valores de los que cabría esperar.

Claro, lo que no sabemos es si ese número, esa diferencia, es significativa estadísticamente. Hagamos unos pocos números y busquemos el poder asignar significación a esa diferencia. Podemos comenzar por normalizar o estandarizar los residuos. Para ello podemos considerar que la frecuencia esperada es la media de las frecuencias, y que una aproximación a la desviación típica de la distribución de frecuencias puede ser la raíz cuadrada de la frecuencia esperada. Esto lo podríamos expresar de la siguiente forma:

De esta forma estamos eliminando el efecto que sobre su valor puedan tener los marginales de las dos variables, ya que de forma independiente a las categorías, cuanto mayor sean los marginales, más probabilidad tendremos que los residuos sean grandes. Pero todavía seguimos sin poder saber si ese resultado es significativo o no lo es. Haberman (1978) propone que ajustemos esa fórmula de la siguiente forma:

siendo fi y cj los totales marginales de fila y columna de la celda valorada. Ahora sí; este estadístico se distribuye aproximadamente como una normal, y por tanto valores superiores a ± 1,96 serán estadísticamente significativos al nivel 0,05. ¿Y para qué sirve todo esto?. Para afirmar que las categorías relacionadas en una tabla con valores residuales positivos y mayores de 1,96 sienten una fuerte atracción, y de la misma forma, valores inferiores a - 1,96 implican un fuerte rechazo entre las categorías valoradas. Valores entre - 1,96 y 1,96 no son estadísticamente significativos, por lo que no podremos lanzar hipótesis sobre su validez.

Proceso de cálculo

Órdenes > Tabulación - > Frecuencias - > Seleccionar las variables VAR1 en columna, VAR2 en filas

Imaginemos la relación entre dos variables que muestran la propensión a una valoración alta en una dimensión relacionada con la calidad de servicio y la edad del trabajador. La primera variable se mide con una escala de tres categorías (alta, media y baja > VAR1) y la segunda se mide con una escala de tres categorías también (novel, ayudante y experto > VAR2).

La tabla de frecuencias resultante la mostramos combinando la frecuencia observada con la frecuencia esperada, y es la siguiente:

	TOTAL	Propensión
Frecuencias Frecuencias esperadas		Alta	Media	Baja
TOTAL	229	80	88	61
Experiencia
Novel	76	48 27	20 29	8 20
Ayudante	80	12 28	32 31	36 21
Experto	73	20 26	36 28	17 19

	TOTAL	Propensión
Residuos directo Residuos normalizados Residuos corregidos		Alta	Media	Baja
TOTAL	229	80	88	61
Experiencia
Novel	76	21.45 4.16 6.31	- 9.21 - 1.70 - 2.66	- 12.24 - 2.72 - 3.89
Ayudante	80	- 15.95 - 3.02 - 4.64	1.26 0.23 0.36	14.69 3.18 4.61
Experto	73	- 5.50 - 1.09 - 1.64	7.95 1.50 2.32	- 2.45 - 0.55 - 0.78

El valor del residual directo, lo podemos contemplar como un indicador de la distancia entre la frecuencia observada y la esperada, pero esa distancia no tiene significación estadística, tan sólo tiene una significación dentro de los propios valores de la tabla. Podemos ver que 21,45 es el valor más alto, es decir, en esa contingencia se produce la diferencia más importante entre lo observado y lo esperado. El segundo residual, el residual normalizado, nos permite trabajar en términos relativos y en este caso podemos comparar las importancias relativas del residual, pero seguimos sin tener significancia estadística.

Es sólo con el tercer valor, el residuo corregido de Haberman, donde ese indicador de diferencia podemos considerar que sigue una distribución aproximadamente normal. Si fijamos nuestra hipótesis nula en la independencia de las categorías, podemos observar que un valor mayor que ±1,96 difieren de 0 con una probabilidad superior a 0,95. Es decir el valor 6,31 de la contingencia alta - novel se interpreta diciendo que “la relación entre la propensión a valorar de forma alta y ser trabajador novel es positiva y estadísticamente significativa: el número de asociaciones es estadísticamente mayor que el número que cabría esperar si ser trabajador novel y puntuar alto fueran categorías independientes”.