Valores especiales

Top  Previous  Next

Creación de variables

Con el objeto de hacer un seguimiento de los valores especiales, se incluye una opción dentro de los que son los índices de calidad que calcula las siguientes variables de tipo múltiple, cuyos códigos serán los nombres de las variables físicas de tipo categoría, numéricas, alfanuméricas, múltiples, fecha y hora.

$NC, donde para cada registro se le imputará el código de las variables en las que ese registro tenga un &.
$NS, donde para cada registro se le imputará el código de las variables en las que ese registro tenga un +.
$FILTER, donde para cada registro se le imputará el código de las variables en las que ese registro tenga un -.
$NDEF, donde para cada registro se le imputará el código de las variables en las que ese registro tenga un valor no especial y no codificado.

A partir del análisis de estas variables por medio de tabulación, estadísticos, etc, se puede ver si existe algún patrón determinado en la aparición de los especiales. Cada valor especial puede ser tratado por separado.

Obtención  de correlaciones

Sin necesidad en este caso de crear nuevas variables, se obtiene una nueva variable por cada una de las que entran en el análisis, que contiene un 1 si no hay especial (si hay valor) y un 0 si lo hay. En el diálogo se establece qué valores especiales son los que entran para cada variable. La primera columna será la variable y la segunda y sucesivas, NC, NS, FILTER y NDEF con un check de activo o no.

La salida, es una matriz de correlaciones de Pearson con su N y su prueba de significación para todos los coeficientes de correlación posibles.

Imputación de especiales

Por último, imputar directamente el valor donde hay especiales, de dos formas:

Imputar la media de modo directo, pero solo se puede hacer cuando la variable es métrica. Se calcula la media del valor y se asigna directamente.
Imputar por regresión múltiple. Se requiere que se elija las variables con las que se relaciona. La variable en cuestión sería la dependiente y el resto independientes (numéricas de forma directa y categoría, múltiples binarizadas). Sólo entran en el modelo aquellos registros que tengan información en todos los casos de las variables independientes. Para calcular el valor se utilizan los coeficientes del modelo final con los valores del registro actual. La imputación es el valor predicho utilziando el modelo de regresión múltiple