Regresión múltiple

Descripción de la técnica

Paradigma de las técnicas de dependencia y base de una gran parte de las técnicas multivariantes, su objetivo es explicar el comportamiento de una variable dependiente a partir de las relaciones entre variables independientes. Trata de captar los efectos de cada variable por separado. Analizamos sólo OLS (mínimos cuadrados ordinarios).

Grado de utilización en la práctica

En desuso como tal, porque se está modelizando hoy en día con evoluciones o especificaciones del mismo: logit, probit, logística, etc. aunque sigue siendo la base de todo el resto de análisis; análisis tan “famosos” como el factorial o el multinomial logit tiene detrás modelos de regresión lineal.

Condiciones para el análisis

Las variables con las que se realiza el análisis deben ser de tipo métrico. Si por alguna razón se quisiera introducir alguna variable de tipo no métrico, se debería binarizar e introducir tantas variable de tipo 0/1 como categorías tuviera esa variable nominal (o sólo algunas de ellas). El modelo que se va a establecer será de tipo lineal. Otras características que se piden son:

•	homocedasticidad

•	ausencia de correlación serial

•	ausencia de multicolinealidad

•	matriz de datos no estocástica e independiente

El modelo utilizado es el paso a paso (forward stepwise). En este tipo de metodología, las variables se incorporan una a una, comenzado por aquella que tiene un mayor poder explicativo de la variable dependiente. Se puede combinar con una metodología de forzado de participación (enter).

Suma de cuadrados explicada por la variable actual	Total de la varianza explicada por el modelo que aporta la variable que se introduce en el paso n
R cuadrado de la variable	% de la varianza explicada por el modelo que aporta la variable que se introduce en el paso n
Suma de cuadrados explicada por las variables (acumulado)	Total de la varianza explicada por el modelo que aportan las variables introducidas en el modelo hasta el paso n
R cuadrado de las variables (acumulado)	% de la varianza explicada por el modelo que aportan las variables introducidas en el modelo hasta el paso n
Suma de cuadrados total	Total de la varianza explicada por el modelo que aportan las variables introducidas al final del modelo.
Coeficiente de correlación múltiple y coeficiente de correlación múltiple ajustado a los grados de libertad	Bondad del ajuste producido por la totalidad del modelo
Valor F para el análisis de varianza y significación	Prueba inferencial que aporta la significatividad de la relación lineal planteada en el conjunto del modelo.
Error estándar de estimación y error estándar de estimación ajustado a los grados de libertad	Estimación del error que se produce en el modelo
Predicción por el modelo	Valor de la variable dependiente utilizando el modelo lineal de regresión
Residuo	Diferencia entre el valor real y el predicho por el modelo
Coeficiente de regresión	Valor que permite medir la relación de la variable independiente con la dependiente del modelo.
Error estándar de regresión	Medida de precisión de los coeficientes de regresión proporcional al error de estimación e inversamente proporcional a la variabilidad de la variable, descontada la del resto de variables del modelo.
Valor t-Student y significación	Prueba inferencial que aporta la significatividad de la relación lineal planteada específicamente para el regresor especificado

Proceso de cálculo

Fichero Datos para regresión múltiple

Órdenes Análisis > Regresión > Múltiple

Variables Dependiente TAD (tensión arterial)

Variables Independientes COLESTEROL, IMC (índice masa corporal) y EDAD

clip0289

Variables analizadas: TAD COLESTEROL IMC EDAD

Estadísticos

Número de casos=67

Número de variables=4

Constante límite=0,00000

Nombre de la variable	Media aritmética	Desviación típica
TAD	81,40299	11,36590
COLESTEROL	236,26866	34,03723
IMC	25,53567	3,95674
EDAD	55,04478	7,16776

	TAD	COLESTEROL	IMC	EDAD
TAD	1,00000	0,69066	0,56117	0,37490
COLESTEROL	0,69066	1,00000	0,55787	0,31954
IMC	0,56117	0,55787	1,00000	0,25647
EDAD	0,37490	0,31954	0,25647	1,00000

La primera información que se ofrece son los estadísticos básicos de las variables que participan en el análisis y su matriz de coeficientes de correlación de Pearson. Para analizar la significación de cada coeficiente, más allá de lo meramente visual, deberemos acudir a realizar una matriz de coeficientes de correlación según lo visto en el capítulo anterior.

Variable incluida	COLESTEROL
	Variable forzada
Suma de cuadrados explicada por variable	4067,11231
R² (proporción explicada por variable)	0,47702
Suma de cuadrados explicada por todas variables	4067,11231
R² (proporción explicada por todas variables)	0,47702
Suma de cuadrados total	8526,11940
Coeficiente de correlación múltiple	0,69066
Coeficiente de correlación múltiple ajustado	0,69066
Valor F para el análisis de varianza	59,28726
Significación	0,00000
Error estándar de estimación	8,28252
Error estándar de estimación ajustado	8,28252

Variable	Coeficiente de regresión	Error estándar de regresión	Valor t-Student calculado	Significación
COLESTEROL	0,23063	0,02995	7,69982	0,00000
Constante	26,91220

En el primer paso, se encuentra que la variable más explicativa de la TAD es el COLESTEROL. Se ofrecen sus resultados y vemos que el modelo arroja un coeficiente de determinación de 0,477. Este coeficiente se irá modificando a medida que se incorporen nuevas variables.

Variable incluida	IMC
	Variable forzada
Suma de cuadrados explicada por variable	382,87474
R² (proporción explicada por variable)	0,04491
Suma de cuadrados explicada por todas variables	4449,98705
R² (proporción explicada por todas variables)	0,52192
Suma de cuadrados total	8526,11940
Coeficiente de correlación múltiple	0,72244
Coeficiente de correlación múltiple ajustado	0,72798
Valor F para el análisis de varianza	34,93498
Significación	0,00000
Error estándar de estimación	7,98057
Error estándar de estimación ajustado	8,04173

Variable	Coeficiente de regresión	Error estándar de regresión	Valor t-Student calculado	Significación
COLESTEROL	0,18306	0,03478	5,26427	0,00000
IMC	0,73346	0,29915	2,45185	0,01621
Constante	19,42100

En este paso 2, se introduce el IMC, denotando que el modelo mejora muy poco, pues su R2 sube hasta el 0,521. Observamos que la aportación de la variable al modelo es bien poca, 0,044.

Variable incluida	EDAD

Suma de cuadrados explicada por variable	172,81718
R² (proporción explicada por variable)	0,02027
Suma de cuadrados explicada por todas variables	4622,80423
R² (proporción explicada por todas variables)	0,54219
Suma de cuadrados total	8526,11940
Coeficiente de correlación múltiple	0,73634
Coeficiente de correlación múltiple ajustado	0,74775
Valor F para el análisis de varianza	24,87088
Significación	0,00000
Error estándar de estimación	7,87130
Error estándar de estimación ajustado	7,99334

Variable	Coeficiente de regresión	Error estándar de regresión	Valor t-Student calculado	Significación
COLESTEROL	0,17015	0,03516	4,83922	0,00002
IMC	0,68421	0,29652	2,30747	0,02310
EDAD	0,23943	0,14336	1,67012	0,09590
Constante	10,55111

Se han creado 2 nuevas variables en el estudio que contienen los datos de la tabla residual con los valores predichos y los residuos de la variable dependiente que se han obtenido tras la regresión.

Por último, se añade la EDAD, que al igual que la variable anterior, no aporta tampoco mucho. En definitiva, obtenemos un modelo, en el que COLESTEROL e IMC son significativos, no EDAD (significación de t con un 0,09).