Cluster k medias

Descripción de la técnica

Si como antes mencionábamos, los criterios jerárquicos tenía como misión generar un único grupo (aglomerativo) a partir de n elementos, los criterios no jerárquicos tiene como misión establecer k particiones a partir de los n elementos en los que se den las máximas generales de mayor diferenciación intergrupo y menor intragrupo sin condición de jerarquía entre las mismas. Se trabaja directamente sobre los elementos y permiten que la muestra sea mucho más elevada, dado que no es necesaria la matriz de distancias total.

Es muy importante destacar que en este tipo de procesos se produce los que se denomina reasignación del elemento a clasificar que a medida que se producen iteraciones puede ir variando de grupo para ajustarse más a otra partición más semejante. El método más habitual de cálculo de este tipo es el que dispone BarbWin, el K-medias.

Una vez obtenidos los cálculos, el análisis debe finalizar intentando explicar la composición de malos grupos en dos direcciones. La primera de ellas debe llevar al investigador a intentar comprender y verificar las diferencias entre los grupos, nominando los mismos en función de las características más diferenciadoras. La segunda de ellas tratando de verificar si esos grupos revelan también diferencias en las variables de perfil de la muestra, identificando datos de clasificación relevantes en ellos. Quedaría por último, analizar la trascendencia del grupo ante el resto de preguntas del trabajo de investigación, pensando en que la respuesta de los grupos puede ser diferenciada ante cualquier cuestión de nuestro trabajo.

Grado de utilización en la práctica

Muy utilizado. Es el análisis tipo cuando se trata de clasificar objetos. Al igual que en el cluster jerárquico, se suele utilizar con variables de tipo numérico métrico y para ser comparadas es preferible que las variables estén en la misma escala, aunque no es requisito para el análisis. También, se pueden utilizar variables artificiales para realizar el análisis. El software con el que trabajamos, BarbWin, realiza esta operativa directamente si en el análisis se incluyen variables nominales o múltiples.

Información ofrecida por un análisis de cluster

Clusters iniciales	Se muestran los centro de cluster de las variables en los grupos que se ha decidido comenzar a crear
Descriptivos de las variables	Medias y desviaciones de los grupos iniciales según criterio elegido
Matriz de correlaciones de Pearson	Análisis visual de las correlaciones entre grupos iniciales
Distribución de casos por cluster	Muestra identificados para el número de relación con la variable qué casos caen en cada cluster
Informes de cluster	Distancia de cada caso al centro del cluster, medias de los grupos, composición de los mismos, distancia promedio al centro del grupo
Análisis de varianza final	Verifica la existencia de significatividad en las diferencias entre los clusters o grupos.
Distancias entre centro de clusters	Indicativo de la dispersión del grupo
Clusters finales	Medias de los clusters en cada grupo.

Proceso y opciones de cálculo

clip0337

Diálogo de cluster k-medias

•	Selección de variables, de tipo numérico, nominal o múltiple.

•	Selección del criterio de partida, k elementos (número de particiones o grupos deseados) de forma distinta:

•	los k primeros que encuentra en la matriz,

•	los k más distantes (cálculo de matriz de distancias),

•	los k aleatorios, los k introducidos por el usuario.

•	La medida inicial del centroide es la media aritmética.

•	Selección de la medida de distancia, Para el cálculo inicial de elementos y para la posterior inclusión o reasignación del elemento en la partición.

Proceso

Fichero Datos para cluster.gbw

Órdenes Seleccionar variables de X1 a X7

Opciones K con máxima distancia, Distancia Euclídea, Informe de contenido de clusters, Crear variable (GRUPO_5)

Análisis de 5 clusters

Cálculo de distancias: distancia euclídea al cuadrado

Método de inicio en el cluster: comenzar con los 5 más distantes

X1 Velocidad de entrega

X2 Nivel de precios

X3 Flexibilidad en precios

X4 Imagen del fabricante

X5 Nivel de servicio

X6 Imagen del personal de ventas

X7 Calidad del producto

Clusters iniciales

	X1	X2	X3	X4	X5	X6	X7
1	6,00000	0,90000	9,60000	7,80000	3,40000	4,60000	4,50000
2	2,60000	3,00000	8,50000	6,00000	2,80000	2,80000	6,80000
3	2,50000	1,80000	9,00000	5,00000	2,20000	3,00000	6,00000
4	3,10000	2,20000	6,70000	6,80000	2,60000	2,90000	8,40000
5	2,00000	2,80000	5,20000	5,00000	2,40000	2,70000	8,40000

Número de sujetos a clasificar: 100

Número de variables observadas: 7

Número de clusters: 5

Descriptivos de las variables

Nombre	Media	Desviación típica	Coeficiente variación
X1	3,515	1,314	37,386
X2	2,364	1,190	50,324
X3	7,894	1,380	17,476
X4	5,278	1,119	21,196
X5	2,946	0,812	27,553
X6	2,665	0,767	28,780
X7	6,971	1,577	22,627

Matriz de correlaciones

Nombre	X1	X2	X3	X4	X5	X6	X7
X1	1,00000	-0,34923	0,50930	0,05042	0,56306	0,07712	-0,48263
X2	-0,34923	1,00000	-0,48721	0,28373	0,48594	0,18624	0,46975
X3	0,50930	-0,48721	1,00000	-0,07784	0,11509	-0,03432	-0,44811
X4	0,05042	0,28373	-0,07784	1,00000	0,32322	0,75944	0,17453
X5	0,56306	0,48594	0,11509	0,32322	1,00000	0,17525	-0,08761
X6	0,07712	0,18624	-0,03432	0,75944	0,17525	1,00000	0,17729
X7	-0,48263	0,46975	-0,44811	0,17453	-0,08761	0,17729	1,00000

Distribución e informe de casos por cluster

Cluster	Casos	Porcentaje
1	17	17,00
2	25	25,00
3	33	33,00
4	6	6,00
5	19	19,00

Informe del cluster 1 de una solución de 5 clusters - Contiene 17 Casos ( 17,00% sobre el total)

Caso	Distancia al centro
5	1,08055
7	0,48255
9	0,35479
14	0,32003
15	0,26623
19	0,10209
20	0,26623
26	0,45263
28	0,10572
33	0,47084
42	1,06454
58	0,33562
62	0,52834
67	0,22680
76	0,61214
90	0,25546
97	0,54273

Distancia promedio al centro del cluster 0,43925

Nombre	Media	Distancia	Máximo	Mínimo
X1	4,982	0,667	6,100	4,300
X2	1,706	0,620	2,500	0,500
X3	9,353	0,473	9,400	9,200
X4	6,082	0,862	6,300	4,800
X5	3,347	0,285	3,400	3,300
X6	3,371	0,778	4,000	2,800
X7	6,459	1,303	7,100	4,500

A partir de este momento, este análisis se reiteraría para el resto de clusters. En nuestro caso serían 5 salidas como ésta. Finalizaría el análisis con el análisis de la varianza para el conjunto, para comprobar la significatividad de las diferencias.

Análisis de varianza

Nombre	Media total	Desviación típica	Cuadrados medios entre	Cuadrados medios intra	Prueba F	Probabilidad
X1	3,515	1,314	15,258	0,410	37,199	0,00000
X2	2,364	1,190	17,131	0,331	51,707	0,00000
X3	7,894	1,380	13,601	0,480	28,336	0,00000
X4	5,278	1,119	12,877	0,510	25,226	0,00000
X5	2,946	0,812	11,731	0,559	20,995	0,00000
X6	2,665	0,767	10,721	0,601	17,833	0,00000
X7	6,971	1,577	13,277	0,494	26,897	0,00000

Matriz de distancias entre los centros de los clusters

Nombre	Cluster 1	Cluster 2	Cluster 3	Cluster 4	Cluster 5
Cluster 1	0,43925	1,90895	0,94355	1,35668	1,56228
Cluster 2	1,90895	0,38876	1,16415	0,64289	1,11596
Cluster 3	0,94355	1,16415	0,48482	2,02411	2,14762
Cluster 4	1,35668	0,64289	2,02411	0,15730	0,76806
Cluster 5	1,56228	1,11596	2,14762	0,76806	0,62190

Número de iteraciones: 2

Los elementos diagonales contienen la distancia media interna del cluster

Los elementos subdiagonales contienen las distancias entre clusters

Clusters finales

	X1	X2	X3	X4	X5	X6	X7
1	4,982	1,706	9,353	6,082	3,347	3,371	6,459
2	2,088	2,592	7,064	4,968	2,312	2,472	8,196
3	4,115	1,461	8,630	4,382	2,752	2,115	5,561
4	2,567	2,567	6,867	6,750	2,600	3,467	8,133
5	3,337	4,158	6,726	6,058	3,868	2,989	7,900

Se ha creado la variable GRUPOS_5

Análisis de los centros por medio de una tabulación de estadísticos

	Total	GRUPOS_5(Total)
Frecuencias		Subtotal	Grupo 1	Grupo 2	Grupo 3	Grupo 4	Grupo 5
Total	100	100	17	25	33	6	19
Velocidad de entrega
X1
Media	3,52	3,52	4,98	2,09	4,12	2,57	3,34
Desviación	1,32	1,32	0,69	0,82	0,99	0,68	0,75

Nivel de precio
X2
Media	2,36	2,36	1,71	2,59	1,46	2,57	4,16
Desviación	1,2	1,2	0,64	0,86	0,63	0,39	0,61

Flexibilidad en precios
X3
Media	7,89	7,89	9,35	7,06	8,63	6,87	6,73
Desviación	1,39	1,39	0,49	0,97	0,82	0,72	1,42

Imagen del fabricante
X4
Media	5,28	5,28	6,08	4,97	4,38	6,75	6,06
Desviación	1,12	1,12	0,89	0,57	0,85	0,27	0,97

Nivel de servicio
X5
Media	2,95	2,95	3,35	2,31	2,75	2,6	3,87
Desviación	0,82	0,82	0,29	0,63	0,69	0,26	0,69

Imagen del personal de ventas
X6
Media	2,66	2,66	3,37	2,47	2,12	3,47	2,99
Desviación	0,77	0,77	0,8	0,34	0,58	0,54	0,68

Calidad del producto
X7
Media	6,97	6,97	6,46	8,2	5,56	8,13	7,9
Desviación	1,59	1,59	1,34	0,96	1,04	0,28	1,31

Podemos también verificar el análisis realizado, con una prueba T que nos muestra las diferencias en medias de los grupos

	Total	GRUPOS_5(Total)
Frecuencias		(A) Subtotal	(B) Grupo 1	(C) Grupo 2	(D) Grupo 3	(E) Grupo 4	(F) Grupo 5
Total	100	100	17	25	33	6	19
Velocidad de entrega
X1	100	100	17	25	33	6	19
Casos válidos	100	100	17	25	33	6	19
Media	3,52	3,52 CE	4,98 ACDEF	2,09	4,12 aCEF	2,57	3,34 Ce
Desviación	1,32	1,32	0,69	0,82	0,99	0,68	0,75
Nivel de precio
X2	100	100	17	25	33	6	19
Casos válidos	100	100	17	25	33	6	19
Media	2,36	2,36 BD	1,71	2,59 BD	1,46	2,57 BD	4,16 ABCDE
Desviación	1,2	1,2	0,64	0,86	0,63	0,39	0,61
Flexibilidad en precios
X3	100	100	17	25	33	6	19
Casos válidos	100	100	17	25	33	6	19
Media	7,89	7,89 CEF	9,35 ACDEF	7,06	8,63 ACEF	6,87	6,73
Desviación	1,39	1,39	0,49	0,97	0,82	0,72	1,42
Imagen del fabricante
X4	100	100	17	25	33	6	19
Casos válidos	100	100	17	25	33	6	19
Media	5,28	5,28 D	6,08 ACD	4,97 D	4,38	6,75 AbCDf	6,06 ACD
Desviación	1,12	1,12	0,89	0,57	0,85	0,27	0,97
Nivel de servicio
X5	100	100	17	25	33	6	19
Casos válidos	100	100	17	25	33	6	19
Media	2,95	2,95 Ce	3,35 ACDE	2,31	2,75 c	2,6	3,87 ABCDE
Desviación	0,82	0,82	0,29	0,63	0,69	0,26	0,69
Imagen del personal de ventas
X6	100	100	17	25	33	6	19
Casos válidos	100	100	17	25	33	6	19
Media	2,66	2,66 D	3,37 ACD	2,47 d	2,12	3,47 ACD	2,99 CD
Desviación	0,77	0,77	0,8	0,34	0,58	0,54	0,68
Calidad del producto
X7	100	100	17	25	33	6	19
Casos válidos	100	100	17	25	33	6	19
Media	6,97	6,97 D	6,46 d	8,20 ABD	5,56	8,13 ABD	7,90 aBD
Desviación	1,59	1,59	1,34	0,96	1,04	0,28	1,31