Análisis Cluster

De Descuadrando

El análisis Cluster es un conjunto de técnicas que tienen por objeto la búsqueda de grupos similares de individuos o variables. Éste análisis nos permite, a partir de una serie de observaciones de los individuos que disponemos, clasificarlos en grupos (o conglomerados) de carácter lo más homogeneo posible y, que a su vez, dichos grupos sean lo más diferente posible los unos de otros.

Además, el análisis Cluster es útil para reducir la información de la que disponemos y nos puede sugerir nuevas relaciones a investigar entre los elementos.

Contenido

Procedimiento

Pasos para el análisis

Supongamos que disponemos de "n" observaciones de ciertos elementos de los que tenemos información sobre "k" variables (edad, situación económica,...). Los pasos que se deben seguir para realizar el análisis Cluster son los siguientes:

  1. Establecemos un indicador que nos diga en qué medida cada par de elementos se parecen entre sí. A esta "medida" se le denomina distancia o similaridad.
  2. A continuación, creamos grupos de forma que cada uno de ellos, contenga las muestras más parecidas entre sí, de acuerdo con la distancia que hemos calculado en el punto anterior. Para llevar a cabo este paso, existen dos tipos de técnicas que nos permiten realizar el análisis: Técnicas jerárquicas y Técnicas no jerárquicas. Veremos estas dos técnicas en los próximos apartados.
  3. Por último, describimos los grupos que hemos obtenido y los comparamos unos con otros. Para compararlos, es útil ver el valor promedio que toman las variables que utilizamos en cada grupo.

Cálculo de la matriz de distancias

Se pueden utilizar distintas fórmulas para el cálculo de las distancias y su matriz dependiendo de si las observaciones son métricas o se trata de datos binarios.

Si las observaciones son métricas, podemos utilizar cualquiera de las siguientes medidas:

  • Distancia Euclídea [1]
  • Distancia Euclídea al cuadrado
  • Distancia de Minskowski

Si las observaciones son de datos binarios, utilizamos cualquiera de las siguientes medidas:

  • Distancia Euclídea: Dij= b+c
  • Distancia Euclídea al cuadrado: Dij= 1/2(b+c)
  • Distancia de tamaño: Dij= [(b-c)^2]/[(a+b+c+d)^2]

Una vez tenemos calculadas las distancias con el método escogido, elaboramos una matriz cuyo número de filas será igual al número de columnas. El tamaño de la matriz dependerá del número de elementos o individuos que estamos analizando. En las intersecciones colocamos la distancia obtenida para cada par de elementos sobre las variables que hemos analizado. De esta manera obtenemos una matriz simétrica cuya diagonal principal es 0 para todas las intersecciones.

Formación de los grupos

Una vez que hemos calculado la matriz de distancias y sabemos que obervaciones son las más parecidas pasamos a conformar los grupos. Esto implica tener en cuenta dos cosas:

  • Seleccionar el algoritmo de agrupación
  • Determinar un número de grupos razonable

Existen muchos tipos de algoritmos de agrupación. Si distintos métodos de agrupación nos aportan conclusiones similares será razonable suponer que existe una agrupación natural objetiva. Como hemos mencionado anteriormente, los algoritmos de agrupación posibles se pueden dividir en "Clusters jerárquicos" y "Clusters no jerárquicos"

Clusters jerárquicos

Los principales algoritmos de agrupamiento de este tipo son:

  • Método de agrupación de centroides: Comenzamos uniendo las dos observaciones más cercanas. El grupo formado se sustituye por una observación que lo represente y en la que las variables tomen los varoles medios de aquellas observaciones que forman el grupo representado (o también llamado centroide). A continuación, recalculamos la matriz de distancia y unimos las dos observaciones más cercanas para continuar repitiendo el proceso anterior. Finalizaremos cuando todas las observaciones acaben integradas en un mismo grupo.
  • Método de la vinculación simple: Según este método, la distancia entre dos grupos es la distancia entre los miembros o elementos más cercanos. Es por ésto, que dicho método también recibe el nombre de "vecino más cercano".
  • Método de la vinculación completa: Se diferencia con el anterior en que la distancia entre dos grupos viene dada por la distancia entre sus miembros más alejados. A éste método también se le conoce con el nombre de "vecino más alejado".
  • Método de la vinculación inter-grupos: La distancia entre dos grupos se obtiene calculando la distancia promedio entre todos los pares de observaciones que pueden formarse tomando un miembro de un grupo y otro miembro del otro grupo. También se le conoce como método de la vinculación promedio.

El análisis Cluster jerárquico nos permite elegir entre muchas opciones que difieren en cuanto al número de conglomerados. Cada cuál debe decidir cual es el número de conglomerados que conforman una solución razonable.

Clusters no jerárquicos

A diferencia de los Clusters jerárquicos, se conoce a priori el número de grupos que deseamos. Las observaciones son, por tanto, asignadas a cada uno de los "x" conglomerados permitiendo la maximización de la homogeneidad de los sujetos asignados a un y mismo grupo y la heterogeneidad entre los distintos conglomerados.

Debemos seguir los siguientes pasos para llevar a cabo un análisis Cluster no jerárquico:

  1. Determinanos los centroides iniciales de los "x" conglomerados. A estos centroides los denominaremos "semillas" pueden ser fijados por cada cual si disponemos de información previa o mediante el ordenador decidiendo sus valores aleatoriamente.
  2. Una vez establecidas las semillas, cada observación se asigna a aquel conglomerado, de entre los "x" existentes, cuyo centroide esté más cercano a esa observación.
  3. Recalculamos los centroides de los "x" grupos de acuerdo con las observaciones que han sido clasificadas en cada uno de ellos. Si el cambio en los centroides es mayor que el criterio de que hayamos supuesto, repetimos el paso 2. El proceso finaliza cuando se cumple el criterio preestablecido.

Elección entre análisis cluster jerárquico y no jerárquico

La decisión entre que tipo de análisis utilizamos no debe ser disyuntiva, pues ambos enfoques se complementan entre sí. Cuando sospechamos el número de grupos en los que se unen las observaciones, podría ser mas adecuada la utilización del análisis no jerárquico. Sin embargo, requiere que se suministren los centroides iniciales de esos grupos y ésta información es dificil que sea proporcionada. Cuando no disponemos de ningún tipo de información a priori, lo idea resultaría de la realización de un análisis jerárquico, utilizar las herramientas que éste nos ofrece para seleccionar el número de grupos y, con esta información realizar un análisis no jerárquico que nos permita maximizar la homogeneidad dentro de cada grupo y la heterogeneidad entre grupos.

Referencias

  1. Fórmula Distancia Euclídea [1]

Bibliografía

  • Autor desconocido. Introducción al análisis de Cluster Página web. Consultada en 2012.
  • Hermoso Gutierrez, Jose Alberto. Técnicas para el análisis del mercado. Teoría, ejercicios y práctica. Páginas 117 a 145. Consultado en 2012
  • Salvador Figueras, Manuel. Análisis de Clonglomerados o Cluster Página web del autor. Consultado en 2012.
  • Vicente Vallardón, Jose Luis. Introducción al análisis de Cluster. Páginas 2 a 18. Consultado en 2012.
Herramientas personales
Espacios de nombres

Variantes
Acciones