¿Existe una referencia científica a favor del método del codo en el análisis de conglomerados?

No. El método del codo es un método de optimización que intenta seleccionar el menor número de clústeres que representan la mayor cantidad de variación en los datos. Existen al menos otros dos métodos que pueden brindarle resultados diferentes (AIC y método de silueta). Si está más interesado en determinar el número de grupos que maximizan la variación entre grupos, el método de silueta puede ser mejor. En la siguiente gráfica parece haber 2 o tres grupos de kmeans. El método del codo parece mostrar que 3 es el ‘descanso’, pero el ancho promedio de la silueta alcanza su punto máximo en 2 grupos, probablemente porque no ve mucha separación entre el grupo verde y el azul.

Sin embargo, muchas veces estos valores están cerca, o un método tendrá una mejor interpretación que el otro. Mi sugerencia es no confiar en un método, probar algunos y dejar que la interpretación de los grupos lo guíe hacia su selección.

biblioteca (cluster)
biblioteca (NbClust)
iris.estandarizado <- escala (iris [, -5])
set.seed (1010)
iris.kmeans <- kmeans (iris.standardized, 3, nstart = 100)
fviz_cluster (iris.kmeans, data = iris.standardized, geom = “point”,
main = “Iris 3 grupos”,
xlab = “Componente 1”, ylab = “Componente 2”)

fviz_nbclust (iris.standardized, kmeans, method = “wss”)

fviz_nbclust (iris.standardized, kmeans, method = “silhouette”)