¿Por qué la clasificación del vecino más cercano está condenada en alta dimensión?

No lo es.

Aquí hay dos problemas fundamentales que son malentendidos muy comunes en el campo de la ciencia de datos.

Primero: los índices espaciales están malditos

El algoritmo funciona bien incluso en miles de dimensiones, el problema es que es muy lento. Métodos como los índices espaciales que se usan comúnmente para acelerar la clasificación del vecino más cercano fallan en altas dimensiones. Entonces NN no tiene un problema, los índices espaciales sí.

Otros métodos como LSH (Locality Sensitive Hashing) no sufren este problema y pueden usarse para acelerar los cálculos de NN incluso en millones de dimensiones.

Segundo: la maldición de la dimensionalidad solo se aplica a datos uniformes (aleatorio)

Es cierto que en muchas dimensiones las distancias convergen (todas son iguales) pero solo si los datos se distribuyen aleatoriamente en el espacio. Los datos reales nunca son aleatorios y, por lo tanto, las distancias son estables incluso en miles de dimensiones. Esto se conoce como la “bendición de no uniformidad”, que es el escudo mágico contra la “maldición de la dimensionalidad”.

Verifique mi otra respuesta aquí: ¿Cuál es un concepto clave para comprender el aprendizaje automático que muchas personas se equivocan?

Para resumir:

  1. La clasificación NN no está condenada a grandes dimensiones a menos que los datos sean aleatorios, y entonces un problema de clasificación no tendría ningún sentido.
  2. Los índices espaciales están realmente condenados en altas dimensiones, pero no son la única forma de acelerar los cálculos de NN.

More Interesting

¿Cómo traducen / interpretan los intérpretes un discurso largo en un corto espacio de tiempo?

¿Cómo podemos saber que la materia existe solo en tres dimensiones?

Cómo doblar el tiempo y revertir el pasado para un mejor mañana

¿Cómo se dobla el espacio-tiempo?

¿Cómo se produce una inmersión en un tejido de espacio-tiempo debido a que un objeto es más pesado? ¿Con respecto a cuál es el objeto "más pesado"? ¿El tejido espacio-tiempo posee un tirón gravitacional que hace que el objeto sea más pesado en primer lugar?

Si un ser de una dimensión superior como la cuarta o quinta dimensión visitara nuestra tercera dimensión, ¿sería capaz de ver más materia en nuestros objetos de lo que vemos?

Sabemos que el sol tiene alrededor de 4.500 millones de años. Sin embargo, también sabemos que el tiempo pasa de manera diferente en diferentes marcos de referencia. Entonces, ¿en qué marco de referencia existió el sol durante 4.500 millones de años?

¿La flexión del espacio-tiempo crea más espacio?

¿Son artefactos de conciencia el espacio y el tiempo?

¿Qué son los cristales del espacio-tiempo?

Si los humanos definen el tiempo, ¿cómo pueden ser ciertas las teorías relacionadas con el tiempo?

¿Existe un éter, dentro o fuera del espacio-tiempo, en el que existe energía sin fin?

¿Por qué no podría nuestro mundo contraerse en lugar de lo que percibimos como expansión del espacio-tiempo?

Si el espacio-tiempo cambia, ¿a qué variable cambia el espacio-tiempo en relación?

¿Qué letra denotaría una 4ta dimensión?