No lo es.
Aquí hay dos problemas fundamentales que son malentendidos muy comunes en el campo de la ciencia de datos.
Primero: los índices espaciales están malditos
- Si el espacio y el tiempo son iguales, ¿por qué se dilatan a ritmos diferentes?
- ¿Por qué la luz no puede viajar a través de la cuarta dimensión: el tiempo?
- ¿Qué sucederá si la ley de la gravedad falla durante 60 segundos?
- ¿Cómo afecta un cuerpo masivo la curvatura del espacio-tiempo a su alrededor?
- ¿La curvatura del espacio ocurre en una cuarta dimensión?
El algoritmo funciona bien incluso en miles de dimensiones, el problema es que es muy lento. Métodos como los índices espaciales que se usan comúnmente para acelerar la clasificación del vecino más cercano fallan en altas dimensiones. Entonces NN no tiene un problema, los índices espaciales sí.
Otros métodos como LSH (Locality Sensitive Hashing) no sufren este problema y pueden usarse para acelerar los cálculos de NN incluso en millones de dimensiones.
Segundo: la maldición de la dimensionalidad solo se aplica a datos uniformes (aleatorio)
Es cierto que en muchas dimensiones las distancias convergen (todas son iguales) pero solo si los datos se distribuyen aleatoriamente en el espacio. Los datos reales nunca son aleatorios y, por lo tanto, las distancias son estables incluso en miles de dimensiones. Esto se conoce como la “bendición de no uniformidad”, que es el escudo mágico contra la “maldición de la dimensionalidad”.
Verifique mi otra respuesta aquí: ¿Cuál es un concepto clave para comprender el aprendizaje automático que muchas personas se equivocan?
Para resumir:
- La clasificación NN no está condenada a grandes dimensiones a menos que los datos sean aleatorios, y entonces un problema de clasificación no tendría ningún sentido.
- Los índices espaciales están realmente condenados en altas dimensiones, pero no son la única forma de acelerar los cálculos de NN.