¿Qué es la reducción de dimensiones en el aprendizaje automático?

En los problemas de clasificación del aprendizaje automático, se utilizan varias características de la entidad que necesita ser clasificada. Cuanto mayor sea el número de funciones utilizadas, mayor será el requisito de almacenamiento y más difícil será la visualización de datos de capacitación. La mayoría de las veces estas funciones están correlacionadas. Como tal, se puede reducir la cantidad de funciones utilizadas. Por ejemplo, si se utilizan tres funciones de correo electrónico para clasificar si los correos son spam o no, para visualizar los datos de entrenamiento se requeriría un espacio en 3 D. Si encontramos que las tres características utilizadas están correlacionadas, se puede reducir el número de características utilizadas. Si una sola característica fuera suficiente, entonces los datos distribuidos en el espacio 3D se pueden proyectar en una línea para obtener datos 1D o si se requieren dos características, proyecte en un plano 2D. Para este propósito se utilizan técnicas como PCA (análisis de componentes principales).