¿Por qué usar una red neuronal en lugar de un polinomio de orden superior ya que cualquier función también puede ser aproximada por un polinomio?

Dos razones principales:

  1. Con un polinomio tiene que pensar explícitamente y codificar todos los términos e interacciones de orden superior, mientras que con una red neuronal, es una representación mucho más compacta y concisa donde “todo” en lo que tiene que pensar es el tipo de funciones de activación en cada capa y la topología de la red, que generalmente está codificada por algunas variables significativas como la cantidad de capas ocultas, la cantidad de nodos por capa, etc.
  2. Los polinomios de alto orden son generalmente menos confiables cuando se extrapolan e interpolan que las redes neuronales. Esto puede ser problemático cuando no tienes suficientes datos de entrenamiento en relación con tu número de términos polinómicos.

Para un ejemplo de (1), digamos que tiene tres variables de entrada o regresores [matemática] x_1, x_2, x_3. [/ Matemática] Con la regresión polinómica, necesita codificar explícitamente cada uno de los términos de orden superior, algunos de los cuales pueden Ni siquiera estar presente en la función. Por ejemplo, incluso para representar un polinomio arbitrario de segundo orden, deberá codificar explícitamente [matemática] x_1, x_2, x_3, x_1 ^ 2, x_2 ^ 2, x_3 ^ 2, x_1 x_2, x_1 x_3, x_2 x_3 [/ matemáticas]

Crece rápidamente a medida que aumenta el grado.

Dicho esto, hay argumentos en contra de ambos, y hay momentos en los que desearía utilizar polinomios en redes neuronales. Por ejemplo, si desea comprender los tipos de relaciones de las variables de entrada con las variables de destino. Pero incluso eso está nublado con el hecho de que la colinealidad múltiple a menudo puede hacer que los coeficientes que salen de la regresión sean difíciles de interpretar.

Otro argumento en contra es que, dependiendo de la función de pérdida que utilice, la regresión polinómica es típicamente convexa y las redes neuronales no lo son. Por lo tanto, evitar los mínimos locales no es un problema con la regresión polinómica como lo es con las redes neuronales, lo que hace que la optimización de la función sea parte del problema más confiable con los polinomios. Sin embargo, esto ha sido un problema menor ya que la optimización de la red neuronal se ha vuelto más madura.

Por supuesto, use lo que funcione mejor después de hacer la validación adecuada.

Los polinomios de múltiples variables se han utilizado para la aproximación de funciones y la agrupación de datos tanto en disciplinas científicas como de ingeniería, como el aprendizaje automático y la teoría de control.

El problema es que los polinomios se estudian tradicionalmente en álgebra abstracta y geometría algebraica, dos temas matemáticos avanzados (el segundo especialmente). Por otro lado, la mayoría de los recién llegados a ML que esperan beneficiarse de este tema tan candente, han tenido dificultades incluso con las matemáticas más elementales, como el análisis y el álgebra lineal. Por lo tanto, básicamente carecen de la mente matemática para apreciar el poder de los polinomios como una herramienta para el ajuste y la agrupación de datos.

More Interesting

¿Cómo obtengo una proporción áurea?

¿Cómo se relacionan el sánscrito y las matemáticas?

¿Cómo se sienten los abogados sobre las matemáticas?

¿Cuál es la solución para el siguiente problema? Resuelve si n es entero impar o n es entero par. Necesito una solución urgente.

¿Cuál es el significado de los correos de Peck?

¿Es malo si uso mi tiempo de estudio de historia para estudiar matemáticas y dejar de estudiar historia? ¿Será malo para mi cerebro que me centre en un solo tema?

¿Cómo se determina la ecuación de una gráfica de función de la forma y = a sen bx o y = a cos bx?

¿Qué científico musulmán comenzó los logaritmos?

¿Existe una alternativa de código abierto / gratuita para Mathematica?

¿Cuánta topología se puede hacer sin lógica de segundo orden?

¿Cuáles son algunos ejemplos de matemática de juego simple para el resultado de un "ataque" basado en la fuerza, la defensa y otras características?

¿Cuántas veces aparece el dígito [math] 2 [/ math] en la representación decimal de enteros de [math] 1 [/ math] a [math] n [/ math]?

¿Cuáles son las aplicaciones de los espacios topológicos en particular en el conjunto cantor?

¿Puedes usar Sieve of Eratosthenes para números mayores a 1 billón?

¿Existe una función continua no constante [matemática] f (x) [/ matemática] definida en todos los no matemáticos [matemática] x [/ matemática] tal que [matemática] f (x) = f (x-1) + f (x-2) [/ math] para todos [math] x \ geq 2 [/ math]? Si es así, ¿cómo podría construirlo?