¿Qué papel juegan las matemáticas en la ciencia de datos?

Más allá de los conceptos básicos de cálculo, álgebra lineal y probabilidad, existe un cierto tipo de pensamiento matemático que surge con bastante frecuencia cuando se trata de comprender los datos. Implica cuantificar algo que desea medir, luego comprender cómo funciona la cuantificación en términos matemáticos. La parte interesante generalmente no es hacer las matemáticas, sino descubrir qué hacer .

Aquí hay un ejemplo. Hace un tiempo estaba pensando en “ventajas de la población en el deporte”. Parece claro que los grandes países tienen una ventaja en las competiciones internacionales, ya que tienen un mayor grupo de talentos. Por ejemplo, el éxito de Jamaica en los Juegos Olímpicos es particularmente impresionante a la luz de su pequeña población. Pero, ¿cuál es exactamente la desventaja de la población que Jamaica está superando?

Como científico de datos, me preguntaba cómo podríamos cuantificar la ventaja de la población. Finalmente me decidí por la siguiente métrica:

La ventaja debido a la población del país A sobre el país B es la probabilidad de que el campeón del país A sea ​​mejor que el campeón del país B , si los dos países tienen distribuciones idénticas de talento y solo difieren en el tamaño de la población.

Esto parecía una medida significativa, ya que podría usarse para calcular las cuotas de apuestas. Pero una medida significativa no es demasiado útil a menos que pueda calcularla; esto parecía algo que tenía posibilidades de calcular, al menos si estaba dispuesto a hacer algunas suposiciones. Al principio pensé que tendría que hacer suposiciones realmente fuertes (como si todo fuera gaussiano) para calcular esto, pero resulta que no es necesario suponer demasiado.

Supongamos que tenemos dos países A y B con poblaciones [matemáticas] m [/ matemáticas] y [matemáticas] n [/ matemáticas], respectivamente, con distribuciones idénticas de talento en cada una. Entonces podemos pensar en los dos países como un gran país U con población [matemática] m + n [/ matemática]. La probabilidad de que la mejor persona del país A sea ​​mejor que la mejor persona del país B es la misma que la probabilidad de que la mejor persona del país U esté en el país A. Esto es simplemente

[matemáticas] \ frac {m} {m + n} [/ matemáticas].

Esta métrica proporciona una cuantificación significativa de la ventaja (o desventaja) relativa del país A frente al país B debido solo a la población.

Aquí no hay nada devastador, pero esto no es algo que encuentres en un libro de texto, al menos no uno que yo sepa. Y el ejemplo ilustra algunos pasos que surgen con bastante frecuencia en la ciencia de datos:

  • Identifica una pregunta interesante
  • Articular una respuesta en términos conceptuales.
  • Haga la respuesta precisa usando las matemáticas
  • Explore qué suposiciones son necesarias para que las matemáticas funcionen
  • Calcular bajo esos supuestos

La mayoría de las matemáticas requeridas para la ciencia de datos se encuentran en los ámbitos de la estadística y el álgebra,

La estadística , en particular, está en la base misma de Data Science, y es la colección de herramientas que nos ayuda a separar la importancia de la aleatoriedad. El álgebra a menudo está en el centro del análisis en sí. Las habilidades cuantitativas adicionales facilitan la intuición, que es esencial en análisis.

El científico de datos debe tener conocimientos sobre uno o más de estos temas:

  • Álgebra lineal
  • Matemáticas discretas
  • Ecuaciones diferenciales
  • Teoría de la estadística
  • Análisis numérico: álgebra lineal numérica y cuadratura
  • Álgebra abstracta
  • Teoría de los números
  • Análisis real
  • Análisis complejo
  • Análisis intermedio

(Referencia de la imagen: Conjunto de habilidades del científico de datos moderno)

Algunos libros pueden ayudarlo a encontrar una manera (Solo sugerencia :)):

  • Introducción al aprendizaje estadístico : Amazon.com: una introducción al aprendizaje estadístico: con aplicaciones en R (Springer Texts in Statistics) (9781461471370): Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani: Libros
  • Introducción a las estadísticas bayesianas : Introducción a las estadísticas bayesianas, 2ª edición: 9780470141151: Medicine & Health Science Books @ Amazon.com

Espero que sea útil 🙂

Todo. Conocer las matemáticas hacia adelante y hacia atrás no solo le permite ver un conjunto de datos (cómo se recopiló, tipo de resultado, tipo de predictores, tamaño …) y saber qué algoritmos se ajustan mejor al problema, sino que también le permite crear y modificar algoritmos para adaptarse a nuevos problemas o resolver mejor los problemas existentes.

Por ejemplo, he estado en entrevistas donde los ingenieros han argumentado que la regresión aumentada nunca debe usarse en la producción debido al costo computacional. No sabían que se puede acelerar usando un tipo diferente de baselearner (árboles lineales versus árboles profundos) o que existen algoritmos paralelizables (xgboost). El problema de su compañía podría haberse resuelto e implementado fácilmente si alguien conociera las matemáticas …