¿Qué papel juegan las matemáticas en la ciencia de datos?

Más allá de los conceptos básicos de cálculo, álgebra lineal y probabilidad, existe un cierto tipo de pensamiento matemático que surge con bastante frecuencia cuando se trata de comprender los datos. Implica cuantificar algo que desea medir, luego comprender cómo funciona la cuantificación en términos matemáticos. La parte interesante generalmente no es hacer las matemáticas, sino descubrir qué hacer .

Aquí hay un ejemplo. Hace un tiempo estaba pensando en “ventajas de la población en el deporte”. Parece claro que los grandes países tienen una ventaja en las competiciones internacionales, ya que tienen un mayor grupo de talentos. Por ejemplo, el éxito de Jamaica en los Juegos Olímpicos es particularmente impresionante a la luz de su pequeña población. Pero, ¿cuál es exactamente la desventaja de la población que Jamaica está superando?

Como científico de datos, me preguntaba cómo podríamos cuantificar la ventaja de la población. Finalmente me decidí por la siguiente métrica:

La ventaja debido a la población del país A sobre el país B es la probabilidad de que el campeón del país A sea mejor que el campeón del país B , si los dos países tienen distribuciones idénticas de talento y solo difieren en el tamaño de la población.

Esto parecía una medida significativa, ya que podría usarse para calcular las cuotas de apuestas. Pero una medida significativa no es demasiado útil a menos que pueda calcularla; esto parecía algo que tenía posibilidades de calcular, al menos si estaba dispuesto a hacer algunas suposiciones. Al principio pensé que tendría que hacer suposiciones realmente fuertes (como si todo fuera gaussiano) para calcular esto, pero resulta que no es necesario suponer demasiado.

Supongamos que tenemos dos países A y B con poblaciones [matemáticas] m [/ matemáticas] y [matemáticas] n [/ matemáticas], respectivamente, con distribuciones idénticas de talento en cada una. Entonces podemos pensar en los dos países como un gran país U con población [matemática] m + n [/ matemática]. La probabilidad de que la mejor persona del país A sea mejor que la mejor persona del país B es la misma que la probabilidad de que la mejor persona del país U esté en el país A. Esto es simplemente

[matemáticas] \ frac {m} {m + n} [/ matemáticas].

Esta métrica proporciona una cuantificación significativa de la ventaja (o desventaja) relativa del país A frente al país B debido solo a la población.

Aquí no hay nada devastador, pero esto no es algo que encuentres en un libro de texto, al menos no uno que yo sepa. Y el ejemplo ilustra algunos pasos que surgen con bastante frecuencia en la ciencia de datos:

Identifica una pregunta interesante
Articular una respuesta en términos conceptuales.
Haga la respuesta precisa usando las matemáticas
Explore qué suposiciones son necesarias para que las matemáticas funcionen
Calcular bajo esos supuestos

Big DataCiencia de datosMatemáticas