¿Es justa la crítica de Nassim N. Taleb al big data?

Como dijo Michael David Cobb Bowen, “big data” es un término de marketing, no un campo de investigación.

Las críticas de Nassim son válidas, pero no se aplican a lo que la gente más cuidadosa quiere decir hoy cuando usan el término big data.

Está hablando de investigadores que utilizan técnicas estadísticas convencionales en cientos o miles de variables, todas las cuales se supone que son significativas individualmente.

Big data hoy en día generalmente significa usar técnicas de aprendizaje automático en terabytes de observaciones, a menudo con pocas variables (en big data, la distinción entre variables y observaciones no siempre es clara) y poca teoría para sugerir cuáles, si las hay, son significativas.

Ciertamente, es posible que el aprendizaje automático se confunda con la aplicación de grandes cantidades de datos, pero no por la misma razón por la que los estudios de observación generalmente no tienen sentido o porque el uso práctico de la información genética está a la expectativa.

Big Data es mucho más un término de marketing que una disciplina específica en la industria de ‘Analytics’, todos los cuales están experimentando muchos cambios mientras hablamos. Sin embargo, el ímpetu original para aprovechar ‘big data’ fue manejar los grandes volúmenes de datos producidos por los servidores http. Esencialmente, se necesitaban nuevas tecnologías para dar sentido a los usuarios en el comercio electrónico y los sitios web sociales, que no eran necesariamente los más adecuados para los modelos de objetos relacionales tradicionales.

Lo que es importante entender es que la mayoría de los ‘grandes datos’ no están estructurados e interpretados en lugar de respuestas específicas a preguntas específicas. Las compañías telefónicas, por ejemplo, siempre han tenido una gran cantidad de información en sus bases de datos, incluyendo, obviamente, cada llamada realizada a todos los teléfonos para todos, y los métodos para facturar esto. Pero eso nunca se llamó ‘big data’. Fue el advenimiento del comercio electrónico y los datos que comprenden ‘clickstreams’ que introdujeron nuevas tecnologías y nuevos métodos para comprender lo que estaba sucediendo. Todos entienden lo que es una llamada telefónica. Pero lo que sucede en un sitio web es mucho más complejo.

La idea de que puedes interpretar las intenciones de las personas interpretando sus clics está llena de tonterías. Eso no impide que las personas intenten, después de todo, incluso el 20% de confianza se considera mejor que no saber nada. Taleb tiene toda la razón teniendo en cuenta que la mayoría de las personas no tienen idea de dónde proviene el término ‘big data’ o las técnicas para estructurarlo, y qué puede y debe ser el método de interpretación y cuánto peso se puede dar de manera confiable.

Hay una gran cantidad de personas que trabajan en Big Data que solo tienen una comprensión tenue de las matemáticas subyacentes. Esto los lleva a estar expuestos a los problemas de los que habla Taleb. Los profesionales disciplinados con las habilidades requeridas en estadística e informática tienen las herramientas para compensar el ruido.

Tenga en cuenta que incluso las salidas de Big Data derivadas correctamente son, en el mejor de los casos, “probablemente aproximadamente correctas” y los valores de aproximadamente y probablemente nunca sean del 100%. Demasiados pierden el sitio o eligen ignorar esta realidad.

Tiene razón, algo. De nuevo, no creo que vaya lo suficientemente lejos.

¿Por qué no mencionar estudios longitudinales? Es cierto que lo que alimenta grandes datos no tiene mucha historia, pero es el pensamiento que entra en un estudio el que falta en los métodos actuales. Incluso con décadas de algunos de este tipo de datos, ¿qué sabríamos?

Estos datos son una colección arbitraria que resulta de procesos, métodos y elecciones de los mismos. La web / nube no tenía ningún tema subyacente aparte del intercambio de información.

De hecho, desde donde estoy sentado, que los datos existan deberían haber sido desmesurados para cualquier persona razonable, en algún momento. Pero, entonces, las cosas se desarrollaron como lo hicieron.

Cómo se puede tomar esta mezcla arbitraria y asignarla a una persona o grupo es muy problemática. Y, es así en más formas que problemas técnicos. Llévate, lector, ¿qué puede decir la colección sobre ti? Incluso si se trata de información médica, habrá límites para su utilidad. Y, definitivamente, habrá restricciones en el significado.

La respuesta de Jacque Swartz es correcta en este sentido. En primer lugar, tenemos los datos que son solo un revoltijo de cosas (y son ruidosos, como Taleb). Luego, a esto, vemos la aplicación de memoria de técnicas que, en el mejor de los casos, requieren sutileza. En el peor, hay un desajuste grave que no se ve. ¿Por qué? La computación lo hace demasiado fácil.

En la ingeniería que depende de los datos (en el buen sentido), uno todavía necesita mapear los procesos naturales y la medición real. Dígame por favor. ¿Qué hay de esto en Big Data?

Por otro lado, incluso la ingeniería ha sido envuelta bajo la influencia de este tipo de pensamiento. Hoy en día, no es raro ver los resultados de las ejecuciones de la computadora alimentadas en procesos posteriores como si fueran datos basados ​​en sensores.

Taleb tiene la plataforma para abordar estos problemas en una escala mucho más amplia. Bueno, él tenía el artículo en Wired.

Sí, se refiere al problema del sobreajuste a medida que aumenta el número de características y correlaciones. Pero podría tener más datos sin aumentar el número de características y mantener baja la dimensión de VC.

El tiene razón.

Los números no mienten, pero eso no es lo mismo que decir números siempre significa lo que creemos que están diciendo. Con nuestro deseo directo de ver patrones en todo, y el hecho de que encontrar resultados contrarios a la intuición ahora está de moda y hace que la gente piense que eres inteligente, y Big Data termina siendo un Big Money Pit la mayor parte del tiempo.

Si tiene una idea y utiliza una gran reserva de datos para verificarla, eso es investigación. Si tienes muchos datos y los usas para tener una idea, eso es ciencia de datos 😉

Es difícil discutir con las matemáticas: cuantas más dimensiones intente encontrar correlaciones, mayor será la necesidad de elevar el listón para obtener la misma seguridad de que lo que encuentra no es falso.

Por cierto, el argumento de Taleb no se trata principalmente del tamaño de los conjuntos de datos, sino del número de muestras frente al número de dimensiones. Big Data da la impresión de que tenemos “suficiente” porque tendemos a ignorar el hecho de que cada dimensión adicional requiere más muestras nuevas que la anterior. La intuición que desarrollamos para algunas dimensiones no funciona tanto para cientos o miles de ellas.

Si.

Y Big Data está siendo comercializado por grandes corporaciones de los EE. UU. Y el gobierno de los EE. UU. Para que las personas se sientan cómodas al renunciar a su privacidad por nada, y les permita ganar mucho dinero al convertirse en corredores de datos y embolsarse todas las ganancias.

Hay algunas críticas válidas, pero no creo que sean particulares de “big data”. Puedes hacer violencia a la verdad con un lápiz y papel si no te esfuerzas lo suficiente. No necesitas Hadoop.

xkcd: significativo

Si estás tratando de encontrar una aguja en un pajar, ¿cómo el aumento del tamaño del pajar te ayudará a encontrar la aguja?