Big data son solo datos. Como tal, debe aprender sobre los fundamentos de la representación, almacenamiento, indexación y recuperación de datos.
Hay dos reinos de big data: estructurados y no estructurados. Para poder almacenarse en una computadora, todos los datos deben tener alguna estructura, incluso si eso significa la codificación más elemental en un flujo de bits. Pero en términos generales, los datos “estructurados” son números. Los datos “no estructurados” son texto. Y aunque tienen mucho en común, en la práctica están tan segregados como una escuela secundaria de Alabama, un legado de un pasado desafortunado.
Comience por comprender las estructuras de datos más utilizadas: listas, pilas, colas, estructuras, clases, tuplas, triples, árboles, punteros, referencias, índices, objetos, cubos de solapa, índices invertidos, n-gramos, gráficos y muchos otros.
- ¿Qué se debe tener en cuenta al defender una propuesta de investigación como estudiante?
- ¿Por qué algunos estudiantes de posgrado mienten a sus supervisores sobre su investigación?
- ¿Se pueden usar dos poblaciones diferentes dentro del mismo estudio?
- ¿Cuál es el oppsite de 'investigación científica básica'?
- Como estudiante de doctorado, ¿debo hacer un sitio web sobre mi investigación?
Debe tener una comprensión profunda de los formatos y la teoría de bases de datos más comunes y las tendencias que los rodean. Por ejemplo, las bases de datos relacionales (bases de datos SQL) siguen siendo los jugadores dominantes a pesar de que se desarrollaron durante un período de escasez de memoria y almacenamiento que nunca volverá. Escribirás SQL en algún momento durante tu carrera.
Las bases de datos más modernas, ampliamente conocidas como bases de datos “NoSQL”, se están volviendo cada vez más populares porque intercambian la eficiencia del almacenamiento por flexibilidad y velocidad. Los esquemas son en gran parte opcionales en este tipo de bases de datos, lo que los hace más fáciles de usar con los lenguajes de programación orientados a objetos dominantes de los últimos 25 años. MongoDB, MarkLogic, CouchDB, HBase e incluso el venerable BerkelyDB son ejemplos de bases de datos NoSQL.
Otro tipo de base de datos de big data que a menudo se pasa por alto es la base de datos de texto completo. Estos pueden considerarse más como índices que como bases de datos, pero algunos de ellos son bastante poderosos por derecho propio. Lucene, Solr y Elastic son los jugadores dominantes de código abierto. MarkLogic es un caballo de Troya porque es una base de datos totalmente transaccional que se creó en un motor de texto completo. Si realmente quiere aprender cómo hacer correctamente grandes datos, MarkLogic es un buen lugar para comenzar.
Un tipo de base de datos peculiar que ha estado con nosotros durante años, pero que ahora está comenzando a obtener tracción son las llamadas bases de datos de gráficos u objetos. Gran parte de la Internet moderna encaja perfectamente en una estructura llamada “gráfico”. Facebook, LinkedIn, IMDB y sitios similares se ajustan perfectamente al paradigma gráfico, independientemente de si están realmente almacenados en una base de datos gráfica. La más básica y poderosa de estas bases de datos es una “tienda triple”. Es un concepto engañosamente simple que puede ser una forma muy poderosa de almacenar una tonelada de datos y sus relaciones. Aquí es donde vive la moderna “web semántica”.
Finalmente, existe el almacenamiento de datos, que es análogo a las bases de datos de texto completo, excepto que los índices se basan en datos estructurados y no estructurados. Esta es el área con la que menos estoy familiarizado, pero es omnipresente en el mundo de Big Data. El procesamiento analítico en línea (OLAP) es un caso de uso que crea índices masivos en múltiples dimensiones y le permite cortar y cortar datos de la hoja de cálculo de forma muy similar a una tabla dinámica con esteroides.
Estoy dejando mucho, por supuesto, como multimedia y sistemas especializados en tiempo real. No puedes evitar tropezar con ellos en tu viaje.