¿Existe una metodología para recopilar y analizar grandes datos?

Por lo que entiendo sobre Big Data, hay un proceso completo que comienza desde la recopilación de datos hasta su almacenamiento y finalmente su análisis. Existen varias herramientas y metodologías que ayudan a garantizar el procesamiento rápido de Big Data y conocimientos mineros de esto. Hadoop es una de las herramientas populares de Big Data que ayudan a almacenar y analizar datos, lo que ayuda a las empresas a obtener información. Tiene herramientas separadas para análisis de datos estructurados y no estructurados. Cuando se trata del análisis de Big Data, personalmente recomendaría Silver Touch, ya que tienen el equipo y la experiencia adecuados en el tema.

Espero que esta información ayude. Para obtener más información, puede comunicarse con Silver Touch Technologies Ltd.

Siéntase libre Obtenga una cotización gratis: solicite una propuesta

Estudio de caso: estudios de caso

Me inclino a decir que el enfoque es definitivamente sistemático, pero hay muchas opciones y uno necesita descubrir cuál es la mejor implementación para su caso de uso específico.

Recopilación de datos : existen diversos marcos de recopilación y agregación de datos distribuidos como Flume [1], Chukwa [2] y Scribe [3] que se pueden aprovechar de manera eficiente para recopilar y agregar datos en tiempo real desde muchos servidores.

Si uno tiene los datos de alguna forma en RDBMS, puede usar sqoop [4] para transferir datos entre RDBMS y a un marco de big data como Hadoop [5] (significa HDFS).

Análisis de datos : Hadoop [5] es un marco conocido que permite el procesamiento distribuido y el análisis de grandes datos. Hay un par de otros marcos como Cascalog [6], tormenta [7] – procesamiento de flujo, algunos marcos MPI y algunos marcos BSP (como Apache Hama [8]) y el código abierto de Dremel (actualmente se está trabajando) todos los cuales son creado para procesar grandes datos. Además, existe el EMR de Amazon [9] o la gran consulta de Google [10] desde una perspectiva de la nube, pero para mantenerlo explícito, no hay nada que detenga la ejecución de código abierto
implementaciones en la nube.

Presentación / visualización de datos : Esto puede ser hecho en casa para usar un producto comercial. Algunas de las ofertas disponibles como Datameer [11] y big query [10] ofrecen algunas visualizaciones, paneles, capacidades de Excel, etc.

[1] http://www.cloudera.com/blog/201
[2] http://incubator.apache.org/chukwa/
[3] https://github.com/facebook/scribe
[4] http://sqoop.apache.org/
[5] http://hadoop.apache.org/
[6] https://github.com/nathanmarz/ca
[7] https://github.com/nathanmarz/storm
[8] http://hama.apache.org/
[9] http://aws.amazon.com/elasticmap
[10] https://developers.google.com/bi
[11] http://www.datameer.com/

El ciclo de vida estándar para la minería de datos es CRISP-DM. Que implica las fases de comprensión empresarial, comprensión de datos, preparación de datos, modelado, evaluación e implementación.

Puede adoptar un enfoque ágil para esto utilizando la “Metodología de Data Lakes” que esencialmente realiza estas fases de una manera más iterativa e incremental. Puede obtener más información sobre esta metodología en http://www.alluviate.com

+1 a Jahangir.

Escribí una publicación de blog al respecto hace un tiempo: Lista de verificación de Big Data.