¿Existe una metodología para recopilar y analizar grandes datos?

Por lo que entiendo sobre Big Data, hay un proceso completo que comienza desde la recopilación de datos hasta su almacenamiento y finalmente su análisis. Existen varias herramientas y metodologías que ayudan a garantizar el procesamiento rápido de Big Data y conocimientos mineros de esto. Hadoop es una de las herramientas populares de Big Data que ayudan a almacenar y analizar datos, lo que ayuda a las empresas a obtener información. Tiene herramientas separadas para análisis de datos estructurados y no estructurados. Cuando se trata del análisis de Big Data, personalmente recomendaría Silver Touch, ya que tienen el equipo y la experiencia adecuados en el tema.

Espero que esta información ayude. Para obtener más información, puede comunicarse con Silver Touch Technologies Ltd.

Siéntase libre Obtenga una cotización gratis: solicite una propuesta

Estudio de caso: estudios de caso

Análisis de datosBig DataInvestigaciónPregunta de existencia

¿Por qué tantas noticias usan investigación cuantitativa pero no cualitativa?

¿Cuáles son algunas áreas de investigación actuales en localización y mapeo simultáneo (SLAM)?

Cómo obtener prácticas de investigación en IIT o IISC sin cumplir con los plazos de solicitud

¿Qué sitio web recopila investigadores de doctorado para que todos puedan encontrar fácilmente cosas avanzadas para algún tema?

¿Está vivo el fuego?

¿Es la luz atómica, postulada por Einstein en 1905, como la fuente de la cuantificación de la energía, o son las vibraciones de las partículas, como argumentó Planck, o algo más?

Me inclino a decir que el enfoque es definitivamente sistemático, pero hay muchas opciones y uno necesita descubrir cuál es la mejor implementación para su caso de uso específico.

Recopilación de datos : existen diversos marcos de recopilación y agregación de datos distribuidos como Flume [1], Chukwa [2] y Scribe [3] que se pueden aprovechar de manera eficiente para recopilar y agregar datos en tiempo real desde muchos servidores.

Si uno tiene los datos de alguna forma en RDBMS, puede usar sqoop [4] para transferir datos entre RDBMS y a un marco de big data como Hadoop [5] (significa HDFS).

Análisis de datos : Hadoop [5] es un marco conocido que permite el procesamiento distribuido y el análisis de grandes datos. Hay un par de otros marcos como Cascalog [6], tormenta [7] – procesamiento de flujo, algunos marcos MPI y algunos marcos BSP (como Apache Hama [8]) y el código abierto de Dremel (actualmente se está trabajando) todos los cuales son creado para procesar grandes datos. Además, existe el EMR de Amazon [9] o la gran consulta de Google [10] desde una perspectiva de la nube, pero para mantenerlo explícito, no hay nada que detenga la ejecución de código abierto
implementaciones en la nube.

Presentación / visualización de datos : Esto puede ser hecho en casa para usar un producto comercial. Algunas de las ofertas disponibles como Datameer [11] y big query [10] ofrecen algunas visualizaciones, paneles, capacidades de Excel, etc.

[1] http://www.cloudera.com/blog/201 …
[2] http://incubator.apache.org/chukwa/
[3] https://github.com/facebook/scribe
[4] http://sqoop.apache.org/
[5] http://hadoop.apache.org/
[6] https://github.com/nathanmarz/ca …
[7] https://github.com/nathanmarz/storm
[8] http://hama.apache.org/
[9] http://aws.amazon.com/elasticmap …
[10] https://developers.google.com/bi …
[11] http://www.datameer.com/

Dima Korolev

El ciclo de vida estándar para la minería de datos es CRISP-DM. Que implica las fases de comprensión empresarial, comprensión de datos, preparación de datos, modelado, evaluación e implementación.

Puede adoptar un enfoque ágil para esto utilizando la “Metodología de Data Lakes” que esencialmente realiza estas fases de una manera más iterativa e incremental. Puede obtener más información sobre esta metodología en http://www.alluviate.com

Dima Korolev

+1 a Jahangir.

Escribí una publicación de blog al respecto hace un tiempo: Lista de verificación de Big Data.

Brian blanco

More Interesting

¿Por qué los investigadores de PNL están obsesionados con las métricas de rendimiento (recientemente)?

Cómo analizar datos cualitativos y cuáles son los paquetes que se pueden usar

¿Cuáles son los desafíos presentes para establecer una buena infraestructura de investigación científica en la India?

¿Qué son las publicaciones de investigación universitaria?

¿En qué problemas de investigación trabajan las personas que realizan un doctorado en física computacional?

¿Cómo es la etnografía un método de investigación cualitativa?

¿Son los asistentes virtuales una buena contratación para la investigación web?