¿Qué es la arquitectura de chispa?

Los componentes del ecosistema Apache Spark son:

1. Apache Spark Core: todas las funciones principales que proporciona Spark se basan en la parte superior de Spark core. El cálculo en memoria en Apache Spark entrega velocidad al sistema. La abstracción principal de Spark, RDD está integrada con Spark Core.

2. Apache Spark Streaming : permite el procesamiento de flujo en vivo escalable, de alto rendimiento y tolerante a fallas. Trata el flujo de datos como micro lotes. Agrupa datos en vivo como un grupo de pequeños lotes. Luego lo entrega al sistema por lotes para su procesamiento. Spark Stream funciona en 3 fases:

un). Reunión, b). Procesamiento, c). Almacenamiento de datos

3. Apache Spark SQL : es un marco distribuido para el procesamiento de datos estructurados . Con esto, Spark obtiene más información sobre la estructura de datos y el cálculo. Con esta información, Spark puede realizar una optimización adicional. Utiliza el mismo motor de ejecución mientras calcula una salida. Para expresar el cálculo no depende de API / idioma.

4. Apache Spark MLlib: hace que el aprendizaje automático sea escalable y fácil. Contiene bibliotecas de aprendizaje automático que tienen una implementación de varios algoritmos de aprendizaje automático. Por ejemplo, agrupación, regresión, clasificación y filtrado colaborativo.

5. Apache Spark GraphX: GraphX ​​es API para gráficos y ejecución paralela de gráficos. Es un motor de análisis de gráficos de red. GraphX ​​optimiza la forma en que representamos vértices y aristas cuando son tipos de datos primitivos.

6. Apache Spark R: R también proporciona funciones de software para la manipulación de datos, el cálculo y la visualización gráfica. Por lo tanto, la idea principal detrás de SparkR era explorar diferentes técnicas para integrar la usabilidad de R con la escalabilidad de Spark.