¿Hay algún problema de investigación con Apache Spark en el que se deba trabajar?

Hay varias cosas que se pueden construir sobre Apache Spark. Por ejemplo, Spark SQL está evolucionando y no está listo para la empresa hoy en día, especialmente con la transmisión de datos (métodos como InsertInto () para insertar una fila uno por uno tan pronto como se procesa una transmisión están arrojando errores de tiempo de ejecución: aún se puede crear una instancia de un Parquet archivar como una tabla y usar el método InsertInto en este momento, pero sería genial que también funcione en RDD). Podrías ayudar a arreglar esto. Uno podría centrarse en las cosas factibles en Esper sobre Storm y ayudar a que la transmisión de Spark logre todo eso (por cierto, hace la mayoría de las cosas).

Hay otra cosa interesante que encontramos durante nuestro trabajo: puede ser necesario un nuevo proceso de creación de RDD para situaciones especiales. Con la forma existente de crear RDD, el RDD necesita persistir en HDFS y esto le permite ponerse en cola en el disco si excede el tamaño de la RAM agregada en el clúster. Sin embargo, antes de persistir en el RDD (durante el proceso de creación en sí, como cuando implementamos un algoritmo de coeficiente de correlación sobre Spark), si el RDD excede la RAM agregada en el clúster, no se puede poner en cola en el disco automáticamente. Arreglar esto sería bueno tener un proceso de creación de RDD que pueda extenderse al disco.

MLLib tiene solo unos pocos algoritmos de aprendizaje automático. Esto es potencialmente donde se pueden hacer muchas contribuciones. También estamos trabajando en la implementación de algunos algoritmos de PNL sobre Spark, así como ciertos algoritmos importantes de aprendizaje automático, como el Random Forest y la agrupación de LDA.

Big DataInvestigaciónPregunta de existencia