¿Hay algún problema de investigación con Apache Spark en el que se deba trabajar?

Hay varias cosas que se pueden construir sobre Apache Spark. Por ejemplo, Spark SQL está evolucionando y no está listo para la empresa hoy en día, especialmente con la transmisión de datos (métodos como InsertInto () para insertar una fila uno por uno tan pronto como se procesa una transmisión están arrojando errores de tiempo de ejecución: aún se puede crear una instancia de un Parquet archivar como una tabla y usar el método InsertInto en este momento, pero sería genial que también funcione en RDD). Podrías ayudar a arreglar esto. Uno podría centrarse en las cosas factibles en Esper sobre Storm y ayudar a que la transmisión de Spark logre todo eso (por cierto, hace la mayoría de las cosas).

Hay otra cosa interesante que encontramos durante nuestro trabajo: puede ser necesario un nuevo proceso de creación de RDD para situaciones especiales. Con la forma existente de crear RDD, el RDD necesita persistir en HDFS y esto le permite ponerse en cola en el disco si excede el tamaño de la RAM agregada en el clúster. Sin embargo, antes de persistir en el RDD (durante el proceso de creación en sí, como cuando implementamos un algoritmo de coeficiente de correlación sobre Spark), si el RDD excede la RAM agregada en el clúster, no se puede poner en cola en el disco automáticamente. Arreglar esto sería bueno tener un proceso de creación de RDD que pueda extenderse al disco.

MLLib tiene solo unos pocos algoritmos de aprendizaje automático. Esto es potencialmente donde se pueden hacer muchas contribuciones. También estamos trabajando en la implementación de algunos algoritmos de PNL sobre Spark, así como ciertos algoritmos importantes de aprendizaje automático, como el Random Forest y la agrupación de LDA.

More Interesting

¿Cuánta codificación se necesita para la investigación de reconocimiento de patrones?

Cómo encontrar oportunidades de investigación

¿Sería posible para una persona en un país remoto, desconectado de cualquier departamento de investigación, descubrir e implementar una IA fuerte?

¿Cuáles son los grandes problemas de investigación en computación cognitiva?

¿Cómo se encuentran las tarjetas flash como método de memorización para las pruebas? ¿Crees que es mejor o peor que revisar las notas y los libros?

¿Qué ramificaciones ha arrojado la investigación actual sobre el microbioma humano (además de pre y probióticos)?

¿Qué compañía tiene la mejor división de investigación entre Microsoft y Google?

¿Qué implica la investigación de pregrado en informática?

¿Qué tan buena es la investigación de existencias proporcionada por wittytrades.com?

¿Cómo explican los cienciólogos que ninguna de las afirmaciones de investigación de Hubbard son aceptadas por la ciencia convencional?

¿Dónde puedo obtener el informe de investigación de mercado sobre el mercado de productos químicos cosméticos?

¿Dónde debo buscar para encontrar información sobre la investigación de mercado y las industrias de servicios de información?

¿Cuáles son algunos ejemplos en los que los artículos basados ​​en investigaciones son condescendientes para las personas con autismo?

¿Qué opinas sobre un trabajo como ingeniero de investigación y desarrollo? ¿Qué tipo de persona sería buena en ese trabajo?

¿Qué es lo más interesante o lo más útil que se puede hacer con los datos de análisis de redes sociales en educación e investigación?