¿Cómo puedo convertirme en un científico de datos?

Estrictamente hablando, no existe la “ciencia de datos” (ver ¿Qué es la ciencia de datos?). Ver también: Vardi, Science tiene solo dos patas: http://portal.acm.org/ft_gateway…

Aquí hay algunos recursos que he recopilado sobre el trabajo con datos, espero que les sean útiles (nota: soy un estudiante universitario, esta no es una opinión experta de ninguna manera).

1) Aprenda sobre factorizaciones matriciales

  • Tome el curso de álgebra lineal computacional (a veces se llama álgebra lineal aplicada o computaciones matriciales o análisis numérico o análisis matricial y puede ser un curso de CS o matemática aplicada). Los algoritmos de descomposición matricial son fundamentales para muchas aplicaciones de minería de datos y generalmente están subrepresentados en un plan de estudios estándar de “aprendizaje automático”. Con TBs de datos, las herramientas tradicionales como Matlab dejan de ser adecuadas para el trabajo, no puede simplemente ejecutar eig () en Big Data. Los paquetes de computación matricial distribuida como los incluidos en Apache Mahout [1] están tratando de llenar este vacío, pero debe comprender cómo funcionan los algoritmos numéricos / rutinas LAPACK / BLAS [2] [3] [4] [5] para poder úselos adecuadamente, ajústelos para casos especiales, cree los suyos propios y escale hasta terabytes de datos en un grupo de máquinas de productos básicos. [6] Por lo general, los cursos numéricos se basan en álgebra y cálculo de pregrado, por lo que debe ser bueno con los requisitos previos. Recomiendo estos recursos para el auto estudio / material de referencia:
  • Ver Jack Dongarra: Cursos y ¿Cuáles son algunos buenos recursos para aprender sobre análisis numérico?

2) Aprenda sobre computación distribuida

  • Es importante aprender cómo trabajar con un clúster de Linux y cómo diseñar algoritmos distribuidos escalables si desea trabajar con grandes datos (¿Por qué la obsesión actual con los grandes datos, cuando generalmente son más grandes los datos, se hace más difícil incluso? análisis básico y procesamiento?).
  • Crays y máquinas de conexión del pasado ahora se pueden reemplazar con granjas de instancias de nube baratas, los costos de computación se redujeron a menos de $ 1.80 / GFlop en 2011 frente a $ 15M en 1984: http://en.wikipedia.org/wiki/FLOPS .
  • Si desea aprovechar al máximo su hardware (alquilado), también se está volviendo cada vez más importante poder utilizar toda la potencia del multinúcleo (consulte http://en.wikipedia.org/wiki/Moo…)
  • Nota: este tema no forma parte de una pista estándar de Machine Learning, pero probablemente pueda encontrar cursos como Sistemas distribuidos o Programación paralela en su catálogo CS / EE. Vea los recursos informáticos distribuidos, un curso de sistemas en UIUC, trabajos clave y para empezar: Introducción a las redes informáticas.
  • Después de estudiar los conceptos básicos de las redes y los sistemas distribuidos, me enfocaría en las bases de datos distribuidas, que pronto se volverán omnipresentes con el diluvio de datos y alcanzarán los límites de la escala vertical. Vea trabajos clave, tendencias de investigación y para empezar: Introducción a las bases de datos relacionales e Introducción a las bases de datos distribuidas (HBase en acción).

3) Aprenda sobre análisis estadístico

  • Comience a aprender estadísticas codificando con R: ¿Cuáles son las referencias esenciales para R? y experimentar con datos del mundo real: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
  • Cosma Shalizi compiló algunos excelentes materiales sobre estadísticas computacionales, revisó sus diapositivas de conferencias y también ¿Cuáles son algunos buenos recursos para aprender sobre análisis estadístico?
  • Descubrí que aprender estadísticas en un dominio particular (por ejemplo, procesamiento del lenguaje natural) es mucho más agradable que tomar Stats 101. Mi recomendación personal es el curso de Michael Collins en Columbia (también disponible en Coursera).
  • También puede elegir un campo donde el uso de estadísticas cuantitativas y principios de causalidad [7] es inevitable, por ejemplo, biología molecular [8], o un subcampo divertido como la investigación del cáncer [9], o incluso un dominio más estrecho, por ejemplo, análisis genético de angiogénesis tumoral [10] y trata de responder preguntas importantes en ese campo en particular, aprendiendo lo que necesitas en el proceso.

4) Aprenda sobre la optimización

  • Este tema es esencialmente un prerrequisito para comprender muchos algoritmos de aprendizaje automático y procesamiento de señales, además de ser importante por derecho propio.
  • Comience con las conferencias en video de Stephen P. Boyd y también ¿Cuáles son algunos buenos recursos para aprender sobre la optimización?

5) Aprenda sobre el aprendizaje automático

  • Antes de pensar en algoritmos, observe cuidadosamente los datos y seleccione las características que lo ayudan a filtrar la señal del ruido. Vea esta charla de Jeremy Howard: en Kaggle, es una desventaja saber demasiado
  • Consulte también ¿Cómo aprendo el aprendizaje automático? y ¿Cuáles son algunos recursos introductorios para aprender sobre el aprendizaje automático a gran escala? ¿Por qué?
  • Estadísticas vs aprendizaje automático, lucha !: http://brenocon.com/blog/2008/12…
  • Puede estructurar su programa de estudios de acuerdo con los catálogos de cursos en línea.
    y planes de estudio de MIT, Stanford u otras escuelas superiores. Experimentar con
    muchos datos, piratear algún código, hacer preguntas, hablar con buenas personas, configurar un rastreador web en su garaje: la anatomía de un motor de búsqueda
  • Puede unirse a una de estas nuevas empresas y aprender haciendo: ¿Qué nuevas empresas están contratando ingenieros con fortalezas en aprendizaje automático / PNL?
  • La opción alternativa (y bastante cara) es inscribirse en un CS
    programa / pista de Machine Learning si prefieres estudiar en un curso formal
    ajuste. Ver: ¿Qué hace que valga la pena un Máster en Informática (MS CS) y por qué?
  • Intenta evitar la sobreespecialización. El enfoque de amplitud a menudo funciona mejor cuando se aprende un nuevo campo y se enfrentan problemas difíciles, vea el Segundo viaje del HMS Beagle sobre las aventuras de un ingenioso joven minero de datos.

6) Aprenda sobre la recuperación de información

  • El aprendizaje automático no es tan genial como parece: http://teddziuba.com/2008/05/mac…
  • ¿Cuáles son algunos buenos recursos para comenzar el entrenamiento de Recuperación de información y por qué se prefieren estos sobre otros?

7) Aprenda sobre la detección y estimación de señales

  • Este es un tema clásico y “ciencia de datos” por excelencia en mi opinión.
    Algunos de estos métodos se utilizaron para guiar la misión Apolo o detectar
    submarinos enemigos y todavía están en uso activo en muchos campos. Esto es
    a menudo parte del plan de estudios de EE.
  • Buenas referencias son las diapositivas de la conferencia de Robert F. Stengel sobre control y estimación óptimos: Página de inicio de Rob Stengel, Señales y sistemas de Alan V. Oppenheim. y ¿Cuáles son algunos buenos recursos para aprender sobre la estimación y detección de señales? Un buen tema para enfocarse primero es el filtro de Kalman, ampliamente utilizado para el pronóstico de series temporales.
  • Hablando de datos, es probable que desee saber algo sobre la información: su transmisión, compresión y filtrado de la señal del ruido. Los métodos desarrollados por los ingenieros de comunicación en los años 60 (como el decodificador Viterbi, que ahora se usa en aproximadamente mil millones de teléfonos celulares, o la wavelet de Gabor ampliamente utilizada en el reconocimiento de Iris) son aplicables a una sorprendente variedad de tareas de análisis de datos, desde la traducción automática estadística hasta la comprensión de organización y función de redes moleculares. Un buen recurso para empezar es la teoría de la información y la comunicación confiable: Robert G. Gallager: 9780471290483: Amazon.com: Libros. Además, ¿cuáles son algunos buenos recursos para aprender sobre la teoría de la información?

8) algoritmos maestros y estructuras de datos

  • ¿Cuáles son los recursos más fáciles de aprender para aprender sobre algoritmos?

9) práctica

  • Ponerse en forma para el deporte de la ciencia de datos
  • Carpintería: http://software-carpentry.org/
  • ¿Cuáles son algunos buenos problemas con los juguetes (un solo codificador puede hacer durante un fin de semana) en ciencia de datos? Estoy estudiando el aprendizaje automático y las estadísticas, y estoy buscando algo socialmente relevante utilizando conjuntos de datos / API disponibles públicamente.
  • Herramientas: ¿Cuáles son algunas de las mejores herramientas de análisis de datos?
  • ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

Si decides ir a una maestría:

10) estudiar ingeniería

Iría por CS con un enfoque en IR o Machine Learning o una combinación de ambos y tomaría algunos cursos de sistemas en el camino. Como “científico de datos”, tendrá que escribir una tonelada de código y probablemente desarrollar algoritmos / sistemas distribuidos para procesar cantidades masivas de datos. La Maestría en Estadística le enseñará cómo hacer análisis de modelado y regresión, etc., no cómo construir sistemas, creo que esto último se necesita con más urgencia en estos días ya que las herramientas antiguas se vuelven obsoletas con la avalancha de datos. Hay una escasez de ingenieros que puedan construir un sistema de minería de datos desde cero. Puede recoger estadísticas de libros y experimentos con R (consulte el punto 3 anterior) o tomar algunas clases de estadísticas como parte de sus estudios de CS.

Buena suerte.

[1] http://mahout.apache.org/
[2] http://www.netlib.org/lapack/
[3] http://www.netlib.org/eispack/
[4] http://math.nist.gov/javanumeric…
[5] http://www.netlib.org/scalapack/
[6] http://labs.google.com/papers/ma…
[7] Amazon.com: Causalidad: modelos, razonamiento e inferencia (9780521895606): Judea Pearl: Libros
[8] Introducción a la biología, video conferencias MIT 7.012
[9] Hanahan y Weinberg, The Hallmarks of Cancer, Next Generation: Page on Wisc
[10] La organización caótica de la vasculatura asociada a tumores, de The Biology of Cancer: Robert A. Weinberg: 9780815342205: Amazon.com: Books, p. 562

Junto con la tecnología relativamente nueva de Big Data está el nuevo científico de datos de títulos de trabajo. Si bien no está vinculado exclusivamente a los proyectos de Big Data, el rol del científico de datos los complementa debido a la mayor amplitud y profundidad de los datos que se examinan, en comparación con los roles tradicionales … Puede visitar este enlace: Cursos de ciencia de datos de Intellipaat Un científico de datos representa una evolución desde el rol comercial o analista de datos. La capacitación formal es similar, con una base sólida típicamente en informática y aplicaciones, modelado, estadísticas, análisis y matemáticas.

. Lo que distingue al científico de datos es la perspicacia empresarial fuerte, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

El rol del científico de datos ha sido descrito como “analista en parte, artista en parte”. Un científico de datos es alguien que es inquisitivo, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y aportar cambios a una organización “.

Mientras que un analista de datos tradicional puede mirar solo los datos de una sola fuente, por ejemplo, un sistema CRM, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos examinará todos los datos entrantes con el objetivo de descubrir una información previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial urgente. Un científico de datos no solo recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan los supuestos y procesos existentes

Los datos se duplican cada dos años, y todos han oído hablar de los números de crecimiento absurdos indicados en los informes. En este contexto, el resultado inevitable es la aparición del Data Scientist. Un científico de datos necesita analizar grandes cantidades de datos y proyectar el mapa tecnológico para hacer posible la transición de datos a ideas. El alcance del trabajo de un científico de datos incluye la identificación de las fuentes de datos, la calidad de los datos, las correlaciones entre los puntos de datos y la difusión a los usuarios de la información.

Por el momento, el papel de un científico de datos lo desempeña una combinación de personas en el equipo de BI, como el arquitecto del almacén de datos, el analista de negocios y otros de esa clase. A medida que la situación evoluciona, el científico de datos trabajará por encima de estos profesionales para descubrir nuevas tendencias y asociaciones que puedan estar más allá del ámbito de los modelos actuales y los problemas comerciales. El analista de negocios trabajaría en los datos que ha recopilado el científico de datos. James Kobielus, un analista senior de Forrester, en su negocio, llega a comparar el trabajo de un científico de datos con el trabajo de científicos en ciencias naturales y ciencias sociales, afirmando que necesitarían datos de observación y datos experimentales para trabajar con. “Históricamente ( los científicos de datos ) han tenido que contentarse con meros ejemplos”. Con el surgimiento de una carrera de pleno derecho, esto pronto cambiará.

Las discusiones sobre quién está calificado exactamente para ser un científico de datos no varían demasiado del debate que se sostuvo anteriormente sobre si, sin embargo, al principio, los expertos de la industria han indicado que un científico de datos debe tener una maestría en matemáticas o estadísticas. Mientras tanto, el CTO del grupo en Shoppers Stop dice: “Hay una escasez de profesionales a los que se les puede llamar científicos de datos. Por el momento, quien tiene pasión por trabajar con datos está llenando el vacío ”.

Un científico de datos trabajará en el desarrollo de nuevos algoritmos y presentará nuevos patrones e ideas sobre los datos que de otro modo permanecerían ocultos. “Junto con las estadísticas, un científico de datos puede tener una calificación en economía, y definitivamente necesita una docena o más de experiencia trabajando con diez a quince herramientas de BI”, dice Chuck Hollis, vicepresidente de marketing global y CTO, EMC.

un proveedor de servicios de análisis y ciencia de decisiones dice: “Los científicos de datos también incursionarán en psicología experimental, antropología y ciencias sociales”. Con la necesidad de establecer centros de excelencia de BI (CoE), los análisis se institucionalizarán.

Con el advenimiento de las redes sociales impactando la mayoría de las facetas de los negocios, las organizaciones esperan integrar la tecnología, el software social y el BI para crear un ambiente agradable para la toma de decisiones. El científico de datos será responsable de proporcionar un contexto social a la información. BI y análisis bailan a una nueva melodía cuando adoptan nuevos enfoques como Hadoop. No esperan datos estructurados, limpios y prístinos, sino que trabajan con una mezcla de datos para proporcionar un análisis en tiempo real o cercano. La analítica descriptiva, la analítica inquisitiva, la analítica preventiva y prescriptiva son parte del nuevo paradigma, con el científico de datos en el centro.

La curva de evolución se está moviendo del apoyo a la toma de decisiones a ser cada vez más operacional, con una progresión inminente que llevará la competencia estratégica a un nivel completamente nuevo con los científicos de datos en la imagen. BI entró en escena hace quince años y TI poseía estas iniciativas. Ahora, BI es una función comercial que involucra investigación de mercado con un enfoque central en análisis. Las compañías con grandes volúmenes de datos (internos y externos) irían a The Notion Market sin pestañear, pero las compañías más pequeñas lo pensarían dos veces antes de pagarle a alguien para hacer algo que su proveedor de BI les dijo que haría su producto de BI.

Sin embargo, no es que haya científicos de datos en abundancia, todos clamando por empleos. Por el contrario, como dice Hollis de EMC, “Hay una escasez de talento. Por cada científico de datos, hay treinta trabajos esperando “.

En respuesta a este problema, Analytics as a Service se presenta como una alternativa factible. La analítica como servicio aún es incipiente y evoluciona; A medida que crece la complejidad y emergen modelos de servicio maduros que están vinculados con los resultados y el éxito, la tasa de adopción aumentará. La posibilidad de contratar a un científico de datos a través de un proveedor de servicios de análisis es un paso intermedio para muchas EMPRESAS medianas y pequeñas

Ser científico de datos requiere una base sólida típicamente en informática y aplicaciones, modelado, estadística, análisis y matemáticas.

Lo que distingue al científico de datos es la perspicacia empresarial fuerte, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

También creo que el conocimiento profundo de la ciencia de datos, el aprendizaje automático y la PNL ayudarán a resolver problemas de nivel básico a superior. De 4 a 5 años de experiencia en el desarrollo pueden dar tal prestigio.

  • Curso de Introducción al CS
    Notas: Curso de Introducción a la Informática que proporciona instrucciones sobre codificación.
    Recursos en línea:
    Udacity – introducción al curso de CS,
    Coursera – Informática 101
  • Código en al menos un lenguaje de programación orientado a objetos: C ++, Java o Python
    Recursos en línea para principiantes:
    Coursera – Aprender a programar: los fundamentos,
    Introducción del MIT a la programación en Java,
    Python Class de Google,
    Coursera – Introducción a Python,
    Libro electrónico de código abierto de Python

    Recursos en línea intermedios:
    Diseño de programas informáticos de Udacity,
    Coursera – Learn to Program: Crafting Quality Code,
    Coursera – Lenguajes de programación,
    Brown University – Introducción a los lenguajes de programación

  • Aprende otros lenguajes de programación
    Notas: Agregue a su repertorio: Java Script, CSS, HTML, Ruby, PHP, C, Perl, Shell. Lisp, Scheme.
    Recursos en línea: w3school.com – Tutorial HTML, Aprenda a codificar
  • Prueba tu código
    Notas: aprenda a detectar errores, crear pruebas y romper su software
    Recursos en línea: Udacity – Métodos de prueba de software, Udacity – Depuración de software
  • Desarrollar razonamiento lógico y conocimiento de matemáticas discretas.
    Recursos en línea:
    MIT Matemáticas para Informática,
    Coursera – Introducción a la lógica,
    Coursera – Optimización lineal y discreta,
    Coursera – Modelos gráficos probabilísticos,
    Coursera – Teoría de juegos.
  • Desarrollar una sólida comprensión de los algoritmos y las estructuras de datos.
    Notas: Aprenda sobre los tipos de datos fundamentales (pila, colas y bolsas), algoritmos de clasificación (clasificación rápida, combinación combinada, clasificación múltiple) y estructuras de datos (árboles de búsqueda binarios, árboles rojo-negros, tablas hash), Big O.
    Recursos en línea:
    Introducción a los algoritmos del MIT,
    Coursera – Introducción a los algoritmos Parte 1 y Parte 2,
    Wikipedia – Lista de algoritmos,
    Wikipedia – Lista de estructuras de datos,
    Libro: El manual de diseño de algoritmos
  • Desarrollar un sólido conocimiento de los sistemas operativos.
    Recursos en línea: UC Berkeley Computer Science 162
  • Aprenda recursos de inteligencia artificial en línea:
    Stanford University – Introducción a la robótica, procesamiento del lenguaje natural, aprendizaje automático
  • Aprende a construir compiladores
    Recursos en línea: Coursera – Compiladores
  • Aprende criptografía
    Recursos en línea: Coursera – Criptografía, Udacity – Criptografía aplicada
  • Aprender programación paralela
    Recursos en línea: Coursera – Programación paralela heterogénea

Herramientas y tecnologías para Bigdata:

Apache spark : Apache Spark es un marco informático de clúster de análisis de datos de código abierto desarrollado originalmente en AMPLab en UC Berkeley. [1] Spark se adapta a la comunidad de código abierto de Hadoop, basándose en el Sistema de archivos distribuidos de Hadoop (HDFS). [2] Sin embargo, Spark no está vinculado al paradigma MapReduce de dos etapas, y promete un rendimiento hasta 100 veces más rápido que Hadoop MapReduce para ciertas aplicaciones.

Canalización de bases de datos
Como notará, no se trata solo de procesar los datos, sino que involucra muchos otros componentes. La recolección, almacenamiento, exploración, ML y visualización son críticos para el éxito del proyecto.

SOLR : Solr para construir un motor de análisis de datos altamente escalable que permita a los clientes participar en el descubrimiento de conocimiento en tiempo real a la velocidad de la luz.
Solr (pronunciado “solar”) es una plataforma de búsqueda empresarial de código abierto del proyecto Apache Lucene. Sus características principales incluyen búsqueda de texto completo, resaltado de resultados, búsqueda por facetas, agrupación dinámica, integración de bases de datos y manejo de documentos enriquecidos (por ejemplo, Word, PDF). Al proporcionar búsqueda distribuida y replicación de índices, Solr es altamente escalable. [1] Solr es el motor de búsqueda empresarial más popular. [2] Solr 4 agrega características NoSQL

S3 : Amazon S3 es un servicio web de almacenamiento de archivos en línea ofrecido por Amazon Web Services. Amazon S3 proporciona almacenamiento a través de interfaces de servicios web. Wikipedia

Hadoop: Apache Hadoop es un marco de software de código abierto para el almacenamiento y el procesamiento a gran escala de conjuntos de datos en grupos de hardware de productos básicos. Hadoop es un proyecto de nivel superior de Apache construido y utilizado por una comunidad global de contribuyentes y usuarios. Tiene licencia de Apache License 2.0. Apache Hadoop

MapReduce: Hadoop MapReduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes grupos (miles de nodos) de hardware básico de manera confiable y tolerante a fallas.

Un trabajo de MapReduce generalmente divide el conjunto de datos de entrada en fragmentos independientes que son procesados ​​por las tareas del mapa de manera completamente paralela. El marco ordena los resultados de los mapas, que luego se ingresan a las tareas de reducción . Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos. El marco se encarga de programar tareas, monitorearlas y volver a ejecutar las tareas fallidas.

Corona:

Corona, un nuevo marco de programación que separa la gestión de recursos del clúster de la coordinación del trabajo. [1] Corona presenta un administrador de clúster cuyo único propósito es rastrear los nodos en el clúster y la cantidad de recursos libres. Se crea un rastreador de trabajos dedicado para cada trabajo, y puede ejecutarse en el mismo proceso que el cliente (para trabajos pequeños) o como un proceso separado en el clúster (para trabajos grandes).

Una diferencia importante con respecto a nuestra implementación anterior de Hadoop MapReduce es que Corona utiliza una programación basada en push, en lugar de pull. Después de que el administrador de clúster recibe solicitudes de recursos del rastreador de trabajos, devuelve las subvenciones de recursos al rastreador de trabajos. Además, una vez que el rastreador de trabajos obtiene subvenciones de recursos, crea tareas y luego empuja estas tareas a los rastreadores de tareas para su ejecución. No hay latidos cardíacos periódicos involucrados en esta programación, por lo que se minimiza la latencia de programación. Ref: Under the Hood: Programando trabajos MapReduce más eficientemente con Corona

HBase: HBase es una base de datos distribuida, no relacional y de código abierto, inspirada en BigTable de Google y escrita en Java. Se desarrolla como parte del proyecto Apache Hadoop de Apache Software Foundation y se ejecuta sobre HDFS (Hadoop Distributed Filesystem), proporcionando capacidades similares a BigTable para Hadoop. Es decir, proporciona una forma tolerante a fallas de almacenar grandes cantidades de datos dispersos (pequeñas cantidades de información capturadas dentro de una gran colección de datos vacíos o sin importancia, como encontrar los 50 elementos más grandes en un grupo de 2 mil millones de registros, o encontrar el elementos distintos de cero que representan menos del 0.1% de una gran colección).

Zookeeper – Apache ZooKeeper es un proyecto de software de Apache Software Foundation, que proporciona un servicio de configuración distribuida de código abierto, servicio de sincronización y registro de nombres para grandes sistemas distribuidos. [ aclaración necesaria ] ZooKeeper era un subproyecto de Hadoop pero ahora es un proyecto de nivel superior por derecho propio.

Hive: Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar resumen, consulta y análisis de datos. Aunque inicialmente fue desarrollado por Facebook, Apache Hive ahora es utilizado y desarrollado por otras compañías como Netflix. Amazon mantiene una bifurcación de software de Apache Hive que se incluye en Amazon Elastic MapReduce en Amazon Web Services.

Mahout – Apache Mahout es un proyecto de Apache Software Foundation para producir implementaciones gratuitas de algoritmos de aprendizaje automático distribuidos u otros escalables enfocados principalmente en las áreas de filtrado colaborativo, agrupación y clasificación. Muchas de las implementaciones usan la plataforma Apache Hadoop. Mahout también proporciona bibliotecas Java para operaciones matemáticas comunes (centradas en álgebra lineal y estadística) y colecciones primitivas de Java. Mahout es un trabajo en progreso; el número de algoritmos implementados ha crecido rápidamente, [3] pero todavía faltan varios algoritmos.

Lucene es un conjunto de herramientas relacionadas con la búsqueda y PNL, pero su característica principal es ser un índice de búsqueda y un sistema de recuperación. Toma datos de una tienda como HBase y los indexa para una recuperación rápida de una consulta de búsqueda. Solr usa Lucene debajo del capó para proporcionar una API REST conveniente para indexar y buscar datos. ElasticSearch es similar a Solr.

Sqoop es una interfaz de línea de comandos para respaldar datos SQL en un almacén distribuido. Es lo que puede usar para tomar instantáneas y copiar las tablas de su base de datos en un almacén de Hive todas las noches.

Hue es una GUI basada en web para un subconjunto de las herramientas anteriores. Hue agrega los componentes más comunes de Apache Hadoop en una sola interfaz y apunta a la experiencia del usuario. Su objetivo principal es hacer que los usuarios “solo usen” Hadoop sin preocuparse por la complejidad subyacente o usando una línea de comando

Pregel y su código abierto gemelo Giraph es una forma de hacer algoritmos gráficos en miles de millones de nodos y billones de bordes en un grupo de máquinas. En particular, el modelo MapReduce no es adecuado para el procesamiento de gráficos, por lo que Hadoop / MapReduce se evitan en este modelo, pero HDFS / GFS todavía se usa como un almacén de datos.

NLTK: el Kit de herramientas de lenguaje natural , o más comúnmente NLTK , es un conjunto de bibliotecas y programas para el procesamiento de lenguaje natural simbólico y estadístico (NLP) para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Está acompañado por un libro que explica los conceptos subyacentes detrás de las tareas de procesamiento de lenguaje admitidas por el kit de herramientas, además de un libro de cocina.

NLTK está destinado a apoyar la investigación y la enseñanza en PNL o áreas estrechamente relacionadas, incluida la lingüística empírica, la ciencia cognitiva, la inteligencia artificial, la recuperación de información y el aprendizaje automático.

Para Python
Scikit Learn

Numpy

Scipy

Freebase: Freebase es una gran base de conocimiento colaborativo que consta de metadatos compuestos principalmente por los miembros de su comunidad. Es una colección en línea de datos estructurados recolectados de muchas fuentes, incluidas las contribuciones individuales ‘wiki’.

DBPedia : DBpedia (de “DB” para “base de datos”) es un proyecto cuyo objetivo es extraer contenido estructurado de la información creada como parte del proyecto Wikipedia. Esta información estructurada se pone a disposición en la World Wide Web. DBpedia permite a los usuarios consultar las relaciones y propiedades asociadas con los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados. Tim Berners-Lee ha descrito a DBpedia como una de las partes más famosas del esfuerzo descentralizado de Linked Data.

Herramienta de visualización
ggplot en R
Tableu
Qlikview

Matemáticas : )

Cálculo, estadística, probabilidad, álgebra lineal y geometría coordinada

El reconocimiento de entidad con nombre (NER) NER etiqueta secuencias de palabras en un texto que son nombres de cosas, como nombres de personas y compañías, o nombres de genes y proteínas.

Búsqueda por facetas: la búsqueda por facetas, también llamada navegación por facetas o navegación por facetas, es una técnica para acceder a la información organizada según un sistema de clasificación por facetas, lo que permite a los usuarios explorar una colección de información mediante la aplicación de múltiples filtros. Un sistema de clasificación por facetas clasifica cada elemento de información a lo largo de múltiples dimensiones explícitas, llamadas facetas, lo que permite acceder a las clasificaciones y ordenarlas de varias maneras en lugar de en un solo orden taxonómico predeterminado.

Fuente: Wikipedia, la enciclopedia libre.

Hay muchos, por supuesto, que puedes resolver:

  1. Análisis de sentimientos para twitter, artículos web : identifique todos los sentimientos para artículos web, revisión de productos, revisión de películas, tweets. Se puede utilizar un enfoque basado en léxico o técnicas de aprendizaje automático
  2. Clasificación / resumen de artículos web : utilice la técnica de agrupación / clasificación para clasificar el artículo web, realice análisis semánticos para resumir los artículos
  3. Sistema de recomendaciones basado en los perfiles de redes sociales del usuario : utilice la API de redes sociales, recopile el interés del usuario de Facebook, Twitter, etc. implemente el sistema de recomendación para el interés del usuario
  4. Clasificación de tweets y detección de tendencias: clasifique los tweets para deportes, negocios, política, entretenimiento, etc. y detecte tweets de tendencias en esos dominios
  5. Predicción de revisión de películas: use críticas de películas en línea para predecir críticas de nuevas películas.
  6. Resumir reseñas de restaurantes: tome una lista de reseñas sobre un restaurante y genere un único resumen en inglés para ese restaurante.
  7. AutoBot: crea un sistema que pueda mantener una conversación contigo. El usuario escribe mensajes y su sistema responde en función del texto del usuario. Muchos enfoques aquí … podría usar un gran corpus de Twitter y hacer similitud de lenguaje
  8. Sistema de noticias basado en Twitter : recopile tweets para varias categorías cada hora, base diaria, identifique debates de tendencias, realice análisis semánticos y cree un sistema de noticias (consulte el producto Frrole)

Pocos conjuntos de datos utilizados para la aplicación bigdata que puede utilizar:

  1. Página de inicio para el conjunto de datos de 20 grupos de noticias: el conjunto de datos de 20 grupos de noticias es una colección de aproximadamente 20,000 documentos de grupos de noticias, divididos (casi) de manera uniforme en 20 grupos de noticias diferentes.
  2. Descargar Trec (= Conferencia de recuperación de texto) Conjunto de datos: conjuntos de datos de texto utilizados en la recuperación de información y el aprendizaje en dominios de texto.
  3. World Factbook Download 2013- El World Factbook proporciona información sobre la historia, las personas, el gobierno, la economía, la geografía, las comunicaciones, el transporte, los asuntos militares y transnacionales para 267 entidades mundiales.
  4. DBpedia “Lanzamiento del conjunto de datos: el conjunto de datos DBpedia utiliza una gran ontología multidominio derivada de Wikipedia. La versión en inglés del conjunto de datos DBpedia 2014 describe actualmente 4.58 millones de” cosas “con 583 millones de” hechos “. Además, nosotros proporcionan versiones localizadas de DBpedia en 125 idiomas. Todas estas versiones juntas describen 38.3 millones de cosas, de las cuales 23.8 millones se superponen (están interrelacionadas) con conceptos de la DBpedia en inglés.
  5. http://konect.uni-koblenz.de/net … – KONECT (Koblenz Network Collection) es un proyecto para recopilar grandes conjuntos de datos de red de todo tipo para realizar investigaciones en ciencias de redes y campos relacionados,
  6. Max-Planck-Institut für Informatik: YAGO – YAGO (Yet Another Great Ontology) es una base de conocimiento desarrollada en el Instituto Max Planck de Ciencias de la Computación en Sarrebruck. Se extrae automáticamente de Wikipedia y otras fuentes.
  7. Reuters-21578 Conjunto de datos de recopilación de categorización de texto: repositorio de aprendizaje automático
  8. Página CSTR en ed.ac.uk – CSTR se ocupa de la investigación en todas las áreas de la tecnología del habla, incluido el reconocimiento de voz, síntesis de voz, procesamiento de señales de voz, acceso a la información, interfaces multimodales y sistemas de diálogo. Tenemos muchas colaboraciones con la comunidad más amplia de investigadores en ciencias del habla, lenguaje, cognición y aprendizaje automático por las que Edimburgo es reconocida.
  9. ConceptNet: ConceptNet es una base de conocimiento de sentido común y un kit de herramientas de procesamiento del lenguaje natural disponibles de forma gratuita que admite muchas tareas prácticas de razonamiento textual sobre documentos del mundo real listos para usar (sin capacitación estadística adicional)

Otros conjuntos de datos bien conocidos son: MNIST, CIFAR e ImageNet.

Hace un tiempo, escribí cómo aprender ciencia de datos por tu cuenta. Esto estaba dirigido principalmente a personas que querían postularse a la Data Science Fellowship gratuita de The Data Incubator como una guía útil para “comenzar”, pero es un lugar útil para comenzar, independientemente de dónde quieran postularse para ser científicos de datos. Romperé mi respuesta en dos partes:

  1. Recursos de aprendizaje gratuitos desglosados ​​por tema: esto abarca todo, desde el aprendizaje automático hasta la manipulación de datos y la visualización de datos.
  2. Fuentes de datos gratuitas con las que puede obtener experiencia práctica. Uno de los pilares de nuestra comunidad de ciencia de datos es la construcción de un proyecto final que usted usa para mostrar su conocimiento de ciencia de datos recién descubierto a empleadores potenciales.

Finalmente, ¡no olvides seguirnos en Twitter o LinkedIn si quieres leer más recursos como este!

# 1: Nuevos temas para aprender [publicación original]

Aquí hay cinco habilidades importantes para desarrollar y algunos recursos sobre cómo ayudarlo a desarrollarlas. Si bien no esperamos que nuestros solicitantes posean todas estas habilidades, la mayoría de los solicitantes ya tienen una sólida formación en muchos de ellos.

  1. Desguace : hay una gran cantidad de datos disponibles, por lo que deberá aprender cómo acceder a ellos. Ya sea JSON, HTML o algún formato homebrew, debería poder manejarlos con facilidad. Los lenguajes de script modernos como Python son ideales para esto. En Python, mire paquetes como urllib2, solicitudes, simplejson, re y beautiful soup para facilitar el manejo de solicitudes web y formatos de datos. Los temas más avanzados incluyen manejo de errores (reintentos) y paralelización (multiprocesamiento).
  2. SQL : una vez que tenga una gran cantidad de datos estructurados, querrá almacenarlos y procesarlos. SQL es el lenguaje de consulta original y su sintaxis es tan frecuente que hay interfaces de consulta SQL para todo, desde sqldf para marcos de datos R hasta Hive para Mapreduce. Normalmente, tendría que pasar por un proceso de instalación doloroso para jugar con SQL. Afortunadamente, hay un buen tutorial interactivo en línea disponible donde puede enviar sus consultas y aprender de forma interactiva. Además, Mode Analytics tiene un gran tutorial dirigido a científicos de datos, aunque no es interactivo. Cuando esté listo para usar SQL localmente, SQLite ofrece una versión de SQL fácil de instalar.
  3. Marcos de datos : SQL es excelente para manejar grandes cantidades de datos, pero desafortunadamente carece de aprendizaje automático y visualización. Por lo tanto, el flujo de trabajo a menudo es utilizar SQL o mapreduce para obtener datos a un tamaño manejable y luego procesarlos usando bibliotecas como los marcos de datos de R o los pandas de Python. Para Pandas, Wes McKinney, quien creó los pandas, tiene un gran video tutorial en youtube. Míralo aquí y sigue leyendo el código de Github.
  4. Aprendizaje automático : se puede hacer mucha ciencia de datos con seleccionar, unir y agrupar (o, de forma equivalente, asignar y reducir), pero a veces es necesario realizar un aprendizaje automático no trivial. Antes de saltar a algoritmos más sofisticados, pruebe algoritmos más simples como Naive Bayes y regresión lineal regularizada. En Python, estos se implementan en scikit learn. En R, se implementan en las bibliotecas glm y gbml. Debes asegurarte de entender los conceptos básicos realmente bien antes de probar algoritmos más sofisticados.
  5. Visualización : la ciencia de datos se trata de comunicar sus hallazgos, y la visualización de datos es una parte increíblemente valiosa de eso. Python ofrece un trazado similar a Matlab a través de matplotlib, que es funcional, incluso si no tiene una estética. R ofrece ggplot, que es más bonito. Por supuesto, si realmente te tomas en serio las visualizaciones dinámicas, pruebad3.

Estas son algunas de las habilidades fundamentales que serán invaluables para su carrera como científico de datos. Si bien solo cubren un subconjunto de lo que hablamos en The Data Incubator (hay mucho más que cubrir en estadísticas, aprendizaje automático y reducción de mapas), este es un gran comienzo. Para obtener una lista más detallada de temas, puede consultar esta gran infografía:

# 2: Fuentes de datos interesantes: [publicación original]

En The Data Incubator, llevamos a cabo una beca gratuita de seis semanas de ciencia de datos para ayudar a nuestros Fellows a trabajar en la industria de la tierra. Nuestros socios de contratación adoran considerar a los Fellows a quienes no les importa ensuciarse las manos con los datos. Es por eso que nuestros Fellows trabajan en proyectos geniales que muestran esas habilidades. Uno de los mayores obstáculos para proyectos exitosos ha sido obtener acceso a datos interesantes. Aquí hay algunas fuentes de datos públicos interesantes que puede usar para su próximo proyecto:

Datos económicos:

  1. Datos de mercado negociados públicamente : Quandl es una fuente sorprendente de datos financieros. Google Finance y Yahoo Finance son buenas fuentes adicionales de datos. Las presentaciones corporativas ante la SEC están disponibles en Edgar.
  2. Datos del precio de la vivienda: puede utilizar la API de Trulia o la API de Zillow. En el Reino Unido, puede encontrar el precio pagado en las ventas de viviendas y el precio medio histórico de la vivienda por región (use esta herramienta para traducir entre código postal y lat / long).
  3. Datos de préstamos: puede encontrar los impagos de préstamos estudiantiles por universidad y la colección completa de préstamos entre pares de Lending Club y Prosper, las dos plataformas más grandes en el espacio.
  4. Datos de la hipoteca de la vivienda: la Ley de Divulgación de Hipotecas de Vivienda pone a disposición datos y hay muchos datos de la Agencia Federal de Financiación de la Vivienda disponibles aquí.

Datos de contenido:

  1. Revise el contenido: puede obtener reseñas de restaurantes y lugares físicos de Foursquare y Yelp (ver geodatos). Amazon tiene un gran repositorio de reseñas de productos. Las reseñas de cerveza de Beer Advocate se pueden encontrar aquí. Rotten Tomatoes Los comentarios de películas están disponibles en Kaggle.
  2. Contenido web: ¿ busca contenido web? Wikipedia proporciona volcados de sus artículos. Common Crawl tiene un gran corpus de internet disponible. ArXiv mantiene todos sus datos disponibles a través de la descarga masiva de AWS S3. ¿Quieres saber qué URL son maliciosas? Hay un conjunto de datos para eso. Los datos de música están disponibles en la Base de datos Million Songs. Puede analizar los patrones de preguntas y respuestas en sitios como Stack Exchange (incluido Stack Overflow).
  3. Datos de los medios: hay artículos anotados abiertos del New York Times, Reuters Dataset y el proyecto GDELT (una consolidación de muchas fuentes de noticias diferentes). Google Books ha publicado NGrams para libros que se remontan a 1800.
  4. Datos de comunicaciones: hay acceso a mensajes públicos de Apache Software Foundation y de comunicaciones entre ex ejecutivos de Enron.

Datos del gobierno:

  1. Datos municipales: los datos sobre delitos están disponibles para la ciudad de Chicago y Washington DC. Los datos de inspección del restaurante están disponibles para Chicago y la ciudad de Nueva York.
  2. Datos de transporte: los viajes en taxi de Nueva York en 2013 están disponibles por cortesía de la Ley de Libertad de Información. Hay datos de bicicletas compartidas de Nueva York, Washington DC y SF. También hay datos de retraso de vuelo de la FAA.
  3. Datos del censo: datos del censo japonés. Datos del censo de EE. UU. De 2010, 2000, 1990. De los datos del censo, el gobierno también ha derivado datos sobre el uso del tiempo. Datos del censo de la UE. Vea los nombres populares de bebés masculinos / femeninos que se remontan al siglo XIX de la Administración del Seguro Social.
  4. Banco Mundial: tienen muchos datos disponibles en su sitio web.
  5. Datos electorales: los datos de contribución política de las últimas elecciones estadounidenses se pueden descargar de la FEC aquí y aquí. Los datos de las encuestas están disponibles en Real Clear Politics.
  6. Datos de alimentos, medicamentos y dispositivos: El USDA proporciona información basada en la ubicación sobre el entorno alimentario en su Atlas de alimentos. La FDA también proporciona una serie de conjuntos de datos públicos de alto valor.

Datos con una causa:

  1. Datos ambientales: se dispone de datos sobre el uso de energía en los hogares, así como datos climáticos de la NASA.
  2. Datos médicos y biológicos: puede obtener cualquier cosa, desde registros médicos anónimos, lectura remota de sensores para individuos, hasta datos sobre los genomas de 1000 individuos.

Diverso:

  1. Datos geográficos: intente buscar en estos conjuntos de datos de Yelp lugares cercanos a las principales universidades y uno para las principales ciudades del suroeste. La API de Foursquare es otra buena fuente. Open Street Map también tiene datos abiertos sobre lugares.
  2. Datos de Twitter: puede obtener acceso a los Datos de Twitter utilizados para el análisis de sentimientos, los Datos de Twitter de la red y los datos sociales de Twitter, además de su API.
  3. Datos de juegos: se encuentran disponibles conjuntos de datos para juegos, que incluyen un gran conjunto de datos de manos de póker, un conjunto de datos de Domion Games en línea y conjuntos de datos de juegos de ajedrez. Gaming Unplugged Since 2000 también tiene una gran base de datos de juegos, precios, artistas, etc.
  4. Datos de uso de la web : los datos de uso de la web son un conjunto de datos común que las empresas buscan para comprender el compromiso. Los conjuntos de datos disponibles incluyen datos de uso anónimos para MSNBC, el historial de compras de Amazon (también anónimo) y el tráfico de Wikipedia.

Metasources: estas son excelentes fuentes para otras páginas web.

  1. Datos de la red de Stanford: http://snap.stanford.edu/index.html
  2. Cada año, el ACM lleva a cabo una competencia para el aprendizaje automático llamada KDD Cup. Sus datos están disponibles en línea.
  3. UCI mantiene archivos de datos para el aprendizaje automático.
  4. Datos del censo de EE. UU.
  5. Amazon aloja conjuntos de datos públicos en s3.
  6. Kaggle alberga desafíos de aprendizaje automático y muchos de sus conjuntos de datos están disponibles públicamente.
  7. Las ciudades de Chicago, Nueva York, Washington DC y SF mantienen almacenes de datos públicos.
  8. Yahoo mantiene muchos datos sobre sus propiedades web que pueden obtenerse escribiéndolos.
  9. BigML es un blog que mantiene una lista de conjuntos de datos públicos para la comunidad de aprendizaje automático.
  10. GroupLens Research ha recopilado y puesto a disposición conjuntos de datos de calificación del sitio web MovieLens.
  11. Finalmente, si hay un sitio web con datos que le interesen, ¡búsquelo!

Aquí hay algunos recursos sorprendentes y completamente gratuitos en línea que puede usar para aprender ciencia de datos.

¡Además de esta página, recomendaría las preguntas frecuentes oficiales de Quora Data Science como su guía completa para la ciencia de datos! Incluye recursos similares a este, así como consejos sobre cómo prepararse para entrevistas de ciencia de datos. ¡Además, siga el tema de Quora Data Science si aún no ha recibido actualizaciones sobre nuevas preguntas y respuestas!

Paso 1. Cumple tus prerrequisitos

Antes de comenzar, necesita Cálculo multivariable, Álgebra lineal y Python. Si su experiencia matemática depende del cálculo multivariable y el álgebra lineal, tendrá suficiente experiencia para comprender casi todas las probabilidades / estadísticas / aprendizaje automático para el trabajo.

  • Cálculo multivariante : ¿Cuáles son los mejores recursos para dominar el cálculo multivariable?
  • Álgebra lineal numérica / Álgebra lineal computacional / Álgebra matricial: Álgebra lineal, Introducción a los modelos lineales y Álgebra matricial. Evite las clases de álgebra lineal que son demasiado teóricas, necesita una clase de álgebra lineal que funcione con matrices reales.

El cálculo multivariado es útil para algunas partes del aprendizaje automático y mucha probabilidad. El álgebra lineal / matricial es absolutamente necesario para muchos conceptos en el aprendizaje automático.

También necesita algunos antecedentes de programación para comenzar, preferiblemente en Python. La mayoría de las otras cosas en esta guía se pueden aprender en el trabajo (como bosques aleatorios, pandas, pruebas A / B), ¡pero no puede escapar sin saber cómo programar!

Python es el lenguaje más importante que debe aprender un científico de datos. Para aprender a codificar, más sobre Python y por qué Python es tan importante, consulte

  • ¿Cómo aprendo a codificar?
  • ¿Cómo aprendo Python?
  • ¿Por qué Python es un lenguaje de elección para los científicos de datos?
  • ¿Es Python el lenguaje de programación más importante para aprender para los aspirantes a científicos de datos y mineros de datos?

R es el segundo lenguaje más importante que debe aprender un científico de datos. Lo digo como alguien con experiencia en estadísticas y que cursó estudios de pregrado principalmente solo con R. Mientras que R es poderoso para tareas estadísticas dedicadas, Python es más versátil ya que lo conectará más con el trabajo a nivel de producción.

Si actualmente estás en la escuela, toma clases de estadística e informática . Echa un vistazo a ¿Qué clases debo tomar si quiero ser un científico de datos?

Paso 2. Conéctate a la comunidad

¡Mira Meetup para encontrar algunos que te interesen! Asista a una charla interesante, aprenda sobre ciencia de datos en vivo y conozca científicos de datos y otros científicos de datos aspiracionales. Comience a leer blogs de ciencia de datos y siga a científicos de datos influyentes:

  • ¿Cuáles son los mejores blogs perspicaces sobre datos, incluida la forma en que las empresas usan los datos?
  • ¿Cuál es su fuente de aprendizaje automático y noticias de ciencia de datos? ¿Por qué?
  • ¿Cuáles son algunas de las mejores cuentas de ciencia de datos para seguir en Twitter, Facebook, G + y LinkedIn?
  • ¿Cuáles son las mejores cuentas de Twitter sobre datos?

Paso 3. Configura y aprende a usar tus herramientas

Pitón

  • Instalar Python, iPython y bibliotecas relacionadas (guía)
  • ¿Cómo aprendo Python?

R

  • Instale R y RStudio (es bueno saber tanto Python como R)
  • Aprende R con remolino

Texto sublime

  • Instalar texto sublime
  • ¿Cuál es la mejor manera de aprender a usar Sublime Text?

SQL

  • ¿Cómo aprendo SQL? ¿Cuáles son algunos buenos recursos en línea, como sitios web, blogs o videos? (Puedes practicarlo usando el paquete sqlite en Python)

Paso 4. Aprender probabilidad y estadística

Asegúrese de realizar un curso que implique una gran aplicación en R o Python. Conocer la probabilidad y las estadísticas solo será realmente útil si puede implementar lo que aprende.

  • Aplicación Python: Think Stats (pdf gratuito) (enfoque de Python)
  • Aplicaciones R: Introducción al aprendizaje estadístico (pdf gratuito) (MOOC) (enfoque R)
  • Imprima una copia de Probability Cheatsheet

Paso 5. Completa el curso de ciencia de datos de Harvard

A partir del otoño de 2015, el curso se encuentra actualmente en su tercer año y se esfuerza por ser lo más aplicable y útil posible para los estudiantes que estén interesados ​​en convertirse en científicos de datos. Un ejemplo de cómo está sucediendo esto es la introducción de Spark y SQL a partir de este año.

Recomiendo hacer los laboratorios y las conferencias de 2015 y las tareas de 2013 (las tareas de 2015 no están disponibles para el público, y las tareas de 2014 están escritas bajo un instructor diferente al de los instructores originales).

Este curso es desarrollado en parte por un compañero usuario de Quora, el profesor Joe Blitzstein. ¡Aquí están todos los materiales!

Introducción a la clase

  • ¿Cómo es diseñar una clase de ciencia de datos? En particular, ¿cómo fue diseñar la nueva clase de ciencia de datos de Harvard, impartida por los profesores Joe Blitzstein y Hanspeter Pfister?
  • ¿Cómo es tomar CS 109 / Statistics 121 (Data Science) en Harvard?

Materiales del curso

  • Página principal de la clase: CS109 Data Science
  • Conferencias, diapositivas y laboratorios: material de clase

Asignaciones

  • Introducción a Python, Numpy, Matplotlib (Tarea 0) (Soluciones)
  • Agregación de encuestas, raspado web, trazado, evaluación de modelos y pronósticos (tarea 1) (soluciones)
  • Predicción, manipulación y evaluación de datos (Tarea 2) (Soluciones)
  • Modelado predictivo, calibración de modelos, análisis de sentimientos (tarea 3) (soluciones)
  • Motores de recomendación, utilizando Mapreduce (tarea 4) (soluciones)
  • Visualización y análisis de redes (Tarea 5) (Soluciones)

Laboratorios

(estos son los laboratorios de 2013. Para los laboratorios de 2015, consulte Material de clase)

  • Laboratorio 2: raspado web
  • Laboratorio 3: EDA, Pandas, Matplotlib
  • Laboratorio 4: Scikit-Learn, Regresión, PCA
  • Laboratorio 5: Sesgo, varianza, validación cruzada
  • Laboratorio 6: Bayes, regresión lineal y muestreo de metrópolis
  • Laboratorio 7: muestreo de Gibbs
  • Laboratorio 8: MapReduce
  • Laboratorio 9: Redes
  • Laboratorio 10: Máquinas de vectores de soporte

Paso 6. Realiza todas las competiciones de iniciación y juegos de Kaggle

NO recomendaría hacer ninguno de los concursos de premios en dinero. Por lo general, tienen conjuntos de datos que son demasiado grandes, complicados o molestos, y no son buenos para el aprendizaje. Las competiciones están disponibles en Competiciones | Kaggle

Comienza aprendiendo scikit-learn, jugando, leyendo tutoriales y foros sobre las competencias que estás haciendo. A continuación, juegue un poco más y consulte los tutoriales para Titanic: Machine Learning from Disaster para una tarea de clasificación binaria (con variables categóricas, valores faltantes, etc.)

Luego, intente una clasificación de varias clases con Predicción de tipo de cobertura forestal. Ahora, intente una tarea de regresión Precios de la vivienda: técnicas de regresión avanzadas. Pruebe el procesamiento de lenguaje natural con Quora Question Pairs | Kaggle Finalmente, ¡prueba cualquiera de las otras competencias basadas en conocimiento que te interesan!

Paso 7. Aprenda algunas asignaturas optativas de ciencia de datos

La ciencia de datos es un campo increíblemente grande e interdisciplinario, y diferentes trabajos requerirán diferentes habilidades. Estos son algunos de los más comunes:

  • Las métricas de productos le enseñarán qué rastrean las empresas, qué métricas consideran importantes y cómo las empresas miden su éxito: las 27 métricas en el Panel de control de crecimiento interno de Pinterest
  • Machine Learning ¿Cómo aprendo machine learning? Esta es un área extremadamente rica con enormes cantidades de potencial, y probablemente el área “más sexy” de la ciencia de datos en la actualidad. El curso de aprendizaje automático de Andrew Ng en Coursera es uno de los MOOC más populares, ¡y una excelente manera de comenzar! MOOC de aprendizaje automático de Andrew Ng
  • Las pruebas A / B son increíblemente importantes para ayudar a informar las decisiones de productos para aplicaciones de consumo. Obtenga más información sobre las pruebas A / B aquí: ¿Cómo aprendo sobre las pruebas A / B?
  • Visualización : recomendaría elegir ggplot2 en R para crear gráficos simples pero hermosos y simplemente explorar DataIsBeautiful • / r / dataisbeautiful y FlowingData para obtener ideas e inspiración.
  • Comportamiento del usuario: este conjunto de publicaciones de blogs parece útil e interesante. Esto explica todo “Comportamiento del usuario
  • Ingeniería de funciones: consulte ¿Cuáles son algunas de las mejores prácticas en Ingeniería de funciones? y este gran ejemplo: http://nbviewer.ipython.org/gith
  • Tecnologías de Big Data : son herramientas y marcos desarrollados específicamente para manejar grandes cantidades de datos. ¿Cómo aprendo tecnologías de big data?
  • La optimización lo ayudará a comprender las estadísticas y el aprendizaje automático: optimización convexa – Boyd y Vandenberghe
  • Procesamiento del lenguaje natural : esta es la práctica de convertir datos de texto en datos numéricos mientras se conserva el “significado”. Aprender esto le permitirá analizar nuevas y emocionantes formas de datos. ¿Cómo aprendo el procesamiento del lenguaje natural (PNL)?
  • Análisis de series de tiempo – ¿Cómo aprendo sobre el análisis de series de tiempo?

Paso 8. Hacer un producto Capstone / Proyecto paralelo

Use sus nuevas habilidades de ciencia de datos e ingeniería de software para crear algo que haga que otras personas digan ¡guau! ¡Esto puede ser un sitio web, una nueva forma de ver un conjunto de datos, una visualización genial o cualquier cosa!

  • ¿Cuáles son algunos buenos problemas con los juguetes (un solo codificador puede hacer durante un fin de semana) en ciencia de datos? Estoy estudiando el aprendizaje automático y las estadísticas, y estoy buscando algo socialmente relevante utilizando conjuntos de datos / API disponibles públicamente.
  • ¿Cómo puedo comenzar a construir un motor de recomendación? ¿Dónde puedo encontrar un conjunto de datos interesante? ¿Con qué herramientas / tecnologías / algoritmos es mejor construir el motor? ¿Cómo verifico la efectividad de las recomendaciones?
  • ¿Cuáles son algunas ideas para un proyecto Python rápido de fin de semana? Estoy buscando ganar algo de experiencia.
  • ¿Cuál es una buena medida de la influencia de un usuario de Twitter?
  • ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
  • ¿Cuáles son algunos buenos algoritmos para una bandeja de entrada priorizada?
  • ¿Cuáles son algunos buenos proyectos de ciencia de datos?

¡Cree repositorios públicos de github, cree un blog y publique su trabajo, proyectos paralelos, soluciones de Kaggle, ideas y pensamientos! Esto le ayuda a ganar visibilidad, crear una cartera para su currículum y conectarse con otras personas que trabajan en las mismas tareas.

Paso 9. Obtenga una pasantía o trabajo en ciencia de datos

  • ¿Cómo me preparo para una entrevista con un científico de datos?
  • ¿Cómo debo prepararme para las preguntas de estadísticas para una entrevista de ciencia de datos?
  • ¿Qué tipo de preguntas de prueba A / B debo esperar en una entrevista con un científico de datos y cómo debo prepararme para esas preguntas?
  • ¿Qué empresas tienen pasantías en ciencia de datos para estudiantes universitarios?
  • ¿Cuáles son algunos consejos para elegir si deseo solicitar una pasantía de Data Science o Software Engineering?
  • ¿Cuándo es el mejor momento para solicitar pasantías de verano de ciencia de datos?

¡Consulte las Preguntas frecuentes oficiales sobre ciencia de datos de Quora para obtener más información sobre pasantías, trabajos y procesos de entrevistas de ciencia de datos! Las preguntas frecuentes sobre ciencia de datos también enlazan con versiones más específicas de esta pregunta, como ¿Cómo me convierto en un científico de datos sin un doctorado? o la contraparte, ¿cómo me convierto en un científico de datos como estudiante de doctorado?

Paso 10. Comparta su sabiduría con la comunidad de ciencia de datos

Si has llegado hasta aquí, ¡felicidades por convertirte en un científico de datos! Te animo a que compartas tus conocimientos y lo que has aprendido con la comunidad de ciencia de datos. ¡La ciencia de datos como un campo incipiente depende del intercambio de conocimientos!


Piensa como un científico de datos

Además de los pasos concretos que enumeré anteriormente para desarrollar el conjunto de habilidades de un científico de datos, incluyo siete desafíos a continuación para que pueda aprender a pensar como un científico de datos y desarrollar la actitud correcta para convertirse en uno.

(1) Satisface tu curiosidad a través de los datos

Como científico de datos, usted escribe sus propias preguntas y respuestas. Los científicos de datos son naturalmente curiosos acerca de los datos que están viendo, y son creativos con las formas de abordar y resolver cualquier problema que deba resolverse.

Gran parte de la ciencia de datos no es el análisis en sí, sino descubrir una pregunta interesante y descubrir cómo responderla.

Aquí hay dos grandes ejemplos:

  • Hilary: el nombre de bebé más envenenado en la historia de los EE. UU.
  • Una mirada a los datos de respuesta al fuego

Desafío : ¡piense en un problema o tema que le interese y responda con datos!

(2) Lea las noticias con ojo escéptico

Gran parte de la contribución de un científico de datos (y por qué es realmente difícil reemplazar un científico de datos con una máquina), es que un científico de datos le dirá qué es importante y qué es falso. Este escepticismo persistente es saludable en todas las ciencias, y es especialmente necesario en un entorno acelerado donde es demasiado fácil dejar que un resultado espurio se malinterprete.

Puede adoptar esta mentalidad usted mismo leyendo noticias con ojo crítico. Muchos artículos de noticias tienen premisas principales inherentemente defectuosas. Prueba estos dos artículos. Ejemplos de respuestas están disponibles en los comentarios.

Más fácil: amas tu iPhone. Literalmente.

Harder: ¿Quién predijo la intervención militar de Rusia?

Desafío: haga esto todos los días cuando encuentre un artículo de noticias. Comente el artículo y señale los defectos.

(3) Ver los datos como una herramienta para mejorar los productos de consumo.

Visite un producto de Internet para el consumidor (probablemente sepa que ya no realiza pruebas A / B exhaustivas) y luego piense en su embudo principal. ¿Tienen un embudo de pago? ¿Tienen un embudo de registro? ¿Tienen un mecanismo de virilidad? ¿Tienen un embudo de compromiso?

Revise el embudo varias veces e hipotetice sobre las diferentes formas en que podría mejorar aumentar una métrica central (tasa de conversión, acciones, suscripciones, etc.). Diseñe un experimento para verificar si su cambio sugerido realmente puede cambiar la métrica central.

Reto : ¡compártelo con el correo electrónico de comentarios para el sitio de Internet del consumidor!

(4) Piensa como un bayesiano

Para pensar como un bayesiano, evite la falacia de la tasa base. Esto significa que para formar nuevas creencias debes incorporar tanto la información recién observada como la información previa formada a través de la intuición y la experiencia.

Al revisar su tablero, los números de participación de los usuarios han disminuido significativamente hoy. ¿Cuál de los siguientes es más probable?

1. Los usuarios de repente están menos comprometidos
2. Característica del sitio roto
3. La función de registro se rompió

Aunque la explicación n. ° 1 explica completamente la caída, los n. ° 2 y n. ° 3 deberían ser más probables porque tienen una probabilidad previa mucho mayor.

Estás en la alta gerencia de Tesla, y cinco de los Model S de Tesla se han incendiado en los últimos cinco meses. ¿Cuál es más probable?

1. La calidad de fabricación ha disminuido y Teslas ahora debería considerarse inseguro.
2. La seguridad no ha cambiado y los incendios en los Tesla Model S son aún más raros que sus homólogos en los automóviles a gasolina.

Si bien el n. ° 1 es una explicación fácil (y excelente para la cobertura de los medios), su anterior debe ser fuerte en el n. ° 2 debido a sus pruebas de calidad regulares. Sin embargo, aún debe buscar información que pueda actualizar sus creencias sobre el n. ° 1 frente al n. ° 2 (y aún así encontrar formas de mejorar la seguridad). Pregunta para pensar: ¿qué información debe buscar?

Desafío: identifique la última vez que cometió la Falacia de tasa base. Evite cometer la falacia de ahora en adelante.

(5) Conozca las limitaciones de sus herramientas

“El conocimiento es saber que un tomate es una fruta, la sabiduría no es ponerlo en una ensalada de frutas”. – Miles Kington

El conocimiento es saber cómo realizar una regresión lineal ordinaria, la sabiduría es darse cuenta de lo raro que se aplica limpiamente en la práctica.

El conocimiento es conocer cinco variaciones diferentes de la agrupación de K-means, la sabiduría es darse cuenta de cuán raramente los datos reales se pueden agrupar limpiamente, y qué tan mal la agrupación de K-means puede funcionar con demasiadas características.

El conocimiento es conocer una amplia gama de técnicas sofisticadas, pero la sabiduría es poder elegir la que proporcionará la mayor cantidad de impacto para la empresa en un tiempo razonable.

Puede desarrollar una amplia gama de herramientas mientras realiza sus cursos Coursera o EdX, pero su caja de herramientas no es útil hasta que sepa qué herramientas usar.

Desafío: aplique varias herramientas a un conjunto de datos real y descubra las compensaciones y limitaciones de cada herramienta. ¿Qué herramientas funcionaron mejor? ¿Puedes entender por qué?

(6) Enseñar un concepto complicado

¿Cómo distingue Richard Feynman qué conceptos entiende y qué conceptos no entiende?

Feynman fue un gran maestro. Se enorgullecía de poder idear formas de explicar incluso las ideas más profundas a los estudiantes principiantes. Una vez, le dije: “Dick, explícame, para que pueda entenderlo, por qué las partículas de la mitad giran obedecen las estadísticas de Fermi-Dirac”. Evaluando a su audiencia perfectamente, Feynman dijo: “Prepararé una conferencia sobre estudiantes de primer año”. Pero regresó unos días después y dijo: “No pude hacerlo. No pude reducirlo al nivel de primer año. Eso significa que realmente no lo entendemos”. – David L. Goodstein, Conferencia perdida de Feynman: El movimiento de los planetas alrededor del sol

Lo que distinguió a Richard Feynman fue su habilidad para convertir conceptos complejos en ideas comprensibles. Del mismo modo, lo que distingue a los principales científicos de datos es su capacidad para compartir de manera convincente sus ideas y explicar sus análisis.

Consulte https://www.quora.com/Edwin-Chen … para ver ejemplos de conceptos técnicos explicados convincentemente.

Desafío: enseñe un concepto técnico a un amigo o en un foro público, como Quora o YouTube.

(7) Convencer a otros sobre lo que es importante

Quizás incluso más importante que la capacidad de un científico de datos para explicar su análisis es su capacidad para comunicar el valor y el impacto potencial de las ideas procesables.

Ciertas tareas de la ciencia de datos se comercializarán a medida que las herramientas de ciencia de datos se vuelvan cada vez mejores. Las nuevas herramientas harán que ciertas tareas queden obsoletas, como escribir paneles, disputas innecesarias de datos e incluso tipos específicos de modelos predictivos.

Sin embargo, la necesidad de que un científico de datos extraiga y comunique lo que es importante nunca quedará obsoleto. Con cantidades crecientes de datos y perspectivas potenciales, las empresas siempre necesitarán científicos de datos (o personas con funciones similares a la ciencia de datos), para clasificar todo lo que se puede hacer y priorizar las tareas en función del impacto.

El papel del científico de datos en la empresa es servir como embajador entre los datos y la empresa . El éxito de un científico de datos se mide por lo bien que él / ella puede contar una historia y tener un impacto. Cualquier otra habilidad se amplifica por esta habilidad.

Desafío: contar una historia con estadísticas. Comunicar los hallazgos importantes en un conjunto de datos. Haga una presentación convincente que le interese a su audiencia.

¡Buena suerte y los mejores deseos en tu viaje para convertirte en un científico de datos! Para obtener más recursos, consulte las Preguntas frecuentes oficiales de Quora Data Science de Quora

Hay una visualización realmente completa y genial del camino a seguir para convertirse en un científico de datos.

La infografía muestra las habilidades necesarias para convertirse en un buen científico de datos y trazó el camino de aprendizaje de un científico de datos de acuerdo con 10 dominios diferentes.

Editar: La imagen proviene del artículo, Convertirse en un científico de datos – Plan de estudios a través de Metromap – Perspectivas pragmáticas, por Swami Chandrasekaran.

Si quieres lograr el éxito, sigue los cinco pasos que me han funcionado bien.

El primer paso debe ser aprender lo básico. El mejor curso de aprendizaje automático hasta ahora es Machine Learning por Andrew Ng. Debería ser tu primer paso para completarlo. He tenido la costumbre de escuchar este curso durante el viaje a la sede de Microsoft durante mi pasantía.

Después de eso, puedo recomendar un curso complementario Neural Networks de Geoffrey Hinton.

Si ha terminado, proceda a aprender cursos de nivel intermedio .

Esos han funcionado para mí cuando los vi con un grupo de amigos del Machine Learning Research Group, junto con la pizza obligatoria 🙂

  • Udacity Deep Learning
  • Tutorial de Tensorflow
  • Curso oficial de redes neuronales convolucionales de Stanford
  • Video curso de aprendizaje profundo de Nando de Freitas
  • Libro de aprendizaje profundo de Ian Goodfellow

Después de eso, lea los últimos y más importantes documentos de nivel experto de conferencias y revistas.

La mejor manera de hacerlo es participar en un grupo de estudio o lista de distribución en su empresa. He oído que Google, Microsoft y NVIDIA tienen buenos. Nosotros en Sigmoidal tenemos un canal dedicado de Slack para descubrir y estudiar trabajos recientes.

  • Conferencia internacional sobre aprendizaje automático
  • Descubrimiento de conocimiento y minería de datos
  • Sistemas de procesamiento de información neuronal
  • Aprendizaje automático
  • Journal of Machine Learning Research
  • Transacciones sobre conocimiento e ingeniería de datos
  • Revista de Investigación de Inteligencia Artificial

Recopilando suficiente conocimiento, puede comenzar a convertirse en Practicante compitiendo en concursos en las plataformas Kaggle y TopCoder .

He conocido a muchas personas compitiendo juntas en competencias y resolviendo problemas mundiales como cáncer de mama o sobrecalentamiento de la estación espacial internacional

Varias personas que conocí durante el concurso están trabajando para mí ahora. 🙂 Es por eso que, después de tener éxito en los concursos, podrá asegurar fácilmente un trabajo de nivel de entrada, convirtiéndose en un científico de datos profesional

Conviértase en un científico de datos haciendo ciencia de datos

La mejor manera de convertirse en un científico de datos es aprender, y hacer, ciencia de datos. Hay muchos cursos y herramientas excelentes disponibles en línea que pueden ayudarlo a llegar allí.

Aquí hay una increíble lista de recursos compilados por Jonathan Dinu, cofundador de Zipfian Academy, que capacita a científicos e ingenieros de datos en San Francisco a través de programas inmersivos, becas y talleres.

EDITAR : He recibido varias solicitudes para un enlace permanente a esta respuesta. Ver aquí: una introducción práctica a la ciencia de datos de la Academia Zipfian

EDIT2: Vea también: “Cómo convertirse en un científico de datos” en SlideShare: http://www.slideshare.net/ryanor

Ambiente
Python es un gran lenguaje de programación de elección para los aspirantes a científicos de datos debido a su aplicabilidad de propósito general, una curva de aprendizaje suave (o firme) y, quizás la razón más convincente, el rico ecosistema de recursos y bibliotecas utilizados activamente por la comunidad científica.

Desarrollo
Al aprender un nuevo idioma en un nuevo dominio, es de gran ayuda tener un entorno interactivo para explorar y recibir comentarios inmediatos. IPython proporciona un REPL interactivo que también le permite integrar una amplia variedad de marcos (incluido R) en sus programas de Python.

ESTADÍSTICAS
Los científicos de datos son mejores en ingeniería de software que los estadísticos y mejores en estadística que cualquier ingeniero de software. Como tal, la inferencia estadística sustenta gran parte de la teoría detrás del análisis de datos y una base sólida de métodos estadísticos y probabilidad sirve como un trampolín en el mundo de la ciencia de datos.

Cursos
edX: Introducción a la estadística: Estadística descriptiva: Un curso básico de estadística introductoria.

Coursera Statistics, Making Sense of Data: un curso de estadística aplicada que enseña la línea completa de análisis estadístico

MIT: Pensamiento estadístico y análisis de datos: Introducción a la probabilidad, muestreo, regresión, distribuciones comunes e inferencia.

Si bien R es el estándar de facto para realizar análisis estadísticos, tiene una curva de aprendizaje bastante alta y hay otras áreas de la ciencia de datos para las que no es muy adecuado. Para evitar aprender un nuevo idioma para un dominio de problema específico, recomendamos intentar realizar los ejercicios de estos cursos con Python y sus numerosas bibliotecas estadísticas. Encontrará que gran parte de la funcionalidad de R se puede replicar con NumPy, @SciPy, @Matplotlib y @Python Data Analysis Library

Libros
Los libros bien escritos pueden ser una gran referencia (y complemento) para estos cursos, y también proporcionan una experiencia de aprendizaje más independiente. Estos pueden ser útiles si ya tiene algún conocimiento del tema o simplemente necesita llenar algunos vacíos en su comprensión:

O’Reilly Think Stats: una introducción a la probabilidad y las estadísticas para programadores de Python

Introducción a la probabilidad: Libro de texto para la clase Stats 134 de Berkeley, un tratamiento introductorio de probabilidad con ejercicios complementarios.

Notas de clase de Berkeley, Introducción a la probabilidad: notas de clase compiladas del libro de texto anterior, completadas con ejercicios.

OpenIntro: Estadísticas: libro de texto introductorio con ejercicios y laboratorios complementarios en un portal en línea.

Think Bayes: una introducción simple a las estadísticas bayesianas con ejemplos de código Python.

APRENDIZAJE DE MÁQUINAS / ALGORITMOS
Una base sólida de informática y algoritmos es esencial para un aspirante a científico de datos. Afortunadamente, hay una gran cantidad de excelentes recursos en línea, y el aprendizaje automático es una de las habilidades más lucrativas (y avanzadas) de un científico de datos.

Cursos
Coursera Machine Learning: el famoso curso de aprendizaje automático de Stanford impartido por Andrew Ng.

Coursera: Métodos computacionales para el análisis de datos: Métodos estadísticos y análisis de datos aplicados a las ciencias físicas, de ingeniería y biológicas.

MIT Data Mining: una introducción a las técnicas de minería de datos y cómo aplicar algoritmos de ML para obtener información.

Edx: Introducción a la Inteligencia Artificial: Introducción a la Inteligencia Artificial: La primera mitad del popular curso de IA de Berkeley que te enseña a construir agentes autónomos para tomar decisiones de manera eficiente en entornos estocásticos y adversos.

Introducción a la informática y la programación: curso introductorio del MIT a la teoría y la aplicación de la informática.

Libros
UCI: un primer encuentro con el aprendizaje automático: una introducción a los conceptos de aprendizaje automático centrados en la intuición y la explicación de por qué funcionan.

Una guía del programador para la minería de datos: un libro basado en la web completo con ejemplos de código (en Python) y ejercicios.

Estructuras de datos y algoritmos con patrones de diseño orientados a objetos en Python: una introducción a la informática con ejemplos de código en Python: cubre el análisis de algoritmos, estructuras de datos, algoritmos de clasificación y diseño orientado a objetos.

Introducción a la minería de datos: una guía interactiva del árbol de decisiones (con conferencias hipervinculadas) para aprender minería de datos y aprendizaje automático.

Elementos del aprendizaje estadístico: uno de los tratamientos más completos de minería de datos y ML, a menudo utilizado como libro de texto universitario.

Stanford: Introducción a la recuperación de información: Libro de texto de un curso de Stanford sobre PNL y recuperación de información con secciones sobre clasificación de texto, agrupación, indexación y rastreo web.

INGESTIÓN Y LIMPIEZA DE DATOS
Uno de los aspectos menos apreciados de la ciencia de datos es la limpieza y el munging de datos que a menudo representa el sumidero de tiempo más significativo durante el análisis. Si bien nunca hay una bala de plata para tal problema, conocer las herramientas, técnicas y enfoques correctos puede ayudar a minimizar el tiempo dedicado a discutir los datos.

Cursos
Escuela de datos: una introducción suave a la limpieza de datos: un enfoque práctico para aprender a limpiar datos, con muchos ejercicios y recursos web.

Tutoriales
Análisis predictivo: preparación de datos: una introducción a los conceptos y técnicas de muestreo de datos, teniendo en cuenta los valores erróneos y manipulando los datos para transformarlos en formatos aceptables.

Herramientas
OpenRefine (anteriormente Google Refine): una herramienta poderosa para trabajar con datos desordenados, limpiarlos, transformarlos, extenderlos con servicios web y vincularlos a bases de datos. Piensa en Excel con esteroides.

Data Wrangler: proyecto de investigación de Stanford que proporciona una herramienta interactiva para la limpieza y transformación de datos.

sed – una Introducción y Tutorial: “El último editor de flujo”, utilizado para procesar archivos con expresiones regulares que a menudo se utilizan para la sustitución.

awk – Introducción y tutorial: “Otra piedra angular de la programación de shell de UNIX” – utilizada para procesar filas y columnas de información.

VISUALIZACIÓN
El análisis de datos más perspicaz es inútil a menos que pueda comunicar sus resultados de manera efectiva. El arte de la visualización tiene una larga historia, y aunque es uno de los aspectos más cualitativos de la ciencia de datos, sus métodos y herramientas están bien documentados.

Cursos
Visualización de UC Berkeley: clase de posgrado sobre técnicas y algoritmos para crear visualizaciones efectivas.

Visualización de datos de la Universidad de Rice: un tratamiento de visualización de datos y cómo presentar información de manera significativa desde la perspectiva de la estadística.

Introducción a la informática, modelado y visualización de la Universidad de Harvard: conecta los conceptos de informática con datos al proceso de visualización interactiva de resultados.

Libros
Tufte: la pantalla visual de información cuantitativa: no disponible gratuitamente, pero quizás el texto más influyente para el tema de la visualización de datos. Un clásico que definió el campo.

Tutoriales
Escuela de datos: de los datos a los diagramas: una introducción suave para trazar y trazar datos, con ejercicios.

Análisis predictivo: descripción general y visualización de datos: una introducción al proceso de modelado predictivo y un tratamiento de la visualización de sus resultados.

Herramientas
D3.js: Documentos basados ​​en datos: manipulación declarativa de elementos DOM con funciones dependientes de datos (con puerto Python).

Vega: una gramática de visualización construida sobre D3 para visualizaciones declarativas en JSON. Lanzado por el equipo de ensueño en Trifacta, proporciona una abstracción de nivel más alto que D3 para crear gráficos basados ​​en SVG.

Rickshaw: una biblioteca de gráficos construida sobre D3 con un enfoque en gráficos de series de tiempo interactivas.

Mapas modestos: una biblioteca liviana con una interfaz simple para trabajar con mapas en el navegador (con puertos a varios idiomas).

Chart.js: Biblioteca de trazado basada en HTML5 “muy simple (solo seis gráficos) con un hermoso estilo y animación.

COMPUTACION A ESCALA
Cuando comienza a operar con datos a escala de la web (o superior), el enfoque fundamental y el proceso de análisis deben cambiar. Para combatir la cantidad cada vez mayor de datos, Google desarrolló el paradigma MapReduce. Este modelo de programación se ha convertido en el estándar de facto para el procesamiento por lotes a gran escala desde el lanzamiento de Apache Hadoop en 2007, el marco de MapReduce de código abierto.

Cursos
UC Berkeley: Análisis de Big Data con Twitter: un curso, impartido en estrecha colaboración con Twitter, que se centra en las herramientas y algoritmos para el análisis de datos aplicados a los datos de microblog de Twitter (con un plan de estudios basado en proyectos).

Coursera: Web Intelligence y Big Data: una introducción al manejo de grandes cantidades de datos de la web; cómo las herramientas y técnicas para adquirir, manipular, consultar y analizar datos cambian a escala.

CMU: Aprendizaje automático con grandes conjuntos de datos: un curso sobre algoritmos de escalamiento de aprendizaje automático en Hadoop para manejar conjuntos de datos masivos.

U de Chicago: Aprendizaje a gran escala: un tratamiento para manejar grandes conjuntos de datos a través de la reducción de dimensionalidad, clasificación, parametrización de características y estructuras de datos eficientes.

UC Berkeley: Machine Learning escalable: una amplia introducción a los sistemas, algoritmos, modelos y optimizaciones necesarios a escala.

Libros
Conjuntos de datos masivos de minería: recursos del curso de Stanford sobre aprendizaje automático a gran escala y MapReduce con el libro adjunto.

Procesamiento de texto intensivo en datos con MapReduce: una introducción a los algoritmos para la indexación y el procesamiento de texto que le enseña a “pensar en MapReduce”.

Hadoop: la guía definitiva: el tratamiento más completo del marco Hadoop, un gran tutorial y referencia por igual.

Programming Pig: una introducción al marco de Pig para programar flujos de datos en Hadoop.

PONIENDOLO TODO JUNTO
Data Science es un campo inherentemente multidisciplinario que requiere una gran cantidad de habilidades para ser un profesional competente. El plan de estudios necesario no se ajusta a las ofertas de cursos tradicionales, pero a medida que crece la conciencia de la necesidad de personas con tales habilidades, estamos viendo que universidades y empresas privadas crean clases personalizadas.

Cursos
UC Berkeley: Introducción a la ciencia de datos: un curso impartido por Jeff Hammerbacher y Mike Franklin que destaca cada una de las variadas habilidades con las que un científico de datos debe ser competente.

Cómo procesar, analizar y visualizar datos: un curso orientado al laboratorio que le enseña todo el proceso de ciencia de datos; desde la adquisición de conjuntos de datos y su análisis a escala hasta la visualización efectiva de los resultados.

Coursera: Introducción a la ciencia de datos: un recorrido por las técnicas básicas para la ciencia de datos, incluidas las bases de datos SQL y NoSQL, MapReduce en Hadoop, algoritmos ML y visualización de datos.

Columbia: Introducción a la ciencia de datos: un curso muy completo que cubre todos los aspectos de la ciencia de datos, con un tratamiento humanista del campo.

Columbia: ciencia de datos aplicada (con libro): otro curso de Columbia: enseña los fundamentos del desarrollo de software aplicado utilizando datos reales, dirigidos a personas con antecedentes matemáticos.

Coursera: Análisis de datos (con notas y conferencias): un curso de estadística aplicada que cubre algoritmos y técnicas para analizar datos e interpretar los resultados para comunicar sus hallazgos.

Libros
Introducción a la ciencia de datos: el libro de texto complementario del curso insignia de la Universidad de Syracuse para su nuevo programa de ciencia de datos.

Tutoriales
Kaggle: Comenzando con Python para la ciencia de datos: una visita guiada para configurar un entorno de desarrollo, una introducción para hacer su primera presentación de competencia y validar sus resultados.

CONCLUSIÓN
La ciencia de datos es un campo infinitamente complejo y esto es solo el comienzo.

Si desea ensuciarse las manos y ganar experiencia trabajando con estas herramientas en un entorno colaborativo, consulte nuestros programas en http://zipfianacademy.com .

También hay una excelente SlideShare que resume estas habilidades: Cómo convertirse en un científico de datos

También está invitado a conectarse con nosotros en Twitter @zipfianacademy y háganos saber si desea obtener más información sobre alguno de estos temas.

Si bien hay muchas maneras de comenzar, aquí está mi revisión sobre cómo tomar el Data Science | Python: curso de certificado de seguimiento de IBM a través de DeZyre Academy. Reconozco esto como un peldaño muy importante a medida que continúo aprendiendo diferentes herramientas que son relevantes en mi campo.


Ciencia de datos de Dezyre para Python Parte 3 y 4

Comencé a publicar esta serie en mi experiencia al tomar la certificación Python de IBM de Dezyre.com y estas son mis ideas sobre las clases 3 y 4. Creo que hay 12 en total repartidas en 5-6 semanas. Haga clic aquí para leer mi comentario sobre las clases 1 y 2.

Ciencia de datos para Python: Módulo 1 – Clase 1

Ciencia de datos para Python: Módulo 1 – Clase 2

Actualmente he completado mi cuarta clase de Python con Dezyre. Combiné las reseñas de esta semana en una publicación, ya que el contenido de las dos clases fue bastante similar, ya que aprendimos y practicamos el trazado usando matplotlib y seaborn.

Las clases tienen lugar los sábados y domingos con una tarea para completar, antes de la próxima clase. El día 3, al comienzo de la sesión, el instructor revisó la primera tarea que consistía en 7 problemas de declaración de programación.

Aprendí una valiosa lección cuando abordé la tarea. Después de la clase 2, revisé los problemas y me sentí seguro de poder completarlo sin ningún tipo de estrés. Debido a esto, en lugar de completar la tarea de inmediato, esperé hasta la noche anterior al próximo Módulo para intentarlo. Recordé la mayor parte de la lógica requerida para producir las declaraciones de python necesarias, pero había olvidado las reglas críticas de sintaxis basadas en lo que se nos mostró. Comencé la tarea a las 9:30 pm y no la terminé hasta la 1 am. Lo que parecía relativamente fácil simplemente no estaba funcionando para mí. Afortunadamente, pude ver los seminarios web y revisar algunos de los archivos de la facultad en mi tablero. ¡NUNCA MÁS! Me prometí a mí mismo que haría todo lo posible para completar las tareas dentro de 1-2 días para darme una mejor oportunidad.

Cuando el instructor Singh revisó los problemas, estaba en buena forma, excepto el último (# 7). Hice muchas preguntas al respecto y todas fueron respondidas tanto por el instructor de la conferencia como por el instructor de la sala de chat.

Para ser claros, hago muchas preguntas a lo largo de toda la clase. Intento encontrar mis errores yo mismo, pero confío en el instructor de chat si no puedo verlo. Me siento terrible haciendo un millón de preguntas y publicando mi código en el registro de chat privado varias veces, ¡pero los instructores son MUY ÚTILES! Son pacientes y alentadores, y hay mucho que aprendemos en el camino. No se sentirá pequeño por no ver las comillas adicionales o lo que sea que esté causando su mensaje de error. ¡¡¡MUY IMPORTANTE!!! No puedo aprender de alguien que se irrita si no entiendo el trabajo. Nunca se sabe realmente quién está enseñando al final de estas cosas. Nos arriesgamos y pagamos varios cientos o incluso miles para que se les enseñe, teniendo muy poca idea de las personalidades detrás del programa. Siento que estoy en buenas manos con Dezyre. Cuando aprendes algo nuevo, es importante que quien enseña sea sensible a tu novedad. Como un niño que aprende a escribir sus números y letras por primera vez, nosotros también aprendemos a leer y escribir en un idioma nuevo por primera vez. Los instructores Singh y Sauram hacen un gran trabajo. Desde problemas de ortografía hasta errores más complejos, ambos instructores están muy bien informados y pueden saber con solo mirar el código lo que debe corregirse. Nunca se me ha ignorado una pregunta y tengo un promedio de 10 por sesión.

¡No más problemas de audio! Usé mi teléfono para llamar en las últimas 3 clases y personalmente prefiero la calidad del sonido. Llamo y lo dejo en el altavoz mientras ejecuto el código en el laboratorio. Si eres como yo y prefieres el teléfono, asegúrate de que esté cargado o que el cargador esté cerca. Prepárese antes de que comience la sesión porque nunca sabe si tendrá la oportunidad de abandonar su PC o cuándo. Si puede comer y tomar sus descansos en el baño antes, también ayuda. Es cierto que podemos acceder a los videos y ver lo que nos hemos perdido, pero ahorra tiempo a la clase y al instructor de tener que repetirse.

Cubrió un poco más NumPy y estoy empezando a entender algunas de las funciones comunes.

Realizamos un análisis exploratorio de datos y trazamos algunos datos usando matplotlib. ¡Esto fue lo más sorprendente que me había encontrado en mucho tiempo! ¡Muy impresionado! Debo decir que me enamoré de matplotlib durante la clase 3.

Durante la clase 3, nos presentaron el Proyecto Euyler, un proyecto en línea donde las personas pueden practicar su código. Este sitio presenta una serie de problemas matemáticos de programación de computadoras en los que los usuarios compiten para terminar primero o cerca de la cima. Dado que el sitio es reconocido, su rendimiento (si es bueno) se puede publicar en su currículum. Planeo participar y publicaré actualizaciones la próxima semana.

El día 4 vino y se fue y la clase tramó con Seaborn y matplotlib. El día 4 fue la primera vez que nos pidieron que escribiéramos declaraciones para nuestras propias parcelas. Esto fue complicado, pero ambos instructores fueron increíblemente útiles, lo descubrí y completé mis primeros argumentos. ¡¡Increíble!!

Aquí hay una captura de pantalla de algunos de mis trabajos. Este es el tipo de cosas que hacemos en cada sesión, escribimos código en el laboratorio mientras el instructor guía al grupo.

Las declaraciones aumentan con la dificultad y el tamaño de cada tarea. Justo cuando pasamos a los diagramas de densidad, el servidor se sobrecargó y se nos indicó que actualizáramos nuestras páginas. Esto no ayudó, ya que iPython no estaba cooperando, por lo que el instructor cerró la clase una hora antes. Esto realmente no me molestó ya que indicó que compensaríamos la hora perdida más adelante en el curso. ¡Hasta aquí todo bien! Realmente estoy amando este curso !!! Antes de cerrar, pedí una plataforma para practicar y me dirigieron a Sage Math, otro recurso de código abierto que le permite crear proyectos utilizando las bibliotecas para Python, R y otras herramientas. Me inscribí y conecté mi nuevo perfil de Sage Math a mi cuenta de Github. Probaré mis propios proyectos allí a medida que avancemos (más sobre eso por venir).

Siempre escucho que los empleadores miran sus proyectos de Github mientras consideran sus calificaciones. Bueno, esta es una excelente manera de comenzar! Esta clase es más que un simple curso de Python. No hay nada mejor que aprender de expertos que pueden enseñar con paciencia y guiarlo a recursos invaluables para mejorar su conjunto de habilidades.

Estoy más que feliz con mi decisión de tomar este curso con Dezyre. Ya no siento que estoy tratando de convertirme en un científico de datos, pero más aún, me estoy convirtiendo en un científico de datos, lentamente, una clase a la vez. Tengo la intención de tomar Dezyre’s Data Science para R justo después de que termine mi clase de Python. Si tiene dificultades para obtener instrucciones sobre cómo comenzar su viaje en Data Science, y necesita calificaciones profesionales para agregar a su currículum, le recomiendo este programa.

http://DataCami.com

La mayoría de las personas se confunden con la carrera de ciencia de datos para ellos.

La mejor hoja de ruta para prepararse para la ciencia de datos:

  • Aprender lenguaje de programación: ¡Sí! necesitas aprender lenguajes de programación. Pruebe Python primero, ya que es muy fácil de aprender y pertenece a la categoría de código abierto. Aprenda Python aquí: Tutoriales de Python: Temporada 1 (No necesita ser Python Ninja, solo se necesita información básica). A continuación, pruebe el lenguaje de programación “R”. También es de código abierto. Aprenda R aquí: DataCamp: la forma más fácil de aprender R y ciencia de datos (es gratis)
  • El conocimiento de SQL es necesario: como vas a jugar con muchos datos, mi recomendación es aprender SQL. Puede aprender SQL aquí: SQLZOO o del canal de youtube de “Manish Sharma”: tutoriales de SQL para principiantes / tutoriales de Oracle Database.
  • Aprendamos Estadística y Probabilidad: La probabilidad también se llama la ciencia de la incertidumbre y ese concepto es más importante en el campo de la DS. Puedes aprenderlo de los cursos del MIT. Aquí está el enlace de youtube: Probabilidad y estadísticas MIT
  • Aprendizaje automático: Otro tema importante que todos deberían aprender es el “Aprendizaje automático”. Necesitas tener conocimientos de matemáticas para aprender ML. Aquí está el mejor tutorial del mundo sobre ML: Lecture Collection | Aprendizaje automático
  • Aprenda el procesamiento del lenguaje natural: esta es la mejor referencia, procesamiento del lenguaje natural con Python

Hay muchos proyectos ficticios disponibles en internet. Intenta terminarlo. Hacer el hogar de la ciencia de datos, etc.

¿Estás buscando tecnologías de Big Data? En caso afirmativo, siga el siguiente camino: la respuesta de Akash Dugam a ¿Cuáles son las habilidades necesarias para los trabajos de Big Data?

Los libros son realmente verdaderos amigos de los humanos. Si realmente está buscando algún tipo de guía sobre la carrera en ciencia de datos y cuáles son los libros disponibles para consultar, lea este artículo: la respuesta de Akash Dugam a ¿Cuáles son los buenos libros para “científico de datos” y “análisis de datos” para ¿principiante?

¡Aprende ciencia! Obtenga un doctorado en alguna práctica científica que requiera que construya infraestructura, procesamiento y análisis para conjuntos de datos a escala de terabytes; podría trabajar en física de partículas, nanotecnología o genómica, por ejemplo. Una vez que haya dominado el dominio del problema, la ingeniería y los métodos estadísticos / ML requeridos para resolver algunos problemas específicos, publíquese en su campo para demostrar que otros pueden confiar en su trabajo y su validez científica . Ahora eres oficialmente un científico que puede lidiar con problemas de análisis y datos a gran escala (científico de datos). Alternativamente, considere convertirse en ingeniero de datos, analista de datos o especialista en aprendizaje automático.

Estas son las habilidades más buscadas que los empleadores buscan para los puestos de Data Scientist, en función del análisis realizado en las ofertas de trabajo (también incluí algunos recursos gratuitos que encontré para cada habilidad):

    1. Python

    • Curso de principiantes de programación web: aprenda la programación de Python
    • Pitón
    • Learn Python – Tutorial interactivo gratuito de Python

    2. Aprendizaje automático

    • Aprendizaje automático en curso
    • Aprendizaje automático en curso

    3. R

    • Aprenda el lenguaje de programación R y los conceptos básicos de RStudio en 1 hora
    • Lenguaje de programación R – Code School
    • Introducción a R | DataCamp

    4. Big Data

    • Universidad Big Data
    • Big Data y Hadoop Essentials – Udemy
    • Descripción básica de Big Data Hadoop – Udemy

    5. Hadoop

    • Big Data y Hadoop Essentials – Udemy
    • Descripción básica de Big Data Hadoop – Udemy
    • Curso de formación y certificación de Hadoop | Udemy

    6. SQL

    • Entrenamiento interactivo en línea de SQL para principiantes
    • Sachin Quickly Learns (SQL): lenguaje de consulta estructurado
    • Tutorial SQL

    7. Estadísticas

    • Estadísticas uno en curso
    • Estadística y probabilidad
    • Probabilidad y Estadística

    8. Java

    • Aprenda Java: el tutorial de programación de Java para principiantes
    • Aprenda Java – Tutorial interactivo gratuito de Java
    • Aprenda programación Java desde cero – Udemy

    9. Minería de datos

    • Minería de datos y raspado web: cómo convertir sitios en datos
    • Minería de datos en curso

    Una excelente manera de adquirir nuevas habilidades y hacer crecer su red profesional es asistir a reuniones: Data Science Meetups

    Puede obtener más información sobre las habilidades necesarias para convertirse en un científico de datos y obtener recursos relevantes aquí.

    Descargo de responsabilidad: cualquiera que haya escrito sus respuestas aquí tiene mucha más experiencia y desarrollo en ciencia de datos que yo. Soy totalmente nuevo en ciencia de datos.

    William Chen me invitó a responder esta pregunta, así que usaré mi publicación como respuesta:
    Año Nuevo Nuevo Comienzo: Vamos con las mejores escuelas por Julie Lin sobre Julie Data Learning
    Descubro un nuevo enfoque para continuar mi viaje de datos. (Nuevo para mí pero quizás no nuevo para ustedes)

    Espía…. No, quiero decir, buscar en los programas de ciencia de datos / análisis de datos de las mejores escuelas, obtener los materiales y enseñarme a mí mismo utilizando sus rutas bien diseñadas.

    Si tiene alguna idea y consejo sobre esta publicación, no dude en comentar. Sus palabras pueden ayudarme a mí y a otras personas a partir de la ciencia de datos.


    Razones para ir con los mejores sistemas educativos
    (Para ahorrar tiempo, no dude en omitir esta parte y “Contras” en “Recursos y enlaces para comenzar”)

    1. Fundamento académico riguroso.
    Este es el mayor problema de aprendizaje autodirigido que veo: falta de una base académica sólida y rigurosa para desarrollar un pensamiento crítico adicional. Al igual que la arquitectura de edificios, una base buena y sólida es necesaria para ir más alto.
    Si todo lo que desea es resolver rápidamente un problema de trabajo temporal, aprenda y aplique una herramienta de cualquier “libro de herramientas de análisis de datos”.
    Pero busco ir más allá.

    2. Camino estructurado.
    En la primera lista de libros compartida en este blog, algunos grandes libros fueron muy recomendados por los gurús del análisis de datos, que personalmente seguí como la ruta de mi viaje. Sin embargo, ahora los veo más como frutas, flores y hojas de un árbol, en lugar de todo el árbol.
    Para hacer crecer el árbol, probablemente necesitemos una imagen completa y un desarrollo estructurado. Mi visión ve una mayor probabilidad en un camino educativo que ha sido diseñado y aprobado por profesores experimentados y los mejores sistemas educativos en los EE. UU.
    La lista de libros recomendada sigue siendo útil, como “suplemento nutricional” autodirigido.

    Ambos puntos 1 y 2 se pueden explicar con un ejemplo:
    Cuando comencé a elegir la lista de libros para ciencia de datos, busqué directamente libros de “análisis de datos” y “ciencia de datos” o cursos en línea. Pero no entendí que estadísticas vitales, matemáticas y un poco de experiencia en programación son vitales para sumergirse en los libros / cursos de ciencias de datos. Después de buscar en las mejores escuelas de ciencias de datos de las escuelas de pregrado a posgrado, me di cuenta de que debe ser un paquete diseñado completo que incluya bases sólidas de estadística, matemáticas e informática además de la ciencia de datos.

    3. Práctica común
    Un libro o el consejo de un gurú pueden ser buenos en un aspecto basado en sus experiencias personales. Seguirlos sin un juicio experimentado es apostar ciegamente que no estás en un camino torcido. Una vez más, veo una mayor probabilidad de encajar en los mejores programas educativos, ya que fueron diseñados para adaptarse a cientos de excelentes estudiantes.

    Contras de los mejores programas de ciencia de datos escolares

    1. Defectos del programa en sí
    Clases de Harvard sobre ciencia de datos
    Este artículo, hace aproximadamente 1 año, argumentó principalmente que el programa de ciencia de datos de Harvard se basa tradicionalmente en estadísticas y carece de elementos automatizados o de “máquina a máquina”.
    La defensa que respondió al artículo fue principalmente el cliché de Ivy League sobre “los grandes recursos académicos y las excelentes personas en las mejores escuelas”. Como aprendiz autodirigido, creo que las respuestas realmente no están ayudando a cubrir la falla.
    Esta totalmente bien. Puedo “complementar la nutrición” leyendo los libros de aprendizaje automático en mi lista de libros.

    2. No poder participar en proyectos de clase real
    Creo que puedo solucionarlo haciendo concursos en línea The Home of Data Science, consulte los recursos de William Chen a continuación.

    Recursos y enlaces para comenzar

    Aunque tomé Harvard como el ejemplo en la sección “Contras”, quiero dar un gran aplauso a los profesores y estudiantes / ex alumnos de Harvard por compartir recursos útiles e información sobre ciencia de datos.
    Por favor, consulte las respuestas de William Chen en quora.
    Escribió excelentes respuestas sobre cómo comenzar el camino de la ciencia de datos y compartió excelentes recursos educativos que las personas fuera de Harvard pueden usar.
    Muchas gracias a él y a otras personas que sinceramente comparten los recursos para ayudar a otros en la ruta de la ciencia de datos.
    Algunas buenas preguntas / respuestas que veo de la historia pasada de William. Su respuesta y las respuestas de otros gurús deberían ser un buen comienzo para echar un vistazo a los mejores programas de educación:

    (No me gusta el hecho de que el blog de Quora no puede insertar tablas …)

    1)

    ¿Cómo me convierto en un científico de datos?

    Probablemente todos los recursos de configuración para comenzar estén aquí: Python para configurar, blogs para seguir, archivos PDF gratuitos, etc.

    Realiza la mayoría de las competiciones de iniciación y juegos de Kaggle

    2)

    ¿Qué tan similares son las competencias de Kaggle con lo que hacen los científicos de datos?

    Tenga esto en cuenta para ser un científico de datos.

    1. “Listo es mejor que perfecto”.

    2. En competencia, los puntajes hablan. En la vida real, los científicos de datos necesitan convencer a los compañeros de equipo para que actúen en su análisis. (La comunicación y la presentación son siempre vitales)

    3)

    La respuesta de William Chen a ¿Cómo aprendo minería de datos? ¿Este curso de Harvard cs109 sigue siendo válido con desarrollos recientes?

    Clase de ciencia de datos CS109 en Harvard

    Él habla mucho sobre este curso en otras publicaciones largas también … este fue el fácil de obtener la información sobre la clase.

    4)

    ¿Qué clases debo tomar si quiero ser un científico de datos?

    La página de preguntas resume una lista de preguntas para clases particulares para tomar en las mejores escuelas específicas. La respuesta de William ofrece un gran resumen sobre la estructura del conocimiento que un científico de datos debería tener.

    El resumen de William está de acuerdo con el camino que encontré en el programa de ciencia de datos de Stanford a continuación.


    Ciencias de datos de las mejores escuelas o plan de estudios relacionado
    Descargo de responsabilidad: no digo que estas cuatro sean las mejores universidades más importantes de EE. UU., Pero debido a la limitación de tiempo, solo puedo buscar en el plan de estudios de estas 4 escuelas hasta la cabeza.

    1. Stanford Statistic Master Program Data Science Track
    Personalmente, creo que este es el programa académico más riguroso entre el plan de estudios que busqué.
    Instituto de Ingeniería Computacional y Matemática
    El diseño del camino está bien redondeado con estadística, matemáticas y un poco de informática. Sí, similar a los contras de Harvard anteriores, se hace más hincapié en los requisitos estadísticos y matemáticos como parte del programa estadístico. Sin embargo, veo aprendizaje automático y otros cursos relacionados automatizados interesantes en asignaturas optativas.
    Yo personalmente preguntaría a los amigos de Stanford para ver si puedo obtener algún programa de estudios, comprar los mismos libros y tratar de conectarme con estudiantes / profesores en los cursos para discutir. Si alguno de ustedes que está leyendo esta publicación conoce a alguien en los cursos, por favor conécteme, ¡gracias!
    Si no puede obtener información sobre los cursos, creo que la copia de seguridad es sustituir por cursos similares de otros recursos escolares / en línea.
    2. Plan de estudios en línea de UC Berkeley
    Plan de estudios | Programa de ciencia de datos | [correo electrónico protegido]
    Siento que este currículo es más en el sentido de “aplicable” que “académico”. Personalmente, creo que el programa está diseñado para aquellas personas que quieren “¡Boom! ¡Estás listo para trabajar en el mundo real! ”Los cursos del plan de estudios se ven elegantes y a la moda con los datos actuales de big data / machine learning. También enseña buenas habilidades aplicables en la presentación de datos.
    Sin embargo, parece un poco como las otras escuelas en línea de “bootcamp”. No estoy seguro de qué puedo hacer con él. Prefiero hacer las clases en línea de Berkeley en Edx primero.

    3. Certificado de Ciencias de Datos de la Escuela de Extensión de Harvard
    No pude encontrar un título / título en ciencias de datos en los programas de pregrado y posgrado de Harvard. El plan de estudios que encontré estaba abierto a los certificados públicos. Es un poco simple en los requisitos. El curso central CS109 parece ser el que William compartió recursos. Simplemente iría con los recursos de William.

    4. MIT
    No pude encontrar ningún plan de estudios específicamente relacionado con la ciencia de datos en el sitio web del MIT. Lo único que encontré sobre la ciencia de datos del MIT fueron los cursos sobre Edx.

    Otros recursos aleatorios que encontré en línea:
    1. CS 194-16 Introducción a la ciencia de datos – UC Berkeley, primavera de 2014
    Introducción a la ciencia de datos
    2. Harvard STAT 221 Blog “Computación estadística y visualización” con todas las conferencias en línea
    Harvard Data Science

    Gracias por leer esta larga publicación. Espero que ayude no solo a mí sino a alguien más. Si encuentra algún error o problema que le gustaría discutir, no dude en dejar comentarios o enviarme un mensaje.

    ¡Que tengan una gran marcha!

    En primer lugar, he estado en TI durante más de 30 años. Soy un científico de datos, entre otras cosas, para empezar me he cortado los dientes en el lado de la base de datos. Ignorando a todas las personas que lo animan, no entrará directamente en este papel sin mucha suerte. Aquí hay una hoja de ruta para entrar por esa puerta. Tome más clases, esta vez en TI en el lado de datos, clases avanzadas en estadísticas y más. Los gerentes de contratación querrán ver experiencia, querrán ver clases como mínimo. Recoge tantas estadísticas como puedas soportar, lo mismo con las matemáticas de apoyo. Una buena parte de nuestros trabajos se encuentra en esta área de conocimiento. Busque pasantías y proyectos especiales de profesores universitarios en esta área y sea voluntario. Un título orientado a las estadísticas parece ayudar más, pero uno basado en TI también funcionará.

    Una vez que se haya construido, solicite los puestos de nivel de entrada. Al postularse, presiona todos los cursos y el trabajo real que has realizado en el rol mientras estabas en la escuela. Aprenda la ecología Hadoop / Big Data por completo. En el primer nivel de este campo, es muy probable que no se le asigne el trabajo de administrador para al menos el área Sandbox (desarrollo y capacitación). Ser un administrador de Hadoop puede abrir muchas puertas. Esto debería ser suficiente para darle un poco de una hoja de ruta a esa primera posición. No será fácil, este rol suele ser de segundo nivel y rara vez tiene puestos de nivel de entrada. El administrador de Hadoop pondrá los alimentos en la mesa y lo posicionará donde pueda ser visto por el equipo de DS.

    A medida que los científicos de datos alcanzan nuevos niveles de experiencia o cambian de trabajo, sus responsabilidades cambian invariablemente. Por ejemplo, una persona que trabaja sola en una empresa mediana puede pasar una buena parte del día en la limpieza de datos y munging. Se le puede pedir a un empleado de alto nivel en una empresa que ofrece servicios basados ​​en datos que estructurar proyectos de big data o crear nuevos productos.

    E-Learning es la mejor manera de aprender sobre Data Science. Siga estos enlaces para saber más sobre ciencia de datos.

    Entrenamiento en línea de Hadoop – Entrenamiento en línea de Hadoop | Hub4Tech.com

    Hadoop Classroom Training – Entrenamiento de Hadoop en Noida

    Preguntas de la entrevista de Hadoop – Preguntas y respuestas de la entrevista de Hadoop

    Prueba en línea de Hadoop – Prueba en línea de Hadoop | Prueba en línea | Examen simulado

    Preguntas de la entrevista de Cassandra- Preguntas y respuestas de la entrevista de Cassandra

    Cloudera – Prueba de DataScientist – Examen de prueba en línea de Data Science Essentials Cloudera (DS-200)

    Cloudera – Prueba de administración de Hadoop – Examen de prueba de Hadoop de administrador certificado de Cloudera (CCA-500)

    Cloudera – Prueba de desarrollador de Hadoop – Examen de prueba de desarrollador de Hadoop certificado por Cloudera (CCD-410)

    Brevemente, los pasos más importantes:

    • aprender Python, es ideal para el preprocesamiento, tiene muchas bibliotecas de aprendizaje automático / procesamiento de imágenes / nlp. A menos que sus datos sean realmente grandes, puede usar Python fácilmente. Muy recomendable para la creación de prototipos. Conozca bibliotecas como scikit-learn, scikit-image, Theano. Prueba OpenCV en Python.
    • El aprendizaje automático es la parte más prometedora de la IA actualmente. Debe obtener una comprensión profunda de esto, y tomará mucho tiempo. Recomendaría el curso de Andrew Ng de Coursera, luego el curso de Geoff Hinton también de Coursera.
    • No puede convertirse en un experto en aprendizaje automático sin aprender el razonamiento bayesiano. Para principiantes: Razonamiento bayesiano y aprendizaje automático: David Barber: 9780521518147: Amazon.com: Libros. Si ya tiene antecedentes profundos de matemática (estadística, álgebra lineal), debe probar el aprendizaje automático de Kevin Murphy: una perspectiva probabilística (serie de computación adaptativa y aprendizaje automático): Kevin P. Murphy: 9780262018029: Amazon.com: Libros. Hay casi de todo.
    • Ensúciate las manos. Implemente los métodos más importantes por sí mismo para obtener más comprensión, experiencia y diversión:> Es realmente un gran recuerdo cuando vi por primera vez que mi red neuronal puede reconocer dígitos.
    • Trate de estar al día, lea los periódicos, Quora y siga a los grandes científicos de datos en Twitter.
    • Hay un nano grado de Udacity en ciencia de datos, pero no lo hice.

    La secuencia de puntos se muestrea al azar.

    Si tienes tiempo para tomar cursos, pruébalo.

    1) Intenta tomar algunos de los cursos de matemáticas de pregrado que te perdiste. Álgebra Lineal, Cálculo Avanzado, Dif. Eq., Probabilidad, Las estadísticas son las más importantes. Después de eso, tome algunos cursos de Machine Learning. Lea algunos de los principales libros de texto de ML y manténgase al día con las revistas para tener una buena idea del campo.

    2) Lea sobre lo que están haciendo las principales compañías de datos. Después de 1 o 2 cursos de aprendizaje automático, debe tener suficientes antecedentes para seguir la mayoría de los trabajos académicos. Implemente algunos de estos algoritmos en datos reales.

    3) Si está trabajando con grandes conjuntos de datos, familiarícese con las últimas técnicas y herramientas (Hadoop, NoSQL, Spark, etc.) poniéndolas en práctica en el trabajo (o fuera del trabajo).

    4) Una gran parte de la ciencia de datos en el lado del desarrollo de productos es esencialmente la ingeniería de software y la capacidad de crear, modificar e implementar algoritmos. Como mencionó William Chen, muchos científicos de datos conocen Python, R, scikits-learn, etc., pero eso es principalmente para análisis o creación de prototipos. Si necesita implementar algo a escala o dentro de los sistemas de producción, es probable que necesite saber cómo escribir código en algo como Java o C ++. Echa un vistazo al libro Amazon.com: The Pragmatic Programmer: From Journeyman to Master (9780201616224): Andrew Hunt, David Thomas: Libros y el curso de Carpintería de software si vienes al desarrollo de software desde un fondo científico.

    Hice una entrevista de TCTV recientemente con Semil Shah donde profundizamos en cómo convertirse en un científico de datos:

    * http://techcrunch.com/2012/09/06

    Comience a analizar grandes conjuntos de datos disponibles gratuitamente en la web. Por ejemplo, creé un pronosticador de volumen y precio de palabras clave reuniendo datos de palabras clave de la API de Google y Microsoft, y diseñando mis propios algoritmos. Ni siquiera necesita un título para hacer eso, y de todos modos no hay un plan de estudios universitario que le enseñe cómo hacerlo. Toda la tecnología que desarrollé se puede aprender navegando por la web, pero también hay una buena cantidad de artesanía, arte y buen juicio, algo que no se puede adquirir / comprar con dinero. Publicaré un artículo de 10 páginas en http://www.analyticbridge.com sobre la tecnología que es útil para carreras exitosas de científicos de datos.

    Otro gran problema es vender sus soluciones a su jefe o clientes. Para lograr este objetivo, necesita muy buenas habilidades de comunicación. También deberá cumplir estrictamente con la regla 80/20: ningún dato es perfecto.

    Si bien la mayoría de la gente piensa que la ciencia de datos es un campo amplio y vagamente definido, el hecho es que la ciencia de datos involucra un conjunto de habilidades que es algo limitado, si no increíblemente amplio. También hay subroles y especialidades dentro del trabajo de ciencia de datos que a menudo se combinan con el trabajo que hacen los científicos de datos. Si bien un científico de datos puede pensar en soluciones de ingeniería y comunicación comercial, tal vez sea mejor dejarlo en manos de analistas comerciales e ingenieros de datos.

    Un científico de datos es un unicornio que une las matemáticas, los algoritmos, el diseño experimental, las habilidades de ingeniería, las habilidades de comunicación y gestión, pero no son especialistas en todos los aspectos . Creo que es un error común cuando se habla de científicos de datos: no existe una operación de ciencia de datos sin un equipo de algún tipo. Los científicos de datos no son ejércitos, tienen que depender de algún tipo de apoyo para generar impacto en sus proyectos.

    Fuente: Roger Huang


    Si está interesado en cambiar de carrera, consulte K2 Data Science. Somos un campamento de ciencia de datos en línea para profesionales que trabajan. Tenemos un programa a su propio ritmo. Nuestro plan de estudios principal está diseñado por científicos de datos de alto nivel y usted es asesorado por científicos de datos con experiencia en la industria todos los días del viaje.

    Recomendaría tomar este curso: Introducción al curso: Amazon Machine Learning mientras sus primeros saltan a la ciencia de datos.

    El gurú de datos y códigos James Counts creó esta fantástica introducción en profundidad a los principios y prácticas de Amazon Machine Learning. Si tiene una necesidad en el mundo real de aplicar el análisis predictivo a grandes fuentes de datos, tal vez para la detección de fraudes o el análisis de abandono de clientes, entonces este curso tiene todo lo que necesitará saber para comenzar.
    James tiene el tema completamente cubierto:

    • ¿Qué puede hacer exactamente el aprendizaje automático?
    • Por qué y cuándo deberías usarlo
    • Trabajando con fuentes de datos
    • Manipulación de datos dentro de Amazon Machine Learning para garantizar un modelo exitoso
    • Trabajando con modelos de Machine Learning
    • Generando predicciones precisas

    Aquí hay un resumen impresionante de lo que hace la diferencia Dat Science de Data Mining y Machine Learning 16 disciplinas analíticas en comparación con la ciencia de datos