¿Cuáles son algunos de los mejores trabajos de investigación o libros para el aprendizaje automático?

Recursos gratuitos para aprender el aprendizaje automático

Si bien es un subcampo vibrante de la informática, el aprendizaje automático se utiliza para dibujar modelos y métodos a partir de estadísticas, algoritmos, complejidad computacional, teoría de control e inteligencia artificial. Se enfoca en algoritmos eficientes para inferir buenos modelos predictivos a partir de grandes conjuntos de datos y es un candidato natural para los problemas que surgen en HFT, tanto la ejecución comercial como la generación alfa.

En las finanzas financieras cuantitativas, la inferencia de modelos de naturaleza predictiva utilizando datos históricos obviamente no es nueva. Algunos ejemplos incluyen la estimación de coeficientes para CAPM, Fama y factores franceses. La granularidad de los datos que surgen en HFT plantea desafíos especiales para el aprendizaje automático. A menudo, la microestructura de datos en la resolución de órdenes individuales, ejecuciones, liquidez oculta y cancelación, incluida la falta de comprensión de cómo dichos datos granulares se relacionan con circunstancias procesables, es decir, comprar o vender rentablemente acciones, ejecutar de manera óptima un pedido grande, etc.

En cuanto a las complejidades mencionadas anteriormente en el aprendizaje automático, es particularmente importante si uno está interesado en convertirse en un comerciante o investigador cuantitativo para aprender el aprendizaje automático.

Cursos gratuitos de aprendizaje automático

Quizás la mejor introducción al aprendizaje automático es este curso altamente calificado por Stanford en Coursera. El curso es tomado por el profesor Andrew Ng, a quien se elogia por su capacidad para explicar conceptos matemáticos involucrados en diferentes áreas del aprendizaje automático. El curso ofrece una buena introducción al aprendizaje automático, la minería de datos y el reconocimiento de patrones estadísticos. Requiere que los estudiantes implementen tanto las redes neuronales como la máquina de vectores (la máquina de vectores de soporte para ser precisos) Este curso proporciona una capacitación práctica real y cubre casi todo excepto nuevos conceptos como el aprendizaje profundo. ¡Este curso del profesor Ng es definitivamente nuestra elección para principiantes!

¿Quiere preguntas como: pueden aprender las máquinas? ¿Cómo aprenden exactamente? Un curso introductorio de CalTech enseña el aprendizaje automático como si contara una historia. Comprenda la teoría detrás del aprendizaje automático y también gane experiencia trabajando con diferentes algoritmos y modelos.

El curso de Machine Learning de la Universidad de Washington va más allá de los conceptos básicos del aprendizaje automático y explora las redes neuronales, la teoría del aprendizaje y las máquinas vectoriales. El “aprendizaje supervisado” es el enfoque principal de la clase que proporciona al alumno las respuestas correctas a nivel de formación.

El análisis de datos y los científicos de datos realizan tareas como predicción y aprendizaje automático. El curso ofrecido por la Universidad John Hopkins, llamado Aprendizaje práctico de máquinas, cubrirá los componentes básicos de la construcción y aplicación de funciones de predicción con énfasis en aplicaciones prácticas. Los conceptos y las herramientas que necesitará en todo el campo de la ciencia de datos están cubiertos por esta especialización.

Recursos gratuitos para aprender Deep Learning

Deep Learning es una rama del aprendizaje automático basada en representaciones lineales de datos. Intenta modelar abstracciones de alto nivel en los datos mediante el uso de múltiples capas de procesamiento con estructuras complejas. Es la palabra de moda en el mundo de las redes neuronales y ganó atención mundial después de que AlphaGo de Google derrotó a Lee Sedol en el juego de Go la semana pasada en Corea. El programa AlphaGo aplicó el aprendizaje profundo en redes neuronales: programas inspirados en el cerebro en los que las conexiones entre capas de neuronas simuladas se fortalecen a través de ejemplos y experiencia. Lea más sobre Deep Learning en este artículo de Nature.

Nuestros expertos en QuantInsti aconsejan a la audiencia que comience su viaje de aprendizaje de Deep Learning a través de estos dos recursos:

Curso de Google ofrecido en Udacity

Este es un programa muy bueno para aquellos que ya han tomado algunos de los cursos de aprendizaje automático disponibles en Udacity o Coursera y están preparados para dar un paso adelante. Aprenderá a entrenar y optimizar redes neuronales básicas, redes neuronales convolucionales y redes de memoria a corto y largo plazo. ¡Este curso es altamente recomendado por nosotros!

El libro de Michael Nielsen sobre redes neuronales y aprendizaje profundo

¡Un excelente recurso gratuito en línea para iniciarse en Deep Learning!

Libros recomendados sobre aprendizaje automático

Gareth James, Daniela Witten, Trevor Hastie y Robert Tibshirani Introducción al aprendizaje estadístico (http://www-bcf.usc.edu/~gareth/ISL/)
Los elementos del aprendizaje estadístico de Hastie, Tibshirani y Friedman
Reconocimiento de patrones y aprendizaje automático de Bishop
El razonamiento bayesiano y el aprendizaje automático de David Barber
El aprendizaje automático de Kevin Murphy: una perspectiva probabilística
Fundamentos del aprendizaje automático, Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar
Aprendiendo de los datos, Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin

Aplicación de aprendizaje automático

Mientras cubrimos los fundamentos del aprendizaje automático y establecemos las bases, también necesitamos saber cómo se puede implementar esto como una carrera lucrativa.

Un curso ofrecido por Georgia Tech llamado Machine Learning for Trading presenta a los estudiantes los desafíos del mundo real de implementar el aprendizaje automático para estrategias de negociación, incluido el comercio algorítmico desde la recopilación de información hasta las órdenes de mercado. Comprenderá las estructuras de datos utilizadas en el comercio algorítmico. Aprenda a construir software para acceder a datos de capital en vivo y evaluarlos mientras toma decisiones comerciales.

Para aquellos que quieren aprender por sí mismos, esta colección de cuadernos de ipython que se actualizan continuamente para incluir los últimos recursos sobre temas populares de aprendizaje automático son muy útiles tanto para principiantes como para científicos expertos en datos.

Recursos gratuitos adicionales disponibles para obtener más información sobre MIT OpenCourseWare

Un curso de posgrado / licenciatura ofrecido por MIT – Introducción a la optimización convexa brinda a sus estudiantes herramientas y capacitación para reconocer problemas de optimización convexa en aplicaciones científicas y de ingeniería. Presenta la teoría básica y se concentra en aspectos de modelado y resultados utilizados en aplicaciones. Este curso está disponible en MIT OpenCourseWare, lo que significa que esencialmente obtienes las notas de clase del curso que se tomó en el otoño de 2009. Una vez que hayas cubierto los cursos de autoaprendizaje, puedes probar las tareas de este curso MIT.

Predicción: el aprendizaje automático y las estadísticas cubren un análisis en profundidad de las teorías detrás del aprendizaje estadístico, mientras que cubren la teoría de procesos empíricos, la teoría de Vapnik-Chervonenkis y más.

Para obtener experiencia de primera mano sobre cómo se utiliza el aprendizaje automático y la inteligencia artificial en el comercio, únase a nosotros para nuestro próximo seminario web sobre aprendizaje automático.

A debe mirar:
Aprovechando la inteligencia artificial para construir estrategias de comercio algorítmico [WEBINAR]

Fuente: https://www.quantinsti.com/blog/…

académica, Documentos de investigación académicaAprendizaje automáticoDocumentos académicosInvestigaciónRecomendaciones de libros

Como estudiante de lingüística, ¿qué tipo de trabajo de investigación escribiste?

¿Hay algunos buenos documentos basados en aplicaciones relacionados con la deriva conceptual?

¿Cuáles son los mejores consejos para la escritura académica?

¿Cuál es la mejor revista internacional de informática para publicar un trabajo de investigación?

¿La física moderna (física de partículas y cuántica, relatividad, etc.) se basa principalmente en farsa y teorías y principios fraudulentos?

¿La sal es soluble en agua? Si no, ¿por qué?

Desafortunadamente, no creo que pueda recomendar un libro de aprendizaje automático “perfecto”. Dicho esto, hay algunos que son bastante buenos. Todos tienen sus pros y sus contras, pero si los lee / usa todos, puede obtener una visión general bastante buena del aprendizaje automático. Aquí están mis favoritos, más o menos en orden de preferencia:

El razonamiento bayesiano y el aprendizaje automático de David Barber
El aprendizaje automático de Kevin Murphy: una perspectiva probabilística
Los elementos del aprendizaje estadístico de Hastie, Tibshirani y Friedman
Reconocimiento de patrones y aprendizaje automático de Bishop
Aprendizaje automático de Mitchell

También hay muchos buenos libros que se centran en un tema en particular. Por ejemplo, Sutton and Barto’s Reinforcement Learning es un clásico. Y el libro de aprendizaje profundo de Yoshua Bengio (disponible en línea) casi se está convirtiendo en un clásico antes de su publicación. Pero, necesita algunos de esos libros para construir una comprensión algo completa y equilibrada del campo.

Actualización 17/04/2016

He leído los primeros capítulos de:

Goodfellow, Y. Bengio y Courville Deep Learning

Si bien este libro se centra principalmente en algoritmos y enfoques de aprendizaje profundo, en realidad es una muy buena introducción al aprendizaje automático. Hay un capítulo completo que presenta conceptos matemáticos y estadísticos, además de otro que presenta los conceptos básicos del aprendizaje automático. Pueden carecer de la profundidad de otros libros, pero son muy prácticos y están actualizados. Diría que esto lleva este libro a una posición bastante alta en mi lista de libros que recomendaría a las personas que aprenden el aprendizaje automático, siempre que comprendan que el objetivo final no es * solo * aprender sobre el aprendizaje profundo.

Patrick Hall

Algunos buenos:

Las Matemáticas del Aprendizaje: Manejo de Datos
Tomaso Poggio y Steve Smale
http://www.ams.org/notices/20030 …

Recuperación de señal casi óptima de proyecciones aleatorias: ¿Estrategias de codificación universal?
Emmanuel Candes y Terence Tao
http://statweb.stanford.edu/~can …

Topología y datos
Gunnar Carlsson
http://comptop.stanford.edu/u/pr…

Aprendizaje semi-supervisado en colectores riemannianos
Mikhail Belkin, Partha Niyogi
http://people.cs.uchicago.edu/~n …

Métodos estocásticos para la minimización de pérdidas regularizada por L1
Shai Shalev-Shwartz, Ambuj Tewari
http://jmlr.org/papers/volume12/ …

y su implementación, en graphlab, descrita aquí:

Descenso de coordenadas paralelas para pérdida regularizada L1
Joseph K. Bradley, Aapo Kyrola, Danny Bickson, Carlos Guestrin
http://www.select.cs.cmu.edu/pub …

y también la implementación liblinear:

Una comparación de métodos y software de optimización para la clasificación lineal regularizada a gran escala L1
Guo-Xun Yuan, Kai-Wei Chang, Cho-Jui Hsieh, Chih-Jen Lin
http://www.csie.ntu.edu.tw/~cjli …

Aprender las partes de los objetos por factorización matricial no negativa
Daniel D. Lee y H. Sebastian Seung
http://www.nature.com/nature/jou …

y la forma moderna de NMF, que prefiero usar:

Factorizaciones de matriz convexa y semi-no negativa
Chris Ding, Tao Li, Michael I. Jordan
http://www.cs.berkeley.edu/~jord …

Xavier Amatriain

Otros buenos documentos para agregar la lista que dan más información.

1. Minería de datos con Big Data: Xindong Wu, Xingquan Zhu, Gong-Qing Wu y Wei Ding Minería de datos con big data

Uno de los mejores documentos para comenzar es la minería de datos con Big Data. Los datos grandes han sido la última tendencia y el documento analiza cómo se obtienen los datos de grandes fuentes para aprovechar diversas operaciones que incluyen la minería. También discute sobre las características de Big Data y los desafíos de minería de datos en Big Data. También presenta cómo los algoritmos de aprendizaje automático ayudan a extraer datos complejos y dinámicos.

2. Un estudio inicial de análisis predictivo de aprendizaje automático en grandes volúmenes de datos históricos para aplicaciones de sistemas de energía.

El documento trata principalmente sobre el advenimiento del aprendizaje automático en correlación con las aplicaciones del sistema de potencia. La analítica en este campo particular requeriría herramientas y estrategias que inculquen el aprendizaje automático para extraer conocimiento y realizar predicciones de datos. El principal problema que generalmente ocurre en este contexto es que grandes cantidades de datos generalmente resultan en que el procesador se quede sin memoria. La analítica industrial es el término clave acuñado aquí que explica cómo los datos recopilados se almacenan en grandes depósitos de datos en una variante de estructuras de datos. Los algoritmos de aprendizaje automático y las estrategias para ejecutar dichos entornos se discuten y el conocimiento se extrae de estos datos.

3. ¿Cuál es el algoritmo de maximización de expectativas?

http://ai.stanford.edu/~chuongdo …

Explicación del algoritmo EM con un buen ejemplo de lanzamiento de monedas

4. Aprendizaje automático profundo: una nueva frontera en la investigación de inteligencia artificial [Research Frontier]

5.DBpedia: una base de conocimiento multilingüe a gran escala extraída de Wikipedia

6.Una revisión del aprendizaje automático relacional para gráficos de conocimiento

7. Aprendizaje incremental con máquinas de vectores de soporte

http://citeseerx.ist.psu.edu/vie …

8. Sistema de control y decisión de lógica difusa basado en redes neuronales

9. Una introducción a MCMC para Machine Learning

10.Selección de características y ejemplos relevantes en el aprendizaje automático.

Patrick Hall

Algunas sugerencias de libros.

Mi siguiente paso sugerido es obtener un libro de ML decente (mi lectura más abajo), leer las principales secciones de introducción, y después de eso rebotar a cualquier parte que incorpore un algoritmo, usted está interesado. Cuando haya descubierto ese algo, salte a él, vea cada uno de los puntos de interés y, en particular, impleméntelo. En el paso anterior del curso en línea, a partir de ahora habría actualizado algunos algoritmos en Octave. Sea como fuere, aquí estoy buscando ejecutar un algoritmo sin ninguna preparación en un lenguaje de programación “real”. En cualquier caso, puede comenzar con uno simple, por ejemplo, Regresión logística regularizada L2, o k-means, pero también debe conducirse a actualizar todos los más intrigantes, por ejemplo, SVM. Puede utilizar una implementación de referencia en una de las muchas bibliotecas existentes para asegurarse de obtener resultados equivalentes.

El razonamiento bayesiano y el aprendizaje automático de David Barber
El aprendizaje automático de Kevin Murphy: una perspectiva probabilística
Los elementos del aprendizaje estadístico de Hastie, Tibshirani y Friedman
Reconocimiento de patrones y aprendizaje automático de Bishop
Aprendizaje automático de Mitchell

También hay numerosos libros excelentes que llaman la atención sobre un tema específico. Por ejemplo, Sutton and Re-Inforcement Learning es una obra de arte. Además, el libro Deep Learning (accesible en la web) prácticamente se está convirtiendo en un ejemplo antes de ser distribuido. Sea como fuere, necesita un par de esos libros para reunir una comprensión equilibrada y hasta cierto punto del campo.

10 libros electrónicos gratuitos que debes leer sobre conceptos básicos de aprendizaje automático.

También puede ir específicamente a un trabajo de investigación que presente un algoritmo o enfoque que le interese y salte a él.

Austin Quach

Si bien podría haber muchos documentos interesantes sobre ML, pero hablar de uno reciente (que leí por casualidad) es,
Aprendizaje federado: aprendizaje automático colaborativo sin datos de entrenamiento centralizados. Básicamente, mantiene un modelo maestro y para actualizar este modelo maestro utilizando muchas actualizaciones pequeñas de dispositivos individuales. Las actualizaciones se pueden combinar de forma inmediata y cifrada para que ninguna actualización individual se almacene en línea. Es importante destacar que no se intercambian datos de entrenamiento.

Desde la publicación del blog, los autores intentan explicar cómo se hace (o qué entendí)

Construir modelo maestro con pesas ‘w’.
Descargue el modelo maestro a cada uno de sus usuarios.
Tome un subconjunto de sus clientes (por ejemplo, móviles). Para cada usuario, calcule un conjunto actualizado de pesos ‘ w [i]’
(puede hacerse esto en paralelo y sin conexión)
Ahora, actualiza w con el promedio ponderado de todo w [i].
(Recurrir desde # 2)

FootNotes:
> [1602.05629] Aprendizaje eficiente en comunicación de redes profundas a partir de datos descentralizados
> Aprendizaje federado: aprendizaje automático colaborativo sin datos de entrenamiento centralizados

Leonardo Federico

Tengo algunas sugerencias de documentos “recientes” (desde 2006) sobre Machine Learning y temas relacionados.

Estos recursos le proporcionarán información sobre una gran variedad de temas importantes, que podrían interesarle.

Agrupación espectral paralela en sistemas distribuidos
Autores: Wen-Yen Chen, Yangqiu Song, Hongjie Bai, Chih-Jen Lin, Edward Y. Chang
Año: 2011
Aprendiendo múltiples capas de características de imágenes minúsculas
Autor: Alex Krizhevsky
Año: 2009
Algoritmos Distribuidos para Modelos de Temas
Autores: David Newman, Arthur Asunción, Padhraic Smyth y Max Welling
Año: 2009
Análisis espectral para gráficos de miles de millones de escala: descubrimientos e implementación
Autores: U Kang, Brendan Meeder y Christos Faloutsos
Año: 2011
Grandes modelos de lenguaje en la traducción automática
Autores: Thorsten Brants, Ashok C. Popat, Peng Xu, Franz J. Och y Jeffrey Dean
Año: 2007
Aprendizaje usando grandes conjuntos de datos
Autores: Léon Bottou y Olivier Bousquet
Año: 2008
Muestreo programado para la predicción de secuencia con redes neuronales recurrentes
Autores: Samy Bengio, Oriol Vinyals, Navdeep Jaitly y Noam Shazeer
Año: 2015
Capacitación de redes recurrentes en línea sin retroceso
Autores: Yann Ollivier y Guillaume Charpiat
Año: 2015
PEGASUS: un sistema de minería de grafos de Peta-Scale – Implementación y observaciones
Autores: U Kang, Charalampos E. Tsourakakis y Christos Faloutso
Año: 2009
Aprendiendo arquitecturas profundas para IA
Autores: Yoshua Bengio
Año: 2009
Propiedades intrigantes de redes neuronales
Autores: Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow y Rob Fergus
Año: 2014
Pensar en paralelo: algunos algoritmos y técnicas básicas de datos paralelos
Autor: Uzi Vishkin
Año: 2010
Reconocimiento de patrones y aprendizaje automático
Autor: Christopher M. Bishop
Año: 2006
Algunas cosas útiles que debe saber sobre el aprendizaje automático
Autores: Pedro Domingos
Año: 2012
Map-Reduce para Machine Learning en Multinúcleo
Autores: Cheng-Tao Chu, Sang Kyun Kim, Yi-An Lin, YuanYuan Yu, Gary Bradski, Andrew Y. Ng y Kunle Olukotun
Año: 2006
Las redes neuronales profundas se engañan fácilmente: predicciones de alta confianza para imágenes irreconocibles
Autores: Anh Nguyen, Jason Yosinski y Jeff Clune
Año: 2014
Hacia un razonamiento basado en redes neuronales
Autores: Baolin Peng, Zhengdong Lu, Hang Li y Kam-Fai Wong
Año: 2015

Esta lista fue recuperada de este artículo: ¡Gran lista! Los 65 mejores artículos en la historia de Data Science – DataOnFocus

John Sabini

Traté de evitar el material ya citado. Agregué algunos enlaces de hardware para los interesados.

Supervisado y sin supervisión:
Artículo de Arthur Dempster en el que se introduce el algoritmo EM. Puede obtenerlo de MIT y otros sitios de forma gratuita.
http://www.jstor.org/discover/10 …

Recuperación de información:
Nevill-Manning, CG; Witten, IH (1997). “Identificar la estructura jerárquica en secuencias: un algoritmo de tiempo lineal”.
Un algoritmo de tiempo lineal.

Aprendizaje sin supervisión:
Coates, A., Lee, H. y Ng, A. “Un análisis de redes de una sola capa en el aprendizaje no supervisado”. AISTATS 14, 2011

http://cs.stanford.edu/people/an …

Modelos generativos: aplicados a los modelos de tema.
Blei, DM; Lafferty, JD (2009) Modelos de tema.
http://www.cs.princeton.edu/~ble …

Validación cruzada y sobreajuste.

http://ai.stanford.edu/~ang/pape …

Es un artículo antiguo de Andy Ng. Para aquellos de ustedes que usan datos muy amplios y hacen un prefiltrado en genómica, busque en Wikipedia enlaces a prejuicios humanos.

Hardware: solo porque es bueno para nosotros tener una noción de lo que probablemente afectará a DM y ML.
https://www.parallella.org/

El código abierto de Facebook de hardware de inteligencia artificial es el comienzo de la revolución del aprendizaje profundo

http://en.wikipedia.org/wiki/POW …

Además, es importante aprender que es TensorFlow, que es el banco de trabajo de inteligencia artificial con licencia Apache2 de código abierto de Google.
Página en tensorflow.org

Y, por supuesto, Antorcha …

Antorcha | Computación científica para LuaJIT.

Pedro Martins

El aprendizaje automático es un campo que se está generalizando y, en particular, después de la era de Big Data. Hay muchos buenos libros que puedes leer. Algunos se centran en las matemáticas, la probabilidad y las estadísticas detrás del aprendizaje automático. Otros libros están más orientados a códigos y aplicaciones.

El lenguaje de programación que se puede usar también puede determinar la elección del libro. Prefiero Java y R y he leído libros donde se usan esos lenguajes de programación. También Python es un buen candidato para aplicaciones de aprendizaje automático.

Como la teoría sin práctica está vacía y la práctica sin teoría es ciega , intentaré traer aquí ambos tipos de libros:

Así que aquí está mi lista de libros:

-a) si desea concentrarse en las matemáticas de ML, intente:

Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción, segunda edición (Springer Series in Statistics) eBook: Trevor Hastie, Robert Tibshirani, Jerome Friedman: Amazon.it: Kindle Store

-b) si quieres probar algún código en los diferentes idiomas, entonces

1- Si usa Java y, en particular, un marco de ML llamado Weka, existe: Minería de datos: herramientas y técnicas prácticas de aprendizaje automático

Como segunda opción podría ser el Machine Learning en Java que, aparte de Weka, utiliza diferentes bibliotecas ML (como Mallet) en Java

2- Si la programación R es tu idioma favorito:

Aprendizaje automático con R, segunda edición

Aprendizaje automático para hackers

2- Si usa Python, eche un vistazo a:

Creación de sistemas de aprendizaje automático con Python, 2a edición

Dominar el aprendizaje automático con scikit-learn

4- Al usar Scala puedes probar:

Scala para Machine Learning

Charles H Martin

Primero, una cita importante de fondo:

Breiman, L. 2001. “Modelización estadística: las dos culturas (con comentarios y una réplica del autor)”. Statistical Science 16: 199-231.

Aprendizaje supervisado

Regresión: Panik, MJ 2009. Modelado de regresión: métodos, teoría y computación con SAS. Boca Ratón, FL: CRC Press. (Divulgación: mi libro de regresión favorito).

Árbol de decisión: Breiman, L., Friedman, J., Olshen, R. y Stone, C. 1984. Árboles de clasificación y regresión. Belmont, CA: Wadsworth.

Bosque aleatorio: Breiman, L. 2001. “Bosques aleatorios”. Machine Learning 45: 5–32.

Aumento de gradiente: Friedman, JH 2001. “Aproximación de la función codiciosa: una máquina de aumento de gradiente “. Annals of Statistics 29: 1189-1232.

Red neuronal: Rumelhart, DE, Hinton, GE y Williams, RJ 1986. “Representaciones de aprendizaje por errores de propagación hacia atrás”. Nature 323: 533–536.

Máquina de vectores de soporte: Cortes, C. y Vapnik, V. 1995. “Redes de vectores de soporte”. Machine Learning 20: 273–297.

Naïve Bayes: Friedman, N., Geiger, D. y Goldszmidt, M. 1997. “Clasificadores de red bayesianos”. Machine Learning 29: 131–163.

Vecinos: Cover, T. y Hart, P. 1967. “Clasificación de patrón de vecino más cercano”. Transacciones IEEE sobre teoría de la información 13: 21–27.

Procesos gaussianos: Seeger, M. 2004. “Procesos gaussianos para el aprendizaje automático”. International Journal of Neural Systems 14: 69-106.

Aprendizaje sin supervisión

Reglas a priori: Agrawal, R., Imieliński, T. y Swami, A. 1993. “Reglas de asociación minera entre conjuntos de elementos en grandes bases de datos”. ACM SIGMOD Registro 22: 207–216.

Agrupación de k-medias: Hartigan, JA y Wong, MA 1979. “Algoritmo AS 136: Algoritmo de agrupación de k-medias”. Revista de la Royal Statistical Society, Serie C 28: 100-108.

Incrustaciones a término GloVe : Jeffrey Pennington, Richard Socher y Christopher D Manning. “GloVe: Vectores globales para la representación de palabras”.

Agrupación de desplazamiento medio: Cheng, Y. 1995. “Desplazamiento medio, búsqueda de modo y agrupación”. Transacciones IEEE sobre análisis de patrones e inteligencia artificial 17: 790–799.

Agrupación espectral: Von Luxburg, U. 2007. “Un tutorial sobre agrupación espectral”. Estadísticas y computación 17: 395–416.

Estimación de la densidad del núcleo: Silverman, BW 1986. Estimación de densidad para estadísticas y análisis de datos. Vol. 26. Boca Ratón, FL: CRC Press.

Factorización matricial no negativa: Lee, DD y Seung, HS 1999. “Aprender las partes de los objetos mediante la factorización matricial no negativa”. Nature 401: 788-791.

Kernel PCA: Schölkopf, B., Smola, A. y Müller, K.-R. 1997. “Análisis de componentes principales del núcleo”. En redes neuronales artificiales — ICANN’97, 583–588. Berlín: Springer.

PCA dispersa : Zou, H., Hastie, T. y Tibshirani, R. 2006. “Análisis de componentes principales dispersos”. Journal of Computational and Graphical Statistics 15: 265–286.

Descomposición de valores singulares: Golub, GH y Reinsch, C. 1970. “Descomposición de valores singulares y soluciones de mínimos cuadrados”. Numerische Mathematik 14: 403–420.

Aprendizaje semi-supervisado *:

Codificadores automáticos de denoising: Vincent, P., Larochelle, H., Bengio, Y. y Manzagol, PA 2008. “Extracción y composición de características robustas con codificadores automáticos de denoising”. Actas de la 25ª Conferencia Internacional sobre Aprendizaje Automático. Nueva York: ACM.

Maximización de expectativas: Nigam, K., McCallum, AK, Thrun, S. y Mitchell, T. 2000. “Clasificación de texto de documentos etiquetados y no etiquetados usando EM”. Machine Learning 39: 103-134.

Regularización múltiple: Belkin, M., Niyogi, P. y Sindhwani, V. 2006. “Regularización múltiple: un marco geométrico para aprender de ejemplos etiquetados y no etiquetados”. The Journal of Machine Learning Research 7: 2399-2434.

Máquinas de vectores de soporte transductivo: Joachims, T. 1999. “Inferencia transductiva para la clasificación de texto usando máquinas de vectores de soporte”. Actas de la 16ª Conferencia Internacional sobre Aprendizaje Automático. Nueva York: ACM.

Incrustaciones a término de Word2Vec : Mikolov, Tomas, et al. “Estimación eficiente de representaciones de palabras en el espacio vectorial”. preimpresión de arXiv arXiv: 1301.3781 (2013).

* En el aprendizaje semi-supervisado, los algoritmos de predicción y clasificación supervisados a menudo se combinan con la agrupación. Los algoritmos mencionados aquí proporcionan soluciones de aprendizaje semi-supervisadas directamente.

Comentarios y preocupaciones bienvenidos.

Harsh Prasad

Aquí hay una lista de algunos documentos útiles para principiantes en minería de datos y minería de datos distribuida junto con el número de citas para ayudarlo a reconocer la aceptación y utilidad del documento.

(2741) Algoritmos rápidos para reglas de asociación minera – Agrawal, Srikant – 1994 (Mostrar contexto)

(2509) Reglas de asociación minera entre conjuntos de artículos en grande 112 – Agrawal, Imielinski, et al. – 1994 (Mostrar contexto)

(503) Más allá de la cesta de la compra: generalizando las reglas de asociación a las correlaciones – Brin, Motwani, et al. – 1997 (Mostrar contexto)

(496) Un algoritmo de distribución rápida para las reglas de asociación minera – Cheung, Han, et al. – 1996 (Mostrar contexto)

(496) Conteo dinámico de elementos y reglas de implicación para los datos de la cesta de la compra – Brin, Motwani, et al. – 1997 (Mostrar contexto)

(381) Muestreo de grandes bases de datos para reglas de asociación – Toivonen – 1996 (Mostrar contexto)

(165) Un algoritmo de proyección de árbol para la generación de conjuntos de artículos frecuentes: Agarwal, Aggarwal, et al. – 2001 (Mostrar contexto)

(118) Minería de asociaciones paralelas y distribuidas: una encuesta – Zaki – 1999 (Mostrar contexto)

(112) Reglas de asociación minera con múltiples soportes mínimos: Liu, Hsu, et al. – 1999 (Mostrar contexto)

(74) Minería de datos paralelos para reglas de asociación en multiprocesadores de memoria compartida – Zaki, Ogihara, et al. – 1996 (Mostrar contexto)

(64) Medidas de interés alternativas para asociaciones mineras en bases de datos – Omiecinski – 2003 (Show Context)

(61) Minería de patrones frecuentes por patrón de crecimiento: metodología e implicaciones – Han, Pei (Mostrar contexto)

(53) Minería para fuertes asociaciones negativas en una gran base de datos de transacciones de clientes: Savasere, Omiecinski, et al. – 1998 (Mostrar contexto)

Algunos blogs para el aprendizaje automático:

Blog de Edwin Chen: Edwin ofrece regularmente ejemplos increíblemente claros y prácticos de análisis de datos, completos con muestras de código y visualizaciones, así como ocasionales explicaciones muy perspicaces y prácticas de sofisticados algoritmos de aprendizaje automático.
Aprendizaje automático (teoría): John Langford es uno de los principales investigadores de aprendizaje automático aplicado y autor de Vowpal Wabbit, una herramienta de aprendizaje automático a gran escala utilizada ampliamente en la industria tecnológica. Su blog es blog corre en la intersección de la teoría y la práctica; vea Clever Methods of Overfitting (Page on Hunch) para ver un ejemplo de lo mejor que su blog tiene para ofrecer.

Fuentes:
http://citeseerx.ist.psu.edu/

¿Cuáles son los mejores blogs para que los científicos de datos lean, particularmente con respecto a R?

Akhil Vinayak Krishnan

Estos son algunos de los libros y recursos disponibles en línea de forma gratuita.

Aprendizaje automático

Elementos del aprendizaje estadístico. Hastie, Tibshirani, Friedman

Todas las estadísticas. Larry Wasserman

Aprendizaje automático y razonamiento bayesiano. David Barber

Procesos gaussianos para el aprendizaje automático. Rasmussen y Williams

Teoría de la información, inferencia y algoritmos de aprendizaje. David MacKay

Introducción al aprendizaje automático. Smola y Vishwanathan

Una teoría probabilística del reconocimiento de patrones. Devroye, Gyorfi, Lugosi.

Introducción a la recuperación de información. Manning, Rhagavan, Shutze

Previsión: principios y práctica. Hyndman, Athanasopoulos. (Libro en línea)

Probabilidad / Estadísticas

Introducción al pensamiento estadístico. Lavine

Teoría básica de probabilidad. Robert Ash

Introducción a la probabilidad. Grinstead y Snell

Principio de incertidumbre. Kadane

Álgebra Lineal / Optimización

Álgebra lineal, teoría y aplicaciones. Kuttler

Álgebra Lineal Hecho Incorrecto. Treil

Computación Numérica Aplicada. Vandenberghe

Álgebra lineal numérica aplicada. James Demmel

Optimizacion convexa. Boyd y Vandenberghe

Algoritmos genéticos

Una guía de campo para la programación genética. Poli, Langdon, McPhee.

Evolucionado para ganar. Sipper

Fundamentos de la metaheurística. Luke

Aprendizaje profundo

Aprendizaje profundo

Otros

http://nlp.stanford.edu/IR-book/

Fundamentos de la metaheurística

Moshe Sipper, Evolved to Win (algoritmos evolutivos para juegos)

Poli, Langdon, McPhee, Guía de campo para la programación genética

Una teoría probabilística de coincidencia de patrones

Fundamentos del aprendizaje automático

Introducción a la probabilidad, Grinstead y Snell

Aprendizaje reforzado; Weber y col. 2008; InTech; http://www.intechopen.com/books/ …

Aprendizaje automático; Mellouk y Chebira 2009; InTech; http://www.intechopen.com/books/ …

LA BÚSQUEDA DE INTELIGENCIA ARTIFICIAL UNA HISTORIA DE IDEAS Y LOGROS; Nilsson 2010; Prensa de la Universidad de Cambridge; http://ai.stanford.edu/~nilsson/ …

PROYECTO (no citable): COMPRENDER CREENCIAS; Nilsson 2013; http://ai.stanford.edu/~nilsson/ …

Aprendizaje automático, clasificación neuronal y estadística; Michie y Spiegelhalter 1994; Ellis Horwood; http://www1.maths.leeds.ac.uk/~c …

Programación lógica inductiva: técnicas y aplicaciones; Nada Lavrac y Saso Dzeroski 1994; Ellis Horwood; http://www-ai.ijs.si/SasoDzerosk …

Programación práctica de inteligencia artificial en Java; Mark Watson 2008; http://www.markwatson.com/openco …

¡¡¡¡Espero que esto ayude!!!!

Patrick Hall

Un artículo reciente en Nature, 28 de mayo de 2015 sobre Deep Learning por Yann Le Cun, Yoshua Bengio ( aquí mismo en Quora ) y Geoffrey Hinton. Enlace de acceso abierto a este documento en la página de inicio de Hinton

Este es un documento de revisión, por lo que le da a uno una visión actualizada de este campo, comenzando primero con lo que significa el aprendizaje profundo en sí.

El aprendizaje profundo permite que los modelos computacionales que se componen de múltiples capas de procesamiento aprendan representaciones de datos con múltiples niveles de abstracción. Estos métodos han mejorado dramáticamente el estado del arte en reconocimiento de voz, reconocimiento de objetos visuales, detección de objetos y muchos otros dominios como el descubrimiento de fármacos y la genómica. El aprendizaje profundo descubre una estructura compleja en grandes conjuntos de datos mediante el uso del algoritmo de retropropagación para indicar cómo una máquina debe cambiar sus parámetros internos que se utilizan para calcular la representación en cada capa a partir de la representación en la capa anterior. Las redes convolucionales profundas han logrado avances en el procesamiento de imágenes, video, voz y audio, mientras que las redes recurrentes han iluminado datos secuenciales como el texto y la voz.

La impresionante figura a continuación captura el estado del arte: la representación de una imagen de una red neuronal ( red neuronal convolucional ) alimentada como entrada a otra red neuronal generadora de lenguaje ( red neuronal recurrente ), para emitir una oración que describe lo visual escenas en la figura a continuación ( un grupo de personas comprando en un mercado al aire libre. Hay muchas verduras en el puesto de frutas; una mujer tirando frisbee en un parque; un perro está parado en el piso de madera; una señal de alto está en una carretera con Una montaña en el fondo ).

Figura de Deep Learning

De la imagen al texto. Subtítulos generados por una red neuronal recurrente (RNN) que toma, como entrada adicional, la representación extraída por una red neuronal de convolución profunda (CNN) de una imagen de prueba, con el RNN capacitado para ‘traducir’ representaciones de alto nivel de imágenes en subtítulos ( parte superior). Reproducido con permiso de la ref. Un generador de subtítulos de imágenes neuronales [acceso abierto]. Cuando se le da al RNN la capacidad de enfocar su atención en una ubicación diferente en la imagen de entrada (centro e inferior; los parches más claros recibieron más atención) a medida que genera cada palabra (negrita), descubrimos que explota esto para lograr mejor ‘traducción’ de imágenes en subtítulos. Un generador de subtítulos de imágenes neuronales [Acceso abierto]

Algunos extractos textuales de este documento ( en orden de aparición ).

- La tecnología de aprendizaje automático impulsa muchos aspectos de la sociedad moderna: desde búsquedas en la web hasta filtrado de contenido en redes sociales y recomendaciones en sitios web de comercio electrónico, y está cada vez más presente en productos de consumo como cámaras y teléfonos inteligentes.
- Los sistemas de aprendizaje automático se utilizan para identificar objetos en imágenes, transcribir discursos en texto, relacionar elementos de noticias, publicaciones o productos con los intereses de los usuarios y seleccionar resultados relevantes de búsqueda. Cada vez más, estas aplicaciones hacen uso de una clase de técnicas llamadas aprendizaje profundo.
- Las técnicas convencionales de aprendizaje automático tenían una capacidad limitada para procesar datos naturales en su forma original. Durante décadas, la construcción de un sistema de reconocimiento de patrones o aprendizaje automático requirió una ingeniería cuidadosa y una considerable experiencia en el dominio para diseñar un extractor de características que transformara los datos en bruto (como los valores de píxeles de una imagen) en una representación interna adecuada o un vector de características desde el cual El subsistema de aprendizaje, a menudo un clasificador, podría detectar o clasificar patrones en la entrada.
- El aprendizaje de representación es un conjunto de métodos que permite que una máquina se alimente con datos sin procesar y descubra automáticamente las representaciones necesarias para la detección o clasificación. Los métodos de aprendizaje profundo son métodos de aprendizaje de representación con múltiples niveles de representación, obtenidos mediante la composición de módulos simples pero no lineales que transforman la representación en un nivel (comenzando con la entrada sin formato) en una representación en un nivel más alto, un poco más abstracto . Con la composición de suficientes transformaciones, se pueden aprender funciones muy complejas. Para las tareas de clasificación, las capas superiores de representación amplifican aspectos de la entrada que son importantes para la discriminación y suprimen variaciones irrelevantes. Una imagen, por ejemplo, viene en forma de una matriz de valores de píxeles, y las características aprendidas en la primera capa de representación generalmente representan la presencia o ausencia de bordes en orientaciones y ubicaciones particulares en la imagen. La segunda capa normalmente detecta motivos al detectar disposiciones particulares de los bordes, independientemente de las pequeñas variaciones en las posiciones de los bordes. La tercera capa puede ensamblar motivos en combinaciones más grandes que corresponden a partes de objetos familiares, y las capas posteriores detectarían objetos como combinaciones de estas partes. El aspecto clave del aprendizaje profundo es que estas capas de características no están diseñadas por ingenieros humanos: se aprenden de los datos mediante un procedimiento de aprendizaje de propósito general.
- Aprendizaje supervisado. La forma más común de aprendizaje automático, profundo o no, es el aprendizaje supervisado. Imagine que queremos construir un sistema que pueda clasificar las imágenes como que contienen, por ejemplo, una casa, un automóvil, una persona o una mascota. Primero recopilamos un gran conjunto de datos de imágenes de casas, automóviles, personas y mascotas, cada uno etiquetado con su categoría. Durante el entrenamiento, a la máquina se le muestra una imagen y produce una salida en forma de un vector de puntajes, uno para cada categoría. Queremos que la categoría deseada tenga el puntaje más alto de todas las categorías, pero es poco probable que esto suceda antes del entrenamiento. Calculamos una función objetivo que mide el error (o distancia) entre los puntajes de salida y el patrón de puntajes deseado. La máquina modifica sus parámetros internos ajustables para reducir este error. Estos parámetros ajustables, a menudo llamados pesos, son números reales que se pueden ver como ‘perillas’ que definen la función de entrada-salida de la máquina. En un sistema típico de aprendizaje profundo, puede haber cientos de millones de estos pesos ajustables y cientos de millones de ejemplos etiquetados con los que entrenar la máquina.
- Para ajustar correctamente el vector de peso, el algoritmo de aprendizaje calcula un vector de gradiente que, para cada peso, indica en qué cantidad el error aumentaría o disminuiría si el peso aumentara en una pequeña cantidad. El vector de peso se ajusta en la dirección opuesta al vector de gradiente.
- Muchas de las aplicaciones prácticas actuales del aprendizaje automático utilizan clasificadores lineales además de características diseñadas a mano. Un clasificador lineal de dos clases calcula una suma ponderada de los componentes del vector de características. Si la suma ponderada está por encima de un umbral, la entrada se clasifica como perteneciente a una categoría particular.
- Desde la década de 1960, hemos sabido que los clasificadores lineales solo pueden tallar su espacio de entrada en regiones muy simples, es decir, medios espacios separados por un hiperplano. Pero los problemas como el reconocimiento de imagen y voz requieren que la función de entrada-salida sea insensible a variaciones irrelevantes de la entrada, como variaciones en la posición, orientación o iluminación de un objeto, o variaciones en el tono o el acento del habla, mientras que son muy sensible a variaciones minuciosas particulares (por ejemplo, la diferencia entre un lobo blanco y una raza de perro blanco parecido a un lobo llamado Samoyedo).
- Para hacer que los clasificadores sean más potentes, uno puede usar características genéricas no lineales, como con los métodos del núcleo, pero las características genéricas como las que surgen con el núcleo gaussiano no permiten que el alumno generalice bien lejos de los ejemplos de capacitación. La opción convencional es diseñar a mano extractores de buenas características, lo que requiere una considerable cantidad de habilidades de ingeniería y experiencia en el dominio. Pero todo esto se puede evitar si las buenas características se pueden aprender automáticamente mediante un procedimiento de aprendizaje de propósito general. Esta es la ventaja clave del aprendizaje profundo .
- Creemos que el aprendizaje profundo tendrá muchos más éxitos en el futuro cercano porque requiere muy poca ingeniería manual, por lo que puede aprovechar fácilmente los aumentos en la cantidad de cómputo y datos disponibles. Los nuevos algoritmos y arquitecturas de aprendizaje que se están desarrollando actualmente para redes neuronales profundas solo acelerarán este progreso.
- Una arquitectura de aprendizaje profundo es una pila de múltiples capas de módulos simples, todos (o la mayoría) sujetos a aprendizaje, y muchos de los cuales calculan asignaciones no lineales de entrada-salida. Cada módulo en la pila transforma su entrada para aumentar tanto la selectividad como la invariancia de la representación. Con múltiples capas no lineales, digamos una profundidad de 5 a 20, un sistema puede implementar funciones extremadamente complejas de sus entradas que son simultáneamente sensibles a los detalles minuciosos, que distinguen a Samoyeds de los lobos blancos, e insensible a grandes variaciones irrelevantes como el fondo, pose, iluminación y objetos circundantes.
- Backprogagation . El procedimiento de retropropagación para calcular el gradiente de una función objetivo con respecto a los pesos de una pila de módulos multicapa no es más que una aplicación práctica de la regla de la cadena para derivados.
- La idea clave es que la derivada (o gradiente) del objetivo con respecto a la entrada de un módulo se puede calcular trabajando hacia atrás desde el gradiente con respecto a la salida de ese módulo (o la entrada del módulo posterior). La ecuación de retropropagación se puede aplicar repetidamente para propagar gradientes a través de todos los módulos, comenzando desde la salida en la parte superior (donde la red produce su predicción) hasta la parte inferior (donde se alimenta la entrada externa). Una vez que se han calculado estos gradientes, es sencillo calcular los gradientes con respecto a los pesos de cada módulo.
- Hubo, sin embargo, un tipo particular de red de alimentación profunda que era mucho más fácil de entrenar y generalizado mucho mejor que las redes con conectividad completa entre capas adyacentes. Esta fue la red neuronal convolucional (ConvNet). Logró muchos éxitos prácticos durante el período en que las redes neuronales estaban en desuso y recientemente ha sido ampliamente adoptado por la comunidad de visión por computadora.
- Redes neuronales convolucionales. ConvNets están diseñados para procesar datos que vienen en forma de múltiples matrices, por ejemplo, una imagen en color compuesta por tres matrices 2D que contienen intensidades de píxeles en los tres canales de color. Muchas modalidades de datos tienen la forma de múltiples matrices: 1D para señales y secuencias, incluido el lenguaje; 2D para imágenes o espectrogramas de audio; y 3D para video o imágenes volumétricas. Hay cuatro ideas clave detrás de ConvNets que aprovechan las propiedades de las señales naturales: conexiones locales, pesos compartidos, agrupación y el uso de muchas capas.
- La teoría del aprendizaje profundo muestra que las redes profundas tienen dos ventajas exponenciales diferentes sobre los algoritmos de aprendizaje clásicos que no usan representaciones distribuidas. Ambas ventajas surgen del poder de la composición y dependen de que la distribución generadora de datos subyacente tenga una estructura componente apropiada. Primero, las representaciones distribuidas de aprendizaje permiten la generalización a nuevas combinaciones de los valores de las características aprendidas más allá de las vistas durante el entrenamiento (por ejemplo, 2n combinaciones son posibles con n características binarias). Segundo, componer capas de representación en una red profunda brinda el potencial para otra ventaja exponencial (exponencial en la profundidad).
- La cuestión de la representación se encuentra en el centro del debate entre los paradigmas de la cognición inspirados en la lógica y los inspirados en la red neuronal . En el paradigma inspirado en la lógica, una instancia de un símbolo es algo para lo cual la única propiedad es que es idéntica o no idéntica a otras instancias de símbolos. No tiene una estructura interna que sea relevante para su uso; y para razonar con símbolos, deben estar vinculados a las variables en reglas de inferencia juiciosamente elegidas. Por el contrario, las redes neuronales solo usan grandes vectores de actividad, matrices de gran peso y no linealidades escalares para realizar el tipo de inferencia ‘intuitiva’ rápida que sustenta el razonamiento de sentido común sin esfuerzo .
- Antes de la introducción de los modelos de lenguaje neuronal, el enfoque estándar para el modelado estadístico del lenguaje no explotaba las representaciones distribuidas: se basaba en contar frecuencias de ocurrencias de secuencias cortas de símbolos de longitud hasta N (llamados N-gramos). El número de N-gramos posibles está en el orden de VN, donde V es el tamaño del vocabulario, por lo que tener en cuenta un contexto de más de un puñado de palabras requeriría grandes corpus de entrenamiento. Los N-gramos tratan cada palabra como una unidad atómica, por lo que no pueden generalizar a través de secuencias de palabras relacionadas semánticamente, mientras que los modelos de lenguaje neural pueden porque asocian cada palabra con un vector de características reales y las palabras relacionadas semánticamente terminan cerca una de la otra. en ese espacio vectorial e.
- Redes neuronales recurrentes. Cuando se introdujo la retropropagación, su uso más emocionante fue para entrenar redes neuronales recurrentes (RNN). Para tareas que involucran entradas secuenciales, como el habla y el lenguaje, a menudo es mejor usar RNN. Los RNN procesan una secuencia de entrada un elemento a la vez, manteniendo en sus unidades ocultas un ‘vector de estado’ que contiene implícitamente información sobre el historial de todos los elementos pasados de la secuencia . Cuando consideramos las salidas de las unidades ocultas en diferentes pasos de tiempo discretos como si fueran las salidas de diferentes neuronas en una red multicapa profunda, queda claro cómo podemos aplicar la propagación hacia atrás para entrenar RNN.
- Los RNN son sistemas dinámicos muy potentes, pero entrenarlos ha resultado ser problemático porque los gradientes retropropagados crecen o se reducen en cada paso de tiempo, por lo que durante muchos pasos de tiempo suelen explotar o desaparecer.
- El futuro del aprendizaje profundo . Finalmente, se lograrán grandes avances en inteligencia artificial a través de sistemas que combinan el aprendizaje de representación con el razonamiento complejo. Aunque el aprendizaje profundo y el razonamiento simple se han utilizado durante mucho tiempo para el reconocimiento del habla y la escritura, se necesitan nuevos paradigmas para reemplazar la manipulación basada en reglas de expresiones simbólicas por operaciones en grandes vectores.

Referencia

Deep Learning, Yann LeCun, Yoshua Bengio y Geoffrey Hinton, Nature 28 de mayo de 2015
Un generador de subtítulos de imágenes neuronales, abril de 2015 [Acceso abierto]

Pedro Martins

Por lo que he reunido, los trabajos de investigación que presentan métodos recientemente desarrollados a menudo son densos debido a su naturaleza teórica, presentan solo una evaluación comparativa limitada y son comprensiblemente sesgados.
La respuesta de Patrick Hall a ¿Cuáles son los documentos que debe leer sobre minería de datos y aprendizaje automático?

Por lo general, las revisiones posteriores hacen comparaciones más completas e imparciales entre algoritmos relacionados en un punto de referencia común.
http://dl.acm.org/citation.cfm?i …

Afortunadamente, muchos de estos métodos están bien establecidos, por lo que los cursos en línea y otros recursos son suficientes para aprender la implementación independiente.
https://www.coursera.org/course/ml .

Si eres más avanzado y realmente quieres la vanguardia, te sugiero que busques en Kaggle, que es una compañía que organiza competencias de aprendizaje automático en vivo con premios en efectivo.
http://www.kaggle.com/ .

Harsh Prasad

Aquí algunos recursos que he encontrado útiles para ponerme al día:

# 1 curso
Introducción al curso: Amazon Machine Learning

Si tiene una necesidad en el mundo real de aplicar el análisis predictivo a grandes fuentes de datos, tal vez para la detección de fraudes o el análisis de abandono de clientes, entonces este curso tiene todo lo que necesitará saber para comenzar.
James tiene el tema completamente cubierto:

¿Qué puede hacer exactamente el aprendizaje automático?
Por qué y cuándo deberías usarlo
Trabajando con fuentes de datos
Manipulación de datos dentro de Amazon Machine Learning para garantizar un modelo exitoso
Trabajando con modelos de Machine Learning
Generando predicciones precisas

# 2 Redacciones:

1. Amazon Machine Learning: casos de uso y un ejemplo real
2. Un primer paso en el aprendizaje automático: crear un clasificador Bayes
3. Introducción a Amazon Machine Learning

Leonardo Federico

El aprendizaje automático es el futuro del análisis de datos

El mercado global de aprendizaje automático como servicio (MLaaS) está aumentando rápidamente debido principalmente a la revolución de Internet. El proceso de conectar el mundo prácticamente ha generado una gran cantidad de datos que está impulsando la adopción de soluciones de aprendizaje automático. Esto se debe a que la implementación del aprendizaje automático mejora la velocidad y la precisión de las funciones realizadas por el sistema.

Descargue el folleto en PDF para obtener más información sobre el aprendizaje automático como mercado de servicios

Machine Learning incluye algoritmos que permiten al sistema predecir resultados futuros y patrones detectados en base a datos específicos del usuario. Aquí están las 3 clasificaciones de algoritmos comunes que se usan en Machine Learning:

1. Supervisado

El sistema utiliza ejemplos pasados y nuevos conjuntos de datos para predecir los resultados. En este caso, el programador debe proporcionar al sistema entradas y salidas para entrenar el software. Con el tiempo, el sistema puede construir automáticamente salidas u objetivos para nuevos conjuntos de datos.

2. Sin supervisión

No implica ninguna etiqueta o clasificación de datos. El sistema evalúa los datos para identificar patrones y hacer inferencias o predicciones. No se trata de asignar la entrada a una salida, sino de detectar tendencias o ideas más oscuras en el conjunto de datos.

3. refuerzo

Esta categoría de aprendizaje automático incluye una tarea u objetivo específico que el sistema debe completar. A lo largo del proceso, recibe comentarios para aprender los comportamientos deseados.

Leonardo Federico

Valiance es un proveedor de soluciones de análisis que ayuda a las empresas a tomar decisiones informadas basadas en datos. Nuestro objetivo es llevar la inteligencia de aprendizaje automático a los productos y procesos para que las empresas puedan descubrir ideas que aportarían valor a sus negocios.

Valiance siempre ha estado publicando su trabajo crítico de investigación en forma de trabajos de investigación para propagar una comprensión profunda de la inteligencia artificial y el aprendizaje automático. Algunos de sus trabajos de investigación clave son:

SISTEMA INTELIGENTE PARA ANALIZAR SENTIMIENTOS DE COMENTARIOS
Agrupación no supervisada de artículos
SISTEMA INTELIGENTE HÍBRIDO
MOTOR DE RECOMENDACIÓN HÍBRIDO
PREVISIÓN DE LA SERIE DE TIEMPO UTILIZANDO REDES NEURALES
ENFOQUE NO SUPERVISADO DE LA EXTRACCIÓN DE FRASE CLAVE

Además, comuníquese con nosotros para obtener más información sobre Inteligencia Artificial (IA), Aprendizaje automático (ML), Historias relacionadas con análisis en: Blog, Estudios de casos, Documentos de investigación

Charles H Martin

Estos documentos sobre el aprendizaje de la función booleana:
Funciones booleanas de aprendizaje exacto a través de la teoría monótona
Aprendizaje de funciones booleanas incrementalmente

Los trabajos anteriores se encuentran entre los primeros éxitos en el área de aprendizaje de funciones booleanas.

El modelo de aprendizaje utilizado por ellos es muy interesante: existe el algoritmo de aprendizaje y hay un oráculo. El algoritmo plantea preguntas / consultas al oráculo. El oráculo, basado en un conocimiento parcial de la función objetivo o de algunas de sus propiedades, responde con respuestas y contraejemplos. El algoritmo utiliza estas respuestas para descifrar la función booleana. Es como jugar un juego de adivinanzas.

Pedro Martins

Usted tiene un montón de tiempo. Eso es bueno. Entonces, tomaremos esto lentamente y construiremos su base.

1. ¿Tienes experiencia en programación? Eso es bueno. Puede recoger fácilmente Python. Por lo general, para OOP, los conceptos son invariables, solo cambia la sintaxis.

2. Una vez que pueda moverse por Python cómodamente (ya que conoce los tipos de datos básicos disponibles, etc.), comience a escribir algoritmos elementales. Esto es solo para practicar. Python es un buen lenguaje para probar tus algos porque no tienes que preocuparte demasiado por los detalles. Después de que su algo se desprotege, puede comenzar a preocuparse por los aspectos más finos.

3. Prefiero entender y luego usar conceptos en lugar de solo usarlos. Por lo tanto, no puedo enfatizar la importancia de aprender Matemáticas lo suficiente. Específicamente, necesitas tener una base sólida en Álgebra Lineal y Análisis. Como estás en el 8º lugar, te sugiero que comiences con el 11º y luego el 12º de inmediato (no te preocupes, puedes hacerlo, no es particularmente desafiante). Una vez hecho esto, obtenga el Álgebra Lineal de Strang y sus Aplicaciones y vea los videos de su curso disponibles en MIT OCW. Hacer los problemas de tarea y los exámenes. Implemente tantos algos como sea posible de lo que aprende en el curso, desde Eliminación Gaussiana hasta SVD. Luego, comience con el cálculo de Apostol, ambos volúmenes. Después de eso, pasa por el bebé Rudin. Luego implemente algos de los cálculos de matriz de Golub.

4. Después de esto, puede recoger la Probabilidad de Sheldon Ross y luego Elementos de aprendizaje estadístico de Hastie et al.

5. Ir a Coursera: el curso de ML de Andrew Ng. Si lo encuentra básico, también puede ver las conferencias completas disponibles en You Tube. Implementa lo que aprendes.

Eso debería ocuparse de lo básico.

Ahora puede pasar por Bishop y Hart y toda la lista de clásicos comúnmente disponibles. Después de eso, también puede revisar los documentos ICML y NIPS.

EDITAR:

Por lo tanto :

1. Obtenga un manejo básico de Python – implementando algos simples

2. Revise el Álgebra lineal de Strang y sus aplicaciones. Haga la tarea y las preguntas del examen de la OCW.

3. Implemente los algoritmos de Strang en Python

4. Termine los volúmenes de Apostol y luego Baby Rudin.

5. Obtenga los cálculos de la matriz de Golub e implemente los algos allí.

6. Estudie la probabilidad de Sheldon Ross y luego los elementos de aprendizaje estadístico de Hastie et al.

7. Después del 1-6: Curso de ML de Andrew Ng en You Tube.

8. Luego lo siguiente:

Reconocimiento de patrones y aprendizaje automático de Bishop

El razonamiento bayesiano y el aprendizaje automático de David Barber

El aprendizaje automático de Kevin Murphy: una perspectiva probabilística

9. Documentos ICML y NIPS.

Si hay preguntas específicas sobre las que desea preguntar, siéntase libre. Intentaré dar lo mejor de mi.

EDITAR #

Algunos documentos que puedes estudiar después del 1 al 9:

1. Aproximación universal utilizando redes de función de base radial: J. Park e IW Sandberg

2. Destilando el conocimiento en una red neuronal: Hinton et al.

3. Una encuesta: Viaje en el tiempo en el espacio de aprendizaje profundo: nIntroducción a los modelos de aprendizaje profundo y cómo los modelos de aprendizaje profundo evolucionaron a partir de las ideas iniciales Haohan Wang y Bhiksha Raj.

4. Una arquitectura unificada para el procesamiento del lenguaje natural: redes neuronales profundas con aprendizaje multitarea: Collobert y Weston

5. Un modelo de lenguaje neural probabilístico: Bengio et al.

6. Códigos pequeños y bases de datos de imágenes grandes para reconocimiento: Torralba et al.

7. Una evaluación empírica de arquitecturas profundas sobre problemas con muchos factores de variación: Larochelle et al.

8. Resolución de problemas de geometría: combinación de interpretación de texto y diagrama: Seo et al.

9. ¿Por qué la capacitación previa sin supervisión ayuda al aprendizaje profundo? : Erhan y cols.

Te mantendré informado.

Austin Quach

Te dirijo a mi respuesta a otra publicación: la respuesta de Yilun (Tom) Zhang (張逸倫) a Cuál es un mejor libro “Ciencia de datos desde cero: primeros principios con Python” o “Python Machine Learning” para aprender ML con Python?

Mis recomendaciones son: