¿Cuáles son algunos trabajos de investigación sobre procesamiento del lenguaje natural?

No soy un profesional del procesamiento del lenguaje natural, así que esto está lejos de ser una lista completa, pero hay un par de trabajos que he notado que me recomiendan continuamente en un contexto de investigación o de curso:

  • El artículo canónico sobre LDA: David M. Blei, Andrew Y. Ng y Michael I. Jordan. Asignación de Dirichlet latente. Journal of Machine Learning Research, 3: 993–1022, 2003. Disponible en Page en wustl.edu.
  • El documento canónico sobre n-gramas: JT Goodman, “Un poco de progreso en el modelado del lenguaje”, informe técnico de Microsoft Research MSR-TR-2001-72, 2001. Disponible en la página de microsoft.com.

También recomendaría:

  • Lawrence R. Rabiner. Un tutorial sobre modelos ocultos de Markov y aplicaciones seleccionadas en reconocimiento de voz. Actas del IEEE, 1989, páginas 257-286 Disponible en la página en ucsb.edu.
  • Parsing: Dan Klein y Christopher D. Manning. Análisis exacto no digitalizado. En ACL, páginas 423–430, 2003. Disponible en Page en berkeley.edu.

Parece que su pregunta podría estar estrechamente relacionada con esta aquí en ¿Cuáles son los trabajos de investigación más importantes que todos los estudiantes de PNL deberían leer definitivamente? ¿Por qué?

El procesamiento del lenguaje natural es un campo tan vasto con muchas áreas activas de investigación, puede que no sea significativo enumerar artículos. Existen documentos de revisión en general sobre el procesamiento del lenguaje natural y en áreas específicas de su interés ( por ejemplo, modelos de secuencia como RNN ) con los que uno podría comenzar.

Un ejemplo de un documento de revisión amplio sobre el procesamiento del lenguaje natural, centrado específicamente en los modelos de redes neuronales que han dado a este campo el mayor impulso en los últimos años.

  • Una introducción a los modelos de redes neuronales para el procesamiento del lenguaje natural

Otro ejemplo de un artículo de revisión sobre modelos de secuencia a secuencia ( por ejemplo, traducción automática neural ).

  • Modelos de traducción automática neuronal y secuencia a secuencia: un tutorial

Por último, un artículo de 2011 que a menudo se cita en cualquier clase sobre PNL

  • Procesamiento del lenguaje natural (casi) desde cero

La importancia de este documento es que fue uno de los primeros modelos en realizar tareas típicas de PNL (etiquetado de POS, NER, etc.) sin características diseñadas a mano en su mayor parte mediante el uso de representaciones de palabras aprendidas.

El mejor lugar para buscar documentos de PNL en el área de interés para nosotros es en el archivo de impresión electrónica de arXiv.org ( aunque la búsqueda es un poco engorrosa ) o https://scholar.google.com/ ( para evitar el ruido típico búsqueda de google )

Si está estudiando un tema tan amplio como PNL, entonces debe comenzar con libros (los trabajos de investigación estarán mucho más centrados, por ejemplo, tokenización del idioma árabe, extracción de información para la interacción proteína-proteína o enriquecimiento de ontología no supervisada con máquinas bolzman restringidas) .
Por ejemplo, comenzar con el libro de Manning http://nlp.stanford.edu/fsnlp/

Los siguientes recursos pueden ser útiles para usted.

  • El grupo de procesamiento de lenguaje natural de Stanford
  • Google Research – Procesamiento de lenguaje natural
  • Una lista curada de recursos de procesamiento del habla y lenguaje natural.
  • keon / awesome-nlp
  • http://technav.ieee.org/tag/1215
  • Recursos de PNL

HTH.

Este repositorio de github proporciona una lista de documentos en PNL:

mhagiwara / 100-nlp-papers