¿Cuál es un buen tema para la investigación en PNL que se completará en 9 meses para un estudiante universitario? La Ciencia y la Tecnología mejoran el futuro

Las incorporaciones de palabras (que representan palabras como vectores ) o las incorporaciones de oraciones y temas relacionados con ellas pueden valer la pena considerar para un proyecto de pregrado de 9 meses.

Revisión de incrustaciones de palabras / oraciones

Para comenzar con una buena revisión actualizada y completa de la inserción de palabras parece ausente. [1], [2], [3]
Por ejemplo, casi ningún artículo discute el modelo de Adagram que es muy superior a las incorporaciones de word2vec para capturar diferentes sentidos de una palabra: word2vec mezcla todos los sentidos en un vector. No parece haber un solo documento que discuta Word2vec, FastText y Adagram, aunque hay artículos que comparan Glove con word2vec [4], [13]
Las incrustaciones de oraciones siguen siendo un área activa de estudio y los trabajos aún aparecen en conferencias ( por ejemplo, ICLR 2017 el próximo mes tiene uno sobre incrustación de oraciones) [5], [9]
Desde un punto de vista práctico, no hay una revisión que cubra qué modelos se pueden usar a gran escala para generar incrustaciones de palabras ( incluso el modelo más popular word2vec no tiene una implementación verdaderamente distribuida para la generación de vectores a gran escala ). [6], [8]

¿Cómo se usan las incrustaciones de palabras / oraciones para tareas posteriores?

Si bien es de conocimiento común ahora que, en la práctica, las incrustaciones de palabras / oraciones ayudan a los modelos a desempeñarse mejor en tareas como NER, no hay trabajo que evalúe exhaustivamente el tipo de tareas posteriores en las que las incrustaciones son buenas para [10], [11], [13], [14]

Para modelos de secuencia, como RNN, los documentos afirman que ciertas incrustaciones funcionan mejor que otras. Entonces, ¿los modelos de secuencia requieren entrada como incrustaciones específicas y, de ser así, por qué?
¿Cómo se usan las incorporaciones sensoriales generadas por Adagram en tareas posteriores, digamos para NER? [7]

¿Cómo se elige una incrustación de palabras para una tarea de similitud sintáctica versus similitud semántica? [dieciséis]
¿Qué tal el manejo de palabras fuera del vocabulario? Fasttext, por ejemplo, puede hacerlo mejor que word2vec en este caso [13]

¿Cuál es la razón / impacto subyacente para / en los vectores de palabras que se pueden generar comenzando con una inicialización aleatoria o con la entrada de ejecuciones anteriores?

Específicamente, ¿cómo se compara el rendimiento para las tareas de similitud semántica entre la creación de instancias de la palabra y el vector de contexto en una ejecución posterior frente a solo la palabra vector? Por ejemplo, para el cambio temporal en los vectores, a menudo uno simplemente alimenta los vectores de una ejecución anterior a la siguiente ejecución [15]
¿Podemos hacer una ejecución incremental, digamos con word2vec, solo instanciando los vectores de palabra y contexto de una ejecución anterior y usando la distribución unigram del corpus incremental (en oposición al corpus original). Esto será de gran valor práctico para realizar carreras incrementales rápidas en comparación con el entrenamiento completo del corpus. Entonces se podría hacer una carrera completa posterior con un submuestreo más pesado, tal vez. ¿Cuál sería el impacto en los vectores si uno lo hace, desde un punto de vista teórico? La única otra opción es realizar una ejecución completa, como sugiere este documento [6], pero no hay una implementación de código abierto disponible para ese método.

¿Cómo se comparan las incorporaciones de palabras generadas por los modelos de secuencia con las que no están basadas en secuencia?

Por ejemplo, un artículo reciente que genera incrustaciones de palabras a partir de caracteres utilizando un LSTM bidireccional afirma que funciona mejor en las tareas de etiquetado de POS. [17]
El documento afirma que los vectores de palabras generados por este modelo funcionan bien no solo en el manejo de palabras que son similares en estructura de palabras y significado, sino también similares en estructura de palabras pero muy diferentes en significado (mantequilla vs masa).
Por otro lado, afirma que le va bien con palabras que son muy diferentes en la estructura de las palabras, pero semánticamente muy similares (rico vs rico)

Esperemos que los enlaces de referencia ayuden a comenzar.

Referencias

Una breve historia de las incrustaciones de palabras (y algunas aclaraciones) – Gavagai – Análisis de texto de próxima generación.
A_Survey_of_Word_Embedding_Literature_Context_Representations_and_the_Challenge_of_Ambiguity, 2016
Sobre incrustaciones de palabras – Parte 1
Polisemia regular: de vectores sensoriales a patrones sensoriales
Una línea de base simple pero difícil de superar para la incorporación de oraciones, ICLR, abril de 2017
Sistema de entrenamiento Word2vec distribuido eficiente en red para vocabularios grandes
Rompiendo palos y ambigüedades con skipgram adaptativo
Estimación eficiente de las representaciones de palabras en el espacio vectorial
Vectores de salto de pensamiento
Arquitecturas neuronales para el reconocimiento de entidades con nombre
Incorporación de oraciones profundas utilizando redes de memoria a largo plazo: análisis y aplicación para la recuperación de información
Aprendizaje de representaciones de palabras distribuidas para la red neuronal recurrente bidireccional de LSTM: este documento, como parte de su introducción, ofrece una visión general pequeña pero informativa de las incrustaciones de palabras, clasificándolas como métodos de factorización matricial y métodos basados en ventanas y discute los méritos de cada método.
[Enriqueciendo los vectores de palabras con información de subpalabras
GloVe: Vectores globales para la representación de palabras
Análisis temporal del lenguaje a través del modelo del lenguaje neuronal
Adaptaciones demasiado simples de Word2Vec para problemas de sintaxis
Encontrar la función en forma: modelos de caracteres compositivos para la representación de palabras de vocabulario abierto

InvestigaciónInvestigación académicaProcesamiento del lenguaje natural