¿Cuáles son algunas ideas interesantes para un proyecto de investigación de pregrado en procesamiento del lenguaje natural?

Eso depende del dominio que le interese y su línea de tiempo. Si tiene una línea de tiempo corta (digamos un semestre), es probable que desee centrarse en un área donde los datos ya están disponibles (en lugar de pasar la mitad del tiempo juntando un gran corpus). El grupo de PNL de Stanford tiene una buena lista de corpus disponibles: recursos de lingüística computacional basados ​​en corpus.

Además de encontrar un corpus fácilmente disponible, sugeriría, a un estudiante universitario que se sumerge en esto, que no intente escribir los algoritmos de clasificación / etiquetado básicos desde cero, sino que cree un nuevo sistema o técnicas con un sistema existente fácil de usar bibliotecas de aprendizaje automático. Python tiene scikit que es ideal para esto: una introducción al aprendizaje automático con scikit-learn.

Hasta ahora, no he mencionado ideas interesantes, solo material de configuración. Un par de ideas:

  • Encuentre un problema de etiquetado de entidad (NER, etiquetado de fecha / hora, etc.) donde se usaron redes neuronales recurrentes (RNN) e intente usar sus hermanos bidireccionales (BRNN). Los BRNN no se han utilizado en una tonelada de dominios, pero con el ajuste correcto tienen la capacidad de hacer algunas cosas interesantes. Usaría esta biblioteca de redes neuronales junto con scikit para ponerla en marcha: neurolab – Biblioteca de redes neuronales simple y potente para python – Google Project Hosting .
  • Atribución de autoría de documentos cruzados. Si tiene acceso a algunos conjuntos de datos de redes sociales interesantes, como Quora, Facebook u otros, puede intentar capacitarse sobre qué tipo de documento y realizar pruebas en el otro para ver si es posible identificar a un usuario usando un conjunto de publicaciones cuando están escribiendo “anónimamente” en otro medio. Lo hice hace unos años con las publicaciones de Twitter y blog. El mayor problema era obtener una gran cantidad de pares de datos.

Buena suerte.

More Interesting

¿Qué investigación debe llevarse a cabo con respecto a la densidad residencial y su impacto en el comportamiento del viaje?

¿Qué es la investigación cuantitativa aplicada?

¿Qué es bueno para CS en lo que respecta a las oportunidades de investigación y asistencia, Illinois Tech o UT Arlington?

¿Dónde puedo obtener el informe de investigación de mercado sobre el mercado global de películas de mantillo?

Soy un estudiante internacional y he sido aceptado en SMU (ingeniería de sistemas), Embry-Riddle DB (ingeniería eléctrica) y UAH (ingeniería mecánica). ¿Cómo les iría a estas tres universidades entre sí en términos de investigación y empleo en la industria de defensa después de la graduación?

¿Dónde puedo obtener el informe de investigación de mercado sobre el mercado global de materiales de encapsulación para el cuidado personal?

¿Cómo pueden las personas investigar en matemáticas?

Si se aceptan resultados estadísticos basados ​​en un nivel de confianza del 95%, ¿eso significa que 1 de cada 20 artículos científicos informan resultados que pueden no ser ciertos?

¿Crees que la investigación de aprendizaje profundo está a punto de alcanzar la saturación y estamos a punto de otro invierno de IA?

¿Puede Instagram ayudarlo a investigar su público objetivo?

Soy un estudiante de segundo año en ingeniería eléctrica. ¿Qué tipo de proyecto o pasantía debo hacer para proporcionar mi perfil para un MS en los Estados Unidos?

¿Fueron Bell Labs el Google de su tiempo en el sentido de que eran la figura líder en investigación y talento?

¿Cuáles son algunos temas adecuados para una presentación sobre la demencia?

¿Qué tan importante es la experiencia de investigación para un solicitante de PsyD?

¿Cómo debo decidir qué tema de investigación seguir en informática?