Eso depende del dominio que le interese y su línea de tiempo. Si tiene una línea de tiempo corta (digamos un semestre), es probable que desee centrarse en un área donde los datos ya están disponibles (en lugar de pasar la mitad del tiempo juntando un gran corpus). El grupo de PNL de Stanford tiene una buena lista de corpus disponibles: recursos de lingüística computacional basados en corpus.
Además de encontrar un corpus fácilmente disponible, sugeriría, a un estudiante universitario que se sumerge en esto, que no intente escribir los algoritmos de clasificación / etiquetado básicos desde cero, sino que cree un nuevo sistema o técnicas con un sistema existente fácil de usar bibliotecas de aprendizaje automático. Python tiene scikit que es ideal para esto: una introducción al aprendizaje automático con scikit-learn.
Hasta ahora, no he mencionado ideas interesantes, solo material de configuración. Un par de ideas:
- ¿Cómo afecta la ergonomía a la productividad?
- ¿Qué tipo de materia en zoología es mejor para la investigación?
- ¿Cuáles son algunos de los temas de investigación interesantes en ingeniería de instrumentación?
- ¿Cómo es la perspectiva de investigación para la biología en AMU?
- ¿Por qué los administradores del MIT decidieron involucrar a la policía federal en el caso JSTOR contra Aaron Swartz (creador de Creative Commons)? ¿No es parte de los objetivos del MIT, y de cualquier científico, crear y distribuir conocimiento científico a alguien?
- Encuentre un problema de etiquetado de entidad (NER, etiquetado de fecha / hora, etc.) donde se usaron redes neuronales recurrentes (RNN) e intente usar sus hermanos bidireccionales (BRNN). Los BRNN no se han utilizado en una tonelada de dominios, pero con el ajuste correcto tienen la capacidad de hacer algunas cosas interesantes. Usaría esta biblioteca de redes neuronales junto con scikit para ponerla en marcha: neurolab – Biblioteca de redes neuronales simple y potente para python – Google Project Hosting .
- Atribución de autoría de documentos cruzados. Si tiene acceso a algunos conjuntos de datos de redes sociales interesantes, como Quora, Facebook u otros, puede intentar capacitarse sobre qué tipo de documento y realizar pruebas en el otro para ver si es posible identificar a un usuario usando un conjunto de publicaciones cuando están escribiendo “anónimamente” en otro medio. Lo hice hace unos años con las publicaciones de Twitter y blog. El mayor problema era obtener una gran cantidad de pares de datos.
Buena suerte.