¿Cómo se puede aplicar la minería de textos a la literatura científica?

[A2A] Algunos ángulos no mencionados por otras respuestas:

Existen excelentes ontologías de conceptos biomédicos (como SNOMED y UMLS), por lo que puede intentar identificar menciones de esos conceptos y vincularlos con la ontología. En términos más generales, consulte las actas anteriores de los talleres de BioNLP, que se pueden encontrar en SIGBIOMED – ACL Wiki.

Un artículo científico generalmente se refiere a otros artículos científicos. El gráfico de citas es interesante, pero sería más útil si supiéramos por qué un documento cita a otro: ¿cuál es la relación entre los dos documentos? En términos más generales, puede interesarle ver los temas cubiertos en este taller sobre minería de la Antología ACL.

Como su pregunta sugiere, ha habido mucho interés en el modelado de temas. Por ejemplo, revisa el trabajo de Blei & Lafferty sobre cómo modelar la evolución de los temas en la revista Science a lo largo de 100 años.

Gracias por el A2A. Creo que la información que permite a los investigadores hacer lo siguiente sería útil:

1) reducir la cantidad de tiempo para “mantenerse al día” con el volumen de información que se genera dentro de su comunidad.
2) da sugerencias a las áreas donde su investigación puede aplicarse o extenderse.
3) proporciona información sobre diferentes técnicas utilizadas para resolver problemas similares.

Por lo tanto, algunos ejemplos podrían ser la búsqueda, el resumen en papel (resúmenes), los documentos de modelado de temas, las recomendaciones en papel, la creación de redes “sociales” de investigadores, etc.

Como otros han mencionado, hay muchas cosas que puede hacer con la cantidad de técnicas de minería de texto disponibles. Particularmente, con recursos como dblp y PubMed que facilitan el raspado de documentos y sus metadatos, solo está limitado por su propia capacidad para hacer preguntas interesantes.

Los sistemas de recomendación han sido, y son, un tema realmente candente en informática que emplea ampliamente la minería de texto y las técnicas asociadas. Para darle un ejemplo: para un proyecto de semestre esta primavera, junto con un par de personas más, trabajamos en la construcción de un sistema de recomendación de colaboradores y papel. Utilizamos el conjunto de datos proporcionado para KDD Cup 2003 disponible aquí y creamos un sistema que recomendaría documentos para leer y posibles colaboradores en función de su descripción de los intereses de investigación.

La cantidad de datos disponibles hoy en día (aunque desafortunadamente la mayoría de los documentos todavía están detrás de los muros de pago) es lo suficientemente grande como para hacer uso de la minería de texto para hacer una investigación significativa y construir sistemas realmente interesantes y útiles.

Este es un gran esfuerzo. Le sugiero que ofrezca su experiencia a estos tipos:
ContentMine
Ya están extrayendo textos de literatura científica y les está yendo bastante bien. Pensé que ciertamente podrían usar la ayuda. Además, todo su trabajo es de código abierto, por lo que es fácil contribuir y aprender.

Cualquier cosa que pueda hacer con el texto habitual se puede aplicar a la literatura científica: análisis de conglomerados, categorización, aprendizaje jerárquico, descubrimiento de tendencias … Y luego también puede hacer cosas adicionales: utilizar la información presente en documentos científicos y ausente en los textos habituales. Por ejemplo, puede hacer uso de fórmulas e intentar hacer algo interesante con ellas.

Para los datos, intentaría usar los datos de arXiv y los de wikipedia (solo artículos científicos)

More Interesting

¿Dónde puedo obtener nuevas investigaciones en revistas de microbiología de forma gratuita en Internet?

¿Por qué es mejor investigar que tener opiniones?

¿Cómo es tener un trabajo como científico / investigador computacional?

¿Cuáles son algunas áreas activas de investigación sobre la Vía Láctea?

¿Cómo gastó el NIH $ 1.3 mil millones en un estudio que nunca despegó?

¿Cuál es el experimento humano más aterrador de la historia? ¿Qué experimentos humanos salieron totalmente mal?

¿Qué tan abierta es la investigación de la NASA en comparación con la investigación académica en la academia?

¿Existe una manera fácil para una persona laica de encontrar el consenso científico actual sobre un tema?

¿Hay áreas no desarrolladas de matemáticas que sean accesibles para un estudiante universitario tanto para comprensión como para investigación?

¿Cómo registran los académicos el resultado de su experimento en experimentos de aprendizaje automático, especialmente cuando hay demasiados parámetros? ¿Hay una guía?

¿Cuáles son las pruebas científicas de que podemos crear nuestra propia realidad y cómo?

Como no científico, a menudo no tengo absolutamente ninguna idea de qué hacer con las posturas o teorías científicas. Entonces, ¿debería tener fe en la ciencia?

¿Cuáles son algunos descubrimientos científicos que fueron verdaderamente incidentales?

¿Cuáles son algunas áreas de investigación para STS ICMR en PSM?

¿Cuáles son los desafíos actuales y emergentes en el campo de la dinámica de fluidos computacional (CFD)?