¿Podemos pedirle a Watson que dibuje correlaciones entre artículos científicos?

No, por muchas razones: 1) Los documentos siguen siendo generalmente inaccesibles para las solicitudes automatizadas. Pubmed solo proporcionará título y resumen. Google Scholar te bloqueará en un segundo caliente.

2) incluso si los recopila de alguna manera (probablemente no del todo legal) son archivos PDF, un formato que fue inventado para replicar fielmente la visualización, y a pesar de ser analizable por las computadoras, es bastante horrible cuando se usa para la extracción automática de texto e imágenes.

3) Los documentos son, en general, horriblemente escritos y apenas legibles por un científico humano. Nada es consistente Los métodos son muy variados en formato, incluso si se completan de forma remota (lo cual es muy raro) Los datos están incompletos o faltan o están ocultos con fines visuales (un gráfico de barras con barras de error en quién sabe qué unidades y sin acceso a los datos subyacentes) imágenes con múltiples canales nuevamente oscurecidos por el formato extraño y buena suerte extrayendo exactamente en qué se encuentra cada canal de los métodos incompletos.

4) Si ha sobrevivido, todo lo que llegamos ahora debería ser la parte divertida: algún tipo de procesamiento del lenguaje natural para extraer información útil. Este es un proyecto en el que muchas personas están trabajando (ver BioC) y no está resuelto, pero al menos es posible.

El sistema de publicación científica es una reliquia, no hay estándares y el PDF es un pequeño paso adelante de estar sentado junto al fuego leyendo su copia de la Lanceta que acaba de entregar a caballo. A medida que avanza la ciencia y aumenta la cantidad de datos, tendremos que avanzar hacia sistemas que sean tanto visibles para humanos como para ser interpretados por máquinas, pero en este momento, aunque se discute mucho, no está sucediendo.

En general, estoy de acuerdo con la respuesta de Ian Driver, excepto los puntos 2 y 4, y solo estoy en desacuerdo con algunos de ellos.

Con respecto a 2) los archivos PDF son realmente un dolor, y las tablas y gráficos especialmente dentro de ellos. Si el PDF es un escaneo de un documento, aún más de una pesadilla. Sin embargo, un PDF generado a partir de un archivo de procesador de texto … digamos que un Word .doc … es muy legible por la tecnología actual. En mi trabajo diario, Watson ingiere innumerables archivos PDF todos los días.

Con respecto a 4), mientras que la PNL no es en absoluto un problema resuelto, la tecnología actual hace un muy buen trabajo al leer el lenguaje y comprender sustantivos, verbos, entidades de diferentes tipos (Apple es una compañía en esta oración, pero un fruto en eso frase…). Sí, puede ser que la mejor PNL solo comprenda el 85% de un texto, pero lo recuerda todo. ¿Cuánto de ese mismo texto puedo leer y recordar en una sola pasada? Mucho menos apuesto.

La pregunta más grande con la máquina de “comprensión” de los sustantivos y verbos y tal que NLP puede leer es el léxico específico del dominio. Los artículos de ciencias están repletos de jerga y términos de arte, y eso requiere especificar una ontología para cada dominio de interés. Por ejemplo, el concepto de “campo” significa algo completamente diferente en artículos de álgebra abstracta, rendimiento del generador y agronomía.

Luego, finalmente está la cuestión de qué espera obtener del ejercicio. Es posible juntar todo esto y construir modelos de conceptos y relaciones entre ellos, y quizás asociar algo con otra cosa de una manera novedosa. Si puede hacerlo de una manera suficientemente general para encontrar cosas interesantes en una gran población de artículos científicos es en sí mismo un tema de investigación.

¿Qué significa esto? La pregunta no es lo suficientemente clara.

De todos modos … la respuesta es técnicamente no, pero sí, en el sentido de que puedes usar las herramientas de Watson para encontrar correlaciones, pero no puedes reunirlas instantáneamente por tu cuenta.

(Aunque Watson es solo una de varias opciones para esta tarea).

Si está preguntando si Watson Analytics puede encontrar correlaciones entre los documentos, entonces tendría que consultar con un amigo, pero la respuesta es muy, muy probable.