¿Cuáles son algunas de las direcciones de investigación más prometedoras en minería de texto?

La respuesta dependería del usuario final donde podamos distinguir entre dos usuarios arquetípicos:

  1. Otros sistemas informatizados
  2. Seres humanos

¿Por qué la necesidad de hacer estas distinciones? Bueno, otros sistemas computarizados se beneficiarían de cualquier mejora de calidad, sin importar el nivel inicial para dicha mejora.

Los seres humanos requieren un nivel más alto antes de que puedan molestarse usando una solución. Considere este ejemplo:

Un documento físico se escanea con OCR y se presenta al humano. Como sucede, una de cada 10 palabras se lee mal. Es muy probable que el humano descarte totalmente el resultado del escaneo y, en su lugar, escriba el texto manualmente. ¿Por qué? Porque probablemente es tan rápido para el humano hacer esto y hay menos riesgo de pasar por alto palabras aparentemente correctas que simplemente fueron mal interpretadas por el programa OCR.

Ambos aspectos tienen que ver con las habilidades humanas únicas en el área del reconocimiento de patrones .

Sin embargo, si solo una de las 80 palabras fuera incorrecta, es probable que el humano realmente prefiera usar el resultado del escaneo y nuevamente usar las habilidades humanas únicas de una manera ligeramente diferente que refleje el nivel mejorado de calidad.

En mi experiencia personal, una de las direcciones muy prometedoras hacia una mejor minería de texto combina un

  • alta inversión en curación humana complementada con
  • La infalibilidad y el trabajo no agotador de los sistemas informatizados.

Aquí hay un ejemplo de un resultado que se funda en estos dos:

El gráfico muestra dos temas en “La vuelta al mundo en 80 días” de Julio Verne. Dado que los sistemas de análisis son “conscientes” de la geografía, es capaz de señalar, con alta confiabilidad, aquellas partes de la narrativa que se centran en India y las Américas (el comienzo de la narrativa a la izquierda, el regreso a Londres a la Derecha).