La respuesta dependería del usuario final donde podamos distinguir entre dos usuarios arquetípicos:
- Otros sistemas informatizados
- Seres humanos
¿Por qué la necesidad de hacer estas distinciones? Bueno, otros sistemas computarizados se beneficiarían de cualquier mejora de calidad, sin importar el nivel inicial para dicha mejora.
Los seres humanos requieren un nivel más alto antes de que puedan molestarse usando una solución. Considere este ejemplo:
- ¿Cuál es la importancia de la investigación en la vida diaria?
- Cómo averiguar mi interés de investigación en biología celular
- ¿Dónde puedo obtener el informe de investigación de mercado sobre el mercado global de ventas de motores eléctricos?
- ¿Qué es el método de investigación no equitativa de estudio de caso?
- ¿Cuáles son algunos buenos temas de investigación en ingeniería geotécnica para la disertación de M.Tech?
Un documento físico se escanea con OCR y se presenta al humano. Como sucede, una de cada 10 palabras se lee mal. Es muy probable que el humano descarte totalmente el resultado del escaneo y, en su lugar, escriba el texto manualmente. ¿Por qué? Porque probablemente es tan rápido para el humano hacer esto y hay menos riesgo de pasar por alto palabras aparentemente correctas que simplemente fueron mal interpretadas por el programa OCR.
Ambos aspectos tienen que ver con las habilidades humanas únicas en el área del reconocimiento de patrones .
Sin embargo, si solo una de las 80 palabras fuera incorrecta, es probable que el humano realmente prefiera usar el resultado del escaneo y nuevamente usar las habilidades humanas únicas de una manera ligeramente diferente que refleje el nivel mejorado de calidad.
En mi experiencia personal, una de las direcciones muy prometedoras hacia una mejor minería de texto combina un
- alta inversión en curación humana complementada con
- La infalibilidad y el trabajo no agotador de los sistemas informatizados.
Aquí hay un ejemplo de un resultado que se funda en estos dos:
El gráfico muestra dos temas en “La vuelta al mundo en 80 días” de Julio Verne. Dado que los sistemas de análisis son “conscientes” de la geografía, es capaz de señalar, con alta confiabilidad, aquellas partes de la narrativa que se centran en India y las Américas (el comienzo de la narrativa a la izquierda, el regreso a Londres a la Derecha).