He trabajado con análisis de datos cualitativos durante más de 10 años y me llevó mucho tiempo encontrar una explicación sensata para el concepto de palabras vacías. Hoy sé lo que significa y, en general, creo que es un concepto pobre. ¿Por qué? Bueno, combina dos cuestiones diferentes:
- En primer lugar, a veces se usa para suprimir tokens que son metadatos o perturbar el análisis del contenido principal. Un ejemplo es el botón “me gusta” en el texto de Facebook. Dichos datos deben lavarse / organizarse fuera del conjunto de datos netos. Prohibir ciertas palabras es terriblemente poco preciso.
- en segundo lugar, parece haber una suposición general de que algunos tokens “nacen” sin importancia. Según mi experiencia, incluso los tokens más pequeños pueden ser cruciales, al menos en algunos casos.
Te recomendaría que estudies el campo de los modelos temáticos seleccionados por humanos y no solo la llamada inteligencia artificial.
Permítanme terminar con un ejemplo: estas son varias palabras que tienen que ver con la salud; se han extraído sin definir una sola palabra clave de una gran cantidad de textos:
- ¿Cuáles son los 20 artículos más citados en investigación en ciencias de la computación que salen de los distintos campus de IIT?
- Cómo escribir una conclusión perfecta para mi trabajo de investigación
- Informática: ¿Por qué publicas trabajos académicos?
- ¿Qué tan adecuado es el Samsung Note 4 para leer artículos académicos?
- ¿Cuándo no necesito citar? ¿Qué es el conocimiento común en detalle?