¿Hay alguna lista de palabras vacías relacionadas con artículos científicos?

He trabajado con análisis de datos cualitativos durante más de 10 años y me llevó mucho tiempo encontrar una explicación sensata para el concepto de palabras vacías. Hoy sé lo que significa y, en general, creo que es un concepto pobre. ¿Por qué? Bueno, combina dos cuestiones diferentes:

  1. En primer lugar, a veces se usa para suprimir tokens que son metadatos o perturbar el análisis del contenido principal. Un ejemplo es el botón “me gusta” en el texto de Facebook. Dichos datos deben lavarse / organizarse fuera del conjunto de datos netos. Prohibir ciertas palabras es terriblemente poco preciso.
  2. en segundo lugar, parece haber una suposición general de que algunos tokens “nacen” sin importancia. Según mi experiencia, incluso los tokens más pequeños pueden ser cruciales, al menos en algunos casos.

Te recomendaría que estudies el campo de los modelos temáticos seleccionados por humanos y no solo la llamada inteligencia artificial.

Permítanme terminar con un ejemplo: estas son varias palabras que tienen que ver con la salud; se han extraído sin definir una sola palabra clave de una gran cantidad de textos:

Esas no me parecen palabras de detención. Las palabras de detención son palabras de muy alta frecuencia que sirven a un propósito gramatical en lugar de agregar cualquier significado. Las palabras que ha mencionado estarán muy indexadas en su corpus, pero creo que seguirán teniendo significado y, por lo tanto, no son palabras vacías.

Si quisieras identificarlos, entonces es bastante fácil. Tome un gran cuerpo de texto estándar e identifique la frecuencia de los términos, haga lo mismo con su corpus de papel científico y busque palabras muy sobreindicadas en su corpus y más allá de cierta frecuencia.

Durante la redacción de una tesis, estaba buscando una lista de palabras clave en alemán. La única lista de palabras útiles que encontré estaba en nltk.org. Pero este no es específico para la ciencia. La mayoría de los otros no están documentados.

Si ya tiene sus documentos de interés (para análisis), puede crear una lista de palabras vacías en su propia computadora. Por lo tanto, cuente todas las palabras e identifique las más frecuentes y sin sentido.

More Interesting

¿Debería la escritura académica y legal volverse menos esotérica?

Quiero escribir un trabajo de investigación sobre la literatura de América. ¿Qué perspectiva es adecuada y mejor?

¿Cuáles son los diferentes tipos de papeles abrasivos?

¿Cuáles son los mejores artículos sobre visión por computadora?

Cómo citar algo que alguien más ya citó

Cómo escribir un trabajo de investigación sobre inteligencia artificial, aprendizaje automático y publicarlo si soy un estudiante de 4to año de ingeniería de comunicación electrónica

¿Puedes sugerir algunos libros para el papel descriptivo Tier -3?

Cómo citarme en un documento donde incorporo elementos de documentos anteriores que he escrito

¿Dónde puedo vender mi trabajo de investigación en línea?

En la investigación académica, ¿cómo se compila una gran cantidad de artículos / referencias?

¿Por qué algunos profesores universitarios son reacios a adherirse a los manuales de estilo al evaluar los trabajos de investigación de los estudiantes?

¿Cuáles son las citas adecuadas para las respuestas de Quora usando APA, Chicago y MLA? ¿Deben usarse las citas en el texto para un trabajo corto (10 páginas o menos)?

¿Se han escrito trabajos académicos interesantes sobre ABBA y, de ser así, de qué se tratan?

¿Qué tipo de preguntas se esperan para IIIT, el examen CND (NK) de Hyderabad? ¿Están disponibles los documentos de preguntas del año anterior?

¿Cuál es la diferencia entre IEEE e IETE?