¿Cómo funciona la función ‘Artículos relacionados’ de Google Scholar?

Hay muchos enfoques para encontrar documentos relacionados como el Dr. Garbe ha descrito en su excelente respuesta. Sin embargo, quisiera señalar que todos estos métodos pueden fallar a menos que el enfoque sepa por qué un documento en particular le interesó en primer lugar.

Por ejemplo, en un trabajo de investigación académica, ¿es el sistema modelo lo que le interesa más, los métodos utilizados en la investigación, una conclusión específica a la que llegaron los autores, etc.?

¿Qué pasaría si, en lugar de encontrar “artículos relacionados”, su búsqueda inicial fuera más efectiva para encontrar documentos realmente relacionados con su interés? Y, ¿qué pasa si esa búsqueda inicial tuvo en cuenta los problemas de sinonimia y polisemia que Garbe mencionó? Y luego, ¿qué pasaría si pudiera ver los resultados en visualizaciones interactivas donde pudiera explorar intuitivamente el paisaje para encontrar lo que realmente le importaba?

Afortunadamente, dichos enfoques se han implementado para la literatura médica y de ciencias de la vida (Qinsight de Quertle).

No sé qué algoritmo usa la función “Artículos relacionados” de Google Scholar. Hay varios enfoques posibles:

1. Su algoritmo : su algoritmo de extracción recursiva de los documentos en la sección de referencia funcionaría.
Podrías clasificar los resultados por

  • proximidad (menor número de saltos de referencia)
  • similitud de coseno en el espacio vectorial de término (dando más peso a los términos del título)
  • cantidad de referencias entrantes
  • fecha / actualidad
  • coautores comunes

Es importante restringir el número de saltos de referencia (horizonte). Debido al fenómeno del mundo pequeño (seis grados de separación), de lo contrario, podrías terminar con todos los documentos del mundo.
Este algoritmo dependería únicamente de la curación humana (cita).

2. CiteSeer : Google Scholar también podría extraer otros servicios públicos de citas como CiteSeer (página en psu.edu) para artículos relacionados.

3. Modelo de espacio vectorial : Google Scholar también podría utilizar todos los documentos de su índice web (p. Ej., Todos los documentos pdf de dominios .edu) y para cada papel, clasificar los otros documentos.
de acuerdo con la similitud de coseno en el espacio vectorial de término
Este algoritmo podría encontrar documentos relacionados basados ​​en la similitud de contenido, incluso aquellos no vinculados por curación humana (cita).
Sin embargo, el algoritmo sufre sinonimia (palabra diferente con el mismo significado) y polisemia (misma palabra con significados diferentes).
Tanto el texto en papel como el texto de la página web que lo contiene y los textos de enlace que apuntan al papel desde diferentes páginas podrían ser explotados.

4. Indización semántica latente : análisis semántico latente Indización semántica latente
Este algoritmo podría encontrar documentos relacionados basados ​​en la similitud de contenido, incluso aquellos no vinculados por curación humana (cita).
Al explotar las coincidencias de términos, el algoritmo puede hacer frente a la sinonimia (diferentes palabras con el mismo significado) y la polisemia (la misma palabra con diferentes significados).
Tanto el texto en papel como el texto de la página web que lo contiene y los textos de enlace que apuntan al papel desde diferentes páginas podrían ser explotados.

5. Asignación de Dirichlet latente
Este algoritmo podría encontrar documentos relacionados basados ​​en la similitud de contenido, incluso aquellos no vinculados por curación humana (cita).
Al explotar las coincidencias de términos, el algoritmo puede hacer frente a la sinonimia (diferentes palabras con el mismo significado) y la polisemia (la misma palabra con diferentes significados).
Tanto el texto en papel como el texto de la página web que lo contiene y los textos de enlace que apuntan al papel desde diferentes páginas podrían ser explotados.

6. Gráfico de enlaces web : Google Scholar también podría usar el gráfico de enlaces web.
Los documentos en diferentes páginas web, vinculados por la misma página web podrían considerarse relacionados (fuente de enlace común),
Los documentos en diferentes páginas web, que están vinculados a la misma página web, podrían considerarse relacionados (destino de enlace común),
Los documentos pueden considerarse relacionados, si las páginas web que las contienen están conectadas por un enlace.

More Interesting

¿Cuál es la mejor manera de rastrear y clasificar los trabajos académicos que he leído en el curso de una investigación?

¿Podría la revisión por pares abierta reemplazar a los ciegos simples como la forma dominante de revisión por pares para artículos académicos? ¿Cuáles son los obstáculos?

¿Cuáles son las técnicas de recopilación de datos para el trabajo de tesis / investigación?

Cómo inspirarse para escribir un trabajo académico adecuado

¿Cuál podría ser un tema interesante para escribir un trabajo de investigación relacionado con la ingeniería eléctrica y electrónica?

¿Cómo leen los investigadores los investigadores del procesamiento del lenguaje natural?

Quiero escribir un documento técnico en la rama de electrónica. ¿Cómo debo comenzar y qué cosas debo hacer para completarlo?

Evaluación del perfil de MS: GRE-330, CGPA-9.05 de NIT Trichy, 1 artículo de investigación en International Journal, 3 pasantías de investigación. ¿Es posible Stanford?

¿Cuál es una buena manera de comenzar una plataforma de discusión académica?

¿Qué opina del índice h como una métrica de la publicación académica? ¿Qué mejores métricas simples existen?

¿Cuáles son los trabajos académicos más importantes que todos deberían leer?

¿Cuál es la convención de autoría para publicaciones académicas en su campo?

¿Cuáles son algunos buenos temas de investigación biológica?

¿Cómo se puede escribir un trabajo de investigación sobre física?

¿Es que un estudiante de ingeniería promedio no puede escribir un trabajo de investigación?