No sé qué algoritmo usa la función “Artículos relacionados” de Google Scholar. Hay varios enfoques posibles:
1. Su algoritmo : su algoritmo de extracción recursiva de los documentos en la sección de referencia funcionaría.
Podrías clasificar los resultados por
- proximidad (menor número de saltos de referencia)
- similitud de coseno en el espacio vectorial de término (dando más peso a los términos del título)
- cantidad de referencias entrantes
- fecha / actualidad
- coautores comunes
Es importante restringir el número de saltos de referencia (horizonte). Debido al fenómeno del mundo pequeño (seis grados de separación), de lo contrario, podrías terminar con todos los documentos del mundo.
Este algoritmo dependería únicamente de la curación humana (cita).
2. CiteSeer : Google Scholar también podría extraer otros servicios públicos de citas como CiteSeer (página en psu.edu) para artículos relacionados.
3. Modelo de espacio vectorial : Google Scholar también podría utilizar todos los documentos de su índice web (p. Ej., Todos los documentos pdf de dominios .edu) y para cada papel, clasificar los otros documentos.
de acuerdo con la similitud de coseno en el espacio vectorial de término
Este algoritmo podría encontrar documentos relacionados basados en la similitud de contenido, incluso aquellos no vinculados por curación humana (cita).
Sin embargo, el algoritmo sufre sinonimia (palabra diferente con el mismo significado) y polisemia (misma palabra con significados diferentes).
Tanto el texto en papel como el texto de la página web que lo contiene y los textos de enlace que apuntan al papel desde diferentes páginas podrían ser explotados.
4. Indización semántica latente : análisis semántico latente Indización semántica latente
Este algoritmo podría encontrar documentos relacionados basados en la similitud de contenido, incluso aquellos no vinculados por curación humana (cita).
Al explotar las coincidencias de términos, el algoritmo puede hacer frente a la sinonimia (diferentes palabras con el mismo significado) y la polisemia (la misma palabra con diferentes significados).
Tanto el texto en papel como el texto de la página web que lo contiene y los textos de enlace que apuntan al papel desde diferentes páginas podrían ser explotados.
5. Asignación de Dirichlet latente
Este algoritmo podría encontrar documentos relacionados basados en la similitud de contenido, incluso aquellos no vinculados por curación humana (cita).
Al explotar las coincidencias de términos, el algoritmo puede hacer frente a la sinonimia (diferentes palabras con el mismo significado) y la polisemia (la misma palabra con diferentes significados).
Tanto el texto en papel como el texto de la página web que lo contiene y los textos de enlace que apuntan al papel desde diferentes páginas podrían ser explotados.
6. Gráfico de enlaces web : Google Scholar también podría usar el gráfico de enlaces web.
Los documentos en diferentes páginas web, vinculados por la misma página web podrían considerarse relacionados (fuente de enlace común),
Los documentos en diferentes páginas web, que están vinculados a la misma página web, podrían considerarse relacionados (destino de enlace común),
Los documentos pueden considerarse relacionados, si las páginas web que las contienen están conectadas por un enlace.