¿Cómo integran los científicos de datos los datos de ubicación en sus modelos?

Esta no es la única forma de hacerlo, pero es con lo que estoy familiarizado.

En el contexto de regresión:

  • utilizando una entrada directa (por ejemplo, latitud y longitud; fila y columna); esto puede ser cuantitativo, transformado o categórico
  • crear una nueva variable, o varias variables nuevas (por ejemplo, reemplazar el código postal -> condado, estado, región)
  • crear otras variables nuevas, como la distancia (lo probaría para su ejemplo de “cosas divertidas”)

En un contexto de regresión de modelo mixto (modelado espacial):

  • Modelado de estructura G: modelando la relación entre predictores en diferentes niveles
  • Modelado de estructura R: modelando la relación entre los errores (es decir, errores no independientes)

Tenga en cuenta que hay equivalentes matemáticos (pero no computacionales) para ciertos modelos de estructura G y R.

En el “ejemplo de cosas divertidas”, podría crear un modelo predictivo para cada persona y actividad, con la distancia como otro predictor (o como un factor de peso, que matemáticamente es la misma idea).

En el caso de que esté describiendo con vivienda, un modelo de estructura R funcionaría bien. Las casas más cercanas entre sí tendrían una mayor covarianza. Un modelo clásico de estructura R tendría la covarianza en función de la distancia. (Hablando de “distancia”, ¡hay innumerables formas de medir la distancia!)

Para ampliar la sugerencia de Justin Ma, una forma de hacerlo es crear una matriz de distancia como esta:
… Para que las distancias formen parte de su modelo de coincidencia y una puntuación alta ya incluya el factor de proximidad (es decir, la puntuación será alta solo si está lo suficientemente cerca O otros factores influyen mucho)
El cálculo de distancias requerirá coordenadas de latitud y longitud en las que puede aplicar una función cuadrática media.