¿Interpolar un histograma le daría la misma forma que una función de densidad de probabilidad?

Recuerde que las densidades de probabilidad son solo modelos. Nunca se sabe realmente la verdadera distribución subyacente de sus datos; de hecho, nunca se sabe realmente si existe una verdadera distribución subyacente. Entonces, una pregunta importante es: “¿Cómo se construye un modelo adecuado cuando todo lo que tiene son algunos datos?”

Una cosa razonable para intentar (para datos cuantitativos) es construir un histograma. La naturaleza exacta de su conjunto de datos lo ayuda a elegir cuántos contenedores usar y qué tan anchos deberían ser. Una vez que tenga su histograma, si desea obtener una función de densidad de probabilidad, hay varios pasos siguientes posibles. La interpolación (p. Ej. Lineal, polinomial, etc.) es una opción, aunque no es el enfoque más común.

Sin embargo, hay un detalle importante para recordar. Los histogramas se escalan para que la altura de cada barra cuente el número (o fracción) de muestras en un contenedor. Las densidades de probabilidad se escalan para que esa área bajo la curva de densidad sea una. Eso significa que después de que termine de suavizar su histograma (ya sea por interpolación o por algún otro método), debe reescalarlo para asegurarse de que su área sea una. Una vez que haya hecho eso, tendrá una densidad que podría ser un modelo muy razonable para la distribución subyacente a sus datos.

Si está interesado en estas ideas, también debe explorar el tema de la estimación de densidad de Kernel. Esta idea es un enfoque más sistemático y robusto para hacer lo que sugiere en su pregunta.

Si está interpolando, está tratando de estimar la y para una x dada. La mejor manera de hacerlo es interpolar a partir de los datos originales, utilizando todos los datos. ¿Por qué aproximar los datos y luego hacer una aproximación adicional a partir de las aproximaciones de la primera etapa?

La excepción sería cuando conoces la forma de la distribución subyacente. Por ejemplo, puede saber que los datos fueron generados por un proceso físico que se caracteriza por una distribución de Weibull. En ese caso, use los datos para ajustar los parámetros de la distribución correcta y luego interpolar desde esa distribución.

No necesariamente. Depende de cómo se construye el histograma y de cómo se interpola.

Los histogramas en la misma variable pueden verse muy diferentes con diferentes anchos de contenedor y diferentes puntos de partida. Si luego interpola directamente desde esos contenedores, puede obtener diferentes densidades.

Y también puede obtener diferentes densidades de los datos dependiendo del método de estimación de densidad que utilice.

Sí, un histograma es más o menos lo mismo que un PDF.

(solo, dependiendo de su aplicación y campo, asegúrese de lo que es estadística (medida) versus probabilística (modelada). Esto se aplica a ambos nombres, al menos en matemáticas aplicadas).