¿Qué es la ley de Benford?

Hace poco leí sobre la Ley de Benford en un artículo de la revista Harvard Business Review (HBR) llamado, Where Financial Reporting Falls Short por H. David Sherman y S. David Young. En el artículo de investigación, los autores declaran lo siguiente con respecto a la Ley de Contabilidad y Finanzas de Benford:

Un enfoque para el análisis de los registros de la empresa que recientemente ha ganado popularidad en los mercados financieros se basa en la Ley de Benford, sobre la distribución de frecuencias de los dígitos principales en conjuntos de datos numéricos. La ley ha existido durante mucho tiempo, pero solo recientemente se ha aplicado en contabilidad y en el sector financiero: las compañías de seguros han comenzado a usarla para detectar reclamos falsos, el IRS para detectar fraude fiscal y las 4 grandes firmas de contabilidad para detectar irregularidades contables

Llamada así por un científico británico de principios del siglo XX, la ley establece que en las listas de números de cualquier fuente de datos natural (cargos de tarjeta de crédito, entradas de compras, recibos de efectivo) el primer dígito para cada número será 1 (por ejemplo, 1 , 157, 1, 820) aproximadamente el 30% del tiempo. El primer dígito será 2 aproximadamente el 18% del tiempo, y cada número sucesivo representará una proporción progresivamente más pequeña, hasta el punto en que 9 aparecerá como el primer dígito menos del 5% del tiempo. Se ha encontrado que esta distribución es válida para una variedad prácticamente ilimitada de conjuntos de datos: la longitud de los ríos (en pies y en metros), la población de ciudades y países, el volumen de negociación en las bolsas de valores, el número de puntos de clasificación para los profesionales del tenis, los pesos moleculares de los productos químicos, la altura de los edificios más altos del mundo, etc.

Las variables de contabilidad también deben distribuirse de acuerdo con la Ley de Benford, y lo son, siempre que no haya habido un juego consciente de los datos. De hecho, la distribución se mantiene incluso si las cifras se convierten de una moneda a otra. Si un conjunto de datos contables se desvía de la Ley de Benford, eso puede tomarse como evidencia de manipulación.

Suponga que una empresa de contabilidad está revisando los estados financieros de una empresa. Si un número inusualmente alto de primeros dígitos en los datos contables es 7s, 8s o 9s, puede indicar un esfuerzo consciente por parte de los gerentes para refinar los números para lograr los resultados financieros deseados.

Fuente: donde la información financiera aún se queda corta

Muy bien, ¿verdad?

Para obtener más información, visite mi blog: Blog | Matt Doheny

¡Sigue a Matt Doheny en LinkedIn y Twitter!

Cuando toma conjuntos de datos masivos y considera un parámetro específico y toma su histograma, es decir, la frecuencia, del dígito más significativo (o el dígito más a la izquierda) de todos los números en la distribución, sigue una bonita curva descendente. O, en otras palabras, los números que comienzan con el dígito ‘1’ ocurren con mayor frecuencia y los que comienzan con ‘9 son menos frecuentes y en el medio obtenemos una bonita curva de pendiente negativa.

Considere un escenario en el que necesitamos aumentar ciertos parámetros de 1 a 2, y así sucesivamente. 2 es 100% más que 1, pero 3 es 50% más que 2, y 4 es 33.33% más que 3 y así sucesivamente. Esta es la intuición básica de por qué ocurre el patrón anterior.

Entonces, a medida que avanzamos por la recta numérica hasta un 100, la frecuencia de los números que comienzan con 1 es 11 u 11%. Luego, cuando ingresamos a la serie 100, todos los números hasta llegar a 200 caen en este cubo. Entonces no obtenemos ‘1 hasta 1000. Como en la mayoría de las áreas, es menos probable que ocurran los números de mayor magnitud, por lo que la probabilidad de que un número que comience con 1 sea mayor.

Considere el siguiente ejemplo:

Tomaremos la estimación de población de todos los países del mundo desde (el archivo csv) descargado de Population, total y escribiremos un script en python (Tomado los datos de 2015, ya que ese es el año más alto disponible en el conjunto anterior):

desde el trazado de importación *
importar re
importar csv
fpath = path_to_file_in_file_system
dataList = []
rowCntr = 0
con abierto (fpath) como datacsv:
readCSV = csv.reader (datacsv, delimiter = ‘,’)
para fila en readCSV:
if (rowCntr> 4 y row [len (row) -3] .strip ()! = “”):
dataList.append (int (fila [len (fila) -3] .strip () [0]))
más:
rowCntr + = 1
histplot (dataList)

Nota: Aquí el archivo plotting.py es una abstracción escrita sobre la biblioteca matplotlib. He codificado el rowCntr para que sea superior a 4 ya que ese conjunto de datos tiene títulos y otros encabezados que forman las 4 líneas iniciales.

Obtenemos el siguiente histograma que claramente proporciona una buena distribución de pendiente negativa de la frecuencia de aparición de los dígitos MSB en el conjunto de datos

Hay ciertos casos en los que esta ley podría no ser válida. Tal vez en casos donde el aumento en el número no es difícil.

También otro escenario que repentinamente se me ocurrió es la distribución del gasto de todas las personas que podría ser un conjunto de datos masivo. Como la mentalidad de la gente es gastar menos, los números podrían colgar más en el extremo inferior del espectro.

A veces las personas pueden preguntar por qué los matemáticos pasan por este rigor para encontrar tales patrones en el mundo. Cuando eres consciente de lo más frecuente, puedes detectar las salidas extrañas, simples y simples. Esto tiene aplicaciones donde podemos detectar datos inventados fraudulentos.

De hecho, acabo de ver en Numberphile que Frank Benford lo encontró cuando estaba usando su libro de tablas de registro, aunque antes alguien descubrió esta ley. Las páginas que buscaban números que comenzaban con 1 parecían más usadas en comparación con las otras páginas. Esto es genial.

Si tiene una lista de números y necesita saber cuántos números comienzan con el dígito 2, (válido para cualquier número 1-9) puede aplicar la ley de Benford. Algunos ejemplos de los números que comienzan con el dígito dos son 23, 222, 2300 299, etc. Donde el primer dígito es el número dos.

Esta teoría también se extiende para los dos primeros dígitos, donde se toman números como 23 (números en el rango de 10-99), ejemplos de números que comienzan con 23 son 2300, 23, 239.

Si recibe una lista de pagos y sospecha que estos no son pagos genuinos y son números inventados, puede verificar si estos números se ajustan a la ley de Benford. puede usar uno de los siguientes programas para hacer esto

Análisis de Forestpin Benford

Forestpin: Lite

Descargo de responsabilidad: Forestpin (Pvt) Ltd produce software para Forensic Analytics. El software anterior que incluye la prueba de la Ley de Benford fue construido por Forestpin (Pvt) Ltd. Trabajo en esta empresa.

La ley de Benford, también llamada Ley del primer dígito, se refiere a la distribución de frecuencia de los dígitos en muchas (pero no todas) fuentes de datos de la vida real.
Ver: la ley de Benford

La Ley de Benford también se conoce como la Ley del primer dígito que establece que si seleccionamos al azar un número de una tabla de constantes físicas o datos estadísticos, la probabilidad de elegir un 1 es aproximadamente 0.301, que no es 0.1 como podríamos esperar si todos los dígitos fueran igualmente probable.