¿Por qué es 5 sigma el estándar de descubrimiento?

Además de las buenas razones dadas por Michael Betancourt y Joshua Engel, hay razones “más suaves” por las que se elige 5 sigma. A la física realmente no le gusta retractarse de los descubrimientos. Esto significa que debe haber una medida de certeza y seguridad en el reclamo. 5 sigma es ingenuamente 1 en 10 ^ 7, lo cual es bastante seguro.

La razón por la que digo ingenuamente es que siempre hay al menos dos contribuciones al error: estadística y sistemática. El error estadístico es bastante sencillo de calcular en general. A menudo requiere cálculos largos para hacerlo bien, pero está bien definido. Las estadísticas solo tienen que ver con el hecho de que solo obtenemos un número finito de mediciones. Los errores sistemáticos son mucho más difíciles. Esto tiene que ver con la cantidad de aspectos incorrectos de los experimentos. Obviamente, si supieras que están equivocados, los corregirías, en lugar de eso tienes que cuantificar las incógnitas y las incógnitas desconocidas. Hay muchas técnicas que se utilizan para hacer esto, pero es difícil y es posible equivocarse.

Entonces 5 sigma, permite un cierto grado de confianza estadística, pero también le da un margen de maniobra con errores sistemáticos. Por lo general, los físicos prefieren en los descubrimientos que los errores estadísticos dominen los errores sistemáticos por este motivo. Esto generalmente significa que pueden estar equivocados por casi un orden de magnitud en errores sistemáticos y aún tener un descubrimiento significativo.

Finalmente, está el efecto Look Othersewhere (creo que se llama el efecto Bonferroni en las estadísticas). Esta es simplemente la afirmación de que si miras en 100 lugares diferentes, encontrarás 1 medida que es 1 en 100 poco probable. Dentro de un análisis dado, es bastante sencillo cuantificar el efecto Buscar en otro lado; sin embargo, en el LHC, es muy difícil cuantificar el número de distribuciones que se analizaron. Los descubrimientos de 5 sigma realmente eliminan el sesgo de publicación, ya que los ensayos de 10M son simplemente más que el número total de análisis realizados (en los que se tiene en cuenta el efecto local Look en otro lugar).

En última instancia, después de un tiempo observando que las anomalías van y vienen (y ocasionalmente se quedan), aprendes que no se debe prestar atención a las anomalías 2 sigma porque ocurren todo el tiempo; Las anomalías de 3 sigma son completamente descamativas y raras se integran a significaciones más grandes; Las anomalías 5 sigma son más frecuentes que reales. Si fuéramos trompeteando cada anomalía 3 sigma, nadie nos creería porque estaríamos retrayéndolos de izquierda a derecha.

Volviendo a los detalles de la pregunta, no sé de otro campo que se mantenga en este nivel de descubrimiento, puede ser la química. La medicina y la salud a menudo expresan su importancia antes de tener en cuenta el efecto local Look en otro lugar, que está al borde de la deshonestidad. Además, toneladas de estudios médicos y biológicos solo tienen significación estadística 2 sigma.

Es aún peor porque las revistas de física permiten la publicación de resultados nulos, por lo tanto, el sesgo de publicación es mucho menor que en otros campos. Si niega la publicación de resultados nulos, pero considera que 2 sigma es significativo, entonces la única forma en que los científicos pueden tener éxito es a través del algoritmo: realice 20 experimentos, publique 1. Si está bajo presiones de tiempo, simplemente subestime sus errores sistemáticos y yo ‘ Estoy seguro de que puede obtener hasta 1 de cada 5 experimentos dando un resultado de 2 sigma. No digo que los científicos sean deshonestos, digo que las reglas del juego están establecidas para fomentar este tipo de comportamiento (particularmente porque no se requiere que las revistas impriman estudios que no confirman la publicación original).

tl; dr 5 [math] \ sigma [/ math] asegura que haya suficientes datos para justificar los supuestos de las “estadísticas” de física convencionales.

Primero, algo de historia

A través del descubrimiento de los bosones débiles [1], los físicos no se molestaron con las pruebas de hipótesis o similares. Las señales en estos experimentos estaban esencialmente libres de antecedentes: la probabilidad de incluso unos pocos eventos dentro de la hipótesis nula habría sido, por definición, cero [2].

Sin embargo, una vez que el colisionador de electrones grandes (LEP) entró en funcionamiento en el CERN, los análisis se volvieron mucho más difíciles. No solo los antecedentes fueron significativos, sino que los errores sistemáticos comenzaron a rivalizar con las incertidumbres estadísticas. Varias señales 3 [matemáticas] \ sigma [/ matemáticas] surgieron en un experimento pero no pudieron confirmarse en los otros. Lo mismo continuó en el Tevatron en Fermilab, donde incluso se encontraron algunas señales 4 [matemáticas] \ sigma [/ matemáticas] pero desaparecieron rápidamente cuando se recopilaron más datos.

Aunque los experimentos de Tevatron reportaron por primera vez 3 [math] \ sigma [/ math] “evidencia” para el quark top, no reclamaron el descubrimiento hasta que acumularon entre 4 y 5 [math] \ sigma [/ math] significado [3 ]

Los experimentos de Tevatron esencialmente establecen la barra para todos los experimentos futuros. La comunidad de física redondeó hasta 5 [matemáticas] \ sigma [/ matemáticas] y se preparó para que el LHC comenzara las colisiones.

Entonces, algunas estadísticas

Entonces, ¿de qué se trataban todas esas señales espurias en LEP y Tevatron?

Gran parte del problema radica en cómo los físicos suelen abordar las estadísticas. Cuando se trata de calcular la importancia de una señal, los físicos suelen recurrir a uno de dos enfoques: Monte Carlo o aproximaciones. Monte Carlo ofrece el beneficio de cálculos de significancia casi exactos, pero ante una grave vulnerabilidad a errores sistemáticos en los modelos de fondo y generadores Monte Carlo. Las pruebas aproximadas adolecen de algunas de las mismas vulnerabilidades, pero también deben tratar las consecuencias de las aproximaciones subyacentes [4]. Desde una perspectiva estadística ortodoxa, las pruebas de significación resultantes tienen una cobertura pobre [5].

Sin embargo, estos problemas disminuyen cuando aumentan las estadísticas. Con más datos, la sistemática se puede entender mejor y los supuestos asintóticos se vuelven más válidos. El requisito extremo de 5 [math] \ sigma [/ math] finalmente asegura que haya suficientes datos para compensar cualquier falla en las estadísticas subyacentes. Convenientemente, también asegura que la señal sea bastante convincente visualmente [6].

[1] Ver, por ejemplo, los documentos de descubrimiento UA1 y UA2:

http://www.sciencedirect.com/sci
http://www.sciencedirect.com/sci
http://www.sciencedirect.com/sci

Tenga en cuenta que estos primeros análisis presentaron solo 4-5 eventos de señal.

[2] Hay algunas excepciones. Los eventos de tres chorros que señalaron la primera evidencia directa de gluones, por ejemplo, tenían un pequeño trasfondo de los eventos de dos chorros. Sin embargo, la colaboración de PETRA nunca realizó una prueba de significación formal, sino que citó las estadísticas [math] \ chi ^ {2} [/ math] de antemano. Ver

http://prl.aps.org/abstract/PRL/… .

[3] D0 informó 4.6 [matemática] \ sigma [/ matemática] con informes de CDF 4.8 [matemática] \ sigma [/ matemática]. CDF también afirmó que podrían combinar dos resultados para obtener un resultado completo de 5 [matemáticas] \ sigma [/ matemáticas], pero la técnica es dudosa en el mejor de los casos.

Ver

http://prd.aps.org/abstract/PRD/ … (Evidencia)
http://prl.aps.org/abstract/PRL/ … (Discovery)
http://prl.aps.org/abstract/PRL/ … (Discovery)

[4] Intenta leer un documento de análisis de LHC que discuta el “efecto de buscar en otro lado” o “pruebas de probabilidad de perfil” y cuenta el número de veces que los autores notan “asumir distribuciones gaussianas” o “asumir el límite asintótico”.

[5] La cobertura es la frecuencia con la que el significado citado surgiría de la hipótesis nula si el experimento se repitiera una y otra vez. Cuando se sobreestima la cobertura, se ven más señales espurias de lo que cabría esperar del significado citado, exactamente como se vio en los experimentos.

[6] No importa las limitaciones de los análisis subyacentes, es difícil debatir el pico en los espectros de dos fotones CMS / ATLAS. Se podría argumentar que, a medida que los análisis se vuelven más difíciles, los requisitos de importancia aumentarán de manera similar para que la comunidad pueda confiar en las parcelas en lugar de los números. Es un enfoque conservador y seguro, pero en última instancia decepcionante, de la ciencia.

Una diferencia entre la física y las ciencias sociales es que las partículas son producidas por billones. Las personas, por otro lado, suman solo unos pocos miles de millones, y es poco probable que su estudio pueda encuestar a más de unos pocos miles de ellos. A menudo lejos, mucho menos.

El “espacio” total de personas es mucho mayor que el número total de personas en el planeta. Incluso si pudieras hablar con cada persona viva, solo estás entrevistando a un pequeño subconjunto de personas, suficiente para, digamos, cuatro sigmas. Eso es prohibitivo, y no cedería mucho, incluso si pudiera. Hay demasiadas variables. Los seres humanos son complicados y es difícil incluso saber qué variables son significativas, y mucho menos cuáles podrían ser sus distribuciones. Deberíamos considerarnos afortunados de obtener dos sigmas en cualquier cosa.

Las partículas, por el contrario, son numerosas y simples. El experimento no siempre es simple, y a menudo tienen que resolverlo entre el ruido de las interacciones de partículas en conflicto. Aún así, cuando obtienes algunos billones de ellos, se puede esperar que encuentres una señal de cinco sigma en todo eso.

No sé exactamente quién y cuándo el estándar de cinco sigma se convirtió en estándar. Sospecho que simplemente “surgió”: podemos hacer cinco sigmas, por lo tanto lo haremos . El número es arbitrario, por supuesto: tan pronto como obtuvieron el resultado de dos sigma para el Higgs, nadie creyó seriamente que no lo aumentaría. El resultado de cinco sigma es un buen punto final, una oportunidad para lanzar sombreros al aire y obtener algunos medios, antes de continuar con esencialmente el mismo trabajo que hicieron el día anterior.

More Interesting

¿Qué tipo de movimiento realizan las ruedas de una bicicleta?

¿La gravedad a una distancia igual sobre la Tierra es mayor si estás por encima de una cadena montañosa en comparación con un valle?

¿Por qué no funciona un auto magnético?

¿Por qué algunos programas importantes de física en muchas universidades no incluyen un curso completo de mecánica de fluidos? ¿No es importante la mecánica de fluidos?

¿Qué sucederá si se aplica una fuente de voltaje de A / C con frecuencia en espectro visible (digamos 4 * 10 ^ 14 hz) a través de una resistencia en un circuito completamente transparente? ¿Veremos la luz roja (frecuencia 4 * 10 ^ 14 hz) considerando que la luz es una onda electromagnética?

Se dice que perder masa produce energía, así que si perdemos nuestra masa cortando una de nuestras manos, ¿se producirá energía?

¿Cuál es la diferencia entre flujo compresible y fluido compresible?

¿Cuáles son algunas leyes físicas lineales encontradas experimentalmente en forma integral y por qué deberían corregirse?

¿Existe el cero negativo?

¿Puede una esfera de radio de 10 cm contener una carga de 2 coloumb?

¿Es posible ser admitido en un programa de doctorado en física teórica en los EE. UU. Si tengo una licenciatura diferente?

Si el espacio-tiempo se curva alrededor de los objetos, ¿por qué los objetos más pequeños (planetas como la Tierra, etc.) no encogen lentamente sus órbitas y colapsan en el sol?

¿Qué son las ondas gravitacionales y por qué es un tema de discusión?

¿Cómo funciona la repulsión magnética?

¿Podemos estar seguros de que no hubo tiempo antes del Big Bang?