¿Cómo son los datos del LHC?

Hay muchas formas de responder esta pregunta. Los datos “básicos” más básicos son solo un grupo de voltajes que representan señales digitales o analógicas que provienen del sistema de lectura del detector. Esto, junto con un montón de información sobre el estado del detector y del acelerador, se almacenan en archivos que no significan nada para un ser humano. De alguna manera, tienes que traducir estos voltajes en algo útil. Este proceso se llama “reconstrucción de eventos” y una gran parte de las necesidades informáticas de un experimento HEP entra en esto. La forma en que se realiza una reconstrucción depende de los detalles del detector.

Consigamos un calorímetro, solo como ejemplo. Lo primero que debe hacer es convertir ese voltaje en energía. Después de este proceso, los datos son un poco más legibles para un ser humano. Ahora sabe que en una determinada región del calorímetro se depositó una cantidad determinada de energía. Pero aún no sabes nada sobre lo que depositó esa energía. Usando la distribución de energía dentro y alrededor de ese depósito local (así como la información de otros subdetectores), puede intentar identificar ese depósito específico de energía como causado por el paso de una partícula determinada. Toda esta información se almacena en otro archivo, y este es el que los investigadores observan principalmente (muy pocas personas ven los datos en bruto, incluso dentro de las colaboraciones).

Ok, pero ese no es el final. Hay un paso final, que es obtener la lista de candidatos a partículas identificados durante la reconstrucción e intentar identificar esta firma como proveniente de cierto fenómeno físico. Esto se llama “análisis de eventos” y utiliza toda la información de todos los subdetectores al mismo tiempo. Por ejemplo, puede estar mirando la producción de un par de muones para estudiar la producción de este tipo de evento a partir de la interacción mediada por un bosón Z. Otros ejemplos pueden ser más complejos, como un par de quarks superiores, que se descomponen en un neutrino, un muón, dos chorros de quarks inferiores y dos chorros de quarks ligeros. ¡Sí, la gente va y busca todo eso al mismo tiempo!

Entonces, para cada análisis, los científicos analizan solo aquellos eventos que son consistentes con los fenómenos que están investigando. Esta es la única información que se muestra públicamente. Por ejemplo, usando el ejemplo del bosón Z decayendo a dos muones que mencioné anteriormente, los puntos negros son los datos en función de los momentos transversales del par de muones:

Página en cds.cern.ch (de colaboración CMS, figura pública)

Y esto es cierto para casi todas las colaboraciones experimentales. Solo los datos analizados son públicos. Tanto los datos sin procesar como los reconstruidos se mantienen privados. Hay muchas razones para tal elección. La razón principal es que muchos análisis se realizan sobre los mismos datos, y las personas que trabajaron para recolectarlos se reservan el derecho de analizarlos primero. Creo que esto es correcto, porque es un trabajo importante recopilar estos datos. Las colaboraciones publican los análisis tan pronto como estén listos para que la comunidad pueda continuar con el trabajo de interpretarlo, pero, mientras tanto, continúan trabajando en el mismo conjunto de datos para producir más análisis.

Otra preocupación es el uso correcto de los datos en bruto y reconstruidos. Como dije anteriormente, los datos dependen en gran medida del estado del detector cuando se recolectó y, aunque durante la reconstrucción se realiza un gran esfuerzo para descomponer estos efectos, esto no siempre se logra. En algún momento, incluso el análisis del evento final tiene que considerar los detalles del detector para medir algo correctamente. Aunque toda esta información también está ciertamente disponible, es humanamente imposible que una sola persona los conozca a todos. En estas enormes colaboraciones, hay grupos especializados en asegurarse de que todos los detalles de un subdetector y todos los detalles de la reconstrucción de un objeto se tengan en cuenta correctamente en cada resultado.

Hay muchas capas diferentes de reducción de datos entre el registro de datos en el detector y las publicaciones finales. Una colisión registrada por uno de los detectores omnipresentes de LHC generalmente tiene un tamaño de 0.5 – 1 MByte, aproximadamente 100-1000 por segundo se guardan para almacenamiento fuera de línea y análisis posteriores. Los datos en una publicación pueden ser tan reducidos como un solo número (con precisión de medición).

Los datos que salen de los detectores suelen ser un formato binario personalizado empaquetado tanto como sea posible para mantener bajos los requisitos de ancho de banda de los enlaces fuera del detector. Estos son en su mayoría recuentos de convertidor analógico a digital (ADC) de diferentes elementos detectores.

Las colisiones mantenidas para el análisis fuera de línea están sujetas a reducción de datos : los recuentos de ADC consecutivos de tiempo (que representan un pulso) se resumen como el tiempo y la altura de la forma del pulso, la información de la altura del pulso se agrupa en grupos de regiones en el detector de depósitos de alta energía (un signo de un cierto tipo de partícula que golpea una región determinada en el detector). Lo que se mantiene allí es la ubicación / dirección y la energía del depósito. Para otras partes del detector, los círculos se ajustan a través de las posiciones de los elementos del detector donde se encontraron impactos. A partir de la curvatura del círculo, se determina la energía y carga de una partícula (positiva o negativa).

Un paso adicional de reducción es asociar las regiones de depósito de alta energía a los círculos (pistas) que se encuentran para formar partículas reconstruidas para las cuales se mantiene la información de energía, dirección y tipo. Las partículas cercanas de cierto tipo se agrupan nuevamente para formar lo que se llama ‘chorros’, que es un signo típico de que se ha producido un quark o gluón en la colisión.

Una vez que se tiene una lista de dicha información de energía / dirección y tipo de partículas , las colisiones se filtran aún más dependiendo de qué tipo de medición o búsqueda de nuevos fenómenos quiera hacer un analizador. Por lo general, hay muchas colisiones no deseadas que se parecen a las colisiones de interés en un análisis.

Un concepto importante es que al combinar la información de energía / dirección de varias partículas observadas en el detector, se puede calcular la masa que habría tenido una partícula ‘madre’ que se descompone en las partículas observadas. Si una nueva partícula se produjo o no en algunas colisiones a menudo se infiere del hecho de que hay un “pico” en el espectro de todas las masas como esta:


A nivel técnico , un formato de datos popular para cualquier cosa que no sean los datos del detector sin procesar es el formato de archivo que viene con este marco de análisis: https://root.cern.ch/ . Los datos se organizan en estructuras similares a tablas (similares a las tablas SQL) donde las filas corresponden a colisiones y las columnas son una característica dada de la colisión (por ejemplo, número de partículas detectadas en la colisión, masa de ciertas combinaciones de partículas, etc.). En su forma más simple, las columnas son valores simples de punto flotante, pero el marco también admite el almacenamiento de objetos C ++.


Datos públicos: si después de leer todo esto todavía siente ganas de ensuciarse las manos, eche un vistazo aquí: http://opendata.cern.ch/research/ . Este es un pequeño subconjunto de los datos puestos a disposición del público, a nivel de partículas o de abstracción si no me equivoco. Sin embargo, tenga en cuenta que algunos de los conjuntos de datos tienen un tamaño de terabytes y la configuración del entorno para leer los datos puede no ser trivial.

El LHC tiene piezas enormes y diferentes operaciones de trabajo para analizar diferentes partes de los datos. Es un eufemismo decir que el LHC produce una ENORME cantidad de datos. Estoy trabajando con el grupo ATLAS, y lo que hacemos es colisionar los paquetes de protones con los paquetes de protones y ver qué sale y es detectado por los calorímetros de los azulejos. Por ejemplo, nuestros detectores en algún nivel están compuestos de supercélulas, que se agrupan en gTowers.

Experimento ATLAS: la información sobre el detector está aquí.

La mayoría de las veces, trabajamos en la ejecución de simulaciones de datos que esperamos recibir del experimento y probamos nuevos algoritmos para mejorar el sistema de activación y obtener una mejor SNR (eso es efectivamente una gran parte del trabajo, eliminando el fondo, mejorando la calidad de la señal , asegurándonos de no tirar las cosas que nos importan). Aquí hay un evento simulado:

Esto es lo que devuelven los algoritmos actuales de reconstrucción del jet
Pero esto es solo un pequeño subconjunto de una pequeña pieza de un proyecto de colaboración ENORME.

Los datos en sí se almacenan generalmente en archivos ROOT dentro de un TTree (y usaría ROOT (y PyROOT) para acceder a los archivos evento por evento (piense fila por fila). El truco es que estos archivos ROOT podrían tener cientos fácilmente o miles de columnas y parámetros que describen información para un solo evento (colisión).

La tesis de mi superior estuvo fuertemente influenciada por este artículo [1]: http://www.iop.org/EJ/article/17

Describe el mecanismo por el experimento CMS se distribuye al mundo. Como soy ingeniero y no físico, no sé qué necesita para acceder a los datos, pero hay muchas organizaciones en todo el mundo que pueden y tienen acceso a datos muy recientes, por lo que creo que no es tan difícil. Tal vez podría comenzar a buscar aquí para obtener más información sobre cómo verlo usted mismo.

https://twiki.cern.ch/twiki/bin/

No estoy seguro de cómo hacerlo, así que no puedo ayudarte más que eso, pero espero que este sea un buen punto de partida.

A continuación se presentan los datos reales registrados por ATLAS el 5 de noviembre de 2012.


Cuando dos protones chocan casi a la velocidad de la luz, sale un montón de cosas. Puedes ver esto en el medio donde hay un montón de líneas que salpican radialmente. Cada uno de ellos son indicaciones de cosas (es decir, partículas). Luego analizamos los datos e identificamos cada cosa que sale y tenemos sentido de lo que sucedió con esta colisión.

Creemos que este evento de datos específico es un bosón de Higgs que se descompone en dos partículas de tau. Creemos que se produjo un bosón de Higgs en el centro, donde todas las líneas están salpicando radialmente. También creemos que el azul más grueso y la línea verde que sale del medio son de los dos taus en los que el bosón de Higgs se descompuso poco después de ser producido. Cuando se produce Higgs, a menudo viene con “subproductos”. Y los dos conos gigantes de color cian (los llamamos “chorros”) son lo que creemos que son los subproductos.

La siguiente imagen es una caricatura de tal evento que describí. La caricatura y la pantalla no son 100% iguales, pero la esencia es la misma.

fuentes de imágenes: Evidencia de descomposición del bosón de Higgs en el estado final tau + tau- con el detector ATLAS
Mi primer seminario grabado en LBNL

Espero que si sigues el enlace pegado a continuación, te sirva de ayuda. Para cualquier otra pregunta, siempre puede comunicarse con las personas en la lista de contactos o simplemente enviarme un mensaje. Estaré encantado de ayudar si puedo. 🙂
Datos públicos de CMS | Experimento CMS