¿Cómo funciona un dispositivo de transistor multimillonario a pesar de la posibilidad inevitable de que algunos transistores fallen?

Usted pregunta: “¿Cómo funciona un dispositivo de transistor multimillonario, a pesar de la posibilidad inevitable de que algunos transistores fallen?”

No todos los defectos de silicio son iguales. Además, no todos los defectos de silicio son transistores defectuosos. También puede tener cables defectuosos y vias defectuosas (las interconexiones verticales entre capas), etc. Y luego, más adentro del área gris, tiene variaciones de rendimiento (silicio más rápido / más lento).

El porcentaje de chips fabricados que son utilizables en última instancia se conoce como rendimiento . Este número puede ser muy alto, más del 90%, para productos maduros en procesos maduros que no presionan demasiado. También puede ser mucho más bajo para los productos que presionan más el sobre.

Las virutas fabricadas se prueban para detectar una variedad de defectos. Utilizamos una combinación de funciones de autocomprobación incorporadas junto con programas de prueba para conducir los chips a su ritmo. Cuando se encuentran defectos, lo que sucede a continuación depende de la naturaleza del defecto.

Para defectos lógicos (es decir, un circuito lógico defectuoso), el bloque afectado no puede repararse. Eso a menudo lleva a que esa parte se deseche. Sin embargo, puede ser posible desactivar ese bloque y vender el chip como un tipo diferente de parte. En esta era de CPU de múltiples núcleos, esa es una posible vía para los fabricantes de chips. No sé en qué medida esto se hace en la práctica. Cuando pregunté a nuestros encargados del proceso hace varios años acerca de esto, hubo cierto escepticismo de que pudieran garantizar que un defecto que resultara en una lógica defectuosa se aislaría para que el bloque se desactive.

Para defectos de memoria (es decir, celdas de bits defectuosas), tenemos reparación de RAM. Los bloques de RAM en realidad tienen algo de redundancia incorporada. Las RAM se caracterizan, y luego se programa un mapa de reparación en fusibles o alguna otra estructura no volátil que el silicio consulta en o cerca del reinicio. Dado que las RAM en realidad representan la mayor parte de los transistores en un troquel moderno, esta es una gran victoria.

Para las variaciones del proceso, llegamos a binning . Hay múltiples esquinas del proceso, y una oblea dada puede terminar más caliente o más fría, más rápido o más lento. Desea que sus partes más frías vayan hacia las computadoras portátiles, mientras que las partes más calientes pueden ir en las computadoras de escritorio. Más rápido vs. más lento te coloca en diferentes contenedores de velocidad.

Entonces eso cubre las fallas persistentes. También tienes fallas transitorias.

Hay un concepto conocido como Fallas en el tiempo , o tasa de ajuste. Este es el número de fallas en [matemáticas] 10 ^ 9 [/ matemáticas] horas de funcionamiento del dispositivo. Una tecnología de proceso dada tiene una tasa de FIT correspondiente para sus transistores, y varía según el tamaño de la característica. Muy a menudo, consideramos la tasa de memoria FIT, ya que tienden a tener las características más pequeñas y están densamente empaquetadas.

Las tasas de FIT aumentan a medida que los transistores se hacen más pequeños. Entonces, comenzamos a construir en la paridad y la verificación del código de corrección de errores (ECC) para memorias en silicio, buses y, a veces, lógica crítica. Así es, las memorias caché L1D y L2 a menudo tienen códigos de corrección de errores aplicados. Esto detecta errores de bits transitorios y los corrige sobre la marcha.

No sé hasta qué punto los procesadores de escritorio tienen esa funcionalidad, pero ahora es un elemento básico de los diversos procesadores integrados de alta gama de los que he sido parte. Es especialmente importante en los sistemas críticos de seguridad, como los sistemas de asistencia al conductor que están apareciendo en los automóviles en estos días.

Algunos dispositivos van más allá y colocan bloques de procesadores redundantes completos en el troquel y los ejecutan en el paso de bloqueo. Estos tienden a cumplir funciones más críticas como los sistemas de frenado, controles industriales, sistemas de seguridad, etc.

Ahí vas. Resumiendo, tienes:

Desguace de las peores partes, detectado por las rutinas básicas integradas de autocomprobación.
Deshabilitar partes fallidas de partes con fallas aisladas.
Reparación de recuerdos utilizando redundancia integrada en los recuerdos.
Binning de velocidad / potencia para separar un diseño en múltiples SKU.
Corrección de errores en tiempo de ejecución para recuerdos vulnerables.
Redundancia de grano grueso y verificación cruzada.

Probablemente me he perdido algunas técnicas, pero esa es una muy buena encuesta.

ElectrónicaIngeniería eléctricaMecánica cuánticaTransistores