¿Cómo funciona un dispositivo de transistor multimillonario a pesar de la posibilidad inevitable de que algunos transistores fallen?

Usted pregunta: “¿Cómo funciona un dispositivo de transistor multimillonario, a pesar de la posibilidad inevitable de que algunos transistores fallen?”

No todos los defectos de silicio son iguales. Además, no todos los defectos de silicio son transistores defectuosos. También puede tener cables defectuosos y vias defectuosas (las interconexiones verticales entre capas), etc. Y luego, más adentro del área gris, tiene variaciones de rendimiento (silicio más rápido / más lento).

El porcentaje de chips fabricados que son utilizables en última instancia se conoce como rendimiento . Este número puede ser muy alto, más del 90%, para productos maduros en procesos maduros que no presionan demasiado. También puede ser mucho más bajo para los productos que presionan más el sobre.

Las virutas fabricadas se prueban para detectar una variedad de defectos. Utilizamos una combinación de funciones de autocomprobación incorporadas junto con programas de prueba para conducir los chips a su ritmo. Cuando se encuentran defectos, lo que sucede a continuación depende de la naturaleza del defecto.

Para defectos lógicos (es decir, un circuito lógico defectuoso), el bloque afectado no puede repararse. Eso a menudo lleva a que esa parte se deseche. Sin embargo, puede ser posible desactivar ese bloque y vender el chip como un tipo diferente de parte. En esta era de CPU de múltiples núcleos, esa es una posible vía para los fabricantes de chips. No sé en qué medida esto se hace en la práctica. Cuando pregunté a nuestros encargados del proceso hace varios años acerca de esto, hubo cierto escepticismo de que pudieran garantizar que un defecto que resultara en una lógica defectuosa se aislaría para que el bloque se desactive.

Para defectos de memoria (es decir, celdas de bits defectuosas), tenemos reparación de RAM. Los bloques de RAM en realidad tienen algo de redundancia incorporada. Las RAM se caracterizan, y luego se programa un mapa de reparación en fusibles o alguna otra estructura no volátil que el silicio consulta en o cerca del reinicio. Dado que las RAM en realidad representan la mayor parte de los transistores en un troquel moderno, esta es una gran victoria.

Para las variaciones del proceso, llegamos a binning . Hay múltiples esquinas del proceso, y una oblea dada puede terminar más caliente o más fría, más rápido o más lento. Desea que sus partes más frías vayan hacia las computadoras portátiles, mientras que las partes más calientes pueden ir en las computadoras de escritorio. Más rápido vs. más lento te coloca en diferentes contenedores de velocidad.

Entonces eso cubre las fallas persistentes. También tienes fallas transitorias.

Hay un concepto conocido como Fallas en el tiempo , o tasa de ajuste. Este es el número de fallas en [matemáticas] 10 ^ 9 [/ matemáticas] horas de funcionamiento del dispositivo. Una tecnología de proceso dada tiene una tasa de FIT correspondiente para sus transistores, y varía según el tamaño de la característica. Muy a menudo, consideramos la tasa de memoria FIT, ya que tienden a tener las características más pequeñas y están densamente empaquetadas.

Las tasas de FIT aumentan a medida que los transistores se hacen más pequeños. Entonces, comenzamos a construir en la paridad y la verificación del código de corrección de errores (ECC) para memorias en silicio, buses y, a veces, lógica crítica. Así es, las memorias caché L1D y L2 a menudo tienen códigos de corrección de errores aplicados. Esto detecta errores de bits transitorios y los corrige sobre la marcha.

No sé hasta qué punto los procesadores de escritorio tienen esa funcionalidad, pero ahora es un elemento básico de los diversos procesadores integrados de alta gama de los que he sido parte. Es especialmente importante en los sistemas críticos de seguridad, como los sistemas de asistencia al conductor que están apareciendo en los automóviles en estos días.

Algunos dispositivos van más allá y colocan bloques de procesadores redundantes completos en el troquel y los ejecutan en el paso de bloqueo. Estos tienden a cumplir funciones más críticas como los sistemas de frenado, controles industriales, sistemas de seguridad, etc.

Ahí vas. Resumiendo, tienes:

  • Desguace de las peores partes, detectado por las rutinas básicas integradas de autocomprobación.
  • Deshabilitar partes fallidas de partes con fallas aisladas.
  • Reparación de recuerdos utilizando redundancia integrada en los recuerdos.
  • Binning de velocidad / potencia para separar un diseño en múltiples SKU.
  • Corrección de errores en tiempo de ejecución para recuerdos vulnerables.
  • Redundancia de grano grueso y verificación cruzada.

Probablemente me he perdido algunas técnicas, pero esa es una muy buena encuesta.

La respuesta simple es que si fallan los transistores incorrectos, tiras el dado antes de empacarlo o enviarlo. En el pasado, literalmente, “entintaríamos” el dado malo para que fueran arrojados:

Hoy una computadora simplemente recuerda las coordenadas de los dados buenos y malos y los pasa a los siguientes pasos de empaque.

El objetivo es minimizar lo que tira, y maximizar lo que es funcional y enviado al cliente.

Hay varias cosas hechas.

  • Control de procesos: existen métodos utilizados para probar el proceso de fabricación de forma eléctrica para que sepa de antemano si están comenzando a ocurrir “cosas malas”.
  • Los rendimientos son más altos cuando se reduce el tamaño del dado, por lo que existe presión para hacerlo. Esto se debe a la matemática de la densidad de defectos combinada con el área.
  • Cuanto más pequeño es el circuito, más pequeño debe ser el dado. Aumentará el tamaño a medida que se encoge, pero generalmente hace una reducción de matriz una vez en la vida de un producto en particular para aumentar el rendimiento.
  • Debido a que los costos de procesamiento de tamaños de obleas más grandes son más o menos iguales a las obleas más pequeñas después de amortizar los costos del equipo, desea utilizar tamaños de obleas más grandes siempre que sea posible. Esto contribuye al rendimiento efectivo del ROI.
  • La mayoría de los diseños electrónicos incluyen “recuperación de rendimiento”. Esto puede ser:
  • Elementos redundantes: especialmente comunes para la memoria donde tiene filas, columnas y / o celdas de repuesto que pueden evitar celdas o filas dañadas probadas, lo que hace que el dispositivo fallido sea “completo”. Si obtiene una celda de memoria fallida, y todas se alinean en la misma columna, puede ahorrar la columna. Lo mismo para filas o celdas individuales.
  • Reducción gradual: cuando tiene un procesador de 8 núcleos, si los núcleos fallan, tiene un circuito que le permite apagar el núcleo fallido o seleccionado y convertirlo en un núcleo de 6 núcleos, 4 núcleos, 2 núcleos o Procesador de 1 núcleo. El procesador fabricado es exactamente el mismo para todas las versiones. Esto también se hace en chips de memoria: una RAM de 4 GB puede convertirse en 2 GB o 1 GB, dependiendo de las fallas que provoquen que se apaguen secciones enteras de la RAM.
  • Binning de rendimiento: lo que puede fallar a una velocidad, voltaje o similar aún puede funcionar a un valor “más bajo” que aún puede vender. Cuando compra diferentes velocidades de DRAM, eso es todo: piezas “idénticas” que se probaron (“agrupadas”) a diferentes velocidades.
  • Las empresas a veces “inventarán” nuevos mercados de productos para adaptarse a un modo de falla sistemática. Cuando trabajé en Intel, inventaron una clase de rendimiento especial entre Mil Spec e Industrial cuando una línea de proceso completa comenzó a producir piezas que pasaron las “Pruebas de calidad industrial” pero fallaron en medio del flujo de prueba de calidad Mil-Spec. Se llamaba “Express”, que “no era de grado militar pero era mejor que el grado industrial”. Lograron cobrar una prima por ello y los clientes lo compraron.

Tiene que tener un rendimiento de muy alta calidad. En muchos casos, incluso una falla no puede ser tolerada.

No lo hace. Muy pocas CPU fabricadas funcionan.

Es por eso que Intel quema núcleos defectuosos, deshabilita características o reduce la velocidad del reloj a algo que sí funciona, y vende la CPU como un modelo más barato. Es por eso que hay tantas opciones de modelos diferentes.

El proceso se llama Binning.