La conversión más cercana de un sonido a una imagen es el espectrograma.
En términos de procesamiento de señal, un sonido es una señal unidimensional, mientras que una imagen es bidimensional (si considera imágenes en color, es tridimensional). Un espectrograma es una representación bidimensional de un sonido.
Si [math] x [n] [/ math] es una señal de sonido, el espectrograma de [math] x [n] [/ math], denotado por [math] X (m, \ omega) [/ math] está definido como:
- ¿Cómo se le ocurrió a Einstein la idea de la tela espacial? ¿Fue como lo hizo Planck con los cuantos de luz o tiene una base más fundamental?
- ¿Qué es más mierda, teoría de cuerdas o colapso de la función de onda?
- ¿Qué tecnología usa el rayo tractor en Star Trek? ¿Es enredo cuántico?
- ¿Cómo se crean los fotones?
- Una superposición cuántica se derrumba por una observación. ¿Qué es tal observación, técnicamente hablando?
[matemática] X (m, \ omega) = \ sum_ {n = – \ infty} ^ {\ infty} x [n] w [nm] e ^ {- j \ omega n} [/ math]
Aquí [math] \ omega [/ math] es la frecuencia, y [math] w [/ math] es una ventana (típicamente una ventana de Hamming / Hanning).
En términos simples, para obtener un espectrograma, corte la señal dada en trozos más pequeños y apile la magnitud de los coeficientes de Fourier en una matriz grande. Así es como se ve el espectrograma para una señal de voz “Ella tuvo su traje oscuro en agua de lavado grasienta todo el año”:
PD: ¡Hay algunas personas en la comunidad de procesamiento de señales de voz que pueden “leer” lo que se ha dicho mirando el espectrograma! ¿Ahora que tan genial esta eso?