¿Cómo funciona la biometría de voz? ¿Es una prueba de mimetismo?

Básicamente, hay una señal que contiene tanto la identidad del altavoz como alguna otra información (sonidos que está haciendo el altavoz, ruido de fondo, distorsión del canal). El software biométrico de voz analiza la señal para factorizar todas las propiedades no importantes como el nivel de audio y produce un vector de características que corresponde a propiedades importantes.

Este análisis factorial se realiza con un marco de álgebra lineal genérico, allí hay muy pocos detalles específicos del discurso, básicamente representa todo con un vector real y luego solo encuentra partes “importantes” de él. Este vector se llama i-vector . Luego, las partes importantes se comparan con impresiones con algún clasificador como SVM o incluso regresión logística.

Si desea obtener conceptos básicos rápidamente, hay un libro muy bueno que cubre todo, desde la teoría matemática básica hasta detalles prácticos:

Fundamentos del reconocimiento de oradores: Homayoon Beigi: 9780387775913: Amazon.com: Libros

Para una introducción más rápida, consulte este tutorial

Un tutorial sobre verificación de oradores

Si está interesado en lo último en verificación de verificación de oradores

NIST 2014 i-Vector Machine Learning Challenge

En general, la biometría de voz no protege de la mímica. Si tiene aproximadamente 2-3 horas de grabaciones de voz de cierta persona, es extremadamente fácil emular la voz de la persona con síntesis de voz para que suene casi igual. Hubo varias publicaciones de investigación sobre el tema que podría interesarle estudiar:

Spoofing y contramedidas para la verificación automática de altavoces

El trabajo en [2] mostró que los personificadores no profesionales pueden adaptar fácilmente su voz para superar el ASV, pero solo cuando su voz natural ya es similar a la del objetivo.

Para la investigación en curso sobre el tema ver

Desafío de suplantación de identidad y contramedidas

El esfuerzo de investigación se concentró en el problema. Los resultados se publicarán en septiembre.

Si está hablando del reconocimiento de altavoces, el habla humana básica consta de dos elementos, la excitación y la información del tracto vocal. Esto forma la base de las características. Puede leer algunos temas interesantes como MFCC, GFCC e i-vectors. Sobre la parte de imitación de la pregunta, no estoy seguro, pero si tuviera que arriesgarme a adivinar, no es absolutamente una prueba de imitación. Tendría que leer sobre literatura relevante para eso. Espero que esto ayude.