¿Cuáles son los documentos de lectura obligatoria sobre la síntesis de texto a voz?

TTS es un área de investigación enorme y hay miles de artículos influyentes allí.

Creo que es mejor responder esto señalando primero a los autores (que sé) que escribieron la mayoría de los artículos ‘influyentes’ y luego algunas de las publicaciones. Uno puede descubrir los mejores documentos por los índices de citas en el perfil del autor (aunque casi todos los documentos son curiosos).

Estos son algunos de los autores en TTS (con mi conocimiento de dominio limitado). Leer sus tesis y las de sus alumnos sería un gran comienzo.

Académico:

Alan W Black – Universidad Carnegie Mellon, Estados Unidos
Tomoki Toda – Instituto Nara de Ciencia y Tecnología, Japón
Keiichi Tokuda – Instituto de Tecnología de Nagoya, Japón
Hideki Kawahara – Universidad de Wakayama, Japón
Yannis Stylanou – Universidad de Creta
Jan PH Van Santen- Universidad de Salud y Ciencia de Oregon
Junichi Yamagishi – Centro de Investigación de Tecnología del Habla, Edimburgo
Simon King – Centro de Investigación de Tecnología del Habla, Edimburgo
Hai Zhou Li – Universidad Nacional de Singapur, Singapur
Ian Vince Mcloughlin – Universidad de Ciencia y Tecnología, China

Industria:

Kim Silverman – Apple Inc.
Heiga Zen – Google
Masaharu Sakamato – IBM

Indio:

Académico:
Yegna Narayana – IIIT – Hyderabad, India
Hema Murthy – IIT Chennai
Krothapalli Sreenivasa Rao – IIT Kharagpur

Industrial:
Kishore Prahallad – Apple Inc.
Aniruddha Sen – TIFR, India

Estaré encantado de agregar más autores y agregaré publicaciones a medida que llegue a saber.

Publicaciones

  • Síntesis paramétrica estadística del habla
  • Selección de unidades en un sistema de síntesis de voz concatenativo utilizando una gran base de datos de voz
  • El sistema de síntesis de voz (HTS) basado en HMM versión 2.0
  • Un sistema oculto de síntesis de voz basado en modelos semi-Markov
  • Algoritmos de generación de parámetros de voz para síntesis de voz basada en HMM
  • Modelado simultáneo de espectro, tono y duración en síntesis de voz basada en HMM
  • El sistema de síntesis de voz del festival, versión 1.4. 2
  • APLICACIÓN DE UN MODELO DE INTONACIÓN HÍBRIDA A UN SINTETIZADOR DE VOZ INCONSÚTIL
  • El sistema TTS de última generación de AT&T
  • Concatenación de Diphone usando un modelo de habla armónico más ruido.
  • Síntesis de voz concatenativa utilizando un modelo armónico más ruido
  • Agrupación automática de unidades similares para la selección de unidades en síntesis de voz
  • Síntesis de texto a voz utilizando unidades similares a sílabas
  • Sistema de texto a voz con acento indio para la navegación web
  • Conversión de texto a voz en inglés indio
  • Técnicas de procesamiento de forma de onda síncrona de tono para la síntesis de texto a voz usando diphones