The key issue on speech recognition is given by the characteristics of the signals involved, as these are governed by complex probability density functions, are non-stationary and generally contaminated with noise of diverse nature and intensity. This is why the automatic recognition systems need a processing stage in order to bring out the key features of phonemes, allowing to improve their performance. The goal of this thesis is the development of a methodology for the optimization of the signal processing stage, in order to improve the results of an automatic speech recognition system. This methodology consists in the use of evolutionary algorithms for the optimization of the feature vector used for speech signal representation. The hypothesis is that the better the analysis or process applied to the patterns that are to be classified, the more separated would the classes result in the features space and, therefore, the classification task would be simpler. In this thesis, the first proposal is to continue the search for an optimal representation based on cepstral coefficients, by the optimization of the filterbank involved in this feature extraction procedure. On the other hand, wavelets have characteristics that are useful for the analysis of non-stationary signals. These features present discriminative information, however, the large number of coefficients makes the task of the classifier more difficult. Because of this, the use of an evolutionary algorithm is proposed to search for a subset of coefficients which maximizes the discrimination capability.
La dificultad para resolver los problemas asociados al reconocimiento del habla está dada por las características de las señales implicadas, ya que las mismas presentan complejas funciones de densidad de probabilidad, son no estacionarias y generalmente se encuentran contaminadas con ruidos de naturaleza e intensidad muy diversa. Es por ésto que los sistemas de reconocimiento automático requieren de una etapa de procesamiento que ponga en evidencia las características distintivas de cada fonema, permitiendo mejorar los resultados.
El objetivo de esta tesis es el desarrollo de un método para optimizar la etapa de procesamiento de la señal de voz, de manera que permita mejorar los resultados de un sistema de reconocimiento automático del habla. Dicha metodología consiste en la aplicación de algoritmos evolutivos para optimizar el vector de características utilizado para representar las señales de voz. Se parte de la hipótesis de que cuanto mejor sea el análisis o proceso utilizado para generar los patrones a identificar, más separadas quedarán las clases en el espacio de características y la tarea de clasificación resultará más sencilla.
Más precisamente, en esta tesis se proponen dos alternativas evolutivas para la búsqueda de un conjunto robusto de características. En la primera propuesta se aborda la optimización de una representación basada en coeficientes cepstrales. La segunda propuesta consiste en la optimización de una descomposición no convencional para el reconocimiento del habla, denominada paquetes de onditas, que provee características interesantes para el análisis de este tipo de señales.