In the last decades a new problem related to machine learning and signal processing has emerged in many disciplines: the blind source separation problem. The blind source separation technique aims to segregate the sources that contribute to some variation of a physical quantity, given a set of measurements of the global variation produced by all sources at a time.
One particular application of the blind source separation methods is the Automatic Speech Recognition, which can be defined as the task of determining the text that corresponds to a given spoken utterance. This kind of systems have reached a maturity point but they still suffer from a strong drawback: they cannot adequatelly manage the existence of noise or competing sources in the input.
This doctoral dissertation presents several advances in the technique of audio source separation in reverberat conditions, using independent component analysis in the time-frequency domain. Three methods were developed in order to produce a better quality of separation and, at the same time, to reduce the processing times. The proposed algorithms were evaluated under realistic conditions such as different environments and different kind and power of competing sources. For this purpose we used two evaluation alternatives, objective quality measures of the resulting signal and the performance in the application of interest, that is, automatic speech recognition. The results for the different approaches show the possibility of getting through the dilemma between resulting quality and requiered processing time, converging to a very fast and high quality separation method.
En las últimas décadas el problema de separación ciega de fuentes ha emergido en varias disciplinas relacionadas con el procesamiento digital de señales y el aprendizaje maquinal. En la resolución de este problema el objetivo es obtener por separado las fuentes que generaron en conjunto determinada variación de alguna cantidad física, dado un conjunto de mediciones del efecto conjunto de todas las fuentes.
Entre las aplicaciones de interés para tal técnica está el reconocimiento automático del habla, en el cual se busca obtener una transcripción escrita a partir del habla emitida por una persona. Estos sistemas han alcanzado un grado de madurez pero todavía sufren de una gran desventaja: no pueden manejar adecuadamente la existencia de ruido en la entrada.
En esta tesis se proponen tres técnicas basadas en el análisis de componentes independientes en el dominio frecuencial, para producir una efectiva separación de las fuentes sonoras presentes en un cuarto con reverberación. Para la evaluación del desempeño de las mismas se realizó un estudio exhaustivo de medidas objetivas de calidad, y se desarrolló un protocolo experimental que permite una evaluación comparativa del desempeño. Además se realizó la evaluación de los mismos mediante la tasa de reconocimiento de un sistema de reconocimiento automático del habla, y se evaluó también el tiempo de cálculo. Los resultados se contrastaron con los de métodos del estado del arte para esta tarea. Se verificó que todos los métodos propuestos produjeron importantes mejoras tanto en la calidad objetiva como en la tasa de reconocimiento.