Along the technological advances regarding portable electronic devices, over the last years the need for improving human machine interactions through speech has arise. One of the main challenges within this contexts has to do with the fact that a recording device does not register the target signal directly, but distorted with noise, echoes and other sound sources. In order to model these phenomena in a computationally efficient way and to gain interpretability, we can make use of nonnegative matrix factorization (NMF) techniques, that allow for a piecewise and purely additive representation of the data. Nevertheless, the classical NMF approaches present drawbacks associated to the lack of uniqueness in the representations. Furthermore, the current optimization methods are based on iterative, multiplicative algorithms that are not immediately adaptable to models contemplating certain time or frequency relations between their elements. In this thesis, new NMF methods are developed in order to tackle the problems of dereveberation and speech source separation. Through a Bayesian approach, and the associated penalization functions, certain characteristics are imposed over the elements constituting the model, which allows sorting out some classical difficulties within this context, associated to the lack of uniqueness and correlation in representations. Also, optimization algorithms are developed in order to tackle the minimization problems associated to the built functional, that allow for incorporating certain types of penalizers that due to their characteristics cannot be defined element by element.
A la par de los avances tecnológicos de los aparatos electrónicos portátiles, ha surgido en los últimos años la necesidad de mejorar la interacción entre hombre y máquina a través del habla. Uno de los desafíos en este contexto tiene que ver con que un dispositivo de grabación no registra la señal deseada de manera directa, sino distorsionada mediante ruido, ecos y la presencia de otras fuentes sonoras.
Para modelar estos fenómenos de manera computacionalmente eficiente y ganar interpretabilidad, podemos hacer uso de técnicas de factorización en matrices no negativas (NMF), que permiten una representación de los datos por partes y puramente aditiva. No obstante, los enfoques clásicos de NMF presentan dificultades asociadas a falta de unicidad en las representaciones. Por otro lado, los métodos de optimización actuales están basados en algoritmos iterativos y multiplicativos, que no son inmediatamente adaptables a modelos que contemplen ciertas relaciones temporales o frecuenciales entre sus elementos. En esta tesis se desarrollan nuevos métodos de NMF para abordar los problemas de dereveberación y separación de fuentes de habla. A través de un enfoque bayesiano y sus funciones de penalización asociadas se imponen características particulares sobre los elementos del modelo, lo que permite superar algunas dificultades clásicas en este contexto, asociadas a la falta de unicidad y decorrelación en las representaciones. Además, se desarrollan algoritmos de optimización para resolver los problemas de minimización asociados a los funcionales construidos, que permiten incorporar ciertos tipos de penalizantes que por sus características no pueden ser definidos elemento a elemento.