Hidden Markov models (HMM) are statistical models which can efficiently deal with sequential data. They provide a way to model complex dependencies between observed data by setting simple dependencies between latent variables: a Markov chain that is not available to the observer. When used in a classification setting, an HMM models the probability density function of the data from each class and label assignement is achieved using a plug-in Bayes classifier. This is a typical example of generative learning, which can be suboptimal when the data does not match the assumed distribution. In this thesis we study methods and algorithms to exploit discriminant information when using HMM to classify sequential data. In the first part, we deal with HMM defined on the wavelet transform of the input sequences. These are hierarchical Markovian structures that use hidden Markov trees as observation models for the wavelet coefficients, given the state of the underlying chain. We derive new training algorithms for these models, specifically targeted to achieve minimum classification error. In the second part of the thesis, we take a look back to HMM with mixtures of Gaussians as observation densities. We focus in scenarios of high-dimensional observed data and derive methods for dimension reduction of the feature space using the approach of statistical sufficiency, which aims to preserve class information in the reduced data. We derive new algorithms and use this framework to analyze information preservation attained by available methods of dimensionality reduction in HMM.
Los modelos ocultos de Markov (HMM) son modelos estadísticos usados frecuentemente con datos sequenciales. Proveen un medio eficaz para modelar dependencias complejas a través de dependencias sencillas entre variables latentes que forman una cadena de Markov. Cuando se usan en tareas de clasificación, un HMM modela la función de densidad de probabilidad de los datos de cada clase y la asignación de etiquetas se realiza usando una versión plug-in de la regla de decisión de Bayes. Esto es un ejemplo de aprendizaje generativo, que puede ser subóptimo cuando la distribución de los datos se aparta de la supuesta. En esta tesis se estudian métodos y algoritmos que tienen por objeto aprovechar información discriminante en la clasificación de datos secuenciales modelados con HMM. En la primera parte del trabajo abordamos problemas con HMM definidos sobre la transformada onditas de las secuencias de entrada. Se trata de HMM jerárquicos que usan árboles ocultos de Markov como modelo de observación para los coeficientes de la transforma. Proponemos nuevos algoritmos de entrenamiento para estos modelos, basados directamente en la minimización del error de clasificación como criterio de aprendizaje. En la segunda parte de la tesis revisitamos los HMM más comunes que usan mezclas de gaussianas como modelos de observación, pero nos enfocamos en escenarios de alta dimensionalidad. Derivamos métodos para reducir la dimensión del espacio de características sin perder información discriminante, usando para ello el enfoque de suficiencia estadística. Proponemos nuevos algoritmos y analizamos bajo este marco métodos existentes de reducción dimensional en HMM.