Sequence modeling is a problem of interest in the field of pattern recognition. It is aimed at the design and building of specialized systems that capture the particularities of distinctive segments of the sequences and their repetition structure. These systems could be used for both classification (discriminative models) as well as for synthesis (generative models). In this work we present progresses on the feature extraction and sequence modeling in two domains of applications: classification of chromosome images and robust speech recognition.
In the first one, new parameterizations are here proposed to exploit the variability of the gray bands along the chromosomes. New ways to classify these patterns based on recurrent neural networks and continuous hidden Markov models are introduced. Furthermore, a contextual post-classification algorithm is proposed to carry out a relocation of chromosomes in each class according to the expected number of chromosomes in a cell.
For the speech signal representation, new bioinspired alternatives to the speech parameterization are proposed, which model the activation of the primary auditory cortex in response to sound stimuli. The sparse coding patterns obtained are applied to robust phoneme classification and speech denoising. The obtained results show that these techniques can extract useful clues for recognition and retrieval of information that objetively preserve the quality of the denoised signals, with performance benefits over other methods previously reported.
La modelización de secuencias es un problema de gran interés en el reconocimiento de patrones. En el mismo se busca diseñar y construir sistemas especializados en capturar las particularidades de tramos distintivos de las secuencias y su estructura de repetición. Estos sistemas pueden ser empleados tanto para la clasificación (modelos discriminativos) como para la síntesis (modelos generativos). En este trabajo se avanza sobre la extracción de características y modelización en dos dominios de aplicación: las clasificación de imágenes de cromosomas y el reconocimiento robusto de señales de habla.
En el primero, se proponen nuevas parametrizaciones que explotan la variabilidad de las bandas de grises a lo largo de los cromosomas. Se introducen nuevas formas de clasificar estos patrones basadas en redes neuronales recurrentes y modelos ocultos de Markov continuos. Se propone, además, un algoritmo de post-clasificación contextual que clasifica todos los cromosomas de una célula en su conjunto.
En la representación de la señal de la voz, se proponen nuevas alternativas bioinspiradas de parametrización, que modelan la activación de la corteza auditiva primaria en respuesta a los estímulos sonoros. Los patrones generados mediante una representación rala se aplican a las tareas de clasificación robusta de fonemas y limpieza de señales de habla inmersas en ruido. Los resultados obtenidos muestran que estas técnicas logran extraer las pistas útiles para el reconocimiento y/o recuperar la información que preserva objetivamente la calidad de las señales limpiadas, mostrando ventajas en el desempeño respecto a los métodos clásicos.