Modelado de estructuras prosódicas para el reconocimiento automático del habla

Albornoz, Enrique Marcelo

Modelado de estructuras prosódicas para el reconocimiento automático del habla

Biblioteca Virtual
→
Colección de posgrado
→
Facultad de Ingeniería y Ciencias Hídricas
→
Doctorado en Ingeniería
→
Ver ítem

dc.contributor.advisor	Milone, Diego Humberto
dc.contributor.author	Albornoz, Enrique Marcelo
dc.contributor.other	Torres, Humberto
dc.contributor.other	Leone, Horacio
dc.contributor.other	Risk, Marcelo
dc.contributor.other	Chiotti, Omar
dc.date.accessioned	2013-05-31
dc.date.available	2013-05-31
dc.date.issued	2013-05-31
dc.identifier.uri	http://hdl.handle.net/11185/442
dc.description	Fil: Albornoz, Enrique Marcelo. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
dc.description.abstract	Prosody is used to describe certain physical quantities that can be measured in the voice signals (energy, fundamental frequency, etc.). They represent valuable information for the identification and classification of different aspects of voice production. Automatic Speech Recognition (ASR) is a multidisciplinary area of study. Its ultimate purpose is to make a machine that recognizes the words and even understand its meaning, considering any speaker in any environment. Current ASR systems use hidden Markov models (HMM) to perform a phonetic-acoustic characterization of speech, without considering prosodic information in an explicit way. This Thesis aims to find clear links between the prosodic features and the words that are spoken, and define a new way to classify the language accentual prominences. Word models to categorize the words are defined according to their prosodic information, and a way to incorporate the prosodic classifiers to standard ASR is proposed. Furthermore, it is performed a deep study about acoustic sequences, associated with words, that give problems to the ASR. For these, specialized prosodic classifiers are generated for each word. This Thesis also deals with the emotion recognition task. This work begins with an exploration of classifiers based on Gaussian mixtures and MOM. The prosodic-acoustic features of emotions were analyzed in order to group them together in an unsupervised way. Then, hierarchical classification models that include these groupings of emotions were developed. The novel models have improved performance relative to standard classifiers	en
dc.description.abstract	La prosodia sirve para denominar a determinadas magnitudes físicas que pueden ser medidas en las señales de voz (energía, frecuencia fundamental, etc.). Éstas presentan información valiosa para la identificación y clasificación de diversos aspectos relativos a la producción de la voz. El reconocimiento automático del habla (RAH) es un área de estudio multidisciplinar cuyo objetivo final es lograr que una máquina reconozca las palabras pronunciadas e incluso entienda su significado, considerando cualquier hablante en cualquier entorno. Los sistemas de RAH actuales utilizan modelos ocultos de Markov (MOM) para realizar una caracterización fonética-acústica del habla, sin contemplar la información prosódica de forma explícita. En esta Tesis se propone hallar relaciones claras entre los rasgos prosódicos y las palabras que se pronuncian, y definir una nueva forma de clasificar las prominencias acentuales del idioma. Se definen modelos de palabras que las categorizan según su información prosódica y se propone la incorporación de clasificadores prosódicos al sistema de RAH estándar. Además, se realiza un estudio profundo acerca de las secuencias acústicas, asociadas a palabras, que presentan problemas al reconocedor. Para éstas se generan clasificadores prosódicos especializados para cada palabra. En esta Tesis también se aborda el reconocimiento de emociones. Inicialmente se realiza una exploración de clasificadores basados en mezclas de Gaussianas y MOM. Se analizan las características prosódico-acústicas de las emociones para luego, agruparlas de forma no supervisada. Entonces, se generan modelos de clasificación jerárquicos que contemplan los agrupamientos de emociones encontrados y permiten mejorar el rendimiento en relación a clasificadores estándar.	es
dc.description.sponsorship	Erasmus Mundus - External Cooperation Window
dc.description.sponsorship	Consejo Nacional de Investigaciones Científicas y Técnicas	es
dc.format	application/pdf
dc.format.mimetype	application/pdf
dc.language	spa
dc.language.iso	spa	es
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject	Automatic speech recognition	en
dc.subject	Emotion recognition	en
dc.subject	Prosodic modeling	en
dc.subject	Language models	en
dc.subject	Prosodic-acustic analysis	en
dc.subject	Hierarchical classifiers	en
dc.subject	Reconocimiento automático del habla	es
dc.subject	Reconocimiento de emociones	es
dc.subject	Modelado prosódico	es
dc.subject	Modelos de lenguaje	es
dc.subject	Análisis prosódico-acústicos	es
dc.subject	Clasificadores jerárquicos	es
dc.title	Modelado de estructuras prosódicas para el reconocimiento automático del habla	es
dc.title.alternative	Prosodic modeling for automatic speech recognition	en
dc.type	info:eu-repo/semantics/doctoralThesis
dc.type	info:eu-repo/semantics/acceptedVersion
dc.type	SNRD
dc.type	info:ar-repo/semantics/tesis doctoral	es
dc.contributor.coadvisor	Rufiner, Hugo Leonardo
unl.formato	application/pdf
unl.versionformato	1a
unl.tipoformato	PDF/A-1a