Medidas de información multiresolución aplicadas al procesamiento de señales de habla

Cherniz, Analía Soledad

Medidas de información multiresolución aplicadas al procesamiento de señales de habla

Biblioteca Virtual
→
Colección de posgrado
→
Facultad de Ingeniería y Ciencias Hídricas
→
Maestría en Computación Aplicada a la Ciencia y la Ingeniería
→
Ver ítem

dc.contributor.advisor	Rufiner, Hugo Leonardo
dc.contributor.author	Cherniz, Analía Soledad
dc.contributor.other	Pelle, Patricia
dc.contributor.other	Gómez, Juan Carlos
dc.contributor.other	Risk, Marcelo
dc.date.accessioned	2018-09-17
dc.date.available	2018-09-17
dc.date.issued	2017-07-26
dc.identifier.uri	http://hdl.handle.net/11185/1125
dc.description	Fil: Cherniz, Analía Soledad. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
dc.description.abstract	La parametrización de la señal de habla es un paso fundamental en múltiples sistemas de procesamiento de voz. Esto permite representar la señal con unos pocos coeficientes en donde se resaltan las características acústicas más relevantes, disminuyendo la dimensionalidad de los datos a procesar y haciendo que el procesamiento posterior sea más eficiente. En esta tesis se proponen nuevas parametrizaciones basadas en medidas de información multiresolución, a fin de obtener nuevas dimensiones que proporcionen información acerca de los cambios en la dinámica subyacente de la señal de voz. Para ello, se calculó la transformada ondita continua de la señal de voz y se evaluó la evolución temporal del grado de complejidad de los coeficientes utilizando las entropías de Shannon y Tsallis, con sus correspondientes entropías relativas asociadas, y la divergencia de Jensen-Shannon. A partir de este procesamiento se plantearon codificaciones de la señal de voz, que luego se utilizaron en dos tipos de tareas: reconocimiento automático del habla y segmentación automática de fonemas. Los resultados obtenidos muestran que las parametrizaciones propuestas permiten destacar características acústicas relacionadas con los cambios dinámicos del tracto vocal, lo cual es clave para realizar el reconocimiento, incluso en presencia de ruido aditivo. Además, la divergencia multiresolución continua proporciona información valiosa que tiene en cuenta las transiciones fonéticas, lo cual es de vital importancia al momento de realizar la tarea de segmentación.	es_ES
dc.description.abstract	Parameterization of speech is a fundamental step in multiple speech processing systems. This allows representing the signal with a few coefficients where the most important properties of speech are highlighted, decreasing the dimensionality of the data to be processed and making the subsequent processing more efficient. In this thesis, new parametrizations based on multiresolution information measures are proposed to obtain new dimensions that provide information about the changes in the underlying dynamics of speech signal. For that purpose, the continuous waveform transform of the speech signal was computed, and the temporal evolution of the complexity degree of the coefficients was evaluated using the Shannon and Tsallis entropies, with their corresponding relative entropies, and Jensen–Shannon divergence. These approaches were used in two applications: automatic speech recognition and text-independent phone segmentation. The results obtained show that the proposed parametrization highlight acoustic features related to dynamical changes of the vocal tract which are important cues in order to perform the recognition, even in the presence of additive noise. Moreover, the continuous multiresolution divergence provides valuable information that takes into account phoneme transitions, which is of vital importance to perform the segmentation task.	en_EN
dc.description.sponsorship	Agencia Nacional de Promoción Científica y Tecnológica	es_ES
dc.description.sponsorship	Consejo Nacional de Investigaciones Científicas y Técnicas
dc.format	application/pdf
dc.language	spa
dc.language.iso	spa	es_ES
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject	Entropy	en_EN
dc.subject	Divergence	en_EN
dc.subject	Multiresolution analysis	en_EN
dc.subject	Speech parameterization	en_EN
dc.subject	Robust speech recognition	en_EN
dc.subject	Automatic phone segmentation	en_EN
dc.subject	Entropía	es_ES
dc.subject	Divergencia	es_ES
dc.subject	Análisis multiresolución	es_ES
dc.subject	Parametrización de la señal de voz	es_ES
dc.subject	Reconocimiento robusto del habla	es_ES
dc.subject	Segmentación automática de fonemas	es_ES
dc.title	Medidas de información multiresolución aplicadas al procesamiento de señales de habla	es_ES
dc.title.alternative	Multiresolution information measures applied to speech signal proccessing	en_EN
dc.type	info:eu-repo/semantics/masterThesis
dc.type	info:ar-repo/semantics/tesis de maestría
dc.type	info:eu-repo/semantics/acceptedVersion
dc.type	SNRD	es_ES
unl.degree.type	maestría
unl.degree.name	Maestría en Computación Aplicada a la Ciencia y la Ingeniería
unl.degree.grantor	Facultad de Ingeniería y Ciencias Hídricas
unl.formato	application/pdf
unl.versionformato	1a
unl.tipoformato	PDF/A - 1a