Desarrollo de métodos robustos y fisiológicamente inspirados para el filtrado inverso de la voz

Zalazar, Iván Ariel

Desarrollo de métodos robustos y fisiológicamente inspirados para el filtrado inverso de la voz

Biblioteca Virtual
→
Colección de posgrado
→
Facultad de Ingeniería y Ciencias Hídricas
→
Doctorado en Ingeniería
→
Ver ítem

Desarrollo de métodos robustos y fisiológicamente inspirados para el filtrado inverso de la voz

Zalazar, Iván Ariel

Autor: Zalazar, Iván Ariel

URI: https://hdl.handle.net/11185/8819

Fecha: 2026-03-11

Palabras clave: Filtrado inverso de la voz - Análisis de la señal de voz - Flujo glótico - Predicción lineal ponderada - Correntropía - Modelado adaptativo no armónico - Voice inverse filtering - Voice signal analysis - Glottal airflow - Weighted linear prediction - Correntropy - Adaptive non-harmonic modeling -

Resumen:

El flujo glótico, principal fuente acústica de la fonación humana, porta información sobre las cuerdas vocales. Desafortunadamente, no es posible sensar dicho flujo dentro de la laringe. El filtrado inverso permite estimar de forma no invasiva el flujo glótico al eliminar los efectos del tracto vocal y la radiación en los labios de la señal de voz. Esta tesis presenta nuevos métodos para mejorar la cancelación de estos efectos. Para ello, se abordan las principales limitaciones de la predicción lineal (PL), un método estándar para modelar la contribución del tracto vocal en la señal de voz. Se proponen dos estrategias de PL ponderadas basadas en atenuación Gaussiana para reducir los errores en el ajuste del modelo del tracto vocal causados por las muestras ubicadas en los instantes de cierre glótico. Estas estrategias extienden la formulación de la PL Gaussiana al incorporar un análisis adaptado al tono y una ponderación de fase casi-cerrada, lo que mejora su desempeño. Además, se presenta un método de PL basado en correntropía. Este enfoque resulta un método LP ponderado y guiado por datos que enfatiza automáticamente las muestras ubicadas en la fase cerrada. Esto elimina la necesidad de conocer los instantes glóticos y mejora el modelado del tracto vocal. Finalmente, se propone un modelo adaptativo no armónico regularizado como alternativa para cancelar el efecto de radiación labial y reducir las distorsiones de baja frecuencia producidas por un filtrado inverso inadecuado. Este enfoque proporciona estimaciones del flujo glótico fisiológicamente representativas caracterizadas por una fase cerrada plana.

Glottal airflow, the primary acoustic source of human phonation, carries essential information regarding vocal fold dynamics. Unfortunately, direct measurement of glottal airflow within the larynx is not feasible. Voice inverse filtering enables the non-invasive estimation of glottal airflow by removing the effects of the vocal tract and lip radiation from the voice signal. The present thesis introduces new methods to improve the cancellation of these effects during the inverse filtering process. To this end, the main drawbacks of linear prediction (LP)—a standard method for modeling the vocal tract contribution from the voice signal—are addressed. Two weighted LP strategies based on Gaussian attenuation are proposed to mitigate errors in vocal tract model tuning caused by voice signal samples near glottal closure instants. These strategies extend the original Gaussian LP formulation by incorporating a pitch-adaptive analysis and a quasi-closed phase weighting, significantly enhancing their performance for inverse filtering. Additionally, a robust LP method based on the maximum correntropy criterion is developed. This approach results in a data-driven weighted LP method that automatically emphasizes closed-phase voice signal samples, thereby eliminating the need for prior knowledge of glottal instant locations and improving vocal tract contribution modeling. Finally, a regularized adaptive non-harmonic model is proposed as an alternative for canceling the lip radiation effect and reducing low-frequency distortions produced by inadequate inverse filtering. This approach yields a physiologically representative glottal airflow waveform estimation, characterized by a flat closed phase.

Descripción: Fil: Zalazar, Iván Ariel. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.

Director: Alzamendi, Gabriel Alejandro

Codirector: Schlotthauer, Gastón

Tribunal examinador: Weinstein, Alejandro - Torres, Humberto - Godino Llorente, Juan Ignacio

Financiación: Consejo Nacional de Investigaciones Científicas y Técnicas

Mostrar el registro completo del ítem

Ficheros en el ítem

Nombre: Tesis.pdf

Tamaño: 18.57Mb

Formato: PDF

ver

Este ítem aparece en

Doctorado en Ingeniería

Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/openAccess

Desarrollo de métodos robustos y fisiológicamente inspirados para el filtrado inverso de la voz

Desarrollo de métodos robustos y fisiológicamente inspirados para el filtrado inverso de la voz

Resumen:

Ficheros en el ítem

Este ítem aparece en

Buscar en la biblioteca