En muchas aplicaciones en las que intentamos predecir una variable respuesta a partir de un conjunto de variables predictoras, la reducción de dimensiones es una herramienta adecuada para ayudar a comprender los datos medidos y visualizar las relaciones entre las variables. Consiste en obtener representaciones de los datos en un espacio de menor dimensión, con el objetivo de facilitar el análisis exploratorio y el posterior tratamiento estadístico. En este marco, la reducción suficiente de dimensiones (SDR) intenta proporcionar una solución rigurosa al propósito de reducir preservando la información sobre la respuesta, utilizando el concepto de suficiencia estadística. Típicamente, los métodos de SDR existentes son lineales y se basan en suposiciones que en la práctica pueden no estar respaldadas por los datos. En esta tesis buscamos ampliar la aplicabilidad de SDR a problemas reales, avanzando en dos direcciones vinculadas por la aplicación de métodos basados en núcleos en espacios de Hilbert con núcleo reproductor (RKHS). En primer lugar, obtenemos SDR para las familias exponenciales basadas en núcleos (KEF), una amplia clase de distribuciones de probabilidad, y establecemos una importante conexión formal con clasificadores de vectores soporte (SVM) que nos permite lograr eficiencia computacional. En segundo lugar, abordamos el problema de reducción de dimensiones con información adicional, un escenario en el cual existe una variable extra que también contiene información predictiva pero solo puede ser utilizada durante la etapa de entrenamiento. Nuestra contribución es una metodología general de SDR que incorpora la información adicional, incluso si ésta es de alta dimensionalidad.
In many applications where we attempt to predict a response variable from a set of predictor variables, dimension reduction is an appropriate tool to aid understanding of the measured data and to visualize existing relationships between variables. It consists of obtaining representations of the data in a lower-dimensional space, in order to facilitate exploratory analysis and subsequent statistical treatment. In this framework, sufficient dimension reduction (SDR) attempts to provide a rigorous solution for the objective of reduction while preserving information about the response, by employing the concept of statistical sufficiency. Typically, existing SDR methods are linear and rely on assumptions that may not be supported by the data in practice. In this thesis we seek to extend the suitability of SDR to real problems, by advancing in two directions linked by the application of kernel methods in reproducing kernel Hilbert spaces (RKHS). Firstly, we obtain SDR for kernel exponential families (KEF), a broad class of probability distributions, and we establish an important formal connection with support vector machines (SVM) that allow us to achieve computational efficiency. Secondly, we address the dimension reduction problem with additional information, a scenario in which there is an extra variable that also contains predictive information but can only be utilized during the training stage. Our contribution is a general methodology of SDR that incorporates additional information, even if it is high-dimensional.