Function-valued regression with kernels : Improving speed, flexibility and robustness - Département Image, Données, Signal Access content directly
Theses Year : 2023

Function-valued regression with kernels : Improving speed, flexibility and robustness

Améliorer la régression à valeurs fonctionnelles avec des noyaux reproduisant rapidité, flexibilité et robustesse

Abstract

With the increasing ubiquity of data-collecting devices, a great variety of phenomena is monitored with finer and finer accuracy, which constantly expands the scope of Machine Learning applications. Dealing with such volume of data efficiently is however challenging. Fortunately, as measurements get denser, they may become gradually redundant. We can then greatly reduce the burden by finding a representation which exploits properties of the generating process and/or is tailored for the application at hand.This thesis revolves around an aspect of this idea: functional data. Data indeed consist of discrete measurements, but sometimes thinking of those as functional, we can exploit prior knowledge on smoothness to obtain a better yet lower dimensional representation. The focus is on nonlinear models for functional output regression (FOR), relying on an extension of reproducing kernel Hilbert spaces for vector-valued functions (vv-RKHS), which is the cornerstone of many nonlinear existing FOR methods. We propose to challenge those in two aspects: their computational complexity with respect to the number of measurements per function and their focusing solely on the square loss.To that end, we introduce the new framework of kernel projection learning (KPL) combining vv-RKHSs and representation of signals in dictionaries. The loss remains functional, however the model predicts only a finite number of representation coefficients. This approach retains the many advantages of vv-RKHSs yet greatly alleviates the computational burden incurred by the functional outputs. We derive two estimators in closed-form using the square loss, one for fully observed functions and one for discretized ones. We show that both are consistent in terms of excess risk. We demonstrate as well the possibility to use other differentiable and convex losses, to combine this framework with large scale kernel methods and to automatically select the dictionary using a structured penalty.In another contribution, we propose to solve the regression problem in vv-RKHSs of function-valued functions for the family of convoluted losses which we introduce. Those losses can either promote sparsity or robustness with a parameter controlling the degree of locality of those properties. Thanks to their structure, they are particularly amenable to dual approaches which we investigate. We then overcome the challenges posed by the functional nature of the dual variables by proposing two possible representations and we propose corresponding algorithms.
L'augmentation du nombre et de la sophistication des appareils collectant des données permet de suivre l'évolution d'une multitude de phénomènes à des résolutions très fines. Cela étend le champ des applications possibles de l'apprentissage statistique. Un tel volume peut néanmoins devenir difficile à exploiter. Cependant quand leur nombre augmente, les données peuvent devenir redondantes. On peut alors chercher une représentation exploitant des propriétés du processus génératif. Dans cette thèse, nous nous concentrons sur la représentation fonctionnelle. Bien sûr, les données sont toujours des mesures discrètes. Néanmoins, si nous pensons que ces suites doivent être par exemple lisses ou de variations bornées, une telle représentation peut être à la fois plus fidèle et de dimension plus faible. Nous nous concentrons sur les modèles non-linéaires de régression à valeurs fonctionnelles (FOR) en utilisant une extension des espaces de Hilbert à noyau reproduisant pour les fonctions à valeurs vectorielles (vv-RKHS) qui constitue la clef de voûte de plusieurs méthodes existantes. Notre objectif est d'en proposer de nouvelles plus performantes sur les plans de la complexité calculatoire liée au caractère fonctionnel et/ou celui du choix de la fonction de perte. Nous introduisons l'apprentissage de projection kernelisé (KPL) qui combine les vv-RKHSs et la représentation de signaux sur des dictionnaires. La perte demeure fonctionnelle, néanmoins le modèle prédit seulement un nombre fini de coordonnées. Nous bénéficions alors de la flexibilité de l'espace d'hypothèse tout en réduisant nettement la complexité liée aux sorties fonctionnelles. Pour la perte quadratique, nous introduisons deux estimateurs en forme close, l'un adapté lorsque les fonctions de sortie sont observées totalement, et l'autre lorsqu'elles ne le sont que partiellement. Nous montrons que chacun est consistant en termes d'excès de risque. Nous proposons aussi d'utiliser d'autres fonctions de perte différentiables, de combiner KPL avec les techniques de passage à l'échelle ou encore de sélectionner le dictionnaire via une pénalité structurée. Une autre partie est dédiée au problème de FOR dans des vv-RKHS de fonctions à valeurs fonctionnelles en utilisant une famille de fonctions de pertes que nous introduisons comme définies à partir d'une convolution infimale. Celles-ci peuvent encourager soit la parcimonie soit la robustesse, le degré de localité de ces propriétés étant contrôlé via un paramètre dédié. Grâce à leur structure, ces pertes se prêtent particulièrement bien à la résolution par dualité lagrangienne. Nous surmontons alors les différents défis que pose la dimension infinie des variables duales en proposant deux représentations pour résoudre le problème dual numériquement.
Fichier principal
Vignette du fichier
116503_BOUCHE_2023_archivage.pdf (8.48 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03968579 , version 1 (01-02-2023)

Identifiers

  • HAL Id : tel-03968579 , version 1

Cite

Dimitri Bouche. Function-valued regression with kernels : Improving speed, flexibility and robustness. Machine Learning [stat.ML]. Institut Polytechnique de Paris, 2023. English. ⟨NNT : 2023IPPAT001⟩. ⟨tel-03968579⟩
106 View
35 Download

Share

Gmail Facebook Twitter LinkedIn More