Méthodes à noyaux — Wikipédia
Les méthodes à noyau constituent une famille d'algorithmes d'apprentissage automatique et d'analyse de données. Elles peuvent être utilisées à la fois pour l'apprentissage supervisé et non supervisé.
Ces méthodes doivent leur nom au fait qu'elles manipulent les données via une fonction appelée noyau (kernel en anglais) ou fonction de covariance, qui peut s'interpréter comme une mesure de la similarité entre deux points de l'espace des données. Le noyau est le plus souvent un paramètre de l'algorithme, et différentes mesures de similarité peuvent donc être employées afin de s'adapter à la nature des données.
Lorsque le noyau utilisé est défini positif, il induit implicitement un espace de Hilbert à noyau reproduisant ainsi qu'une transformation permettant de plonger les données d'entrée dans cet espace. La plupart des méthodes à noyau peuvent dans ce cas s'interpréter comme l'application d'un algorithme plus simple dans cet espace. Par exemple, une machine à vecteurs de support est un classifieur non-linéaire construit en utilisant un classifieur linéaire sur les données ainsi transformées. Bien que l'espace induit puisse être de dimension élevée voire infinie, les modèles obtenus peuvent s'exprimer simplement grâce à l'astuce du noyau, sans avoir besoin de calculer explicitement la représentation des données dans l'espace induit.
Certaines méthodes, comme les estimateurs de densité par noyau, n'imposent pas que le noyau utilisé soit défini positif.
La plupart des algorithmes à noyau reposent sur des techniques d'optimisation convexe, et la solution de certains problèmes admet une expression analytique. Ces méthodes ont de solides fondements théoriques, et les modèles produits peuvent être analysés dans le cadre de la théorie de l'apprentissage statistique.
Implémentation: l'astuce du noyau
[modifier | modifier le code]La plupart des algorithmes à noyau cherchent à résoudre un problème d'optimisation sur l'espace de Hilbert à noyau reproduisant induit par le noyau considéré, qui peut être de dimension infinie. Toutefois, les estimateurs obtenus en minimisant un risque empirique appartiennent, en vertu de théorèmes de représentation, à un sous-espace de dimension finie.
Les algorithmes peuvent de fait le plus souvent s'écrire en fonction de la matrice à noyau des données, qui contient les évaluations du noyau entre toutes les paires de points du jeu de données.
Problèmes
[modifier | modifier le code]Parmi les méthodes à noyau couramment utilisées, on peut citer certaines méthodes de régression non paramétrique comme la régression ridge à noyau et les méthodes d'interpolation à noyau. Les machines à vecteur de support sont un modèle courant pour résoudre certains problèmes de classification.
Parmi les méthodes d'apprentissage non supervisé à noyau, on peut citer l'analyse en composantes principales à noyau et le partitionnement type k-moyennes à noyau.
Choix du noyau
[modifier | modifier le code]Parmi les noyaux couramment utilisés pour des données appartenant à , on peut citer notamment les noyaux gaussiens, laplaciens, de Matérn, polynomiaux.
Un avantage des méthodes à noyaux est qu'elles peuvent être utilisés facilement sur d'autres espaces par la définition de noyaux adaptés, mais sans avoir besoin de définir explicitement un plongement des données dans un espace euclidien. Des noyaux ont ainsi été définis pour de nombreux types de données comme du texte, des images, des données temporelles, des graphes. Toutefois, chaque noyau est spécifique au cas d'usage et au type de données pour lequel il a été prévu.
Depuis les années 2010, dans le cadre de l'apprentissage profond, des noyaux sont appris au moyen de réseaux de neurones[DLB2016 1]. L'architecture d'un tel réseau définit une famille de fonction paramétriques. L'apprentissage du réseau consiste à déterminer les paramètres, ce qui détermine une fonction particulière. L'ensemble des couche cachées du réseau constituent donc un noyau particulier, qui transforme des données brutes (image, texte, son, parole...) en une nouvelle représentation. Ces données transformées peuvent être séparée par la couche de sortie du réseau, faisant par exemple office de classifieur.
Voir aussi
[modifier | modifier le code]Notes et références
[modifier | modifier le code]- (en) Ian Goodfellow, Yoshua Bengio et Aaron Courville, Deep Learning, MIT Press, (ISBN 0262035618, lire en ligne) [détail des éditions]
- chap. 6, p. 166.