Noyau polynomial

En apprentissage automatique, le noyau polynomial est une fonction noyau couramment utilisée avec les machines à vecteurs de support (SVMs) et d'autres modèles à noyaux. Il représente la similarité des vecteurs (échantillons d'apprentissage) dans un espace de degré polynomial plus grand que celui des variables d'origine, ce qui permet un apprentissage de modèles non-linéaires.

Intuitivement, le noyau polynomial ne tient pas compte uniquement des propriétés des échantillons d'entrée afin de déterminer leur similitude, mais aussi des combinaisons de ceux-ci. Dans le contexte de l'analyse de régression, de telles combinaisons sont connues comme les fonctionnalités d'interaction. L'espace caractéristique (implicite) d'un noyau polynomial est équivalent à celui de la régression polynomiale, mais sans l'explosion combinatoire du nombre de paramètres à apprendre. Lorsque les caractéristiques d'entrées sont des valeurs binaires (booléens), alors les caractéristiques correspondent à la conjonction logique des caractéristiques d'entrée^[1].

Définition

Pour un polynôme de degré Modèle:Mvar, le noyau polynomial est défini comme^[2] :

K (x, y) = (x^{𝖳} y + c)^{d}

où Modèle:Mvar et Modèle:Mvar sont des vecteurs dans l' espace d'entrée, c'est-à-dire des vecteurs de caractéristiques calculées à partir d'échantillons d'apprentissage ou de test, et Modèle:Math est un paramètre libre équilibrant l'influence des termes d'ordre supérieur par rapport aux termes d'ordre inférieur dans le polynôme. Lorsque Modèle:Math, le noyau est appelé homogène^[3]. (Un noyau polynomial plus généralisé divise Modèle:Math par un paramètre scalaire Modèle:Mvar spécifié par l'utilisateur^[4].)

Comme noyau, Modèle:Mvar correspond à un produit scalaire dans un espace caractéristique basée sur une certaine application Modèle:Mvar :

K (x, y) = ⟨ ϕ (x), ϕ (y) ⟩

La nature de Modèle:Mvar peut être vue à partir d'un exemple. Soit Modèle:Math, nous obtenons donc le cas particulier du noyau quadratique. Après avoir utilisé le théorème multinôme de Newton (deux fois de l'application externe est le théorème du binôme de newton) et le regroupement,

K (x, y) = {(\sum_{i = 1}^{n} x_{i} y_{i} + c)}^{2} = \sum_{i = 1}^{n} (x_{i}^{2}) (y_{i}^{2}) + \sum_{i = 2}^{n} \sum_{j = 1}^{i - 1} (\sqrt{2} x_{i} x_{j}) (\sqrt{2} y_{i} y_{j}) + \sum_{i = 1}^{n} (\sqrt{2 c} x_{i}) (\sqrt{2 c} y_{i}) + c^{2}

il resulte que la fonctionnalité de l'application est donnée par :

φ (x) = ⟨ x_{n}^{2}, \dots, x_{1}^{2}, \sqrt{2} x_{n} x_{n - 1}, \dots, \sqrt{2} x_{n} x_{1}, \sqrt{2} x_{n - 1} x_{n - 2}, \dots, \sqrt{2} x_{n - 1} x_{1}, \dots, \sqrt{2} x_{2} x_{1}, \sqrt{2 c} x_{n}, \dots, \sqrt{2 c} x_{1}, c ⟩

Utilisation pratique

Bien que le noyau RBF soit plus populaire dans la classification SVM que le noyau polynomial, ce dernier est très populaire dans le traitement automatique du langage naturel (NLP)^[1]Modèle:,^[5]. Le degré le plus commun est Modèle:Math (quadratique), car les grands degrés tendent à surapprendre sur les problèmes de NLP.

Différentes manières de calculer le noyau polynomial (à la fois exacte et approchée) ont été conçues comme des alternatives à l'usage des algorithmes de formation SVM non-linéaire, y compris :

la pleine expansion du noyau avant l'apprentissage/test avec un SVM linéaire^[5], c'est-à-dire le calcul complet de l'application Modèle:Mvar comme dans la régression polynomiale ;
Règle d'association (à l'aide d'une variante de l'algorithme apriori) pour les plus fréquentes conjonctions de fonctionnalité en un ensemble de formation afin de produire une évaluation approximative de l'expansion^[6] ;
Index inversé des vecteurs de support^[6]Modèle:,^[1].

Un problème avec le noyau polynomial est qu'il peut souffrir d'instabilité numérique : lorsque Modèle:Math tend vers zéro avec l'augmentation de Modèle:Mvar, alors que quand Modèle:Math tend vers l'infini^[4].

Références

↑ ^1,0 ^1,1 et ^1,2 Yoav Goldberg and Michael Elhadad (2008). splitSVM: Fast, Space-Efficient, non-Heuristic, Polynomial Kernel Computation for NLP Applications. Proc. ACL-08: HLT.
↑ http://www.cs.tufts.edu/~roni/Teaching/CLT/LN/lecture18.pdf
↑ Modèle:Lien arXiv
↑ ^4,0 et ^4,1 Modèle:Lien conférence
↑ ^5,0 et ^5,1 Modèle:Article
↑ ^6,0 et ^6,1 Modèle:Lien conférence

Modèle:Portail

[Goldberg2008-1] 1,0 ^1,1 et ^1,2 Yoav Goldberg and Michael Elhadad (2008). splitSVM: Fast, Space-Efficient, non-Heuristic, Polynomial Kernel Computation for NLP Applications. Proc. ACL-08: HLT.

[2] ttp://www.cs.tufts.edu/~roni/Teaching/CLT/LN/lecture18.pdf

[3] Modèle:Lien arXiv

[lin2012-4] 4,0 et ^4,1 Modèle:Lien conférence

[Chang2010-5] 5,0 et ^5,1 Modèle:Article

[Kudo2003-6] 6,0 et ^6,1 Modèle:Lien conférence

[1]

[2]

[3]

[4]

[5]

[6]

Noyau polynomial

Définition

Utilisation pratique

Références

Menu de navigation

Rechercher