Réseaux antagonistes génératifs de Wasserstein

Modèle:Infobox Méthode scientifiqueLes réseaux antagonistes génératifs de Wasserstein (en anglais Wasserstein Generative Adversarial Network d'où WGAN et Wasserstein GAN) sont une variante des réseaux antagonistes génératifs (GAN), proposée en 2017 qui vise à « améliorer la stabilité de l'apprentissage, à éliminer les problèmes tels que l'effondrement sur les modes et à fournir des courbes d'apprentissage utiles pour le débogage et la recherche d'hyperparamètres »^[1]Modèle:,^[2].

Comparé au discriminateur d'un GAN traditionnel, le discriminateur d'un GAN de Wasserstein, souvent appelé critique, fournit un meilleur signal d'apprentissage pour le générateur. Cela permet à l'entraînement d'être plus stable lorsque le générateur apprend des distributions dans des espaces de très grande dimension.

Motivation

GAN

Modèle:Article détaillé Un GAN classique est basée sur un jeu à somme nulle entre 2 joueurs : générateur et discriminateur. Le jeu est défini sur un espace de probabilité $(Ω, ℬ, μ_{r})$ . L'ensemble de stratégies du générateur est l'ensemble de toutes les mesures de probabilité $μ_{G}$ sur $(Ω, ℬ)$ , et l'ensemble de stratégies du discriminateur est l'ensemble des fonctions mesurables $D : Ω \to [0, 1]$ .

L'objectif du jeu est le suivant : $L (μ_{G}, D) := 𝔼_{x \sim μ_{r e f}} [\ln D (x)] + 𝔼_{x \sim μ_{G}} [\ln (1 - D (x))] .$ Le générateur vise à le minimiser, tandis que le discriminateur vise à le maximiser.

Un théorème de base du jeu GAN stipule que :

Modèle:Théorème

Répétez ce jeu plusieurs fois, à chaque fois avec le générateur se déplaçant en premier suivit par l discriminateur. Chaque fois que le générateur $μ_{G}$ change, le discriminateur doit s'adapter en se rapprochant de l'idéal : $D^{*} (x) = \frac{d μ_{r}}{d (μ_{r} + μ_{G})} .$ Puisque nous sommes vraiment intéressés par $μ_{r}$ , la fonction discriminatrice $D$ est en soi plutôt inintéressante. Elle suit simplement le rapport de vraisemblance entre la distribution du générateur et la distribution de référence. À l'équilibre, le discriminateur ne fait que produire $\frac{1}{2}$ constamment, ayant renoncé à tenter de percevoir une quelconque différence. En pratique, le générateur ne pourrait jamais atteindre l'imitation parfaite, et le discriminateur serait donc motivé pour percevoir la différence, ce qui lui permet d'être utilisé pour d'autres tâches, telles que la classification d'ImageNet sans supervision.

Concrètement, dans un GAN, si on a un générateur $μ_{G}$ , et un discriminateur qu'on améliore pas à pas, où on dénote $μ_{D, t}$ le discriminateur à l'étape $t$ ; alors nous avons (idéalement) que : $L (μ_{G}, μ_{D, 1}) \leq L (μ_{G}, μ_{D, 2}) \leq \dots \leq \max_{μ_{D}} L (μ_{G}, μ_{D}) = 2 D_{J S} (μ_{r} ‖ μ_{G}) - 2 \ln 2,$ nous voyons donc que le discriminateur est en fait une limite inférieure $D_{J S} (μ_{r} ‖ μ_{G})$ .

Distance de Wasserstein

Modèle:Article détaillé Ainsi, nous voyons que le rôle du discriminateur est principalement de fournir un retour d'information au générateur, sur à quel point celui-ci est loin de la perfection, où « loin » est défini comme cette divergence de Jensen-Shannon.

Naturellement, cela apporte la possibilité d’utiliser une fonction objectif différente. Il existe de nombreuses divergences possibles parmi lesquelles choisir, comme la famille des divergences f, qui donnerait le f-GAN^[3].

Le GAN de Wasserstein est obtenu en utilisant la distance de Wasserstein. Celle-ci satisfait le « théorème de la dualité de Kantorovich-Rubenstein ». Cette dualité peut être utilisée ce qui rend l'algorithme très efficace à calculer : Modèle:Théorème

Définition

Selon la dualité de Rubenstein-Kantorovitch, la définition du GAN de Wasserstein est claire : Modèle:Citation bloc Par la dualité de Kantorovitch-Rubenstein, pour toute stratégie génératrice $μ_{G}$ , la réponse optimale du discriminateur est $D^{*}$ , tel que $L_{W G A N} (μ_{G}, D^{*}) = K \cdot W_{1} (μ_{G}, μ_{r}) .$ Par conséquent, si le discriminateur est bon, le générateur serait constamment poussé à minimiser $W_{1} (μ_{G}, μ_{r})$ , et la stratégie optimale pour le générateur est simplement $μ_{G} = μ_{r}$ , comme il se doit.

Comparaison avec le GAN classique

Dans le GAN de Wasserstein, le discriminateur fournit un meilleur gradient que dans le GAN traditionnel.

Considérons par exemple un jeu sur les réels où les deux $μ_{G}$ et $μ_{r}$ sont gaussiennes. Ensuite, le critique optimal de Wasserstein $D_{W G A N}$ et le discriminateur GAN optimal $D$ sont représentés comme ci-dessous :

Pour un discriminateur fixé, le générateur doit minimiser les objectifs suivants :

Dans un GAN, $𝔼_{x \sim μ_{G}} [\ln (1 - D (x))]$ .
Dans un GAN de Wasserstein, $𝔼_{x \sim μ_{G}} [D_{W G A N} (x)]$ .

Soit $μ_{G}$ paramétré par $θ$ , nous pouvons alors effectuer une descente de gradient stochastique en utilisant deux estimateurs non biaisés du gradient : $\nabla_{θ} 𝔼_{x \sim μ_{G}} [\ln (1 - D (x))] = 𝔼_{x \sim μ_{G}} [\ln (1 - D (x)) \cdot \nabla_{θ} \ln ρ_{μ_{G}} (x)]$ $\nabla_{θ} 𝔼_{x \sim μ_{G}} [D_{W G A N} (x)] = 𝔼_{x \sim μ_{G}} [D_{W G A N} (x) \cdot \nabla_{θ} \ln ρ_{μ_{G}} (x)]$ où nous avons utilisé l'Modèle:Lien. Ce n'est pas ainsi que les choses se passent dans la pratique, puisque

$\nabla_{θ} \ln ρ_{μ_{G}} (x)$

est en général introuvable, mais c'est éclairant sur le plan théorique.

Comme indiqué, le générateur dans un GAN classique est motivé pour laisser son $μ_{G}$ « glisser vers le bas du sommet » de $\ln (1 - D (x))$ . Il en va de même pour le générateur d'un GAN de Wasserstein.

Pour un GAN de Wasserstein, $D_{W G A N}$ a un gradient de 1 presque partout, tandis que pour GAN, $\ln (1 - D)$ a un gradient nul au milieu et un gradient impotant ailleurs. Par conséquent, la variance de l’estimateur dans le GAN est généralement beaucoup plus grande que celle dans le GAN de Wasserstein^[1].

Le problème avec $D_{J S}$ est beaucoup plus grave dans les situations réelles d’apprentissage automatique. Envisagez de former un GAN pour générer ImageNet, une collection de photos de taille 256 x 256. L'espace de toutes ces photos est $ℝ^{25 6^{2}}$ , et la distribution des images ImageNet, $μ_{r}$ , se concentre sur une variété de dimension beaucoup plus faible en elle. Par conséquent, toute stratégie de générateur $μ_{G}$ serait presque sûrement entièrement disjointe de $μ_{r}$ , rendant $D_{J S} (μ_{G} ‖ μ_{r}) = + \infty$ . Ainsi, un bon discriminateur peut presque parfaitement distinguer $μ_{r}$ de $μ_{G}$ , ainsi que tout ${μ_{G}}^{'}$ proche de $μ_{G}$ . Ainsi, le gradient $\nabla_{μ_{G}} L (μ_{G}, D) \approx 0$ , ne créant aucun signal d'apprentissage pour le générateur.

Entraînement d'un GAN de Wasserstein

L'entraînement du générateur dans un GAN de Wasserstein est une descente de gradient, la même que dans un GAN (ou pour la plupart des méthodes d'apprentissage profond), mais l'entraînement du discriminateur est différent, car le discriminateur est désormais limité par une norme Lipschitz bornée. Il existe plusieurs méthodes pour imposer cette condition.

Limite supérieure de la norme Lipschitz

Laissez la fonction discriminatrice $D$ à mettre en œuvre par un perceptron multicouche : $D = D_{n} \circ D_{n - 1} \circ \dots \circ D_{1}$ où $D_{i} (x) = h (W_{i} x)$ , et $h : ℝ \to ℝ$ est une fonction d'activation fixe avec $\sup_{x} | h^{'} (x) | \leq 1$ . Par exemple, la fonction tangente hyperbolique $h = \tanh$ satisfait à l'exigence.

Ensuite, pour tout $x$ , posons $x_{i} = (D_{i} \circ D_{i - 1} \circ \dots \circ D_{1}) (x)$ , nous avons par la règle de la chaîne : $d D (x) = d i a g (h^{'} (W_{n} x_{n - 1})) \cdot W_{n} \cdot d i a g (h^{'} (W_{n - 1} x_{n - 2})) \cdot W_{n - 1} \dots d i a g (h^{'} (W_{1} x)) \cdot W_{1} \cdot d x$ Ainsi, la norme Lipschitz de $D$ est délimité par $‖ D ‖_{L} \leq \sup_{x} ‖ d i a g (h^{'} (W_{n} x_{n - 1})) \cdot W_{n} \cdot d i a g (h^{'} (W_{n - 1} x_{n - 2})) \cdot W_{n - 1} \dots d i a g (h^{'} (W_{1} x)) \cdot W_{1} ‖_{F}$ où $‖ \cdot ‖_{s}$ est la norme de l'opérateur de la matrice, c'est-à-dire la plus grande valeur singulière de la matrice, c'est-à-dire le rayon spectral de la matrice (ces concepts sont les mêmes pour les matrices, mais différents pour les opérateurs linéaires généraux).

Comme $\sup_{x} | h^{'} (x) | \leq 1$ , nous avons que $‖ d i a g (h^{'} (W_{i} x_{i - 1})) ‖_{s} = \max_{j} | h^{'} (W_{i} x_{i - 1, j}) | \leq 1,$ et par conséquent la borne supérieure est : $‖ D ‖_{L} \leq \prod_{i = 1}^{n} ‖ W_{i} ‖_{s}$ Ainsi, si nous pouvons fixer une limite supérieure aux normes des opérateurs $‖ W_{i} ‖_{s}$ de chaque matrice, nous pouvons donc fixer la limite supérieure de la norme Lipschitz de $D$ .

Contrainte sur les poids

Puisque pour tout $m \times l$ matrice $W$ , Posons $c = \max_{i, j} | W_{i, j} |$ , nous avons $‖ W ‖_{s}^{2} = \sup_{‖ x ‖_{2} = 1} ‖ W x ‖_{2}^{2} = \sup_{‖ x ‖_{2} = 1} \sum_{i} {(\sum_{j} W_{i, j} x_{j})}^{2} = \sup_{‖ x ‖_{2} = 1} \sum_{i, j, k} W_{i j} W_{i k} x_{j} x_{k} \leq c^{2} m l^{2}$ en coupant toutes les entrées de $W$ dans un intervalle $[- c, c]$ , nous pouvons être borné $‖ W ‖_{s}$ .

Il s'agit de la méthode de contrainte des poids, proposée dans l'article original^[1].

Normalisation spectrale

Le rayon spectral peut être calculé efficacement par l'algorithme suivant : Modèle:Citation bloc En réaffectant $W_{i} \leftarrow \frac{W_{i}}{‖ W_{i} ‖_{s}}$ après chaque mise à jour du discriminateur, nous pouvons fixer une limite supérieure $‖ W_{i} ‖_{s} \leq 1$ , et donc limite supérieure $‖ D ‖_{L}$ .

L'algorithme peut être encore accéléré par mémoïsation : A l'étape $t$ , on garde $x_{i}^{*} (t)$ . Puis à l'étape $t + 1$ , utiliser $x_{i}^{*} (t)$ comme valeur initiale de l'algorithme. Depuis $W_{i} (t + 1)$ est très proche de $W_{i} (t)$ , c'est donc $x_{i}^{*} (t)$ proche de $x_{i}^{*} (t + 1)$ , ce qui permet une convergence rapide.

Il s'agit de la méthode de normalisation spectrale^[4].

Pénalité sur le gradient

Au lieu de délimiter strictement $‖ D ‖_{L}$ , nous pouvons simplement ajouter un terme de « pénalité sur le gradient » sur le discriminateur, de la forme $𝔼_{x \sim \hat{μ}} [(‖ \nabla D (x) ‖_{2} - a)^{2}]$ où $\hat{μ}$ est une distribution fixe utilisée pour estimer dans quelle mesure le discriminateur a violé l'exigence de la norme de Lipschitz. Le discriminateur, en essayant de minimiser la nouvelle fonction de perte, amènerait naturellement $\nabla D (x)$ proche de $a$ partout, faisant ainsi $‖ D ‖_{L} \approx a$ .

Il s'agit de la méthode de pénalité sur le gradient^[5].

Liens externes

Voir aussi

Références

Modèle:Traduction/Référence Modèle:Références

Notes

Modèle:Références Modèle:Palette Modèle:Portail

[:0-1] 1,0 ^1,1 et ^1,2 Modèle:Article

[2] Modèle:Article

[3] Modèle:Article

[4] Modèle:Article

[5] Modèle:Article

[1]

[2]

[3]

[4]

[5]

Réseaux antagonistes génératifs de Wasserstein

Sommaire

Motivation

GAN

Distance de Wasserstein

Définition

Comparaison avec le GAN classique

Entraînement d'un GAN de Wasserstein

Limite supérieure de la norme Lipschitz

Contrainte sur les poids

Normalisation spectrale

Pénalité sur le gradient

Liens externes

Voir aussi

Références

Notes

Menu de navigation

Réseaux antagonistes génératifs de Wasserstein

Motivation

GAN

Distance de Wasserstein

Définition

Comparaison avec le GAN classique

Entraînement d'un GAN de Wasserstein

Limite supérieure de la norme Lipschitz

Contrainte sur les poids

Normalisation spectrale

Pénalité sur le gradient

Liens externes

Voir aussi

Références

Notes

Menu de navigation

Rechercher