Réseaux antagonistes génératifs de Wasserstein

Réseaux antagonistes génératifs de Wasserstein
Type
Inventeur
Martín Arjovsky (d)Voir et modifier les données sur Wikidata
Date d'invention

Les réseaux antagonistes génératifs de Wasserstein (en anglais Wasserstein Generative Adversarial Network d'où WGAN et Wasserstein GAN) sont une variante des réseaux antagonistes génératifs (GAN), proposée en 2017 qui vise à « améliorer la stabilité de l'apprentissage, à éliminer les problèmes tels que l'effondrement sur les modes et à fournir des courbes d'apprentissage utiles pour le débogage et la recherche d'hyperparamètres »[1],[2].

Comparé au discriminateur d'un GAN traditionnel, le discriminateur d'un GAN de Wasserstein, souvent appelé critique, fournit un meilleur signal d'apprentissage pour le générateur. Cela permet à l'entraînement d'être plus stable lorsque le générateur apprend des distributions dans des espaces de très grande dimension.

Motivation

GAN

Un GAN classique est basée sur un jeu à somme nulle entre 2 joueurs : générateur et discriminateur. Le jeu est défini sur un espace de probabilité . L'ensemble de stratégies du générateur est l'ensemble de toutes les mesures de probabilité sur , et l'ensemble de stratégies du discriminateur est l'ensemble des fonctions mesurables .

L'objectif du jeu est le suivant : Le générateur vise à le minimiser, tandis que le discriminateur vise à le maximiser.

Un théorème de base du jeu GAN stipule que :

Théorème (Le discriminateur optimal correspond à la divergence de Jensen-Shannon) — Pour toute stratégie fixée du générateur , soit la réponse optimale , then

où la dérivée est la dérivée de Radon–Nikodym, et est la divergence de Jensen–Shannon (en).

Répétez ce jeu plusieurs fois, à chaque fois avec le générateur se déplaçant en premier suivit par l discriminateur. Chaque fois que le générateur change, le discriminateur doit s'adapter en se rapprochant de l'idéal :Puisque nous sommes vraiment intéressés par , la fonction discriminatrice est en soi plutôt inintéressante. Elle suit simplement le rapport de vraisemblance entre la distribution du générateur et la distribution de référence. À l'équilibre, le discriminateur ne fait que produire constamment, ayant renoncé à tenter de percevoir une quelconque différence. En pratique, le générateur ne pourrait jamais atteindre l'imitation parfaite, et le discriminateur serait donc motivé pour percevoir la différence, ce qui lui permet d'être utilisé pour d'autres tâches, telles que la classification d'ImageNet sans supervision.

Concrètement, dans un GAN, si on a un générateur , et un discriminateur qu'on améliore pas à pas, où on dénote le discriminateur à l'étape ; alors nous avons (idéalement) que : nous voyons donc que le discriminateur est en fait une limite inférieure .

Distance de Wasserstein

Ainsi, nous voyons que le rôle du discriminateur est principalement de fournir un retour d'information au générateur, sur à quel point celui-ci est loin de la perfection, où « loin » est défini comme cette divergence de Jensen-Shannon.

Naturellement, cela apporte la possibilité d’utiliser une fonction objectif différente. Il existe de nombreuses divergences possibles parmi lesquelles choisir, comme la famille des divergences f, qui donnerait le f-GAN[3].

Le GAN de Wasserstein est obtenu en utilisant la distance de Wasserstein. Celle-ci satisfait le « théorème de la dualité de Kantorovich-Rubenstein  ». Cette dualité peut être utilisée ce qui rend l'algorithme très efficace à calculer :

Théorème (Dualité de Kantorovich-Rubenstein) — Soit un espace de probabilité qui est un espace métrique, alors pour tout fixé, est la norme de Lipschitz.

Définition

Selon la dualité de Rubenstein-Kantorovitch, la définition du GAN de Wasserstein est claire :

« Un jeu GAN de Wasserstein est défini par un espace de probabilité , où est un espace métrique, et une constante .

Il y a alors deux joueurs : un generateut and discriminateur (aussi appelé "critique").

La stratégie du générateur est l'ensemble de toutes les mesures de probabilité sur .

L'ensemble des stratégies du discriminateur est l'ensemble des fonctions mesurables de type avec la norme Lipschitz bornée : .

Le jeu de Wasserstein GAN est un jeu à somme nulle, avec la fonction objective Le générateur commence et le discriminateur va ensuite. Le générateur vise à minimiser l'objectif, tandis que le discriminateur vise à maximiser l'objectif : »

Par la dualité de Kantorovitch-Rubenstein, pour toute stratégie génératrice , la réponse optimale du discriminateur est , tel que Par conséquent, si le discriminateur est bon, le générateur serait constamment poussé à minimiser , et la stratégie optimale pour le générateur est simplement , comme il se doit.

Comparaison avec le GAN classique

Dans le GAN de Wasserstein, le discriminateur fournit un meilleur gradient que dans le GAN traditionnel.

Considérons par exemple un jeu sur les réels où les deux et sont gaussiennes. Ensuite, le critique optimal de Wasserstein et le discriminateur GAN optimal sont représentés comme ci-dessous :

Le critique optimal du Wasserstein GAN et le discriminateur optimal du GAN pour une distribution de référence fixe et la distribution de générateur . Le critique de Wasserstein et le discriminateur du GAN sont réduits pour s'adapter à l'intrigue.

Pour un discriminateur fixé, le générateur doit minimiser les objectifs suivants :

  • Dans un GAN, .
  • Dans un GAN de Wasserstein, .

Soit paramétré par , nous pouvons alors effectuer une descente de gradient stochastique en utilisant deux estimateurs non biaisés du gradient : où nous avons utilisé l'astuce de reparamétrisation (en). Ce n'est pas ainsi que les choses se passent dans la pratique, puisque

est en général introuvable, mais c'est éclairant sur le plan théorique.

Le même scénario, mais avec le discriminateur GAN remplacé par (et réduit pour s'adapter à l'intrigue)

Comme indiqué, le générateur dans un GAN classique est motivé pour laisser son « glisser vers le bas du sommet » de . Il en va de même pour le générateur d'un GAN de Wasserstein.

Pour un GAN de Wasserstein, a un gradient de 1 presque partout, tandis que pour GAN, a un gradient nul au milieu et un gradient impotant ailleurs. Par conséquent, la variance de l’estimateur dans le GAN est généralement beaucoup plus grande que celle dans le GAN de Wasserstein[1].

Le problème avec est beaucoup plus grave dans les situations réelles d’apprentissage automatique. Envisagez de former un GAN pour générer ImageNet, une collection de photos de taille 256 x 256. L'espace de toutes ces photos est , et la distribution des images ImageNet, , se concentre sur une variété de dimension beaucoup plus faible en elle. Par conséquent, toute stratégie de générateur serait presque sûrement entièrement disjointe de , rendant . Ainsi, un bon discriminateur peut presque parfaitement distinguer de , ainsi que tout proche de . Ainsi, le gradient , ne créant aucun signal d'apprentissage pour le générateur.

Entraînement d'un GAN de Wasserstein

L'entraînement du générateur dans un GAN de Wasserstein est une descente de gradient, la même que dans un GAN (ou pour la plupart des méthodes d'apprentissage profond), mais l'entraînement du discriminateur est différent, car le discriminateur est désormais limité par une norme Lipschitz bornée. Il existe plusieurs méthodes pour imposer cette condition.

Limite supérieure de la norme Lipschitz

Laissez la fonction discriminatrice à mettre en œuvre par un perceptron multicouche : , et est une fonction d'activation fixe avec . Par exemple, la fonction tangente hyperbolique satisfait à l'exigence.

Ensuite, pour tout , posons , nous avons par la règle de la chaîne : Ainsi, la norme Lipschitz de est délimité par est la norme de l'opérateur de la matrice, c'est-à-dire la plus grande valeur singulière de la matrice, c'est-à-dire le rayon spectral de la matrice (ces concepts sont les mêmes pour les matrices, mais différents pour les opérateurs linéaires généraux).

Comme , nous avons que et par conséquent la borne supérieure est : Ainsi, si nous pouvons fixer une limite supérieure aux normes des opérateurs de chaque matrice, nous pouvons donc fixer la limite supérieure de la norme Lipschitz de .

Contrainte sur les poids

Puisque pour tout matrice , Posons , nous avons en coupant toutes les entrées de dans un intervalle , nous pouvons être borné .

Il s'agit de la méthode de contrainte des poids, proposée dans l'article original[1].

Normalisation spectrale

Le rayon spectral peut être calculé efficacement par l'algorithme suivant :

« Valeur initiale matrice et valeur initiale

Itérons jusqu'à la convergence vers . C'est un vecteur propre de avec comme valeur propre .

Réponse  »

En réaffectant après chaque mise à jour du discriminateur, nous pouvons fixer une limite supérieure , et donc limite supérieure .

L'algorithme peut être encore accéléré par mémoïsation : A l'étape , on garde . Puis à l'étape , utiliser comme valeur initiale de l'algorithme. Depuis est très proche de , c'est donc proche de , ce qui permet une convergence rapide.

Il s'agit de la méthode de normalisation spectrale[4].

Pénalité sur le gradient

Au lieu de délimiter strictement , nous pouvons simplement ajouter un terme de « pénalité sur le gradient » sur le discriminateur, de la forme est une distribution fixe utilisée pour estimer dans quelle mesure le discriminateur a violé l'exigence de la norme de Lipschitz. Le discriminateur, en essayant de minimiser la nouvelle fonction de perte, amènerait naturellement proche de partout, faisant ainsi .

Il s'agit de la méthode de pénalité sur le gradient[5].

Liens externes

Voir aussi

Références

  1. a b et c (en) Arjovsky, Chintala et Bottou, « Wasserstein Generative Adversarial Networks », International Conference on Machine Learning, PMLR,‎ , p. 214–223 (lire en ligne)
  2. (en) Weng, « From GAN to WGAN », arXiv,‎ (lire en ligne)
  3. Nowozin, Cseke et Tomioka, « f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization », Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 29,‎ (arXiv 1606.00709, lire en ligne)
  4. (en) Takeru Miyato, et Toshiki Kataoka, « Spectral Normalization for Generative Adversarial Networks », arXiv,‎ (lire en ligne)
  5. Gulrajani, Ahmed, Arjovsky et Dumoulin, « Improved Training of Wasserstein GANs », Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 30,‎ (lire en ligne)

Notes