Unité récurrente fermée

De testwiki
Version datée du 20 avril 2024 à 22:20 par imported>WikiCleanerBot (v2.05b - Bot T3 PCS#564 - Correction syntaxique (Paramètre inconnu))
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

Les unités récurrentes fermées (GRU) sont un système de porte dans les réseaux de neurones récurrents, introduit en 2014 par Kyunghyun Cho et al[1]. Le GRU est comme une longue mémoire à court terme (LSTM) avec une porte d'oubli[2], mais a moins de paramètres que LSTM, car il n'a pas de porte de sortie[3]. Les performances de GRU sur certaines tâches de modélisation de musique polyphonique, de modélisation de signaux vocaux et de traitement du langage naturel se sont avérées similaires à celles de LSTM[4]Modèle:,[5]. Les GRU ont montré que le déclenchement est en effet utile en général et l'équipe de Bengio a conclu qu'aucune conclusion concrète sur laquelle des deux unités de déclenchement était la meilleure.

Architecture

Il existe plusieurs variantes de l'unité récurrente fermée dans lesquels l'unité est activé en utilisant diverses combinaisons de l'état caché et du biais précédent, ainsi une forme simplifiée appelée unité fermée minimale.

Unité entièrement fermée

Unité récurrente fermée, version entièrement fermée

Au départ, pour t=0, le vecteur de sortie est h0=0 .

zt=σg(Wzxt+Uzht1+bz)rt=σg(Wrxt+Urht1+br)h^t=ϕh(Whxt+Uh(rtht1)+bh)ht=(1zt)ht1+zth^t

variables

  • xt : vecteur d'entrée
  • ht : vecteur de sortie
  • h^t : vecteur d'activation candidat
  • zt : mise à jour du vecteur de porte
  • rt : réinitialiser le vecteur de porte
  • W, U et b : matrices de paramètres et vecteur

Fonctions d'activation

Des fonctions d'activation alternatives sont possibles, à condition que σg(x)[0,1] .

Type 1
Type 2
Type 3

Des formes alternatives peuvent être créés en modifiant zt et rt

  • Type 1, chaque porte ne dépend que de l'état caché précédent et du biais.
    zt=σg(Uzht1+bz)rt=σg(Urht1+br)
  • Type 2, chaque porte ne dépend que de l'état caché précédent.
    zt=σg(Uzht1)rt=σg(Urht1)
  • Type 3, chaque porte est calculée en utilisant uniquement le biais.
    zt=σg(bz)rt=σg(br)

Unité fermée minimale

L'unité fermée minimale est similaire à l'unité entièrement fermée, mais le vecteur d’activation de la porte de mise à jour et de la réinitialisation sont fusionné dans une porte d'oublie. Cela implique également que l'équation du vecteur de sortie doit être modifiée :

ft=σg(Wfxt+Ufht1+bf)h^t=ϕh(Whxt+Uh(ftht1)+bh)ht=(1ft)ht1+fth^t

variables

  • xt : vecteur d'entrée
  • ht : vecteur de sortie
  • h^t : vecteur d'activation candidat
  • ft : oublier le vecteur
  • W, U et b : matrices de paramètres et vecteur

Cadre de recommandation d'algorithme d'apprentissage

Un cadre de recommandation d'algorithme d'apprentissage peut aider à guider la sélection de l'algorithme d'apprentissage et de la discipline scientifique (par exemple RNN, GAN, RL, CNN,. . . ). Le cadre a l'avantage d'avoir été généré à partir d'une analyse approfondie de la littérature et dédié aux réseaux de neurones récurrents et à leurs variations[6].

Références

Modèle:Références Modèle:Palette Modèle:Portail