Unité récurrente fermée

Les unités récurrentes fermées (GRU) sont un système de porte dans les réseaux de neurones récurrents, introduit en 2014 par Kyunghyun Cho et al^[1]. Le GRU est comme une longue mémoire à court terme (LSTM) avec une porte d'oubli^[2], mais a moins de paramètres que LSTM, car il n'a pas de porte de sortie^[3]. Les performances de GRU sur certaines tâches de modélisation de musique polyphonique, de modélisation de signaux vocaux et de traitement du langage naturel se sont avérées similaires à celles de LSTM^[4]Modèle:,^[5]. Les GRU ont montré que le déclenchement est en effet utile en général et l'équipe de Bengio a conclu qu'aucune conclusion concrète sur laquelle des deux unités de déclenchement était la meilleure.

Architecture

Il existe plusieurs variantes de l'unité récurrente fermée dans lesquels l'unité est activé en utilisant diverses combinaisons de l'état caché et du biais précédent, ainsi une forme simplifiée appelée unité fermée minimale.

Unité entièrement fermée

Au départ, pour $t = 0$ , le vecteur de sortie est $h_{0} = 0$ .

\begin{matrix} z_{t} & = σ_{g} (W_{z} x_{t} + U_{z} h_{t - 1} + b_{z}) \\ r_{t} & = σ_{g} (W_{r} x_{t} + U_{r} h_{t - 1} + b_{r}) \\ {\hat{h}}_{t} & = ϕ_{h} (W_{h} x_{t} + U_{h} (r_{t} ⊙ h_{t - 1}) + b_{h}) \\ h_{t} & = (1 - z_{t}) ⊙ h_{t - 1} + z_{t} ⊙ {\hat{h}}_{t} \end{matrix}

variables

$x_{t}$ : vecteur d'entrée
$h_{t}$ : vecteur de sortie
${\hat{h}}_{t}$ : vecteur d'activation candidat
$z_{t}$ : mise à jour du vecteur de porte
$r_{t}$ : réinitialiser le vecteur de porte
$W$ , $U$ et $b$ : matrices de paramètres et vecteur

Fonctions d'activation

$σ_{g}$ : L'original est une fonction sigmoïde.
$ϕ_{h}$ : L'original est une tangente hyperbolique.

Des fonctions d'activation alternatives sont possibles, à condition que $σ_{g} (x) \in [0, 1]$ .

Des formes alternatives peuvent être créés en modifiant $z_{t}$ et $r_{t}$

Type 1, chaque porte ne dépend que de l'état caché précédent et du biais.
$\begin{matrix} z_{t} & = σ_{g} (U_{z} h_{t - 1} + b_{z}) \\ r_{t} & = σ_{g} (U_{r} h_{t - 1} + b_{r}) \end{matrix}$
Type 2, chaque porte ne dépend que de l'état caché précédent.
$\begin{matrix} z_{t} & = σ_{g} (U_{z} h_{t - 1}) \\ r_{t} & = σ_{g} (U_{r} h_{t - 1}) \end{matrix}$
Type 3, chaque porte est calculée en utilisant uniquement le biais.
$\begin{matrix} z_{t} & = σ_{g} (b_{z}) \\ r_{t} & = σ_{g} (b_{r}) \end{matrix}$

Unité fermée minimale

L'unité fermée minimale est similaire à l'unité entièrement fermée, mais le vecteur d’activation de la porte de mise à jour et de la réinitialisation sont fusionné dans une porte d'oublie. Cela implique également que l'équation du vecteur de sortie doit être modifiée :

\begin{matrix} f_{t} & = σ_{g} (W_{f} x_{t} + U_{f} h_{t - 1} + b_{f}) \\ {\hat{h}}_{t} & = ϕ_{h} (W_{h} x_{t} + U_{h} (f_{t} ⊙ h_{t - 1}) + b_{h}) \\ h_{t} & = (1 - f_{t}) ⊙ h_{t - 1} + f_{t} ⊙ {\hat{h}}_{t} \end{matrix}

variables

$x_{t}$ : vecteur d'entrée
$h_{t}$ : vecteur de sortie
${\hat{h}}_{t}$ : vecteur d'activation candidat
$f_{t}$ : oublier le vecteur
$W$ , $U$ et $b$ : matrices de paramètres et vecteur

Cadre de recommandation d'algorithme d'apprentissage

Un cadre de recommandation d'algorithme d'apprentissage peut aider à guider la sélection de l'algorithme d'apprentissage et de la discipline scientifique (par exemple RNN, GAN, RL, CNN,. . . ). Le cadre a l'avantage d'avoir été généré à partir d'une analyse approfondie de la littérature et dédié aux réseaux de neurones récurrents et à leurs variations^[6].

Références

Modèle:Références Modèle:Palette Modèle:Portail

[1] Modèle:Chapitre.

[lstm1999-2] Modèle:Article

[MyUser_Wildml.com_May_18_2016c-3] Modèle:Lien web

[Ravalli2018-4] Modèle:Article

[Su2019-5] Modèle:Article

[6] Modèle:Article

[1]

[2]

[3]

[4]

[5]

[6]

Unité récurrente fermée

Sommaire

Architecture

Unité entièrement fermée

Unité fermée minimale

Cadre de recommandation d'algorithme d'apprentissage

Références

Menu de navigation

Unité récurrente fermée

Architecture

Unité entièrement fermée

Unité fermée minimale

Cadre de recommandation d'algorithme d'apprentissage

Références

Menu de navigation

Rechercher