Fonction d'activation

Dans le domaine des réseaux de neurones artificiels, la fonction d'activation est une fonction mathématique appliquée à un signal en sortie d'un neurone artificiel. Le terme de "fonction d'activation" vient de l'équivalent biologique "potentiel d'activation", seuil de stimulation qui, une fois atteint entraîne une réponse du neurone. La fonction d'activation est souvent une fonction non linéaire. Un exemple de fonction d'activation est la fonction de Heaviside, qui renvoie tout le temps 1 si le signal en entrée est positif, ou 0 s'il est négatif.

Caractéristiques des fonctions d'activation

Les fonctions d'activation sont utilisées selon leurs caractéristiques :

Non-linéarité : Quand une fonction est non linéaire, un réseau neuronal à 2 couches peut être considéré comme un approximateur de fonction universel^[1]. Note: La fonction identité a l'effet inverse, rendant un réseau neuronal multicouches équivalent à un réseau neuronal à une mono-couche.
Différentiable partout : Cette propriété permet de créer des optimisations basées sur les gradients^[2].
Étendue : Quand la plage d'activation est finie, les méthodes d'apprentissage basées sur les gradients sont plus stables (impact sur un nombre de poids limités). Quand la plage est infinie, l'apprentissage est généralement plus efficace (impact sur davantage de poids).
Monotone: Lorsque la fonction est monotone, la surface d'erreur associée avec un modèle monocouche est certifié convexe^[3].
Douce (dérivée monotone) : Les fonctions à dérivée monotone ont été montrées comme ayant une meilleure capacité à généraliser dans certains cas. Ces fonctions permettent d'appliquer des principes comme le rasoir d'Ockham^[4].
Identité en 0 ( $f (x) \approx x$ quand $x \approx 0$ ) : Ces fonctions permettent de faire un apprentissage rapide en initialisant les poids de manière aléatoire. Si la fonction ne converge pas vers l'identité en 0, alors un soin spécial doit être apporté lors de l'initialisation des poids^[5].

Liste de fonctions d'activation usuelles

Comparatif des principales fonctions, avec leur étendue, leur continuité, si elles sont monotones, douces et si elles convergent vers l'identité en 0.

Nom	Équation	Dérivée	Étendue	Ordre de continuité	Monotone	Lisse (dérivée monotone)	Identité en 0
Identité/Rampe	$f (x) = x$	$f^{'} (x) = 1$	$ℝ$	$C^{\infty}$	Modèle:Yes	Modèle:Yes	Modèle:Yes
Marche/Heaviside	$f (x) = {\begin{matrix} 0 & si & x < 0 \\ 1 & si & x \geq 0 \end{matrix}$	$f^{'} (x) = {\begin{matrix} 0 & si & x \neq 0 \\ ? & si & x = 0 \end{matrix}$	${0, 1}$	$C^{- 1}$	Modèle:Yes	Modèle:Non1	Modèle:Non1
Logistique (ou marche douce, ou sigmoïde)	$f (x) = \frac{1}{1 + e^{- x}}$	$f^{'} (x) = f (x) (1 - f (x))$	$[0; 1]$	$C^{\infty}$	Modèle:Yes	Modèle:Non1	Modèle:Non1
Tangente hyperbolique	$f (x) = \tanh (x) = \frac{2}{1 + e^{- 2 x}} - 1$	$f^{'} (x) = 1 - f (x)^{2}$	$[- 1; 1]$	$C^{\infty}$	Modèle:Yes	Modèle:Non1	Modèle:Yes
Arc tangente	$f (x) = \tan^{- 1} (x)$	$f^{'} (x) = \frac{1}{x^{2} + 1}$	$[- \frac{π}{2}, \frac{π}{2}]$	$C^{\infty}$	Modèle:Yes	Modèle:Non1	Modèle:Yes
Signe doux^[6]	$f (x) = \frac{x}{1 + \| x \|}$	$f^{'} (x) = \frac{1}{(1 + \| x \|)^{2}}$	$[- 1; 1]$	$C^{1}$	Modèle:Yes	Modèle:Non1	Modèle:Yes
Unité de rectification linéaire (ReLU)^[7]	$f (x) = {\begin{matrix} 0 & si & x < 0 \\ x & si & x \geq 0 \end{matrix}$	$f^{'} (x) = {\begin{matrix} 0 & si & x < 0 \\ 1 & si & x \geq 0 \end{matrix}$	$ℝ_{+}$	$C^{0}$	Modèle:Yes	Modèle:Yes	Modèle:Yes
Unité de rectification linéaire paramétrique (PReLU)^[8]	$f (x) = {\begin{matrix} α x & si & x < 0 \\ x & si & x \geq 0 \end{matrix}$	$f^{'} (x) = {\begin{matrix} α & si & x < 0 \\ 1 & si & x \geq 0 \end{matrix}$	$ℝ$	$C^{0}$	Modèle:Yes	Modèle:Yes	Modèle:Yes
Unité exponentielle linéaire (ELU)^[9]	$f (x) = {\begin{matrix} α (e^{x} - 1) & si & x < 0 \\ x & si & x \geq 0 \end{matrix}$	$f^{'} (x) = {\begin{matrix} f (x) + α & si & x < 0 \\ 1 & si & x \geq 0 \end{matrix}$	$[- α, + \infty [$	$C^{1}$ si $α = 1$	Modèle:Yes	Modèle:Yes	Oui, ssi $α \approx 1$
Unité de rectification linéaire douce (SoftPlus)^[10]	$f (x) = \ln (1 + e^{x})$	$f^{'} (x) = \frac{1}{1 + e^{- x}}$	$ℝ_{+}$	$C^{\infty}$	Modèle:Yes	Modèle:Yes	Modèle:Non1
Identité courbée	$f (x) = \frac{\sqrt{x^{2} + 1} - 1}{2} + x$	$f^{'} (x) = \frac{x}{2 \sqrt{x^{2} + 1}} + 1$	$ℝ$	$C^{\infty}$	Modèle:Yes	Modèle:Yes	Modèle:Yes
Exponentielle douce paramétrique (Modèle:Lang)^[11]	$f (α, x) = {\begin{matrix} - \frac{\ln (1 - α (x + α))}{α} & si & α < 0 \\ x & si & α = 0 \\ \frac{e^{α x} - 1}{α} + α & si & α > 0 \end{matrix}$	$f^{'} (α, x) = {\begin{matrix} \frac{1}{1 - α (α + x)} & si & α < 0 \\ e^{α x} & si & α \geq 0 \end{matrix}$	$ℝ$	$C^{\infty}$	Modèle:Yes	Modèle:Yes	Oui, ssi $α \approx 0$
Sinusoïde	$f (x) = \sin (x)$	$f^{'} (x) = \cos (x)$	$[- 1; 1]$	$C^{\infty}$	Modèle:Non1	Modèle:Non1	Modèle:Yes
Sinus cardinal	$f (x) = {\begin{matrix} \frac{\sin (x)}{x} & si & x \neq 0 \\ 1 & si & x = 0 \end{matrix}$	$f^{'} (x) = {\begin{matrix} 0 & si & x = 0 \\ \frac{\cos (x)}{x} - \frac{\sin (x)}{x^{2}} & si & x \neq 0 \end{matrix}$	$[\sim - 0, 217234 . . .; 1]$	$C^{\infty}$	Modèle:Non1	Modèle:Non1	Modèle:Non1
Fonction gaussienne	$f (x) = e^{- x^{2}}$	$f^{'} (x) = - 2 x e^{- x^{2}}$	$] 0; 1]$	$C^{\infty}$	Modèle:Non1	Modèle:Non1	Modèle:Non1
Swish ou SiLU (Sigmoid Linear Unit)^[12]	$f (x) = x s i g m o i d (β x)$ = $\frac{x}{1 + e^{- β x}}$	$f^{'} (x) = \frac{1 + e^{- β x} + β x e^{- β x}}{{(1 + e^{- β x})}^{2}}$	$] - e; \infty]$ (si $β = 1$ )	$C^{\infty}$	Modèle:Non1	Modèle:Non1	Modèle:Oui1

Structures alternatives

Une classe spéciale de fonction d'activation est regroupée dans les fonctions à base radiale (RBFs). Elles sont souvent utilisées dans les réseaux neuronaux RBF, très efficaces en tant qu'approximations de fonctions universelles. Si ces fonctions peuvent être très variées, on retrouve généralement une des trois formes suivantes (en fonction d'un vecteur Modèle:Mvar :

Fonction gaussienne : $ϕ (v_{i}) = \exp (- \frac{‖ v_{i} - c_{i} ‖^{2}}{2 a^{2}})$
Fonction multiquadratique : $ϕ (v_{i}) = \sqrt{‖ v_{i} - c_{i} ‖^{2} + a^{2}}$
Fonction multiquadratique inverse: $ϕ (v_{i}) = \frac{1}{\sqrt{‖ v_{i} - c_{i} ‖^{2} + a^{2}}}$

où Modèle:Mvar est le vecteur représentant le centre de la fonction, Modèle:Mvar est un paramètre permettant de régler l'étalement de la fonction.

Les machines à support vectoriel (SVMs) peuvent utiliser une classe de fonctions d'activation qui inclut à la fois les sigmoïdes et les RBF. Dans ce cas, l'entrée est transformée pour refléter un Modèle:Lang, basé sur peu d'entrées (appelées vecteurs support Modèle:Mvar. La fonction d'activation pour les couches cachées de ces machines est souvent appelée "noyau du produit intérieur" : $K (v_{i}, x) = ϕ (v_{i})$ . Les vecteurs supports sont représentés comme les centres de RBF dont le noyau serait égal aux fonctions d'activation, mais ils prennent une unique forme de perceptron :

ϕ (v_{i}) = \tanh (β_{1} + β_{0} \sum_{j} v_{i, j} x_{j})

,

Où $β_{0}$ et $β_{1}$ doivent satisfaire certains critères de convergence. Ces machines peuvent aussi accepter des fonctions d'activation polynomiale d'un ordre arbitraire^[13]:

ϕ (v_{i}) = {(1 + \sum_{j} v_{i, j} x_{j})}^{p}

.

Voir aussi

Références

Modèle:Reflist

Modèle:Portail

[1] Modèle:Article.

[2] Modèle:Ouvrage.

[3] Modèle:Article.

[4] Modèle:Article

[5] Modèle:Article.

[6] Modèle:Article

[7] Modèle:Article

[8] Modèle:Article Modèle:Arxiv

[9] Modèle:Article Modèle:Arxiv

[10] Modèle:Article

[11] Modèle:Article, Modèle:Arxiv

[12] Modèle:Article, Modèle:Arxiv

[13] Modèle:Ouvrage

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

Fonction d'activation

Sommaire

Caractéristiques des fonctions d'activation

Liste de fonctions d'activation usuelles

Structures alternatives

Voir aussi

Références

Menu de navigation

Fonction d'activation

Caractéristiques des fonctions d'activation

Liste de fonctions d'activation usuelles

Structures alternatives

Voir aussi

Références

Menu de navigation

Rechercher