Théorème d'approximation universelle

De testwiki
Version datée du 15 mai 2024 à 21:40 par imported>(:Julien:)
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

Modèle:Ébauche Dans la théorie mathématique des réseaux de neurones artificiels, le théorème d'approximation universelle indique qu'un réseau à propagation avant d'une seule couche cachée contenant un nombre fini de neurones (c'est-à-dire, un perceptron multicouche) peut approximer des fonctions continues sur des sous-ensembles compacts de Rn.

Histoire

Une des premières versions du cas avec largeur arbitraire a été prouvé par Modèle:Lien en 1989 pour des fonctions d'activation sigmoïdes[1]. Kurt Hornik a montré en 1991[2] que ce n'est pas le choix spécifique de la fonction d'activation, mais plutôt l'architecture multi-couches à propagation avant elle-même qui donne aux réseaux de neurones le potentiel d'être des approximateurs universels. Moshe Leshno et al en 1993[3] et plus tard Allan Pinkus en 1999[4] ont montré que la propriété d'approximation universelle est équivalente à l'utilisation d'une fonction d'activation non-polynomiale.

Le cas avec profondeur arbitraire a aussi été étudié par nombre d'auteurs, comme Zhou Lu et al en 2017[5], Boris Hanin et Mark Sellke en 2018[6], et Patrick Kidger et Terry Lyons en 2020[7]. Le résultat sur la largeur minimale par couche a été raffiné en 2020[8]Modèle:,[9] pour les réseaux résiduels.

Plusieurs extensions du théorème existent, comme celle à des fonctions d'activation discontinues[3], à des domaines non compacts[7], à des réseaux certifiables[10], et à des architectures de réseaux et des topologies alternatives[7]Modèle:,[11].

Cas avec largeur arbitraire

On note C(X,Y) l'ensemble des fonctions continues d'un ensemble X vers un ensemble Y. La forme classique du théorème d'approximation universelle pour une largeur arbitraire et une profondeur bornée est la suivante[1]Modèle:,[2]Modèle:,[12]Modèle:,[13]. Elle étend[4] les résultats classiques de Modèle:Lien and Modèle:Lien.

Théorème d'approximation universelle. Soit σC(,). Notons que (σx)i=σ(xi), c'est-à-dire que σx représente l'application de σ à chacune des composantes de xModèle:Pas clair.

Alors σ n'est pas polynomiale si et seulement si pour tout n, m, pour tout sous-espace compact Kn, pour tout fC(K,m) et pour tout ε>0, il existe k, Ak×n, bk et Cm×k, tels que :supxKf(x)g(x)<εg(x)=C(σ(Ax+b))

Une telle fonction f peut également être approximée par un réseau de plus grande profondeur en utilisant la même construction pour les deux premières couches A et C et en utilisant la fonction identité pour les couches ultérieures.

Cas avec profondeur arbitraire

Les versions 'duales' du théorème considèrent des réseaux de largeur bornée et de profondeur arbitraire. Une variante du théorème d'approximation universelle a été prouvée pour le cas de la profondeur arbitraire par Zhou Lu et al. en 2017[5]. Ils ont montré que les réseaux de largeur n+4 avec fonction d'activation ReLU peuvent approximer n'importe quelle fonction intégrable au sens de Lebesgue sur un espace d'entrée de dimension n muni de la distance L1 à condition d'autoriser la profondeur du réseau à croître. Il a aussi été montré que si la largeur était inférieure ou égal à n, cette possibilité générale d'approximer toute fonction intégrable au sens de Lebesgue était perdue. Dans le même article [5] il est montré que les réseaux ReLU de largeur n+1 sont suffisants pour approximer n'importe quelle fonction continue à variables d'entrée de dimension n[14]. Le raffinement suivant précise la largeur minimale optimale pour laquelle une telle approximation est possible et est dû à Sejun Park et al.[15]

Théorème d'approximation universelle (distance L1, activation ReLU, profondeur arbitraire, largeur minimale). Pour toute fonction Bochner–Lebesgue p-integrable f:nm et tout ϵ>0, il existe un réseau ReLU Modèle:Lien F de largeur exactement dm=max{n+1,m}, satisfaisant:

nf(x)F(x)pdx<ϵ.

En outre, il existe une fonction fLp(n,m) et un certain ϵ>0, pour lesquels il n'existe pas de réseau ReLU entièrement connecté de largeur inférieure à dm=max{n+1,m} satisfaisant la borne d'approximation ci-dessus.

Par ailleurs, le résultat central de [7] fournit le théorème d'approximation universelle suivant pour les réseaux à largeur bornée:

Théorème d'approximation universelle (activation non-affine, profondeur arbitraire, largeur constrainte). Soit 𝒳 un sous-ensemble compact de d. Soit σ: une transformation non-affine continue qui soit continûment différentiable en au moins un point, avec des dérivées non nulles en ce point. Soit 𝒩d,D:d+D+2σ l'espace des réseaux de neurones à propagation avant ayant d neurones d'entrée, D neurones de sortie, et un nombre arbitraire de couches cachées, chacune ayant d+D+2 neurones, et telles que tout neurone caché ait σ comme fonction d'activation et que tout neurone de sortie ait l'identité comme fonction d'activation.

Alors pour tout ε>0 et tout fC(𝒳,D), il existe f^𝒩d,D:d+D+2σ telle que:

supx𝒳f^(x)f(x)<ε.

En d'autres termes, 𝒩 est dense dans C(𝒳;D) muni de la topologie de la convergence uniforme.

Certaines conditions nécessaires pour le cas largeur bornée, profondeur arbitraire ont été établies, mais il y a encore un écart entre les conditions nécessaires et les conditions suffisantes connues[5]Modèle:,[6]Modèle:,[16].

Informatique quantique

Les réseaux de neurones quantiques peuvent être exprimés par différents outils mathématiques pour les circuits ordinateurs quantiques, allant du perceptron quantique aux circuits quantiques variationnels, tous deux basés sur des combinaisons de portes logiques quantiques. Les circuits quantiques variationnels sont basés sur un circuit paramétrique, n'impliquant pas de réseaux de neurones. Au lieu de cela, le perceptron quantique permet la conception d'un réseau de neurones quantiques avec la même structure que les réseaux de neurones à réaction, à condition que le comportement de seuil de chaque nœud n'implique pas l'effondrement de l'état quantique, c'est-à-dire aucun processus de mesure. En 2022, un tel bloc de construction sans mesure fournissant le comportement de la fonction d'activation pour les réseaux de neurones quantiques a été conçu [17]. Le circuit quantique renvoie une approximation arbitraire des fonctions d'écrasement dans l'intervalle de -1 à +1, ce qui est pertinent pour les qubits. Une telle méthode pour concevoir des fonctions d'activation quantiques arbitraires permet des multi-perceptrons quantiques et des réseaux de neurones à réaction quantique en général.

Notes et références

Modèle:Références

Modèle:Portail

  1. 1,0 et 1,1 Modèle:Article
  2. 2,0 et 2,1 Modèle:Article
  3. 3,0 et 3,1 Modèle:Article
  4. 4,0 et 4,1 Modèle:Article
  5. 5,0 5,1 5,2 et 5,3 Modèle:Article
  6. 6,0 et 6,1 Modèle:Article
  7. 7,0 7,1 7,2 et 7,3 Modèle:Lien conférence
  8. Modèle:Lien conférence
  9. Modèle:Lien conférence
  10. Modèle:Lien conférence
  11. Modèle:Lien conférence
  12. Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation, Volume 2, Prentice Hall. Modèle:Isbn.
  13. Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48
  14. Hanin, B. (2018). Approximating Continuous Functions by ReLU Nets of Minimal Width. arXiv preprint arXiv:1710.11278.
  15. Modèle:Article
  16. Modèle:Lien conférence
  17. Modèle:Article