Effondrement de modèles d'intelligence artificielle

De testwiki
Aller à la navigation Aller à la recherche

Dans le domaine de l'intelligence artificielle, l'effondrement de modèle (ou model collapse en anglais) est la perte d'efficience que peuvent subir des modèles d'apprentissage automatique, par accumulation d'erreurs, après des entraînements sur des données récursivement générées par un autre modèle d'intelligence artificielle (ou par des versions antérieures de cette même intelligence artificielle).

Certains chercheurs et analystes estiment que c'est un problème d'apprentissage automatique dont l'occurrence pourrait augmenter[1]Modèle:,[2]Modèle:,[3], et qui peut aussi concerner l'apprentissage sur certaines données synthétiques, mais d'autres chercheurs pensent que ce risque est limité ou nul car l'apprentissage des modèles d'intelligence artificielle se fait toujours aussi avec des donnés neuves (ou anciennes) provenant de l'environnement réel.

Shumailov Modèle:Et al. (2024)[1], qui ont inventé le terme de Model collapse, distinguent deux étapes spécifiques dans cette dégradation :
1) une phase précoce, parfois discrète ; et
2), un effondrement du modèle.
Lors de la phase précoce, le modèle commence à perdre des informations sur les queues de la distribution – affectant principalement les données mineures. L'effondrement précoce du modèle est difficile à remarquer car, paradoxalement, les performances globales du modèle peuvent sembler s'améliorer, même s'il perd en performances sur les données mineures[4]. Lors de la phase d'effondrement tardif du modèle, celui-ci perd une part importante de ses performances, il perd la majeure partie de sa variance.

Pour limiter le risque d'effondrement des modèles d'intelligence artificielle, il faut adéquatement concevoir le modèle, sélectionner des données représentatives pour son apprentissage, et surveiller le processus d'apprentissage, afin de minimiser ou compenser ces erreurs.

Mécanisme

Beaucoup de données créées par des intelligences artificielles génératives sont théoriquement impossibles à distinguer des données réelles, sont presque toujours biaisées, inexactes, peu représentatives des données réelles, nuisibles ou présentées hors contexte[5]Modèle:,[6]. L’utilisation de telles données comme données de formation entraîne des problèmes de qualité et de fiabilité du modèle formé [7].

L'effondrement d'un modèle peut se produire pour trois raisons principales qui sont des erreurs d’approximation fonctionnelle, des erreurs d’échantillonnage et des erreurs d’apprentissage[1] :

  1. erreurs d'approximation fonctionnelle : elles surviennent quand le modèle d'intelligence artificielle ne parvient pas à capturer correctement la relation entre les variables d'entrée et de sortie. Cela peut être dû à une complexité insuffisante du modèle ou à une mauvaise sélection des fonctions d’approximation. Par exemple, un modèle linéaire ne pourra pas capturer des relations non linéaires complexes ;
  2. erreurs d'échantillonnage : elles se produisent quand les données utilisées pour entraîner le modèle ne sont pas représentatives de la population réelle. Cela peut résulter d’un biais dans la sélection des données et/ou d’une taille d'échantillon insuffisante. Ces erreurs peuvent entraîner des modèles qui fonctionnent bien sur les données d'entraînement mais échouent sur de nouvelles données. Remarque : ci-dessus, le mot population fait référence à une population statistique de données (l'ensemble complet des données ou des cas possibles que le modèle d'intelligence artificielle est censé représenter ou prédire). Par exemple, si un modèle doit prédire les préférences musicales d'utilisateurs, la population inclurait tous les utilisateurs potentiels et leurs préférences musicales ;
  3. erreurs d'apprentissage : les erreurs d'apprentissage sont liées aux processus d’optimisation et de généralisation du modèle. Elles peuvent survenir en raison d’un surapprentissage (overfitting), quand le modèle s’adapte trop étroitement aux données d’entraînement, ou d’un sous-apprentissage (underfitting), quand le modèle est trop simple pour capturer les tendances des données.

Même dans les modèles les plus simples, ces erreurs peuvent se manifester, bien que toutes les sources d'erreurs ne soient pas toujours présentes simultanément.

Dans les modèles complexes, le cumul de ces erreurs peut conduire à un effondrement plus rapide du modèle, car chaque type d’erreur peut exacerber les effets des autres.

Désaccords sur l'impact de ce biais dans le monde réel

L'effondrement du modèle dans les modèles génératifs est réduit quand les données s'accumulent.

Certains chercheurs et commentateurs alertent sur le fait que l’effondrement des modèles pourrait selon eux fondamentalement menacer le développement futur de l'intelligence artificielle générative. Leur hypothèse est qu'à mesure que les données générées par l'intelligence artificielle sont diffusées et partagées sur Internet, elles finissent inévitablement par se retrouver dans de futurs corpus de données de formation (classiquement, les données de formation sont en grande partie extraits de l'Internet). Si l’entraînement sur des données synthétiques ne fait pas l'objet de corrections, il peut conduire à l'effondrement du modèle[8].

D'autres chercheurs estiment que ce risque est en réalité limité, car les modèles n'apprennent pas que de modèles : tant que les données synthétiques s’accumulent aux côtés de données générées par l'homme ou issues du monde réel, l'effondrement du modèle sera évité. Ces chercheurs soutiennent que l'accumulation de données au fil du temps est une description plus réaliste de la réalité à venir que le scénario catastrophe d'un effondrement des modèles[9]. Il existe des cas particuliers où des modèles d'intelligence artificielle sont volontairement nourris avec des données synthétiques (par exemple afin de respecter l'anonymat dans le domaine des données de santé ou d'autres types de données personnelles), mais ces données sont alors générées de manières à fortement imiter les données réelles.

Des chercheurs progressent aussi rapidement sur l'utilisation de systèmes de détection (eux-mêmes basés sur l'apprentissage automatique) de données générées par des intelligences artificielles[10], ou sur l'utilisation de tags permettant d'identifier les données générées par des modèles, pour pouvoir les extraire des corpus de données utilisés pour l'apprentissage automatique[11]Modèle:,[12].

Modélisations mathématiques du phénomène

Modèle gaussien 1D

Une première tentative[1] d'illustrer l'effondrement du modèle le plus simple possible a été faite, via un ajustement de distribution normale unidimensionnelle utilisant des estimateurs non biaisés de moyenne et de variance, calculés sur des échantillons de la génération précédente.

Pour rendre cela plus précis, les données originales suivent une distribution normale X0𝒩(μ,σ2), pour M0 échantillons Xj0 pour j=1,,M0 . Désignant un échantillon général Xji comme échantillon j=1,,Mi à la génération i, puis le modèle de génération suivante est estimé à l'aide de la moyenne et de la variance de l'échantillon :

μi+1=1MijXji;σi+12=1Mi1j(Xjiμi+1)2.

.. conduisant à un modèle de nouvelle génération conditionnellement normal Xji+1|μi+1,σi+1𝒩(μi+1,σi+12) . En théorie, cela suffit pour calculer la distribution complète de Xji . Mais même après la première génération, la distribution complète n'est plus normale, elle suit une distribution variance-gamma.

Pour poursuivre l'analyse, au lieu d'écrire la fonction de densité de probabilité à chaque génération, il est possible de les construire explicitement en termes de variables aléatoires indépendantes en utilisant le le théorème de Cochran. Pour être précis, μ1 et σ1 sont indépendants, avec μ1𝒩(μ,σ2M0) et (M01)σ12σ2Γ(M012,12), suivant une distribution Gamma. Désignant avec Z variables aléatoires gaussiennes distribuées avec 𝒩(0,1) et avec Si variables aléatoires distribuées avec 1Mi11Γ(Mi112,12), il s'avère possible d'écrire des échantillons à chaque génération comme

Xj0=μ+σZj0,

Xj1=μ+σM0Z1+σS1Zj1,

et plus généralement

Xjn=μ+σM0Z1+σM1S1Z2++σMn1S1××Sn1Zn+σS1××SnZjn.

Remarque : il ne s'agit pas de distributions conjointes, car Zn et Sn dépendent directement de Zjn1, mais en considérant Xjn à elle seule, la formule ci-dessus fournit toutes les informations sur la distribution complète.

Pour analyser l'effondrement du modèle, nous pouvons d'abord calculer la variance et la moyenne des échantillons à la génération n. Cela nous indiquerait à quel type de distributions nous nous attendons à arriver après n générations. Il est possible de trouver sa valeur exacte sous forme fermée, mais la moyenne et la variance de la racine carrée de la distribution gamma sont exprimées en termes de fonctions gamma, ce qui rend le résultat assez maladroit. Ensuite[1], il est possible d'étendre tous les résultats au deuxième ordre dans chacun des 1/Mi, en supposant que chaque taille d’échantillon soit grande. Il est alors possible de montrer que

1σ2Var(Xjn)=1M0+1M1++1Mn1+1+𝒪(Mi2).

Et si toutes les tailles d'échantillon Mi=M sont constantes, cela diverge linéairement comme n :

Var(Xjn)=σ2(1+nM);𝔼(Xjn)=μ.

Il s'agit de la même échelle que pour une marche aléatoire gaussienne unidimensionnelle. Cependant, la divergence de la variance de Xjn ne fournit pas directement d'informations sur les estimations correspondantes de μn+1 et σn+1, en particulier à quel point ils sont différents de l'original μ et σ . Il s'avère possible de calculer la distance entre la distribution réelle et la distribution approximative à l'étape n+1, en utilisant la distance de Wasserstein-2 (qui est également parfois appelée risque ) :

𝔼[𝕎22(𝒩(μ,σ2),𝒩(μn+1,σn+12))]=32σ2(1M0+1M1++1Mn)+𝒪(Mi2),

Var[𝕎22(𝒩(μ,σ2),𝒩(μn+1,σn+12))]=12σ4(3M02+3M12++3Mn2+ij4MiMj)+𝒪(Mi3).

Cela montre directement pourquoi l'effondrement du modèle se produit dans ce modèle simple. En raison d'erreurs dues au rééchantillonnage de la distribution approximative, chaque génération finit par correspondre à une nouvelle étape dans une marche aléatoire des paramètres du modèle. Pour une taille d'échantillon constante à chaque génération, la distance moyenne par rapport au point de départ diverge, et pour que l'approximation de la distribution finale soit précise, ou pour que la distance soit finie, le taux d'échantillonnage Mi doit augmenter de manière superlinéaire, c'est-à-dire qu'il faut collecter de plus en plus d'échantillons au fil du temps, peut-être de manière quadratique. Cependant, même dans ce cas, la distance attendue après n les étapes restent différentes de zéro et le seul cas où elles finissent par être nulles est lorsque l'échantillonnage est infini à chaque étape. Dans l'ensemble, cela nous montre seulement à quelle distance en moyenne on se trouve de la distribution d'origine, mais le processus ne peut « se terminer » que si la variance estimée à une certaine génération devient suffisamment petite, transformant ainsi efficacement la distribution en une fonction delta. Ceci est démontré pour un modèle gaussien général[13] dans la sous-section ci-dessous.

Modèle ND gaussien

De plus, dans le cas d'un modèle multidimensionnel avec des données entièrement synthétiques, un effondrement exact peut être démontré[13]Modèle:,[1].

Régression linéaire

Dans le cas d'un modèle de régression linéaire[14]Modèle:,[15], des lois d'échelle et des limites sur l'apprentissage peuvent être trouvées.

Modèle de langage statistique

Dans le cas d'un classificateur softmax linéaire pour la prédiction du prochain jeton[16], des limites exactes sur l'apprentissage avec même un ensemble de données partiellement synthétique peuvent être trouvées.

Impact sur les grands modèles de langage

Dans le contexte des grands modèles linguistiques, les recherches ont montré que la formation des LLM sur du texte généré par un prédécesseur (les modèles linguistiques sont formés sur les données synthétiques produites par les modèles précédents) entraîne une diminution constante de la diversité lexicale, syntaxique et sémantique des résultats du modèle au fil des itérations successives, d'une manière particulièrement notable pour les tâches exigeant des niveaux élevés de créativité[17].

Références

Modèle:Références

Voir aussi

Bibliographie

Modèle:Portail

  1. 1,0 1,1 1,2 1,3 1,4 et 1,5 Modèle:Article.
  2. Modèle:Lien web.
  3. Modèle:Lien web.
  4. Modèle:Ouvrage.
  5. Modèle:Lien web.
  6. Modèle:Lien web.
  7. Modèle:Lien conférence.
  8. Modèle:Lien web.
  9. Modèle:Lien web.
  10. Modèle:Article.
  11. Modèle:Article.
  12. Modèle:Lien web.
  13. 13,0 et 13,1 Alemohammad, S., Casco-Rodriguez, J., Luzi, L., Humayun, A. I., Babaei, H., LeJeune, D., ... & Baraniuk, R. G. (2023). Self-consuming generative models go mad. arXiv preprint arXiv:2307.01850. | url=https://arxiv.org/abs/2307.01850
  14. Modèle:Lien arXiv
  15. Modèle:Lien arXiv
  16. Modèle:Lien arXiv
  17. Modèle:Lien arXiv