Loi de probabilité d'entropie maximale

De testwiki
Aller à la navigation Aller à la recherche

En statistique et en théorie de l'information, une loi de probabilité d'entropie maximale a une entropie qui est au moins aussi grande que celle de tous les autres membres d'une classe spécifiée de lois de probabilité. Selon le principe d'entropie maximale, si rien n'est connu sur une loi , sauf qu'elle appartient à une certaine classe (généralement définie en termes de propriétés ou de mesures spécifiées), alors la loi avec la plus grande entropie doit être choisie comme la moins informative par défaut. La motivation est double : premièrement, maximiser l'entropie minimise la quantité d'informations a priori intégrées à la loi ; deuxièmement, de nombreux systèmes physiques ont tendance à évoluer vers des configurations d'entropie maximale au fil du temps.

Définition de l'entropie et de l'entropie différentielle

Si Modèle:Mvar est une variable aléatoire discrète de loi donnée par

(X=xk)=pk pour k=1,2,

alors l'entropie de X est définie comme

(X)=k1pklogpk.

Si X est une variable aléatoire continue de loi de probabilité Modèle:Math, alors l'entropie différentielle de Modèle:Mvar est définie par[1]Modèle:,[2]

(X)=p(x)logp(x)dx.

La quantité Modèle:Math est considérée comme nulle chaque fois que Modèle:Math.

Il s'agit d'un cas particulier des formes plus générales décrites dans les articles Entropie (théorie de l'information), Principe d'entropie maximale et Entropie différentielle. Dans le cadre des lois d'entropie maximale, c'est la seule nécessaire, car la maximisation de (X) maximisera également les formes plus générales.

La base du logarithme n'est pas importante tant que la même est utilisée de manière cohérente : le changement de base entraîne simplement une remise à l'échelle de l'entropie. Les théoriciens de l'information peuvent préférer utiliser la base 2 pour exprimer l'entropie en bits ; les mathématiciens et les physiciens préféreront souvent le logarithme naturel, résultant en une unité de nats pour l'entropie.

Le choix de la mesure Modèle:Math est cependant cruciale pour déterminer l'entropie et la loi d'entropie maximale qui en résulte, même si l'utilisation habituelle à la mesure de Lebesgue est souvent défendue comme "naturel".

Bornes de l'entropie

Selon la nature de la loi de probabilité, on peut borner l'entropie[3]:

(X)log(n)

avec égalité si et seulement si X suit une loi uniforme

  • si X est une loi continue de variance Modèle:Math connue, alors
(X)log(σ2πe)

avec égalité si et seulement si X suit une loi normale centrée réduite

  • si X est une loi continue sur + de moyenne Modèle:Mvar connue, alors
(X)1+log(m)

avec égalité si et seulement si X suit une loi exponentielle de paramètre Modèle:Math

Lois avec constantes mesurées

De nombreuses distributions statistiques d'intérêt applicable sont celles pour lesquelles les moments ou d'autres quantités mesurables sont contraints d'être des constantes. Le théorème suivant de Ludwig Boltzmann donne la forme de la densité de probabilité sous ces contraintes.

Cas continu

On suppose que Modèle:Mvar est un sous-ensemble fermé de nombres réels et on choisit de spécifier Modèle:Mvar fonctions mesurables Modèle:Math et Modèle:Mvar nombres Modèle:Math. On considère la classe Modèle:Mvar de toutes les variables aléatoires à valeur réelle prises en charge sur Modèle:Mvar (c'est-à-dire dont la fonction de densité est nulle en dehors de Modèle:Mvar) et qui satisfont aux Modèle:Mvar conditions instantanées :

𝔼[fj(X)]aj pour j=1,,n

S'il y a un membre dans Modèle:Mvar dont la fonction de densité est positive partout dans Modèle:Mvar, et s'il existe une distribution d'entropie maximale pour Modèle:Mvar, alors sa densité de probabilité Modèle:Math a la forme suivante :

p(x)=exp(j=0nλjfj(x)) pour tout xS

où l'on suppose que Modèle:Math. La constante Modèle:Math et les Modèle:Mvar multiplicateurs de Lagrange λ=(λ1,,λn) résolvent le problème d'optimisation contrainte avec a0=1 (cette condition assure que Modèle:Mvar soit d'intégrale égale à 1)[4]:

maxλ0;λ{j=0nλjajexp(j=0nλjfj(x))dx}avec:λ𝟎

En utilisant les conditions de Karush-Kuhn-Tucker, on peut montrer que le problème d'optimisation a une solution unique car la fonction objectif de l'optimisation est concave en Modèle:Math.

On note que si les conditions de moment sont des égalités (au lieu d'inégalités), c'est-à-dire

𝔼[fj(X)]=aj pour j=1,,n,

alors la condition de contrainte Modèle:Math est supprimée, ce qui rend l'optimisation sur les multiplicateurs de Lagrange sans contrainte.

Cas discret

On considère S={x1,x2,...} un sous-ensemble discret (fini ou infini) des réels et on choisit de spécifier Modèle:Mvar fonctions Modèle:Math et Modèle:Mvar nombres Modèle:Math. On considère la classe Modèle:Mvar de toutes les variables aléatoires discrètes Modèle:Mvar qui s'appuient sur Modèle:Mvar et qui satisfont les Modèle:Mvar conditions de moment

𝔼(fj(X))aj pour j=1,,n

S'il existe un membre de Modèle:Mvar qui attribue une probabilité positive à tous les membres de Modèle:Mvar et s'il existe une distribution d'entropie maximale pour Modèle:Mvar, alors cette distribution a la forme suivante :

(X=xk)=exp(j=0nλjfj(xk)) pour k=1,2,

où l'on suppose que f0=1 et les constantes λ0,λ=(λ1,,λn) sont solutions du problème d'optimisation contrainte avec a0=1[5] :

maxλ0;λ{j=0nλjajk1exp(j=0nλjfj(xk))}avec:λ𝟎

Encore une fois, si les conditions de moment sont des égalités (au lieu d'inégalités), alors la condition de contrainte Modèle:Math n'est pas présent dans l'optimisation.

Preuve dans le cas des contraintes d'égalité

Dans le cas des contraintes d'égalité, ce théorème est démontré avec le calcul des variations et des multiplicateurs de Lagrange. Les contraintes peuvent s'écrire sous la forme

fj(x)p(x)dx=aj

On considère la fonctionnelle

J(p)=p(x)lnp(x)dxη0(p(x)dx1)j=1nλj(fj(x)p(x)dxaj)

η0 et λj,j1 sont les multiplicateurs de Lagrange. La contrainte zéro garantit le deuxième axiome de probabilité. Les autres contraintes sont que les mesures de la fonction soient des constantes données jusqu'à l'ordre n. L'entropie atteint un extremum lorsque la dérivée fonctionnelle s'annule[6]:

δJδp(p)=lnp(x)+1η0j=1nλjfj(x)=0

On peut vérifier que cet extremum est bien un maximum. Par conséquent, la distribution de probabilité d'entropie maximale dans ce cas doit être de la forme ( λ0:=η01 )

p(x)=e1+η0ej=1nλjfj(x)=exp(j=0nλjfj(x)).

La preuve de la version discrète est essentiellement la même.

Unicité du maximum

On suppose p, p sont des lois satisfaisant les contraintes attendues. Soit α(0,1) et compte tenu de la distribution q=αp+(1α)p il est clair que cette distribution satisfait les mêmes contraintes et a de plus pour support supp(q)=supp(p)supp(p) . Par les propriétés basiques de l'entropie, il vient que (q)α(p)+(1α)(p) . COnsidérer les valeurs limites pour α1 et α0 donne respectivement (q)(p),(p) .

Il s'ensuit qu'une distribution satisfaisant les contraintes d'attente et maximisant l'entropie doit nécessairement avoir un support complet — c'est-à-dire que la distribution est presque partout positive. Il s'ensuit que la distribution maximisante doit être un point interne dans l'espace des distributions satisfaisant les contraintes d'espérance, c'est-à-dire qu'elle doit être un extremum local. Ainsi, il suffit de montrer que l'extremum local est unique, pour montrer à la fois que la distribution maximisant l'entropie est unique (et cela montre aussi que l'extremum local est le maximum global).

Supposons que p,p sont des extrema locaux. En reformulant les calculs ci-dessus, ceux-ci sont caractérisés par des paramètres λ,λn passant par p(x)=eλ,f(x)C(λ) et de même pour p, où C(λ)=xeλ,f(x)dx . On note maintenant une série d'identités : par la satisfaction des contraintes d'attente et l'utilisation de gradients/dérivées directionnelles, on a Dlog(C())|λ=DC()C()|λ=𝔼p[f(X)]=a et de même pour λ . En posant u=λλn on obtient :

0=u,aa=Dulog(C())|λDulog(C())|λ=Du2log(C())|γ

γ=θλ+(1θ)λ pour certains θ(0,1) . En calculant plus loin on a

0=Du2log(C())|γ=Du(DuC()C())|γ=Du2C()C()|γ(DuC())2C()2|γ=𝔼q[(u,f(X))2](𝔼q[u,f(X)])2=Varq(u,f(X))

q est similaire à la loi ci-dessus, uniquement paramétrée par γ . En supposant qu'aucune combinaison linéaire non triviale des observables n'est presque partout constante (ce qui, par exemple, est vrai si les observables sont indépendantes et non constantes presque partout), on considère que u,f(X) a une variance non nulle, sauf si u=0. Par l'équation ci-dessus, il est donc clair que ce dernier doit être le cas. Ainsi λλ=u=0, donc les paramètres caractérisant les extrema locaux p,p sont identiques, ce qui signifie que les lois elles-mêmes sont identiques. Ainsi, l'extremum local est unique et d'après la discussion ci-dessus, le maximum est unique, à condition qu'un extremum local existe réellement.

Mises en garde

Il faut noter que toutes les classes de distributions ne contiennent pas une loi d'entropie maximale. Il est possible qu'une classe contienne des lois d'entropie arbitrairement grande (par exemple la classe de toutes les lois continues sur R avec une moyenne nulle mais un écart type arbitraire), ou que les entropies soient bornées au-dessus mais qu'aucune loi n'atteigne l'entropie maximale[Notes 1]. Il est également possible que les restrictions de valeur attendue pour la classe C forcent la loi de probabilité à être nulle dans certains sous-ensembles de S . Dans ce cas, ce théorème ne s'applique pas, mais on peut contourner ce problème en réduisant l'ensemble S.

Exemples

Chaque loi de probabilité est trivialement une loi de probabilité d'entropie maximale sous la contrainte que la loi a sa propre entropie. Pour voir cela, on réécrit la densité comme p(x)=exp(lnp(x)) et on la compare à l'expression du théorème ci-dessus. En choisissant lnp(x)f(x) comme fonction mesurable et

exp(f(x))f(x)dx=

être la constante, p(x) est la loi de probabilité d'entropie maximale sous la contrainte

p(x)f(x)dx= .

Des exemples non triviaux sont des lois soumises à de multiples contraintes différentes de l'affectation de l'entropie. Ceux-ci sont souvent trouvés en commençant par la même procédure lnp(x)f(x) et en remarquant que f(x) peut être séparée en parties.

Un tableau d'exemples de lois d'entropie maximale est donné dans Lisman (1972)[7] et Park & Bera (2009)[8].

Lois uniformes et uniformes par morceaux

La loi uniforme continue sur l'intervalle Modèle:Math est la loi d'entropie maximale parmi toutes les distributions continues qui sont prises en charge dans l'intervalle Modèle:Math, et donc la densité de probabilité est de 0 en dehors de l'intervalle. Cette densité uniforme peut être mise en relation avec le Modèle:Lien de Laplace, parfois appelé principe de raison insuffisante. Plus généralement, si on donne une subdivision Modèle:Math de l'intervalle Modèle:Math et des probabilités Modèle:Math dont la somme vaut 1, alors on peut considérer la classe de toutes les lois continues telles que

(aj1X<aj)=pj pour j=1,,k

La densité de la loi d'entropie maximale pour cette classe est constante sur chacun des intervalles Modèle:Math. La loi uniforme sur l'ensemble fini Modèle:Math (qui attribue une probabilité de Modèle:Math à chacune de ces valeurs) est la loi d'entropie maximale parmi toutes les distributions discrètes supportées sur cet ensemble.

Moyenne positive et spécifiée : la loi exponentielle

La loi exponentielle, pour laquelle la fonction de densité est

p(x|λ)=λeλx11x0

est la loi d'entropie maximale parmi toutes les loi continues définies sur [0,+∞[ qui ont une moyenne fixée à Modèle:Math.

Moyenne et variance spécifiées : la loi normale

La loi normale 𝒩(μ,σ2), pour laquelle la fonction de densité est

p(x|μ,σ)=1σ2πe(xμ)22σ2,

a une entropie maximale parmi toutes les distributions à valeurs réelles supportées sur Modèle:Math avec une variance spécifiée Modèle:Mvar (un moment particulier). Par conséquent, l'hypothèse de normalité impose la contrainte structurelle a priori minimale au-delà de ce moment. (Voir l'article sur l'entropie différentielle pour une dérivation).

Dans le cas des lois définies sur Modèle:Math, la distribution d'entropie maximale dépend des relations entre le premier et le second moments. Dans des cas spécifiques, il peut s'agir de la distribution exponentielle, ou peut être une autre distribution, voire peut être indéfinissable[9].

Lois discrètes avec une moyenne spécifiée

Parmi toutes les lois discrètes supportées sur l'ensemble { x 1 ,..., x n } avec une moyenne spécifiée μ, la loi d'entropie maximale a la forme suivante :

(X=xk)=Crxk pour k=1,,n

où les constantes positives C et r peuvent être déterminées par les exigences selon lesquelles la somme de toutes les probabilités doit être 1 et l'espérance doit valoir μ.

Par exemple, si un grand nombre N de dés sont lancés et qu'on dit que la somme de tous les nombres affichés est S . Sur la base de ces seules informations, quelle serait une hypothèse raisonnable pour le nombre de dés indiquant 1, 2, ..., 6 ? Ceci est un exemple de la situation considérée ci-dessus, avec {x1 ,..., x6} = {1,...,6} et μ = S / N.

Enfin, parmi toutes les distributions discrètes supportées sur l'ensemble infini {x1,x2,...} de moyenne μ, la distribution d'entropie maximale a la forme :

(X=xk)=Crxk pour k=1,2,,

où à nouveau les constantes C et r ont été déterminées par les exigences selon lesquelles la somme de toutes les probabilités doit être 1 et la valeur attendue doit être μ. Par exemple, dans le cas où x k = k, cela donne

C=1μ1,r=μ1μ,

telle que la loi d'entropie maximale respective est la loi géométrique.

Variables aléatoires circulaires

Pour une variable aléatoire continue θi distribuée autour du cercle unité, la loi de Von Mises maximise l'entropie lorsque les parties réelle et imaginaire du premier moment circulaire sont spécifiées[10] ou, de manière équivalente, la moyenne circulaire et la variance circulaire sont spécifiées.

Lorsque la moyenne et la variance des angles θi modulo 2π sont spécifiées, la loi normale enveloppée maximise l'entropie[10].

Maximiseur pour la moyenne, la variance et l'asymétrie spécifiées

Il existe une borne supérieure sur l'entropie des variables aléatoires continues sur avec une moyenne, une variance et un biais spécifiés. Cependant, il n'y a pas de distribution qui atteint cette borne supérieure, car p(x)=cexp(λ1x+λ2x2+λ3x3) n'est pas borné lorsque λ30 (voir Cover & Thomas (2006 : chapitre 12)).

Cependant, l'entropie maximale est Modèle:Mvar -atteignable : l'entropie d'une loi peut être arbitrairement proche de la borne supérieure. On commence avec une loi normale de moyenne et de variance spécifiées. Pour introduire un biais positif, on perturbe la loi normale vers le haut d'une petite quantité à une valeur plusieurs Modèle:Mvar supérieure à la moyenne. L'asymétrie, étant proportionnelle au troisième moment, sera plus affectée que les moments d'ordre inférieur.

Il s'agit d'un cas particulier du cas général dans lequel l'exponentielle de tout polynôme d'ordre impair en x sera illimitée sur . Par exemple, ceλx sera également illimité sur , mais lorsque le support est limité à un intervalle borné ou semi-borné, la borne supérieure d'entropie peut être atteinte (par exemple, si x se situe dans l'intervalle [0, ∞ ] et λ < 0, la loi exponentielle en résultera).

Maximisateur pour la moyenne et la mesure de risque d'écart spécifiées

Chaque loi avec une densité log-concave est une distribution d'entropie maximale avec une moyenne spécifiée μ et une mesure de risque de déviation D[11].

En particulier, la loi d'entropie maximale avec une moyenne spécifiée 𝔼(x)=μ et de déviation D(x)=d est:

  • La loi normale 𝒩(m,d2), si D(x)=𝔼[(xμ)2] est l'écart type ;
  • La loi de Laplace, si D(x)=𝔼(|xμ|) est l'écart absolu moyen[7] ;
  • La loi avec densité de la forme f(x)=cexp(ax+b[xμ]2) si D(x)=𝔼[(xμ)2] est le demi-écart inférieur standard, où [x]:=max{0,x}, et a,b,c sont des constantes[11].

Autres exemples

Dans le tableau ci-dessous, chaque loi répertoriée maximise l'entropie pour un ensemble particulier de contraintes fonctionnelles répertoriées dans la troisième colonne, et la contrainte que x soit inclus dans le support de la densité de probabilité, qui est répertoriée dans la quatrième colonne[7]Modèle:,[8]. Plusieurs exemples (Bernoulli, géométrique, exponentielle, Laplace, Pareto) listés sont trivialement vrais car leurs contraintes associées sont équivalentes à l'affectation de leur entropie. Ils sont inclus simplement parce que leur contrainte est liée à une quantité commune ou facilement mesurable. Pour référence, Γ(x)=0ettx1dt est la fonction gamma, ψ(x)=ddxlnΓ(x)=Γ(x)Γ(x) est la fonction digamma, B(p,q)=Γ(p)Γ(q)Γ(p+q) est la fonction bêta, et Modèle:Formule est la constante d'Euler-Mascheroni.

Table de lois de probabilités et contraintes d'entropie maximale correspondantes
Distribution Densité Contrainte d'entropie maximale Support
Uniforme (discrète) f(k)=1ba+1 Aucune {a,a+1,...,b1,b}
Uniforme (continue) f(x)=1ba Aucune [a,b]
Bernoulli f(k)=pk(1p)1k 𝔼(k)=p {0,1}
Géométrique f(k)=(1p)k1p 𝔼(k)=1p {0}={1,2,3,...}
Exponentielle f(x)=λexp(λx) 𝔼(x)=1λ +
Laplace f(x)=12bexp(|xμ|b) E(|xμ|)=b
Laplace asymétrique f(x)=λe(xm)λsκsκ+1/κ(s=sgn(xm)) 𝔼((xm)sκs)=1λ
Pareto f(x)=αxmαxα+1 𝔼(ln(x))=1α+ln(xm) [xm,+[
Normale f(x)=12πσ2exp((xμ)22σ2) 𝔼(x)=μ,𝔼[(xμ)2]=σ2
Tronquée (voir article dédié) 𝔼(x)=μT,𝔼[(xμT)2]=σT2 [a,b]
von Mises f(θ)=12πI0(κ)exp(κcos(θμ)) 𝔼(cosθ)=I1(κ)I0(κ)cosμ,𝔼(sinθ)=I1(κ)I0(κ)sinμ [0,2π|
Rayleigh f(x)=xσ2exp(x22σ2) 𝔼(x2)=2σ2, 𝔼(ln(x))=ln(2σ2)γE2
Beta f(x)=xα1(1x)β1B(α,β) pour 0x1 𝔼(ln(x))=ψ(α)ψ(α+β)

𝔼(ln(1x))=ψ(β)ψ(α+β)
[0,1]
Cauchy f(x)=1π(1+x2) 𝔼(ln(1+x2))=2ln2
Chi f(x)=22k/2Γ(k/2)xk1exp(x22) 𝔼(x2)=k,𝔼(ln(x))=12[ψ(k2)+ln(2)] +
Chi-2 f(x)=12k/2Γ(k/2)xk21exp(x2) 𝔼(x)=k,𝔼(ln(x))=ψ(k2)+ln(2) +
Erlang f(x)=λk(k1)!xk1exp(λx) 𝔼(x)=kλ,𝔼(ln(x))=ψ(k)ln(λ) +
Gamma f(x)=xk1exp(xθ)θkΓ(k) 𝔼(x)=kθ,𝔼(ln(x))=ψ(k)+ln(θ) +
Log-normale f(x)=1σx2πexp((lnxμ)22σ2) 𝔼(ln(x))=μ, 𝔼[(ln(x)μ)2]=σ2 +*
Maxwell–Boltzmann f(x)=1a32πx2exp(x22a2) 𝔼(x2)=3a2,𝔼(ln(x))=1+ln(a2)γE2 +
Weibull f(x)=kλkxk1exp(xkλk) 𝔼(xk)=λk, 𝔼(ln(x))=ln(λ)γEk +
Normale miltidimensionnelle fX(x)=

exp(12(xμ)Σ1(xμ))(2π)N/2|Σ|1/2
𝔼(x)=μ,𝔼[(xμ)(xμ)T]=Σ n
Binomiale f(k)=(nk)pk(1p)nk 𝔼(x)=μ,floi binomiale n-généralisée {0,,n}
Poisson f(k)=λkexp(λ)k! 𝔼(x)=μ,floi binomiale -généralisée[12] ={0,1,}
Logistique f(x)=ex(1+ex)2 𝔼(x)=0, 𝔼[ln(1+ex)]=1

Le principe d'entropie maximale peut être utilisé pour majorer l'entropie des mélanges statistiques[13].

Articles connexes

Remarques

  1. Par exemple, la classe de toutes les lois continues X si R avec Modèle:Nobr et Modèle:Nobr (voir Cover, Ch 12).

Citations

Modèle:Traduction/Référence Modèle:Références

Références

Modèle:Portail