Inégalité de Bretagnolle – Huber

De testwiki
Aller à la navigation Aller à la recherche

Modèle:Ébauche Modèle:Orphelin

En théorie de l'information, l'inégalité de Bretagnolle – Huber limite la distance de variation totale entre deux distributions de probabilité P et Q par une fonction concave et bornée de la divergence Kullback – Leibler DKL(PQ). La borne peut être considérée comme une alternative à la célèbre inégalité de Pinsker : lorsque DKL(PQ) est grand (supérieur à 2 par exemple), l'inégalité de Pinsker n'est pas informative car la borne tend vers l'infini, tandis que Bretagnolle – Huber reste bornée. Elle est utilisée en statistiques et en apprentissage automatique pour prouver les limites inférieures de la théorie de l'information en s'appuyant sur des tests d'hypothèses[1] (l'inégalité de Bretagnolle – Huber – Carol est une variation de l'inégalité de concentration pour les variables aléatoires multinomiales qui délimite la distance de variation totale).

Enoncé

Définitions préliminaires

Soient P et Q deux distributions de probabilité sur un espace mesurable (𝒳,). Rappelons que la variation totale entre P et Q est défini par

dTV(P,Q)=supA{|P(A)Q(A)|}.

La divergence Kullback-Leibler est définie comme suit :

DKL(PQ)={𝒳log(dPdQ)dPif PQ,+otherwise.

Dans ce qui précède, la notation PQ signifie que P est absolument continue par rapport a Q, et dPdQ représente le dérivée de Radon – Nikodym de P par rapport à Q.

Enoncé général

L'inégalité de Bretagnolle-Huber s'énonce comme suit: Pour deux distributions de probabilités P et Q telles que PQ,

dTV(P,Q)1exp(DKL(PQ))112exp(DKL(PQ))

Version alternative

La version suivante est directement impliquée par la limite ci-dessus mais certains auteurs[1] préfèrent l'énoncer de cette façon. Soit A un événement. Alors,

P(A)+Q(A¯)12exp(DKL(PQ))

A¯=ΩA est le complément de A.

En effet, par définition de la variation totale, pour tout A,

Q(A)P(A)dTV(P,Q)112exp(DKL(PQ))=Q(A)+Q(A¯)12exp(DKL(PQ))

En réorganisant, nous obtenons la borne inférieure revendiquée sur P(A)+Q(A¯).

Preuve

Nous prouvons l'énoncé principal suivant les idées du livre de Tsybakov (Lemme 2.6, page 89)[2], qui diffèrent de la preuve originale (voir la note de C.Canonne[3] pour une retranscription modernisée de leur argument).

La preuve se déroule en deux étapes :

1. Prouver à l'aide de Cauchy – Schwarz que la variation totale est liée au coefficient Bhattacharyya (partie droite de l'inégalité) :

1dTV(P,Q)2(PQ)2

2. Prouver par une application appropriée de l'inégalité de Jensen que

(PQ)2exp(DKL(PQ))
  • Étape 1:
Remarquez d'abord que
dTV(P,Q)=1min(P,Q)=max(P,Q)1
Pour voir cela, notez A*=argmaxAΩ|P(A)Q(A)| et sans perte de généralité, supposons que P(A*)>Q(A*) tel que dTV(P,Q)=P(A*)Q(A*). Ensuite, nous pouvons réécrire
dTV(P,Q)=A*max(P,Q)A*min(P,Q)
Et puis ajouter et supprimer A*¯max(P,Q) or A*¯min(P,Q) nous obtenons les deux identités.
Alors
1dTV(P,Q)2=(1dTV(P,Q))(1+dTV(P,Q))=min(P,Q)max(P,Q)(min(P,Q)max(P,Q))2=(PQ)2
parce que PQ=min(P,Q)max(P,Q).
  • Étape 2:
Nous écrivons ()2=exp(2log()) et appliquer l'inégalité de Jensen :
(PQ)2=exp(2log(PQ))=exp(2log(PQP))=exp(2log(EP[(PQ)1]))exp(EP[log(PQ)])=exp(DKL(P,Q))
La combinaison des résultats des étapes 1 et 2 conduit à la limite revendiquée sur la variation totale.

Exemples d'applications

Exemple de complexité de lancers de pièces biaisés

La question[3] est de savoir combien de tirages à pile ou face ai-je besoin pour distinguer une pièce équilibrée d’une pièce biaisée ?

Supposons que vous ayez 2 pièces, une pièce équilibrée (Bernoulli distribué avec une moyenne p1=1/2 ) et un pièce ε-biaisée (p2=1/2+ε ). Ensuite, afin d'identifier la pièce biaisée avec une probabilité d'au moins 1δ (pour certains δ>0 ), on doit tirer la pièce $n$ fois avec

n12ε2log(12δ).

Afin d’obtenir cette borne inférieure nous imposons que la distance totale de variation entre deux séquences de n échantillons soit au moins 12δ. En effet, la variation totale limite la probabilité de sous-estimer ou de surestimer les moyennes des pièces. Dénotons P1n et P2n les distributions conjointes respectives des n des tirages au sort pour chaque pièce. Alors nous avons,

(12δ)2dTV(P1n,P2n)21eDKL(P1nP2n)=1enDKL(P1P2)=1enlog(1/(14ε2))2

Le résultat est obtenu en réorganisant les termes.

Borne inférieure théorique pour les jeux de bandits manchots à k bras

Dans le problème du bandit manchot, une limite inférieure du regret minimax de tout algorithme de bandit peut être prouvée en utilisant Bretagnolle – Huber et ses conséquences sur les tests d'hypothèses (voir le chapitre 15 de Bandit Algorithms[1] ).

Histoire

Le résultat a été prouvé pour la première fois en 1979 par Jean Bretagnolle et Catherine Huber, et publié dans les actes du Séminaire de Probabilités de Strasbourg[4]. Le livre d'Alexandre Tsybakov[2] présente une première réédition de l'inégalité et de son attribution à Bretagnolle et Huber. Celle-ci est présentée comme une version ancienne et moins générale du lemme d'Assouad (voir notes 2.8). Une amélioration constante par rapport à Bretagnolle – Huber a été prouvée en 2014 grâce à une extension de l'inégalité de Fano[5].

Voir également

Références

Modèle:Références Modèle:Portail