Divergence de Bregman

En mathématiques, la divergence de Bregman est une mesure de la différence entre deux distributions dérivée d'une fonction potentiel U à valeurs réelles strictement convexe et continûment différentiable.

Le concept a été introduit par Modèle:Lien en 1967^[1]. Par l'intermédiaire de la transformation de Legendre, au potentiel $U$ correspond un potentiel dual $U^{*}$ et leur différentiation donne naissance à deux systèmes de coordonnées duaux.

Définition

Soit $U (x)$ une fonction à valeurs réelles, strictement convexe et continûment différentiable définie sur un domaine convexe fermé $Ω$ . La divergence de Bregman d'un point $x_{1}$ de $Ω$ par rapport à un autre point $x_{0}$ de $Ω$ est :

D_{U} (x_{1} : x_{0}) = U (x_{1}) - U (x_{0}) - ⟨ \nabla U (x_{0}), (x_{1} - x_{0}) ⟩

Propriétés

La divergence de Bregman possède certaines des propriétés d'une distance :

Positivité : $\forall x, y \in Ω, D_{U} (x : y) \geq 0$ .
Séparation : $\forall x, y \in Ω, D_{U} (x : y) = 0 \Leftrightarrow x = y$ .

Par contre, la symétrie et l'inégalité triangulaire ne sont pas vérifiées, ce qui fait qu'elle n'est pas une distance.

Autres propriétés :

Convexité : la divergence est convexe par rapport à son premier argument.
Linéarité : pour deux fonctions convexes U et V à valeur réelle et un réel $\forall λ > 0, D_{U + λ V} (x : y) = D_{U} (x : y) + λ D_{V} (x : y)$ .
Dualité : la divergence de Bregman est de nature duale^[2] : par transformation de Legendre de $U$ , on obtient une fonction $U^{*}$ dont la divergence associée $D_{U^{*}}$ est symétrique par rapport à $D_{U}$ :

D_{U} (x : y) = D_{U^{*}} (y^{*} : x^{*})

.

Les points x et y étant exprimés selon deux systèmes de coordonnées duaux issus de la transformation de Legendre : $x^{*} = \nabla U (x)$ et $x = \nabla U^{*} (x^{*})$ . La divergence peut être réécrite sous la forme :

D_{U} (x : y) = U (x) + U^{*} (y^{*}) - ⟨ x \cdot y^{*} ⟩

.

Exemples

La distance de Mahalanobis (et donc le carré de la distance euclidienne) est une divergence de Bregman auto-duale :

D_{U} (p : q) = \frac{1}{2} \sum_{i j} a_{i j} (p_{i} - q_{i}) (p_{j} - q_{j})

,

avec

U (p) = \frac{1}{2} \sum_{i j} a_{i j} p_{i} p_{j}

.

les α-divergences popularisées par Amari^[3] sont un autre exemple.

La divergence entre une distribution p par rapport à une distribution q est définie par :

D^{(α)} (p : q) = \frac{4}{1 - α^{2}} \sum_{i} \frac{1 - α}{2} p_{i} + \frac{1 + α}{2} q_{i} - p_{i}^{\frac{1 - α}{2}} \cdot q_{i}^{\frac{1 + α}{2}}

.

La divergence duale de $D^{(α)}$ est $D^{(- α)}$ .

Par ailleurs, les α-divergences dérivent des fonctions potentiels :

U^{(α)} (p) = \frac{2}{1 + α} \sum_{i} p_{i}

et des coordonnées associées :

r_{i}^{(α)} (p) = \frac{2}{1 - α} p_{i}^{\frac{1 - α}{2}}

.

On a alors la relation de dualité des transformées de Legendre :

r_{i}^{(- α)} = \nabla_{r^{(α)}} U^{(α)}

.

Par ailleurs, avec les notations introduite, la divergence peut être écrite selon sa forme canonique :

D^{(α)} (p : q) = U^{(α)} (p) + U^{(- α)} (q) - \sum_{i} r_{i}^{(α)} (p) r_{i}^{(- α)} (q)

.

Un cas particulier de α-divergence est la divergence de Kullback-Leibler

La distance de Itakura-Sato :

D_{U} (p : q) = \sum_{i} \frac{p_{i}}{q_{i}} - \log \frac{p_{i}}{q_{i}} - 1

,

avec

U (p) = \sum_{i} \log p_{i}

.

Références

Modèle:Traduction/Référence Modèle:Références

Modèle:Portail

↑ L. Bregman, The relaxation method of finding the common point of convex sets and its application to the solution of problems in convex programming, USSR Computational Mathematics and Mathematical Physics, Vol. 7(3): 200--217, 1967.
↑ S. Amari, Information geometry in optimization, machine learning and statistical inference, Front. Electr. Electron. Eng. China, vol. 5(3), pp. 241-260, 2010, DOI 10.1007/s11460-010-0101-3
↑ S. Amari, H. Nagaoka, Methods of information geometry, Translations of mathematical monographs; v. 191, American Mathematical Society, 2000 Modèle:ISBN

[Bregman_1967-1] L. Bregman, The relaxation method of finding the common point of convex sets and its application to the solution of problems in convex programming, USSR Computational Mathematics and Mathematical Physics, Vol. 7(3): 200--217, 1967.

[Amari_2010-2] S. Amari, Information geometry in optimization, machine learning and statistical inference, Front. Electr. Electron. Eng. China, vol. 5(3), pp. 241-260, 2010, DOI 10.1007/s11460-010-0101-3

[Amari_2000-3] S. Amari, H. Nagaoka, Methods of information geometry, Translations of mathematical monographs; v. 191, American Mathematical Society, 2000 Modèle:ISBN

[1]

[2]

[3]

Divergence de Bregman

Sommaire

Définition

Propriétés

Exemples

Références

Menu de navigation

Divergence de Bregman

Définition

Propriétés

Exemples

Références

Menu de navigation

Rechercher