Statistiques directionnelles

De testwiki
Aller à la navigation Aller à la recherche

Modèle:Ébauche

Les statistiques directionnelles (qui incluent les statistiques circulaires et sphériques) sont une discipline des statistiques qui fournit des outils mathématiques pour traiter les observations angulaires, les directions (vecteurs unités dans Rn) ou les rotations de Rn. Plus généralement, les statistiques directionnelles traitent les observations dans des variétés riemanniennes compactes. Gaile et Burt[1] ont posé les premières bases et outils de cette discipline en 1980.

La forme globale d'une protéine peut être représentée par un groupe de points situés sur la sphère unité. L'image ci-dessus illustre l'histogramme sphérique de ces points pour un ensemble de protéines. Le traitement de telles données est le domaine des statistiques directionnelles[2].

On constate que les outils statistiques usuels ne fonctionnent pas correctement sur des angles : par exemple, il serait absurde que la moyenne d'un angle de 2 degrés et d'un angle de 358 degrés soit un angle de 180 degrés, puisque 0 et 360 degrés correspondent au même angle. Cela illustre la nécessité d'outils statistiques spécifiques à l'étude de données cycliques, comme les angles, mais aussi les périodes répétées (jours de la semaines, mois de l'année, etc.). Le même problème se pose pour des données qui représenteraient des angles dièdres ou des rotations en géométrie 3D, par exemple dans l'étude de la structure des molécules.

Distributions circulaires

Modèle:Article détaillé Une distribution circulaire représente une variable aléatoire prenant ses valeurs sur un cercle. On considère généralement son paramètre θ comme un angle compris entre 0 et Modèle:Math ou entre Modèle:Math et Modèle:MathPi.

Distributions circulaires à densité

Toute fonction de densité de probabilité f(x) définie sur R peut être enveloppée sur un cercle-unité[3] : la fonction de densité fc(θ) de la variable angulaire θ=xmod2π est la somme de toutes valeurs f(x) où la valeur de x correspond à l'angle θ, soit :

fc(θ)=k=+f(θ+2kπ).

Ce concept peut être étendu à une variable à n composantes θ en sommant n fois sur chaque dimension.

fc(θ)=k1=+kn=+f(θ+2k1π𝐞1++2knπ𝐞n),

où les ek sont les vecteurs de la base canonique.

Voici quelques distributions circulaires courantes.

Distribution circulaire uniforme

Dans cette distribution, chaque angle est équiprobable : la densité de probabilité de la distribution circulaire uniforme est

U(θ)=12π avec θ[0,2π[.

Distribution normale enveloppée

La densité de probabilité correspondant à une loi normale enveloppée (notée WN pour wrapped normal distribution) selon le procédé décrit ci-dessus est :

WN(θ;μ,σ)=1σ2πk=+exp((θμ2kπ)22σ2),

μ et σ sont respectivement la moyenne et l'écart-type de la distribution normale sous-jacente.

On peut également l'écrire au moyen de la fonction thêta de Jacobi ϑ:

WN(θ;μ,σ)=12πϑ(θμ2π,iσ22π).

Distribution de Cauchy enveloppée

La densité de probabilité correspondant à une loi de Cauchy enveloppée (notée WC pour Modèle:Lang) est :

WC(θ;θ0,a)=k=+aπ(a2+(θθ0+2kπ)2)=12πsinhacoshacos(θθ0),

θ0 est le paramètre de position (c'est-à-dire l'angle correspondant au pic de densité) et a le paramètre d'échelle de la distribution.

Distribution de Lévy enveloppée

La densité de probabilité correspondant à une loi de Lévy enveloppée (notée WL pour Modèle:Lang) est :

WL(θ;μ,c)=c2πk=+exp(cθμ+2kπ)(θμ+2kπ)32,

en considérant comme nulles les valeurs du terme de la somme pour lesquelles (θμ2kπ)0, où μ est le paramètre de position et c, le paramètre d'échelle de la distribution.

Distribution circulaire de von Mises

Modèle:Article détaillé Contrairement aux distributions enveloppées vues plus haut, la distribution de von Mises est définie directement sur un cercle. Elle est donc particulièrement utile en statistiques circulaires car le calcul de sa fonction de densité ne fait pas intervenir de somme infinie. Si on peut la considérer comme une version enveloppée d'une fonction de distribution sur R, il n'existe pas de formule fermée pour cette distribution.

Elle possède des paramètres similaires à la loi normale : une moyenne μ et une concentration κ dont l'inverse 1/κ est analogue à la variance σ2 d'une loi normale, ce qui amène parfois à la qualifier de "loi normale circulaire"[4]. Elle est également une bonne approximation de la loi normale enveloppée. Sa fonction de densité est donnée par :

f(θ;μ,κ)=exp(κcos(θμ))2πI0(κ),

I0 est la fonction de Bessel modifiée d'ordre 0.

À noter que la loi circulaire uniforme est un cas particulier de la loi de von Mises pour κ = 0.

Distributions sur des variétés de dimensions supérieures

Il existe des distributions définies sur une sphère (surface de dimension 2), par exemple la loi de Kent[5], ou plus généralement sur une N-sphère comme la Modèle:Lien[6], sur un tore (loi de von Mises bivariée) ou sur une variété de Stiefel (Modèle:Lien).

La loi de Bingham est une distribution sur les droites passant par l'origine en dimension N, ou de manière équivalente, sur un hémisphère de la (N – 1)-sphère, ou encore une (N – 1)-sphère dont les points antipodaux sont identifiés[7]. Par exemple, une loi de Bingham pour N = 2 peut représenter une distribution de droites non orientées passant par l'origine dans le plan (chaque droite coupant le cercle-unité, c'est-à-dire la 1-sphère, en deux points diamétralement opposés). Pour N = 4, c'est une distribution sur la 3-sphère des quaternions unitaires, ce qui correspond à une représentation des rotations en dimension 3. Cela permet d'utiliser cette distribution sur l'espaces des rotations en 3D.

Ces distributions sont utilisés par exemple en géologie[8], en cristallographie[9] ou bien en bio-informatique pour l'étude de la structure des protéines[10].

Moments

Les moments bruts (ou trigonométriques) d'ordre n d'une distribution circulaire f sont définis par

mn=𝔼(zn)=Γf(θ)zndθ,

avec z = eiθ et Γ un intervalle quelconque de longueur Modèle:Math.

Puisque l'intégrale de f sur Γ est nécessairement égale à 1, et que l'on intègre toujours sur un intervalle fini, les moments d'une distribution circulaire existent toujours et prennent une valeur finie.

On définit de même les moments d'un échantillon de taille N :

mn=1Ni=1Nzin.

Le moment d'ordre n est un nombre complexe dont on considère souvent le module Rn = |mn| (toujours compris entre 0 et 1) et l'argument θn = Arg(mn). On note souvent R le module R1 du moment d'ordre 1.

Mesures de tendances et dispersion

Il existe des mesures de tendance centrale et de dispersion pour une distribution circulaire ou pour un échantillon tiré de cette distribution.

Moyenne circulaire

La mesure la plus courante de tendance centrale est la Modèle:Lien, c'est-à-dire le moment d'ordre 1 de la distribution (ou de l'échantillon). La moyenne circulaire de l'échantillon étant un estimateur sans biais de l'espérance de la distribution. On peut, si la population est suffisamment concentrée sur un support étroit, définir une médiane et un mode de la même manière que pour le cas linéaire.

Un estimateur de la valeur moyenne circulaire, θ¯, peut se calculer grâce à la formule[11] :

θ¯=arctan(insin(θi)incos(θi))

Géométriquement[11], cette valeur correspond à l'angle du vecteur résultant de la somme des n vecteurs unitaires ayant pour argument θ.

On peut donc aussi définir la longueur résultante moyenne R :

R=(i=1nsinθi)2+(i=1ncosθi)2n

Dispersion

Les mesures de dispersions les plus utilisés sont :

  • La variance circulaire, définie comme Var(z)=1R pour un échantillon ou une distribution. La variance sera toujours comprise entre 0 et 1.
  • L'écart-type circulaire S(z)=ln1R2=2lnR. La valeur de l'écart-type est comprise entre 0 et +∞. Cette définition de l'écart-type circulaire, contrairement à l'écart-type linéaire (défini comme la racine carrée de la variance) permet d'obtenir un estimateur de l'écart-type de la distribution sous-jacente dans le cas d'une distribution normale enroulée ou d'une distribution de von Mises.
  • La dispersion circulaire δ(z)=1R22R2 dont les valeurs sont entre 0 et +∞.

Notes et références

Modèle:Traduction/Référence Modèle:Références

Modèle:Portail