Fonction de Pearson
Modèle:Ébauche Modèle:Voir homonymes Les fonctions de Pearson ont été créées pour représenter des distributions unimodales. Il en existe douze. Elles ont été inventées par Karl Pearson à la fin du Modèle:XIXe siècle et au début du Modèle:XXe siècle.
Historique
Le système de Pearson a été originellement conçu afin de modéliser des observations visiblement asymétriques. Les méthodes pour ajuster un modèle théorique aux deux premiers cumulants ou moments de données observées : toute distribution peut être étendue directement une famille de distributions adaptée. Sauf dans des cas pathologiques, une famille peut être adaptée à l'espérance (premier cumulant) et la variance (deuxième cumulant) de façon arbitraire, mais il était jusque là impossible de construire des densités de probabilité en prenant également en compte l'asymétrie (troisième cumulant standardisé) et la kurtosis (quatrième cumulant standardisé). Ce besoin est apparu quand il a fallu trouver des modèles adaptés à des observations visiblement asymétriques. Les exemples de Pearson citent des données de survie, usuellement asymétriques.
Dans son article original, Pearson (1895, Modèle:P.360) identifie quatre types de distributions (numéroté de I à IV) en plus de la distribution normale (qu'il numérote originellement Modèle:Nobr). La classification dépend du support des distributions, selon qu'il soit sur un intervalle borné, une demi-droite ou la droite réelle ; mais aussi selon leur asymétrie possible ou leur symétrie. Un deuxième papier Modèle:Harv rectifie deux oublis : il redéfinit le Modèle:Nobr (étant redéfinie de la loi normale, désormais la loi inverse-gamma) et introduit la fonction de Modèle:Nobr. Les deux papiers couvrent les cinq types principaux du système de Pearson (I, III, IV, V et VI). Un troisième papier de Modèle:Harvsp introduit de nouveaux types et sous-types (numérotés de VII à XII).
Modèle:Harvsp décrit un moyen simple de visualiser le paramètre spatial du système de Pearson, adopté par Pearson lui-même par la suite Modèle:Harv. Les types de Pearson sont caractérisés par deux quantités, couramment notées Modèle:Math et Modèle:Math. La première correspond au carré de l'asymétrie : Modèle:Math où Modèle:Math est l'asymétrie, ou troisième moment standardisé. La deuxième est la kurtosis usuelle, ou quatrième moment standardisé : Modèle:Math. Les définitions modernes définissent la kurtosis Modèle:Math à partir des cumulants plutôt que des moments, de sorte que pour la loi normale, on ait Modèle:Math et Modèle:Math, mais on garde ici la définition historique de Modèle:Math par Pearson.)
Beaucoup de lois asymétriques et/ou non-mésokurtiques connues de nos jours ne l'étaient pas dans les années 1890. Par exemple, la loi bêta était utilisée par Thomas Bayes comme loi a posteriori du paramètre d'une loi de Bernoulli dans ses travaux de 1763 sur les lois inverses. La loi beta a gagné en importance grâce au système de Pearson et est resté jusque dans les années 1940 conne la loi de Pearson de Modèle:Nobr[1] (le Modèle:Nobr de Pearson est un cas spécial du Modèle:Nobr, mais n'est plus de nos jours considéré séparément du Modèle:Nobr). De même, la loi gamma vient originellement de Modèle:Harvsp et Modèle:Harvsp et est resté jusque dans les années 1940 conne la loi de Pearson de Modèle:Nobr[2]. La loi de Modèle:Nobr apparait dans Modèle:Harvsp, et décrit comme cas spécial, ce qu'on appelle désormais la loi de Student, précédant les travaux de William Gosset de plusieurs années. Son article de 1901 présente les lois inverse-gamma (Modèle:Nobr) et bêta prime (Modèle:Nobr).
Définition

Une densité Modèle:Mvar est définie comme toute solution de l'équation différentielle Modèle:Harv Modèle:Retrait avec : Modèle:Retrait
Selon Ord[3], Pearson a trouvé cette forme en partant d'abord de la forme de la dérivée logarithmique de la densité de la loi normale (qui est linéaire) puis en utilisant une relation de récurrence pour les valeurs de la fonction de densité de la loi hypergéométrique (qui donne la forme d'une fraction rationnelle, linéaire au numérateur et quadratique au dénominateur).
Le paramètre Modèle:Mvar détermine un point stationnaire, et donc, sous certaines conditions, un mode de la distribution, car on peut déduire de l'équation différentielle que Modèle:Retrait
L'équation différentielle est du premier ordre à coefficients variables et peut donc être résolue : Modèle:Retrait
L'intégrale dans la solution peut se simplifier grandement pour certains cas de l'intégrande. Pearson distingue deux cas, déterminé par le signe du discriminant de l'équation différentielle, et donc le nombre de racines réelles du polynôme Modèle:Math.
Fonctions de Pearson
Pearson IV
La fonction de Pearson IV correspond au cas où la fonction Modèle:Mvar définie auparavant a un discriminant strictement négatif. On peut alors la réécrire sous la forme : Modèle:Retrait
Le paramètre Modèle:Math (bien défini en raison du signe du discriminant) est un paramètre d'échelle, on a deux paramètres de forme Modèle:Math et , et le paramètre Modèle:Math est un paramètre de localisation.
Après simplification, la densité de probabilité Modèle:Mvar, pour Modèle:Mvar réel, vaut : Modèle:Retrait où Modèle:Mvar est un facteur de normalisation. Si Modèle:Math, la fonction n'est pas normalisable.
La fonction de Pearson IV est en fait une version asymétrique de la loi de Student ; de fait, on retrouve la loi de Student avec Modèle:Math degrés de liberté pour Modèle:Math.
Pour Modèle:Math, la distribution de Pearson IV est une forme asymétrique de la loi de Cauchy (ou distribution de Breit-Wigner).
La fonction a un mode (sommet) unique placé en Modèle:Retrait elle présente deux points d'inflexion situés en Modèle:Retrait
Sa moyenne vaut Modèle:Retrait La moyenne est infinie si Modèle:Math et Modèle:Math.
Sa variance vaut Modèle:Retrait La variance est infinie si Modèle:Math.
Le facteur de normalisation vaut : Modèle:Retrait où Modèle:Math est la fonction Gamma d'Euler.
Pearson VII
La fonction de Pearson IV correspond au cas particulier de la fonction IV où le paramètre de forme Modèle:Mvar, qui détermine l'asymétrie, est supposé nul. La distribution devient alors symétrique.
La Modèle:Nobr de Pearson est définie alors, pour Modèle:Mvar entier, par Modèle:Retrait Le facteur de normalisation vaut alors : Modèle:Retrait où Modèle:Math est la fonction bêta.
On écrit parfois une expression simplifiée en posant Modèle:Math : Modèle:Retrait
Le paramètre Modèle:Mvar détermine alors la kurtosis de la distribution ;
- Modèle:Math : distribution dite super-lorentzienne ;
- Modèle:Math : distribution de Cauchy/Lorentz (lorentzienne)/Breit-Wigner ;
- Modèle:Math : distribution de Gauss-Laplace (gaussienne, loi normale).
Elle est utilisée en radiocristallographie pour modéliser le profil des pics de diffraction (voir aussi Fonction de Voigt).
Autre paramétrisation : la loi de Student
La fonction de Modèle:Nobr permet aussi de retrouver la fonction de densite de la loi de Student en fixant le jeu de paramètres : Modèle:Retrait
La contrainte Modèle:Math est ainsi toujours vérifiée.
On obtient alors la densité : Modèle:Retrait
Autres cas
En considérant le cas où Modèle:Mvar a un discriminant positif (Modèle:Math), on a alors deux racines réelles Modèle:Math et Modèle:Math (pas forcément distinguées) :
La forme générale de la densité peut alors se réécrire : Modèle:Retrait
Pearson le désigne comme le "cas logarithmique" (Modèle:Lang), car l'intégrale se résout alors en utilisant uniquement la fonction logarithme : Modèle:Retrait
En posant , il vient : Modèle:Retrait
Pearson I
Les fonctions de Pearson de Modèle:Nobr (une généralisation de la loi bêta) correspondent au cas où les deux racines sont de signes opposés (Modèle:Math). La densité Modèle:Mvar n'est alors définie que sur l'intervalle Modèle:Math. En se ramenant à l'intervalle Modèle:Math par la substitution Modèle:Math, et en posant : Modèle:Retrait
l'écriture de la densité se simplifie en : Modèle:Retrait
Ainsi, suit une loi bêta Modèle:Math avec . La condition Modèle:Math est nécessaire et suffisante pour que Modèle:Mvar définisse une densité de probabilités.
Pearson II
Les fonctions de Pearson de Modèle:Nobr sont un cas particulier des fonctions de Modèle:Nobr, où les paramètres rendent la densité symétrique.
Pour la courbe de la fonction de Modèle:Nobr[4] Modèle:Retrait
avec Modèle:Retrait
L'ordonnée Modèle:Mvar est la fréquence de Modèle:Math. Elles sont utilisées dans le calcul des tables de coefficients de corrélation dans la corrélation de Spearman pour un échantillon de moins de 100. Après, la distribution se rapproche d'une loi de Student.
Pearson III
En posant Modèle:Retrait il vient que les fonctions de Pearson de Modèle:Nobr regroupent les lois gamma et les [[Loi du χ²|lois du χModèle:2]].
Pearson V
En posant Modèle:Retrait on voit que les fonctions de Pearson de Modèle:Nobr correspondant aux lois inverse-gamma.
Pearson VI
En posant Modèle:Retrait il vient que les fonctions de Pearson de Modèle:Nobr regroupent les lois bêta prime et les lois de Fisher.
Pearson VIII
La forme générale de la densité peut s'écrire[5]: Modèle:Retrait
Pearson IX
La forme générale de la densité peut s'écrire[5]: Modèle:Retrait
Pearson X
La forme générale de la densité peut s'écrire[5]: Modèle:Retrait On reconnait alors la loi exponentielle.
Pearson XI
La forme générale de la densité peut s'écrire[5]: Modèle:Retrait C'est donc un cas particulier de la loi de Pareto.
Pearson XII
La forme générale de la densité peut s'écrire[5]: Modèle:Retrait C'est donc un cas particulier du Modèle:Nobr.
Généralisations
Le système de Pearson est défini à partir d'une équation différentielle. En considérant d'autres fonctions, on peut construire d'autres systèmes, comme celui de Burr ou de Johnson[5]Modèle:,[6]
Système de Burr
Modèle:Article détaillé Le système de Burr regroupe les distributions telles que leurs fonctions de répartition Modèle:Mvar vérifient l'équation différentielle[7]: Modèle:Retrait où Modèle:Mvar est une fonction positive.
Burr a déterminé douze types de solutions, selon le choix de Modèle:Mvar[8]Modèle:,[9]Modèle:,[10]; celle qu'on appelle usuellement loi de Burr correspond au Modèle:12e et dernier cas.
Système de Johnson
Modèle:Article détaillé Le système de Johnson repose sur une transformation de données normalement distribuées, caractérisée par une fonction et quatre paramètres dits de translation. En considérant Modèle:Mvar la fonction de densité de la loi normale centrée réduite, il pose une fonction Modèle:Mvar supposément croissante et dérivable, et quatre paramètres, Modèle:Math réels, il transforme la variable en Modèle:Retrait ce qui permet d'obtenir un modèle de fonction de densité : Modèle:Retrait Johnson s'attarde sur trois types de fonctions[11]:
- une fonction à support borné :
- une fonction à support sur la demi-droite réelle :
- une fonction à Modèle:Lien :
Voir aussi
Bibliographie
Liens externes
- Modèle:En A Guide to the Pearson Type IV Distribution, Joel Heinrich, University of Pennsylvania, 2004
- Modèle:Abramowitz et Stegun
- Modèle:MathWorld.