Loi hypergéométrique

De testwiki
Aller à la navigation Aller à la recherche

Modèle:Ébauche Modèle:Sources Modèle:Infobox Distribution statistiques

La loi hypergéométrique de paramètres associés n, p et N est une loi de probabilité discrète, décrivant le modèle suivant :

On tire simultanément (ou successivement sans remise (mais cela induit un ordre)) n boules dans une urne contenant N1=pN boules gagnantes et N2=qN boules perdantes (avec q=1p, soit un nombre total de boules valant pN+qN = N). On compte alors le nombre de boules gagnantes extraites et on appelle X la variable aléatoire donnant ce nombre.

Les valeurs pouvant être prises sont les entiers de 0 à n. La variable X suit alors la loi de probabilité définie par[1]

(X=k)=X(k)=(pNk)(qNnk)(Nn) (probabilité d'avoir k succès).

Cette loi de probabilité s'appelle la loi hypergéométrique de paramètres (n,p,N) et l'on note X(n,p,N).

Il est nécessaire que p soit un réel compris entre 0 et 1, que pN soit entier et que nN. Lorsque ces conditions ne sont pas imposées, l'ensemble des possibles X(Ω) est l'ensemble des entiers entre max(0,nqN) et min(pN,n).

Exemple simple

Un lac renferme une centaine de poissons dont un quart sont des brochets. On pêche 10 poissons ; la loi du nombre X de brochets dans la prise est H(10,1/4,100).

On trouve alors pour les couples successifs (k,(X=k)) :

(0, 5%), (1, 18%), (2, 30%), (3, 26%), (4, 15%), (5, 5%), (6, 1%), (7, 0%), (8, 0%), (9, .0%), (10, 0%)

Donc un maximum de chances pour 2 ou 3 brochets. D'ailleurs, l'espérance du nombre de brochets vaut 10/4 = 2,5.

Calcul de la loi de probabilité

Il s'agit d'un tirage simultané (c'est-à-dire non ordonné et sans remise, la loi de probabilité resterait la même si l'on décidait d'ordonner le tirage car cela reviendrait à multiplier par n! le numérateur et le dénominateur de la quantité P(X=k) ) de n éléments parmi N, tirage que l'on considère comme équiprobable.

La combinatoire permet de dire que le cardinal de l'univers est (Nn).

Tirage Resté dans l'urne Total
Succès k pNk pN
Échecs nk qNn+k qN
Total n Nn N

L'évènement {X=k} (voir tableau) représente le cas où l'on a tiré k boules gagnantes parmi pN et nk boules perdantes parmi qN. Le cardinal de cet événement est donc (pNk)(qNnk).

La probabilité de l'évènement est donc (X=k)=X(k)=(pNk)(qNnk)(Nn).
Remarque : comme pour toute densité de probabilité, la somme des (X=k) vaut 1, ce qui prouve l'identité de Vandermonde.

Espérance, variance et écart type

L'espérance d'une variable aléatoire X suivant une loi hypergéométrique de paramètres (n,p,N), est la même que celle d'une variable binomiale de paramètres (n,p) : 𝔼(X)=np.

Modèle:Démonstration

La variance d'une variable aléatoire suivant une loi hypergéométrique de paramètres n,p,N est npqNnN1, dont on remarque qu'elle tend vers la variance npq de la variable binomiale précédente lorsque N tend vers l'infini.

L'écart type est alors npqNnN1.

Convergence

Lorsque N tend vers l'infini, la loi hypergéométrique converge vers une loi binomiale de paramètres n et p. D'ailleurs, intuitivement, pour N grand, tirer simultanément n boules revient à effectuer n fois une épreuve de Bernoulli dont la probabilité de succès serait p (p est la proportion de boules gagnantes dans l'ensemble des boules), car il est très peu probable de retomber sur la même boule, même si on la replace dans l'urne.

Modèle:Démonstration

En pratique, on peut approcher la loi hypergéométrique de paramètres (n,p,N) par une loi binomiale de paramètres (n,p) dès que n/N<0,1, c'est-à-dire lorsque l'échantillon n est 10 fois plus petit que la population N.

Un exemple très classique de ce remplacement concerne les sondages. On considère fréquemment un sondage de n personnes comme n sondages indépendants alors qu'en réalité le sondage est exhaustif (on n'interroge jamais deux fois la même personne). Comme n (nombre de personnes interrogées) < N (population sondée)/10, cette approximation est légitime.

Origine de l'appellation hypergéométrique

L'appellation "loi hypergéométrique" vient du fait que sa série génératrice E(xX)=k=0n(X=k)xk est un cas particulier de série hypergéométrique, série généralisant la série géométrique. En effet (X=k+1)(X=k)=(N1k)(nk)(k+1)(N2n+k+1) est bien une fraction rationnelle en k.

Lien externe

Modèle:Mathworld

Notes et références

Modèle:Références

Modèle:Palette Modèle:Portail