Intervalle de confiance

En statistique, un intervalle de confiance est un intervalle censé contenir un paramètre inconnu de la loi de probabilité d’une variable quantitative, que l'on cherche à estimer à partir d’un jeu de données. On peut ainsi obtenir une fourchette d’estimation d’un indicateur numérique usuel tel que la moyenne, la médiane ou la variance à partir d’un échantillon, et dont les bornes dépendent également de la famille de lois de probabilité considérée. La notion s’applique à d’autres paramètres et peut aussi se construire à partir de données statistiques plus complexes, par exemple issues d’un processus stochastique.

La définition de l’intervalle de confiance est subtile et souvent mal comprise^[1], en particulier parce que l'intervalle construit peut contenir la valeur du paramètre inconnu ou pas. En considérant que les données sont issues d’un tirage aléatoire, les bornes calculées sont aléatoires aussi tandis que le paramètre à encadrer est déterministe. On associe à l’intervalle un niveau de confiance souvent exprimé sous la forme d'un pourcentage, le plus souvent à 95 %. Cela signifie que la méthode a 95 % de chances de produire un intervalle contenant la vraie valeur du paramètre inconnu.

En particulier, cette notion permet de définir une marge d'erreur entre les résultats d'un sondage (noté p dans la formule ci-dessous) et un relevé exhaustif (noté f dans la formule ci-dessous) de la population totale. Par exemple, pour une question fermée à deux modalités (oui/non) posée à Modèle:Unité (noté n dans la formule ci-dessous) représentatives d’une population bien plus grande, il y a au moins 95 % de chances que la proportion de réponses obtenues par le sondage soit bonnes à 3% près de celles de qu'aurait obtenu un relevé exhaustif de la population totale.

𝐏 (f - \frac{1}{\sqrt{n}} \leq p \leq f + \frac{1}{\sqrt{n}}) \geq 95 %

avec

\frac{1}{\sqrt{n}} = \frac{1}{\sqrt{1000}} \approx 3 %

Pour obtenir un intervalle plus réduit, donc plus précis, sans changer le nombre de sondés, il faut accepter un niveau plus faible, donc un plus grand risque de se tromper. Au contraire, pour réduire le risque d’erreur, on peut élargir l’intervalle.

Pour estimer simultanément plusieurs paramètres ou des paramètres vectoriels, la notion d’intervalle de confiance se généralise avec celle d’ellipsoïde de confiance.

Attention, la notion d'intervalle de confiance ne doit pas être confondue avec celle d'intervalle de fluctuation. Ce dernier est déterminé par le paramètre et encadre une variable aléatoire. Mais c’est précisément en renversant les inégalités d’un intervalle de fluctuation, issu du théorème central limite ou de l’inégalité de Bienaymé-Tchebychev, que l’on peut obtenir l’expression d’un intervalle de confiance, comme celui qui estime l’espérance d’une loi à partir de la moyenne empirique et d’une majoration de l’écart type.

La construction d’un intervalle de confiance vise en général à produire l’intervalle le plus étroit possible qui contient le paramètre au niveau de confiance donné, tandis qu’un estimateur sans biais doit faire correspondre son espérance avec le paramètre, tenant ainsi compte des valeurs extrêmes de la distribution, même improbable. Il est donc tout à fait possible qu’un estimateur classique du paramètre se retrouve extérieur à l’intervalle de confiance sur le même jeu de données.

Définition

Soit $Ω$ un espace de probabilités, $Q$ une partie de l'ensemble des mesures de probabilités sur $Ω$ , $θ$ une application de $Q$ dans $ℝ$ , $α \in [0, 1]$ un réel et $n > 0$ un entier. On appelle intervalle de confiance pour le paramètre $θ$ au niveau de confiance $α$ relativement à $Q$ pour un échantillon de taille $n$ une fonction mesurable $f_{n}$ de l'ensemble $Ω^{n}$ vers l'ensemble des intervalles de $ℝ$ vérifiant, pour tout $μ \in Q$ ,

ℙ_{μ^{\otimes n}} (θ (μ) \in f_{n} (X_{1}, \dots, X_{n})) \geq α .

Un cas usuel est celui où $Q$ est l'ensemble des lois gaussiennes réelles sur $Ω$ , $θ$ est l'application qui à une loi gaussienne associe sa moyenne et $α = 0, 95$ .

Histoire

À la fin du Modèle:S-, le mathématicien Laplace calcule le taux de natalité^[2] sur quelques paroisses et en déduit la population de la France entière à partir du nombre total de naissances, consigné dans les registres de baptêmes de l'année^[3]. Mais il va plus loin en joignant à cette évaluation par proportionnalité une estimation de l'erreur commise.

En effet, s'il est théoriquement possible que la valeur observée sur quelques cas particuliers corresponde exactement à la valeur sur l'ensemble de la population, il est théoriquement possible aussi que l'échantillon choisi ne soit pas du tout représentatif. Or le calcul de probabilités, qui s'est développé depuis le Modèle:S-, permet de décrire la probabilité qu'il y ait un écart donné entre ces deux valeurs. En fixant un seuil à cette probabilité, il est alors possible de majorer l'écart.

La dénomination « intervalle de confiance » est due à Jerzy Neyman^[4].

Exemple introductif : encadrement d'une proportion

Pour estimer la proportion de personnes qui portent un chapeau, on sélectionne un échantillon. De cet échantillon, on calcule un intervalle de confiance (en vert). Avec une grande probabilité, la réalisation de l'intervalle de confiance contient la vraie proportion (inconnue).

Dans cette section, nous présentons l'intervalle de confiance pour un sondage. On construit d'abord un intervalle de fluctuation, puis un intervalle de confiance.

Contexte

Cherchons à estimer la proportion Modèle:Mvar réelle de la population se reconnaissant dans une catégorie donnée (qu’elle soit médicale, sociale, politique...). Il n'est pas possible d'avoir l'information pour tous les individus car il y a trop d'individus dans la population. Au lieu de cela, on réalise un sondage. Ainsi, on pose la question à un nombre Modèle:Mvar d’individus (pas nécessairement différents) tirés au hasard. On calcule ensuite la proportion observée Modèle:Mvar définie comme le quotient du nombre de réponses positives par le nombre Modèle:Mvar de personnes sondées. On suppose tout de même que Modèle:Mvar est suffisamment grand pour profiter de la loi des grands nombres et du théorème central limite. La loi des grands nombres assure qu’il est très probable que la fréquence observée soit proche de la proportion Modèle:Mvar. Dans la suite, nous allons montrer la formulation suivante :

Modèle:Encadré

Autrement dit, le sondage produit une estimation Modèle:Mvar (la proportion observée) et il y a (au moins) 95 % de chances que la vraie valeur Modèle:Mvar soit dans l'intervalle de confiance $[f - \frac{1}{\sqrt{n}}, f + \frac{1}{\sqrt{n}}]$ . Dans cette formulation simple, on voit, pour un niveau de confiance fixé (ici 95 %), quand le nombre Modèle:Mvar de personnes sondées augmente, alors l'intervalle de confiance se resserre autour de Modèle:Mvar . Avant de construire l'intervalle de confiance, construisons un intervalle de fluctuation.

Obtention de l'intervalle de fluctuation

Le nombre de réponses positives suit une loi binomiale de paramètre Modèle:Mvar. Sa moyenne est $n p$ et l'écart type est $\sqrt{n p (1 - p)}$ . Ainsi la variable Modèle:Mvar suit une loi paramètre Modèle:Mvar et d'écart type $σ = \sqrt{\frac{p (1 - p)}{n}}$ . Grâce au théorème central limite, la loi de probabilité de Modèle:Mvar est proche d’une loi normale de moyenne Modèle:Mvar et d'écart type $σ$ . Avec cette approximation, on obtient avec une certaine probabilité $1 - α$ , un encadrement de la forme $p - k σ \leq f \leq p + k σ$ , où Modèle:Mvar est le quantile d'ordre $α / 2$ de la loi normale centrée réduite. Plus précisément, la valeur de Modèle:Mvar provient des tables de la loi normale centrée réduite. La valeur de et qui est d’autant plus grande Modèle:Mvar que l’on souhaite un niveau de confiance élevé, ce qui dégrade la précision. En particulier^[5], pour un niveau de 90 %, on a Modèle:Math, mais pour un niveau de 95 %, on a Modèle:Math. L'intervalle $[p - k σ, p + k σ]$ est appelé intervalle de fluctuation.

De l'intervalle de fluctuation vers l'intervalle de confiance

La résolution des inéquations apparaissant dans l’encadrement de Modèle:Mvar donne un encadrement^[6] de Modèle:Mvar entre les bornes $\frac{(2 f + \frac{k^{2}}{n}) \pm \sqrt{\frac{k^{4}}{n^{2}} + 4 f \frac{k^{2}}{n} - 4 f^{2} \frac{k^{2}}{n}}}{2 (1 + \frac{k^{2}}{n})}$ . Ainsi par un développement asymptotique, on retrouve l’encadrement suivant qui définit l’intervalle de confiance classique : $f - k \sqrt{\frac{f (1 - f)}{n}} \leq p \leq f + k \sqrt{\frac{f (1 - f)}{n}}$ .

La symétrie des relations entre Modèle:Mvar et Modèle:Mvar dans ce contexte ne se vérifie pas forcément dans d’autres problèmes d’estimation. En outre, l’expression obtenue repose sur deux approximations successives, de la loi binomiale par la loi normale d’abord, puis de la fraction par les premiers termes du développement asymptotique ensuite.

Les inégalités $\sqrt{f (1 - f)} \leq \frac{1}{2}$ et Modèle:Math mènent à l’approximation par un intervalle de confiance légèrement plus grand mais à la formulation plus simple^[7] $[f - \frac{1}{\sqrt{n}}, f + \frac{1}{\sqrt{n}}]$ .

Principe général

On considère une famille de variables aléatoires Modèle:Math, dont la loi conjointe est définie par un ou plusieurs paramètres inconnus. Il s’agit souvent d’un échantillon, c’est-à-dire que les variables sont indépendantes et identiquement distribuées, mais on peut traiter également des familles de variables provenant d’un processus stochastique.

Pour obtenir un intervalle de confiance sur l’un des paramètres Modèle:Mvar, on peut essayer de calculer une nouvelle variable aléatoire Modèle:Math à partir des précédentes et du paramètre à déterminer, dont la loi soit connue et dont on puisse exprimer des quantiles Modèle:Math et Modèle:Math tels que la probabilité $𝐏 (k_{1} < Y < k_{2})$ soit égale (ou supérieure) au niveau de confiance souhaité. La résolution algébrique des inéquations Modèle:Math peut fournir alors un encadrement de Modèle:Mvar qui constitue un intervalle de confiance.

Intervalles de référence

Modèle:À compléter La table suivante donne des intervalles de confiance de référence de niveau de confiance $1 - α$ . On considère un échantillon Modèle:Math où les $X_{i}$ sont indépendantes et identiquement distribuées. On note Modèle:Mvar l'espérance et Modèle:Mvar l'écart-type communs aux $X_{i}$ . On note $\overline{X} = \frac{X_{1} + \dots + X_{n}}{n}$ la moyenne empirique.


Hypothèses	Asymptotique ?	Paramètre estimé	Intervalle	Informations supplémentaires	Sources
$X_{i}$ suivent une loi normale Modèle:Mvar connu	non	Modèle:Mvar	$[\overline{X} - η \frac{σ}{\sqrt{n}}, \overline{X} + η \frac{σ}{\sqrt{n}}]$	où $η$ est le quantile d'ordre $1 - α / 2$ de la loi normale centrée réduite	Modèle:Référence nécessaire
$X_{i}$ suivent une loi normale	non	Modèle:Mvar	$[\bar{X} - η \frac{S}{\sqrt{n}}, \bar{X} + η \frac{S}{\sqrt{n}}]$	où $S = \sqrt{V_{n}}$ avec la variance empirique corrigée $V_{n} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - {\bar{X}}_{n})^{2}$ , et $η$ est le quantile d'ordre $1 - α / 2$ de la loi de Student à $n - 1$ degrés de liberté	Th. 2.3, premier point, p. 38, dans ^[8]
Modèle:Mvar connu	oui	Modèle:Mvar	$[\overline{X} - η \frac{σ}{\sqrt{n}}, \overline{X} + η \frac{σ}{\sqrt{n}}]$	où $η$ est le quantile d'ordre $1 - α / 2$ de la loi normale centrée réduite	Modèle:Référence nécessaire
$X_{i}$ suivent une loi normale	non	Modèle:Mvar	$[S \sqrt{\frac{n - 1}{ξ}}, S \sqrt{\frac{n - 1}{η}}]$	où $S = \sqrt{V_{n}}$ avec la variance empirique corrigée, $η$ et $ξ$ sont les quantiles respectifs d'ordre $α / 2$ et $1 - α / 2$ de la loi du chi deux à $n - 1$ degrés de liberté	Th. 2.3, deuxième point, p. 38, dans ^[8](voir errata du livre)
$X_{i}$ suivent une loi à densité	non	le quantile d'ordre p	$[X_{(j)}, X_{(k)}]$	où $X_{(1)} \leq \dots \leq X_{(n)}$ est une statistique d'ordre, et $j \leq k$ avec la probabilité d'une binômiale de paramètres n et p donne un nombre entre j et k-1 est plus grande que $1 - α$	Th. 2.1 dans ^[8]

Démonstrations

Dans cette section, nous démontrons quelques résultats énoncés dans la table ci-dessus.

Loi normale

L’espérance Modèle:Mvar et la variance $σ^{2}$ d’une loi normale peuvent être estimées^[9] à partir d’un échantillon Modèle:Math. Dans l'échantillon Modèle:Math, chaque $X_{i}$ est une variable aléatoire qui suit une loi normale de moyenne Modèle:Mvar (ou espérance) et d'écart type Modèle:Mvar. On suppose que les variables $X_{i}$ sont indépendantes et identiquement distribuées.

Intervalle de confiance pour la moyenne quand l'écart type est connu

On cherche l'intervalle de confiance de niveau $1 - α$ pour la moyenne $μ$ . On suppose que l'écart type $σ$ est connu. La moyenne empirique $\overline{X} = \frac{X_{1} + \dots + X_{n}}{n}$ suit une loi normale de même espérance Modèle:Mvar et de variance Modèle:Sfrac. Ainsi, le quotient $\frac{\sqrt{n} (\overline{X} - μ)}{σ}$ suit la loi normale centrée réduite (loi normale de moyenne 0 et de variance 1). Utilisons maintenant un quantile $q_{α / 2}$ d'ordre $α / 2$ de la loi normale centrée réduite. La probabilité que $- q_{α / 2} \leq \frac{\sqrt{n} (\overline{X} - μ)}{σ} \leq q_{α / 2}$ vaut $1 - α$ . Dit autrement, la probabilité que $μ - q_{α / 2} \frac{σ}{\sqrt{n}} \leq \overline{X} \leq μ + q_{α / 2} \frac{σ}{\sqrt{n}}$ vaut $1 - α$ . En réordonnant les inégalités, la probabilité que $\overline{X} - q_{α / 2} \frac{σ}{\sqrt{n}} \leq μ \leq \overline{X} + q_{α / 2} \frac{σ}{\sqrt{n}}$ vaut $1 - α$ . Autrement dit $[\overline{X} - q_{α / 2} \frac{σ}{\sqrt{n}}, \overline{X} + q_{α / 2} \frac{σ}{\sqrt{n}}]$ est un intervalle de confiance pour le paramètre $μ$ de niveau $1 - α$ . Comme $\overline{X}$ est aléatoire, on voit que l'intervalle de confiance est également aléatoire.

Intervalle de confiance pour la moyenne quand l'écart type est inconnu

Modèle:Section à vérifier On cherche l'intervalle de confiance de niveau $1 - α$ pour la moyenne $μ$ lorsque l'écart type $σ$ est inconnu. On estime $σ^{2}$ par la variance empirique corrigée $V_{n} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - {\bar{X}}_{n})^{2}$ , et on pose $S = \sqrt{V_{n}}$ . D'après le théorème de Student, $T = \sqrt{n} \frac{{\bar{X}}_{n} - μ}{S}$ suit une loi de Student à $n - 1$ degrés de liberté. On considère le quantile $t_{1 - α / 2}^{n - 1}$ d'ordre $1 - α / 2$ de la loi de Student à $n - 1$ degrés de liberté. Ainsi, la probabilité d'avoir l'encadrement $- t_{1 - α / 2}^{n - 1} \leq T \leq t_{1 - α / 2}^{n - 1}$ est $1 - α$ . Ainsi, en réécrivant l'encadrement, on a une probabilité de $1 - α$ d'avoir ${\bar{X}}_{n} - t_{1 - α / 2}^{n - 1} \frac{S}{\sqrt{n}} < μ < {\bar{X}}_{n} + t_{1 - α / 2}^{n - 1} \frac{S}{\sqrt{n}}$ . L'intervalle de confiance de niveau $1 - α$ est $[{\bar{X}}_{n} - t_{1 - α / 2}^{n - 1} \frac{S}{\sqrt{n}}, {\bar{X}}_{n} + t_{1 - α / 2}^{n - 1} \frac{S}{\sqrt{n}}]$ .

Intervalle de confiance pour la variance quand l'espérance est connue

On cherche l'intervalle de confiance de niveau $1 - α$ pour la variance $σ^{2}$ en supposons que l’espérance Modèle:Mvar est connue. Pour estimer la variance $σ^{2}$ , on peut calculer l’estimateur $T = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - μ)^{2}$ . En multipliant $T$ par $\frac{n}{σ^{2}}$ , on obtient une somme de carrés de $n$ variables indépendantes qui suivent une loi normale centrée réduite. Ainsi, $\frac{n T}{σ^{2}}$ suit une loi du χ² (« khi-deux ») avec Modèle:Mvar degrés de liberté. L’encadrement par des quantiles Modèle:Math donne un intervalle de confiance défini par $\frac{n T}{k_{2}} < σ^{2} < \frac{n T}{k_{1}}$ .

Intervalle de confiance pour la variance quand l'espérance est inconnue

On cherche l'intervalle de confiance de niveau $1 - α$ pour la variance $σ^{2}$ en supposons que l’espérance Modèle:Mvar est inconnue. On calcule l’estimateur $S^{2} = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \overline{X})^{2}$ , sachant que Modèle:Sfrac suit une loi du χ² avec Modèle:Math degrés de liberté. L’encadrement par des quantiles Modèle:Math donne un intervalle de confiance défini par $\frac{n S^{2}}{k_{2}} < σ^{2} < \frac{n S^{2}}{k_{1}}$ .

Loi uniforme

Modèle:Section à sourcer Pour un échantillon Modèle:Math de variables uniformes sur un intervalle Modèle:Math, la variable Modèle:Math a pour fonction de répartition Modèle:Math sur le même intervalle, d’où $𝐏 (c < M < b) = 1 - α$ pour Modèle:Math.

On obtient alors un intervalle de confiance de b défini par Modèle:Math au niveau Modèle:Math.

Loi exponentielle

Modèle:Section à sourcer

On cherche l'intervalle de confiance de niveau $1 - α$ pour le paramètre Modèle:Math inconnu d'une loi exponentielle. On note Modèle:Surligner est la moyenne empirique calculée à partir d’un échantillon Modèle:Math de variables exponentielles de paramètre Modèle:Math. On rappelle que la moyenne de $X_{i}$ est $1 / λ$ et sa variance $1 / λ^{2}$ . Le théorème central limite permet d’approcher la loi de $\frac{\overline{X} - 1 / λ}{1 / \sqrt{n λ^{2}}}$ par la loi normale centrée réduite, donc en considérant le quantile Modèle:Mvar d'ordre $α / 2$ Modèle:Douteux de cette loi, on obtient un intervalle de confiance défini par $\frac{1 - k / \sqrt{n}}{\overline{X}} < λ < \frac{1 + k / \sqrt{n}}{\overline{X}}$ .

Signification

La notion d'intervalle de confiance apparaît lorsqu'on tente d'obtenir des informations synthétiques sur une population que l'on ne connaît pas entièrement. Dans le cas contraire, en statistique descriptive, le problème se résout par des méthodes purement algébriques. Ici il faut associer à la population une loi de probabilité dont la pertinence doit être justifiée. Ceci conduit à interpréter un élément de la population comme une variable aléatoire et un échantillon comme un ensemble de telles variables.

En particulier, la moyenne et la variance, dites empiriques, calculées à partir de l'échantillon selon les règles algébriques applicables en statistique descriptive, sont elles-mêmes des variables aléatoires dont il est possible de calculer la moyenne et la variance, sous réserve d'indépendance des éléments de l'échantillon. Dans certains cas il est même possible de déterminer leur loi de probabilité. C'est ce qu'on appelle l'échantillonnage.

La moyenne empirique et la variance empirique calculées à partir de réalisations d'un échantillon fournissent donc des estimations aléatoires de la moyenne et de la variance de la loi de probabilité associée à la population.

Si on connaît la loi de probabilité d'une estimation on peut donc en déduire, pour une probabilité de non-dépassement donnée, un intervalle de confiance autour de la valeur estimée, défini comme l'intervalle dans lequel la probabilité a priori de l'estimateur est supérieure à une valeur donnée si la valeur réelle se trouve dans cet intervalle.

Ces notions, présentées ici de manière élémentaire, se généralisent dans la théorie des estimateurs.

Applications

Estimation d'une moyenne

Modèle:Article détaillé L'usage le plus simple des intervalles de confiance concerne les populations à distribution normale (en forme de cloche) dont on cherche à estimer la moyenne Modèle:Surligner. Si on connaît l'écart type Modèle:Math (ou si on en connaît une estimation assez fiable) de cette distribution, et si on mesure la moyenne Modèle:Surligner sur un échantillon de taille Modèle:Mvar pris au hasard, alors

l'intervalle $[\overline{x} - \frac{σ (X)}{\sqrt{n}}; \overline{x} + \frac{σ (X)}{\sqrt{n}}]$ est un intervalle de confiance de Modèle:Surligner à environ 68 %
l'intervalle $[\overline{x} - 2 \frac{σ (X)}{\sqrt{n}}; \overline{x} + 2 \frac{σ (X)}{\sqrt{n}}]$ est un intervalle de confiance de Modèle:Surligner à environ 95 %^[10]
l'intervalle $[\overline{x} - 3 \frac{σ (X)}{\sqrt{n}}; \overline{x} + 3 \frac{σ (X)}{\sqrt{n}}]$ est un intervalle de confiance de Modèle:Surligner à environ 99,7 %

Ces formules sont valables pour des échantillons supposés infinis (Modèle:Math). Dans le cas d'échantillon plus petit, la consultation d'une table de distribution de la loi de Student est nécessaire.

Encore faut-il connaître ou avoir une estimation de l'écart type Modèle:Math. En pratique, on prend comme estimation de Modèle:Math la valeur Modèle:Mvar, l'écart-type de la série de mesures issues de l'échantillon.

Ainsi l'on voit que pour augmenter la confiance, il faut élargir l'intervalle et pour obtenir un intervalle plus fin avec même degré de confiance, il faut augmenter la taille de l'échantillon.

Sondage d'opinion

On cherche à estimer le pourcentage de personnes ayant une voiture rouge. Pour cela on effectue un sondage. Comme on ne sonde pas toute la population, on a de bonnes chances de ne pas tomber exactement sur la bonne valeur mais de faire une erreur. On veut alors donner un intervalle qui a 95 % de chances de contenir la vraie valeur.

Pour cela on effectue un sondage sur 1 000 personnes. Les résultats sont les suivants : 150 personnes ont une voiture rouge, 850 n’en ont pas.

On appelle Modèle:Mvar la « vraie » proportion de personnes dans la population totale qui ont une voiture rouge. On cherche à estimer Modèle:Mvar. On appelle Modèle:Mvar le nombre de personnes ayant été sondées, ici Modèle:Math. On appelle Modèle:Mvar le nombre de personnes ayant une voiture rouge parmi les Modèle:Mvar personnes sondées. L’idée est de présenter comme estimation de Modèle:Mvar la valeur Modèle:Sfrac.

On applique le théorème central limite aux variables aléatoires Modèle:Math où Modèle:Mvar vaut 1 si la i-ème personne sondée a une voiture rouge et 0 sinon. Chaque variable Modèle:Mvar suit une loi de Bernoulli de moyenne Modèle:Mvar et de variance Modèle:Math. Ces variables aléatoires ne sont mathématiquement indépendantes que si l’on laisse la possibilité de sonder éventuellement plusieurs fois la même personne dans le sondage (ce qui s’identifie à un tirage avec remise). Compte tenu de cette remarque, on applique le théorème central limite. Alors :

\frac{S - N p}{\sqrt{N p (1 - p)}}

tend vers une loi normale de moyenne 0 et de variance 1 (car Modèle:Math et Modèle:Mvar est assez grand).

Pour une loi normale de moyenne 0 et de variance 1 on a : Modèle:Math. La valeur -1,96 est le quantile d’ordre 2,5 % de la loi normale. Ces valeurs peuvent se trouver dans des tables de quantiles ou être calculées à partir de la fonction d’erreur réciproque : Modèle:Math par exemple, Modèle:Math (voir par exemple les quantiles de la loi de Student pour un exemple de table de quantile.)

P (- 1, 96 < \frac{S / N - p}{\sqrt{p (1 - p) / N}} < 1, 96) \approx 0, 95 .

Soit encore

P (\frac{S}{N} - 1, 96 \sqrt{p (1 - p) / N} < p < \frac{S}{N} + 1, 96 \sqrt{p (1 - p) / N}) \approx 0, 95 .

En estimant $\sqrt{p (1 - p)}$ par $\sqrt{(S / N) (1 - (S / N))}$ on peut alors encadrer Modèle:Mvar : Modèle:Boîte déroulante

P (\frac{S}{N} - 1, 96 \sqrt{\frac{(S / N) (1 - (S / N))}{N}} < p < \frac{S}{N} + 1, 96 \sqrt{\frac{(S / N) (1 - (S / N))}{N}}) \approx 0, 95

.

L’intervalle de confiance à 95 % vaut alors [0,127 ; 0,173]. On est sûr à environ 95 % qu’entre 12,7 % et 17,3 % de personnes ont une voiture rouge avec ce sondage^[11].

Pour avoir une plus grande précision, il faudrait sonder plus de personnes. On remarque en effet l’existence d’un Modèle:Mvar apparaissant au dénominateur des deux racines carrées. Si on sonde plus de personnes (Modèle:Mvar plus grand), ces deux termes auront tendance à devenir plus petits et l’intervalle sera plus petit.

Remarque

À la suite des diverses approximations du raisonnement, le résultat d’une confiance à 95 % n’est pas toujours assuré. On arrive à un résultat inférieur à 95 % pour certaines valeurs de Modèle:Mvar et Modèle:Mvar. Par exemple :

si Modèle:Math et Modèle:Math, alors

P (\frac{S}{N} - 1, 96 \sqrt{\frac{(S / N) (1 - (S / N))}{N}} < p < \frac{S}{N} + 1, 96 \sqrt{\frac{(S / N) (1 - (S / N))}{N}}) ≃ 0, 9431

;

si Modèle:Math et Modèle:Math, alors

P (\frac{S}{N} - 1, 96 \sqrt{\frac{(S / N) (1 - (S / N))}{N}} < p < \frac{S}{N} + 1, 96 \sqrt{\frac{(S / N) (1 - (S / N))}{N}}) ≃ 0, 9370

;

si Modèle:Math et Modèle:Math, alors

P (\frac{S}{N} - 1, 96 \sqrt{\frac{(S / N) (1 - (S / N))}{N}} < p < \frac{S}{N} + 1, 96 \sqrt{\frac{(S / N) (1 - (S / N))}{N}}) ≃ 0, 9426

…

Cas particulier où le sondage porte sur un échantillon de taille non négligeable par rapport à celle de la population totale

On effectue un sondage sur Modèle:Mvar personnes différentes, prises aléatoirement dans une population totale de Modèle:Mvar individus. On suppose que Modèle:Mvar n’est pas négligeable devant Modèle:Mvar (par exemple $N / M = 1 / 3$ ), si bien que le théorème central limite ne s’applique plus vraiment (pour cause de non-indépendance des variables aléatoires $X_{i}$ décrites au-dessus). On appelle p la « vraie » proportion de personnes dans la population totale, et on appelle Modèle:Mvar le nombre de personnes ayant été sondées (par exemple $N = 1000$ ). On appelle Modèle:Mvar le nombre de personnes ayant une voiture rouge parmi les Modèle:Mvar personnes différentes. Alors Modèle:Mvar suit une loi proche de la loi normale d’espérance $N p$ et, non pas de variance $N p (1 - p)$ , mais de variance $N p (1 - p) (1 - N / M)$ . Cette dernière est plus petite et réduit ainsi d’autant la longueur de l’intervalle de confiance, lequel est alors : $(\frac{S}{N} - 1, 96 \sqrt{\frac{(S / N) (1 - S / N) (1 - N / M)}{N}} < p < \frac{S}{N} + 1, 96 \sqrt{\frac{(S / N) (1 - S / N) (1 - N / M)}{N}})$

Cas particulier avec de faibles (ou fortes) probabilités

Si le résultat du sondage est qu’aucune personne n’a de voiture rouge sur les 1 000 interrogés, cela ne signifie pas qu’il n’existe aucune voiture rouge. Selon « la règle de trois (en)»^[12], l’estimation de la borne supérieure de l’intervalle de confiance est de 3/n, soit 3/1 000 dans l’exemple. D’où l’estimation de 0 % de personnes possédant une voiture rouge avec un intervalle de confiance de [0 % ; 0,3 %].

Estimation de l'espérance de la loi exponentielle

On cherche à estimer l'espérance Modèle:Surligner où Modèle:Mvar suit la loi exponentielle. On se fixe un niveau de confiance Modèle:Math et on calcule Modèle:Math (quantile d'ordre P de la loi normale). Si on mesure la moyenne Modèle:Surligner sur un échantillon de taille Modèle:Mvar pris au hasard, alors l'intervalle $I (n, q) = [\frac{\overline{x}}{1 + q / \sqrt{n}}; \frac{\overline{x}}{1 - q / \sqrt{n}}]$ est un intervalle de confiance de Modèle:Surligner à un niveau de confiance proche de Modèle:Mvar, cela quels que soient le niveau Modèle:Math et la taille de l'échantillon Modèle:Math.

Par exemple, si la moyenne d'un échantillon de taille Modèle:Math est Modèle:Math, alors l'intervalle de confiance à P=95 % est $I (20, 1, 96) = [\frac{3}{1 + 1, 96 / \sqrt{20}}; \frac{3}{1 - 1, 96 / \sqrt{20}}] ≃ [2, 09; 5, 34]$ . Cela étant, lorsque la taille de l'échantillon et le niveau de confiance sont fixés, on peut calculer facilement un intervalle de confiance Modèle:Mvar de longueur inférieure à celle de Modèle:Math et de manière exacte : par exemple, si on fixe Modèle:Math et P = 95 %, alors on obtient l'intervalle de confiance $J = [\frac{\overline{x}}{1, 63}; \frac{\overline{x}}{0, 65}]$ (qui donne environ [1,84 ; 4,61] lorsque Modèle:Math). Le lecteur en trouvera la preuve dans le premier exemple de la page 295 du livre de Delmas "Introduction au calcul des probabilités et à la statistique" (en référence ci-dessous).

De façon plus globale

L'intervalle de confiance mesure le degré de précision que l'on a sur les estimations issues de l'échantillon. Il y a deux sources principales de variations sur les données qui peuvent être la cause d'un manque de précision dans l'estimation d'une grandeur.

Un nombre insuffisant de données : par exemple, dans le cas d'un sondage, on ne sonde pas toute la population mais qu'une fraction de la population. De même, pour les mesures physiques, on n'effectue qu'un nombre fini de mesures alors qu'il faudrait souvent en théorie pouvoir en faire une infinité pour obtenir un résultat parfait.
Il peut également y avoir du bruit dans la mesure des données ce qui est pratiquement toujours le cas pour la mesure des grandeurs physiques.

Parmi les méthodes d'estimation, nous pouvons citer l'estimation par intervalle de confiance. Il s'agit de trouver un intervalle contenant un paramètre (inconnu) à estimer avec une probabilité ou niveau de confiance de Modèle:Math. Pour Modèle:Mvar un paramètre (inconnu) à estimer, on souhaite déterminer Modèle:Mvar et Modèle:Mvar tels que :

ℙ (a < p < b) = 1 - α

ce qui est impossible. Par contre, si on appelle Modèle:Mvar la valeur exacte du paramètre, et que la valeur mesurée suit une loi de probabilité dépendant de Modèle:Mvar : $ℙ_{p}$ , l'intervalle de confiance Modèle:Math (au « niveau de confiance » Modèle:Math) relatif à une observation Modèle:Mvar constatée, est l'intervalle dans lequel, pour toute valeur Modèle:Mvar,

ℙ_{p} (x : p \in I (x)) \geq 1 - α

.

Pour un Modèle:Mvar donné, c'est la probabilité d'observer une valeur Modèle:Mvar pour laquelle le paramètre à estimer soit dans l'intervalle de confiance associé à cette observation Modèle:Mvar.

Ceci ne signifie pas que « la probabilité que la valeur réelle soit dans Modèle:Math est Modèle:Math », ce qui n'aurait pas de sens puisque la valeur réelle n'est pas une variable aléatoire. Cela signifie que « si la valeur réelle n'est pas dans Modèle:Math, la probabilité a priori du résultat de l'observation que l'on a obtenu était inférieure à Modèle:Mvar ». Par exemple si le paramètre n'est pas dans l'intervalle, c'est que l'observation effectuée correspond à un phénomène rare dans lequel l'intervalle de confiance ne contient pas la vraie valeur.

Notes et références

Modèle:Références

Voir aussi

Articles connexes

Liens externes

Modèle:Lien web
Introduction au calcul des probabilités et à la statistique, livre de 315 pages.

Bibliographie

Schenker N & Gentleman JF (2001) On judging the significance of differences by examining the overlap between confidence intervals. Am. Stat. 55, 182–186.

Modèle:Palette Modèle:Portail

↑ Modèle:Article.
↑ Plus précisément, il calcule son inverse, appelé « multiplicateur des naissances ».
↑ Alain Desrosières, « Le nombre et la constitution », Histoire des nombres, Éditions Tallandier, Paris 2007.
↑ Georges Morlat, « Statistique », Dictionnaire des mathématiques – fondements, probabilités, applications, Encyclopædia Universalis et Albin Michel, Paris 1998.
↑ Les valeurs de Modèle:Mvar indiquées correspondent au quantile double, puisque les intervalles sont symétriques par rapport à 0.
↑ Gilles Saporta, Probabilités, analyse de données et statistique, §13.5.4 « Intervalle de confiance pour une proportion p », Éditions TECHNIP, Paris 2011
↑ Voir par exemple le document ressource pour les probabilités de la classe de terminale en France, page 32, réalisé par le Ministère de l’éducation nationale en février 2012.
↑ ^8,0 ^8,1 et ^8,2 Modèle:Ouvrage
↑ Gilles Saporta, Probabilités, analyse de données et statistique, §13.5 « L’estimation par intervalles », Éditions TECHNIP, Paris 2011
↑ l'intervalle de confiance à 95 % est plus précisément $] \overline{x} - 1, 96 \frac{σ (X)}{\sqrt{n}}; \overline{x} + 1, 96 \frac{σ (X)}{\sqrt{n}} [$
↑ L’interprétation correcte de cette probabilité est la suivante. Si l’on prend 100 échantillons de 1 000 personnes et pour chaque échantillon on calcule un intervalle de confiance, alors dans 95 de ces intervalles on trouve Modèle:Mvar et dans 5 la proportion Modèle:Mvar est en dehors. On a donc une confiance de 95 %.
↑ Hanley JA L-HA. If nothing goes wrong, is everything all right?: Interpreting zero numerators. JAMA. avr 1983 ; 249(13):1743-1745.

[1] Modèle:Article.

[2] Plus précisément, il calcule son inverse, appelé « multiplicateur des naissances ».

[3] Alain Desrosières, « Le nombre et la constitution », Histoire des nombres, Éditions Tallandier, Paris 2007.

[4] Georges Morlat, « Statistique », Dictionnaire des mathématiques – fondements, probabilités, applications, Encyclopædia Universalis et Albin Michel, Paris 1998.

[5] Les valeurs de Modèle:Mvar indiquées correspondent au quantile double, puisque les intervalles sont symétriques par rapport à 0.

[6] Gilles Saporta, Probabilités, analyse de données et statistique, §13.5.4 « Intervalle de confiance pour une proportion p », Éditions TECHNIP, Paris 2011

[7] Voir par exemple le document ressource pour les probabilités de la classe de terminale en France, page 32, réalisé par le Ministère de l’éducation nationale en février 2012.

[:0-8] 8,0 ^8,1 et ^8,2 Modèle:Ouvrage

[9] Gilles Saporta, Probabilités, analyse de données et statistique, §13.5 « L’estimation par intervalles », Éditions TECHNIP, Paris 2011

[10] 'intervalle de confiance à 95 % est plus précisément $] \overline{x} - 1, 96 \frac{σ (X)}{\sqrt{n}}; \overline{x} + 1, 96 \frac{σ (X)}{\sqrt{n}} [$

[11] L’interprétation correcte de cette probabilité est la suivante. Si l’on prend 100 échantillons de 1 000 personnes et pour chaque échantillon on calcule un intervalle de confiance, alors dans 95 de ces intervalles on trouve Modèle:Mvar et dans 5 la proportion Modèle:Mvar est en dehors. On a donc une confiance de 95 %.

[12] Hanley JA L-HA. If nothing goes wrong, is everything all right?: Interpreting zero numerators. JAMA. avr 1983 ; 249(13):1743-1745.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Intervalle de confiance

Sommaire

Définition

Histoire

Exemple introductif : encadrement d'une proportion

Contexte

Obtention de l'intervalle de fluctuation

De l'intervalle de fluctuation vers l'intervalle de confiance

Principe général

Intervalles de référence

Démonstrations

Loi normale

Intervalle de confiance pour la moyenne quand l'écart type est connu

Intervalle de confiance pour la moyenne quand l'écart type est inconnu

Intervalle de confiance pour la variance quand l'espérance est connue

Intervalle de confiance pour la variance quand l'espérance est inconnue

Loi uniforme

Loi exponentielle

Signification

Applications

Estimation d'une moyenne

Sondage d'opinion

Estimation de l'espérance de la loi exponentielle

De façon plus globale

Notes et références

Voir aussi

Articles connexes

Liens externes

Bibliographie

Menu de navigation

Intervalle de confiance

Définition

Histoire

Exemple introductif : encadrement d'une proportion

Contexte

Obtention de l'intervalle de fluctuation

De l'intervalle de fluctuation vers l'intervalle de confiance

Principe général

Intervalles de référence

Démonstrations

Loi normale

Intervalle de confiance pour la moyenne quand l'écart type est connu

Intervalle de confiance pour la moyenne quand l'écart type est inconnu

Intervalle de confiance pour la variance quand l'espérance est connue

Intervalle de confiance pour la variance quand l'espérance est inconnue

Loi uniforme

Loi exponentielle

Signification

Applications

Estimation d'une moyenne

Sondage d'opinion

Estimation de l'espérance de la loi exponentielle

De façon plus globale

Notes et références

Voir aussi

Articles connexes

Liens externes

Bibliographie

Menu de navigation

Rechercher