La statistique est une science qui a pour objet le groupement méthodique des faits qui se prêtent à une évaluation numérique d'événements qui peuvent se répéter dans le temps suivant une loi donnée..

Il faut savoir que parmis tous les domaines de la mathématique, celle qui est utilisée à la plus large échelle dans un cadre professionnel dans les entreprises est bien la statistique! Que ce soit en gestion du risque, dans l'analyse des plans d'expérience, dans le marketing, dans la gestion de projets, dans la gestion de fortune, la logistique ou dans le domaine de l'assurance, physique statistique, la physique quantique et la liste encore très très longue! Raison pour laquelle ce chapitre est un des plus gros de tout le site Internet alors que seuls les concepts élémentaires sont présentés.

Définition: Le but principal de la statistique est de déterminer les caractéristiques d'une population donnée à partir de l'étude d'une partie de cette population, appelée "échantillon" ou "échantillon représentatif".

Remarque: Le traitement des données concerne la "statistique descriptive". L'interprétation des données à partir des estimateurs s'appelle "l'inférence statistique" (ou "statistique inférentielle"), et l'analyse de données en masse la "statistique fréquentielle" (en opposition à l'inférence bayesienne).

Lorsque nous observons un événement prenant en compte certains facteurs, il peut arriver qu'une deuxième observation ait lieu dans des conditions qui semblent identiques. En répétant ces mesures plusieurs fois, nous pouvons constater que les résultats observables sont distribuées statistiquement autour d'une valeur moyenne qui est, finalement le résultat possible le plus probable. Dans la pratique, nous n'effectuons cependant parfois qu'une seule mesure et il s'agit alors de déterminer la valeur de l'erreur que nous commettons en adoptant celle-ci comme moyenne mesurée. Cette détermination nécessite de connaître le type de distribution statistique auquel nous avons à faire et c'est que nous allons nous attarder (entre autres) à étudier ici (les bases du moins!).

Remarque: Il est peut être inutile de préciser que la statistique est beaucoup utilisée en physique théorique, en économétrie, en gestion de projets, dans l'industrie des processus, dans le domaines des assurances vies et non vies, dans l'actuariat ou dans la simple analyse de banque de données (avec MS Excel très souvent... malheureusement....) et la liste est encore longue. Par ailleurs, nous rencontrerons les outils présentés ici assez souvent dans le chapitres de mécanique des fluides, de thermodynamique, des techniques de gestions et d'économétrie (en particuliter dans ces deux dernières). Le lecteur pourra donc s'y reporter pour avoir des applications pratiques concrètes des quelques-uns des éléments théoriques les plus importants qui seront vus ici.

Il existe cependant plusieurs approches méthodologiques courantes (les moins courantes n'étant pas citées pour l'instant) face au hasard :

1. Une toute première consiste à ignorer purement et simplement les élément aléatoires, pour la bonne raison que l'on ne sait pas comment les intégrer. Nous utilisons alors la "méthode des scénarios" appelé aussi "simulation déterministe". C'est typiquement un outil utilisé par les financiers ou gestionnaires non diplômés travailant avec des outils comme MS Excel (qui inclut un outil de gestion de scénarios) ou MS Project (qui inclut un outils de type scénarios optimiste, pessimiste, attendu).

2. Une seconde approche envisageable, quand nous ne savons pas associer des probabilités précises aux futurs événements aléatoires est la théorie des jeux (cf. chapitre de la Théorie Des Jeux Et De La Décision) où l'on utilise des critères de sélection semi-empiriques comme le critère du maximax, du minimax, de Laplace, de Savage, etc.

3. Enfin, quand nous pouvons lier des probabilités aux événements aléatoires, soit que ces probabilités découlent de calculs ou de mesures, soit qu'elle reposent sur une expérience acquise auprès de situations antérieurs de même nature que la situation actuelle, nous pouvons faire appel aux statistiques descriptives (contenu du présent chapitre) pour tirer des informations exploitables et pertinentes de cette masse de données acquises.

4. Une dernière approche quand nous avons connaissance de probabilités relatives aux issues intervenantes faisant suite à des choix stratégiques est l'utilisation de la théorie de la décision (cf. chapitre de la Théorie Des Jeux Et De La Décision).

Remarque: Sans la statistique mathématique, un calcul sur des données (par exemple une moyenne), n'est qu'un "indicateur". C'est la statistique mathématique qui lui donne le statut d'estimateur dont on maîtrise le biais, l'incertitude et autres caractéristiques statistiques. On cherche en général à ce que l'estimateur soit sans biais, convergeant et efficace.

Introduisons avant de continuer quelques définitions qui vont nous être utiles pour la suite sur le concept d'échantillons et de moyennes :

ÉcHANTILLONS

Lors de l'étude statistiques d'ensembles d'informations, la façon de sélectionner l'échantillon est aussi importante que la manière de l'analyser. Il faut que l'échantillon soit représentatif de la population (nous ne faisons pas nécessairement référence à des êtres humains!). Pour cela, l'échantillonnage aléatoire est le meilleur moyen d'y parvenir.

Le statisticien part toujours de l'observation d'un ensemble fini d'éléments, que nous qualifions de "population". Les éléments observés, en nombre n, sont tous de même nature, mais cette nature peut être fort différente d'une population à l'autre.

Définitions:

D1. Nous sommes en présence d'une "caractère quantitatif" lorsque chaque élément observé fait explicitement l'objet d'une même mesure. A un caractère quantitatif donné, nous associons une "variable quantitative" qui synthétise toutes les valeurs possibles que la mesure considérée est susceptible de prendre (ce type d'information étant représenté par des courbes de Gauss, de Bêta, de Poisson, etc.)

Remarque: Nous reviendrons sur le concept de "variable" en statistiques plus loin...

D2. Nous sommes en présence d'une "caractère qualitatif" lorsque chaque élément observé fait explicitement l'objet d'un rattachement unique à une "modalité" (nombre d'occurrences dans l'observation) choisie dans un ensemble de modalités exclusives permettant de classer tous les éléments de l'ensemble étudié selon un certain point de vue (ce type d'information étant représenté par des diagrammes à barre, fromages, diagrammes à bulles, etc.).

D3. Un "échantillon aléatoire" est un échantillon tiré au hasard dans lequel tous les individus d'une population ont la même chance, ou "équiprobabilité" (et nous insistons sur le fait que cette probabilité doit être égale), de se retrouver dans l'échantillon.

D4. Dans le cas contraire d'un échantillon dont les éléments n'ont pas été pris au hasard, nous disons alors que l'échantillon est "biaisé" (dans le cas inverse nous disons qu'il est "non-biaisé")

Remarque: Un petit échantillon représentatif est, de loin, préférable à un grand échantillon biaisé.

En fait, lorsque la taille des échantillons utilisés est petite, le hasard peut donner un résultat moins bon que celui qui est biaisé.

MOYENNES

La notion de "moyenne" ou "tendance centrale" est avec la notion de variable à la base des statistiques.

Cette notion nous semble très familière et nous en parlons beaucoup sans nous poser trop de questions. Pourtant il existe divers qualificatifs (nous insistons sur le fait que ce ne sont que des qualificatifs) pour distinguer la forme de la résolution d'un problème consistant à calculer la moyenne.

Il faut donc être très très prudent quand aux calculs des moyennes car nous avons une fâcheuse tendance à nous précipiter et à utiliser systématiquement la moyenne arithmétique sans réfléchir, ce qui peut amener à de graves erreurs !

Nous verrons ci-dessous différentes moyennes avec des exemples relatifs à l'arithmétique, au dénombrement, à la physique, à l'économétrie, à la géométrie. Le lecteur trouvera d'autres exemples en parcourant l'ensemble du site.

Définitions: Soit des nombres réels, nous avons alors :

D1. La "moyenne arithmétique" notée ou encore est définie par :

(1)

La moyenne arithmétique est une notion connue de tous comme étant le quotient de la somme des n par l'effectif n. valeurs observées

Si plusieurs valeurs occurrent plus d'une fois dans les mesures, la moyenne arithmétique sera alors bien évidemment donnée par :

(2)

Remarque: Le "mode", noté Mod, est par définition la valeur qui apparaît le plus grand nombre de fois dans une série de valeurs.

Mais, pour calculer cette moyenne, nous pouvons tout aussi bien utiliser les fréquences d'apparition des valeurs observées (fréquence des classes). Effectivement, puisque par définition et que l'une des propriétés des l'opérateur est que, pour une constante k quelconque nous ayons :

(3)

Nous pouvons alors écrire avec :

(4)

Cette relation est un cas particulier de la relation ci-dessous :

(5)

définissant la "moyenne pondérée" qui pondère les valeurs par un coefficient tel que la somme des ces coefficients soit égale à 1.

Plus loin, nous verrons deux propriétés extrêmement importantes de la moyenne arithmétique qu'il vous faudra absolument lire (moyenne pondérée des écarts à la moyenne et la moyenne des écarts à la moyenne est nulle).

D2. La "médiane" ou "moyenne milieu" :

Soit une série de valeurs ordonnées , la médiane est par définition la valeur de la variable telle que l'on ait autant d'éléments qui ont une valeur qui lui est supérieure ou égale, que d'éléments qui ont une valeur qui lui est inférieur ou égale.

Plus rigoureusement :

- Si le nombre de termes dest impair, de la forme 2n+1, la médiane de la série est le terme de rang n+1

- Si le nombre de termes est pair, de la forme 2n, la médiane de la série est la demi somme (moyenne arithmétique) des valeurs des termes de rang n et n + 1.

Dans tous les cas, de par cette définition, il découle qu'il y a au moins 50 % des termes de la série inférieurs ou égaux à la médiane, et au moins 50% des termes de la série supérieurs ou égaux à la médiane.

En relation avec la médiane il est important de définir le concept de dispersion des écarts absolus.

Définition: Soit donné un série statistique , nous appelons "dispersion des écarts absolus" autour de x le nombre défini par :

(6)

est minimum pour une valeur de x la plus proche d'une valeur donnée au sens de l’écart absolu. La médiane est la valeur qui réalise ce minimum. En effet, nous pouvons écrire :

(7)

Donc :

(8)

est donc une fonction affine (assimilable à l'équation d'une droite pour r et n fixés) par morceaux (discrète) où l'on peut assimiler le facteur (2r-n) à la pente et:

à l'ordonnée à l'origine.

La fonction est donc décroissante (pente négative) tant que r est inférieur à n/2 et croissante quand rn/2. Plus précisément, nous distinguons deux cas qui nous intéressent particulièrement : est supérieur à

- Si n est pair, nous pouvons poser , alors la pente peut s'écrire et elle est nulle si et dès lors puisque ce résultat n'est valable que pour alors est constante sur

Effectivement, si nous avons :

(9)

- Si n est impair, (on coupe la série en deux parties égales), alors est décroissante puis croissante avec un minimum pour .

Nous retrouvons donc bien la médiane dans les deux cas. Nous verrons plus loin comment la médiane est définie pour une variable aléatoire continue.

La question qui se pose ensuite est celle de la pertinence du choix de la moyenne ou de la médiane.

Exemple:

Pour une entreprise, de façon générale, le salaire moyen et le salaire médian sont très différents et la comparaison du salaire moyen et du salaire médian permet d’obtenir des renseignements sur la répartition des employés par catégories socio-professionnelles. Dans un examen, c’est la moyenne qui va être utile, dans un concours, c'est la médiane.

Il convient aussi de noter que la moyenne arithmétique est perturbée par des données aberrantes, pas la médiane. Pour éviter d’obtenir une moyenne ayant peu de sens, on calcule parfois une "moyenne élaguée", c’est à dire une moyenne calculée après avoir enlevé des valeurs aberrantes à la série.

Remarque: Les "quantiles" généralisent la notion de médiane en coupant la distribution en des ensembles données de parties égales (de même cardinal pourrions nous dire...) ou autrement dit en intervalles réguliers. Nous définissons ainsi les "quartiles", les "déciles" et les "centiles" (ou "percentiles") sur la population, ordonnée dans l'ordre croissant, que l'on divise en 4, 10 ou 100 parties de même effectif. Ce concept est très important dans le cadre des intervalles de confiance que nous verrons beaucoup plus loin dans ce chapitre.

Exemple:

Les banques font de l'analyse par quartiles du positionnement d'un fonds (cf. chapitre d'Econométrie) en fonction des différentes tendances du marché. La notion de quartile y connaît cependant deux interprétations. Dans le premier cas, nous entendons par quartile le nombre de fonds équivalent aux 25 % du total de la catégorie. Le premier quartile couvrira ainsi les 25 % de fonds ayant réalisé les meilleurs rendements, le quatrième les plus mauvais. Mais l'analyse par quartiles peut aussi être menée sur les rendements plutôt que sur les fonds. Dans ce cas, on entendra par quartile un spectre de rendements équivalent aux 25 % de l'intervalle compris entre le meilleur rendement réalisé et le moins bon.

Nous parlerons ainsi du centile 90 pour indiquer la valeur séparant les premiers 90% de la population des 10% restant

D3. La "moyenne quadratique" parfois simplement notée Q qui est définie par :

(10)

avec m=2.

Remarque: C'est une des moyennes les plus connues en statistiques car l'écart-type est une moyenne quadratique (voir plus loin).

Exemple:

Soit un carré de côté a , et un autre carré de côté b. La moyenne des aires des deux carrés est égale à :

(11)

Au fait, cette moyenne à peu d'intérêt et elle peut être généralisée aussi à des formes de dimensions m plus élevées selon la relation donnée dans la définition.

D4. La "moyenne harmonique" parfois simplement notée H qui est définie par :

(12)

peu connue mais découle souvent de raisonnements simples et pertinents.

Exemple:

Soit une distance d parcourue dans un sens à la vitesse et dans l'autre (ou pas) à la vitesse . La vitesse moyenne s'obtiendra en divisant la distance totale 2d par le temps mis à la parcourir:

(13)

Si nous calculons le temps mis lorsqu'on parcourt d avec une vitesse c'est tout simplement le quotient:

(14)

Le temps total vaut donc:

(15)

La vitesse moyenne (son inverse pour être exacte) sera donc bien du type harmonique :

(16)

D5. La "moyenne géométrique" parfois notée simplement G qui est définie par :

(17)

Cette moyenne est souvent oubliée mais néanmois très connue dans le domaine de l'économétrie (surtout quand nous étudierons le rendement géométrique moyen) et de la finance d'entreprise (cf. chapitre Techniques De Gestion).

Exemple:

Supposons qu'une banque offre une possibilité de placement et prévoit pour la première année un intérêt (c'est absurde mais c'est un exemple) de , mais pour la deuxième année un intérêt de Au même moment une autre banque offre un intérêt constant pour deux ans: X%. C'est pareil, dirons-nous un peu rapidement. En fait les deux placements n'ont pas la même rentabilité.

Dans la première banque, un capital deviendra au bout de la première année:

(18)

et la seconde année:

(19)

Dans l'autre banque nous aurons au bout d'un an:

(20)

et après la seconde année:

(21)

etc...

Comme vous pouvez le voir le placement ne sera pas identique si contrairement à ce que vous auriez pu penser au début.

Donc X% n'est donc pas la moyenne de et .

Posons maintenant:

et (22)

Quelle est en fait la valeur moyenne r ?

Au bout de deux ans le capital est multiplié par . Si la moyenne vaut r il sera alors multiplié par . Nous avons donc la relation:

(23)

C'est un exemple d'application où nous retrouvons donc la moyenne géométrique.

D6. La "moyenne mobile", apellée aussi "moyenne glissante", qui est définie par :

(24)

La moyennes mobile est particulièrement utilisée en économie, où ells permett de représenter un courbe de tendance de moyenne mobile d'un série de valeurs, dont le nombre de points est égal au nombre total de points de la série de valeurs moins le nombre que vous spécifiez pour la période.

Une Moyenne Mobile (MM) est une courbe calculée à partir des moyennes des cours d'une valeur, sur une période donnée: chaque point d'une moyenne mobile sur 100 séances est la moyenne des 100 derniers cours de la valeur considérée.

Cette courbe, affichée simultanément avec la courbe d'évolution des cours de la valeur, permet de lisser les variations journalières de la valeur, et de dégager une tendance haussière si la moyenne mobile est croissante avec les cours de la valeur situés au dessus de la Moyenne Mobile et baissière si la moyenne mobile est décroissante avec les cours de la valeur situés au dessous de la moyenne mobile

Les moyennes mobiles peuvent être calculées sur différentes périodes, ce qui permet de dégager des tendances à court terme (20 séances selon les habitudes de la branche), moyen terme (50-100 séances) ou long terme (plus de 200 séances).

(25)

Les croisements des moyennes mobiles par la courbe des cours (découpée avec une certaine granularité) de la valeur génèrent des signaux d'achat ou de vente (selon les professionnels) suivant le cas:

- Signal d'achat: lorsque la courbe des cours franchit la MM vers le haut sur de bons volumes de transactions et que la MM sert de support à la courbe des cours.

- Signal de vente: lorsque la courbe des cours franchit la MM vers le bas et que la MM sert de résistance à la courbe des cours.

Outre la moyenne mobile, précisons qu'il existe une quantité d'autres indicateurs artificiels souvent utilisés en finance. Citons par exemple le "upside/downside ratio".

L'idée est la suivante: Si vous avec un produit financier (cf. chapitre d'Économétrie) actuellement de prix (prix courant) pour lequel vous avez un objectif de gain haut à un prix haut correspondant que noterons (high price) et inversement le potentiel de perte que vous estimez à un prix (low price).

Alors, le rapport:

(26)

donne le Upside/Downside Ratio.

Par exemple, un produit financier de 10.- avec un prix bas de 5.- et un prix haut de 5.- a donc un ratio et donc un facteur spéculatif identique pour permette le grain ou une perte de 5.-.

Un produit financier de 10.- avec un prix bas de 5.- et un prix haut de 20.- a donc un donc deux fois le potentiel spéculatif de gain par rapport à celui de perte.

Certaines associations boursières recommandent de refuser les inférieurs à 3. Les investisseurs ont tendance à rejeter les trop élevés pouvant être un signe de gonflage artificiel.

D7. La "moyenne pondérée" qui est définie par :

(27)

La moyenne pondérée (dont nous avons déjà fait mention plus haut) est utilisée par exemple en géométrie pour localiser le barycentre d'un polygone, en physique pour déterminer le centre de gravité ou en statistique et probabilité pour calculer une espérance (le dénominateur étant toujours égale à l'unité en probabilités) et en gestion de projets pour estimers les durées des tâches.

Dans le cas général le poids représente l'influence de l'élément par rapport aux autres.

D8. La "moyenne fonctionnelle" ou "moyenne intégrale" est définie par :

(28)

où dépend d'une fonction f d'une variable réelle intégrable (cf. chapitre de Calcul Différentiel Et Intégral) sur un intervalle [a,b].

PROPRIÉTÉS DES MOYENNES

Voyons maintenant quelques propriétés pertinentes qui relient quelques-unes de ces moyennes ou qui sont propres à une moyenne donnée.

Les premières propritéés sont importantest donc prenez garde à bien les comprendre :

P1. Le calcul des moyennes arithmétique, quadratique, géométrique et harmonique peuvent êtres généralisé à l'aide de la relation suivante :

(29)

où nous retrouvons :

1. Pour , la moyenne arithmétique

2. Pour , la moyenne quadratique

3. Lorsque , la limite est la moyenne géométrique

4. Pour , la moyenne harmonique

P2. La moyenne arithmétique a une propriété de linéarité, c'est-à-dire que (sans démonstration car quand même simple à vérifier) :

(30)

C’est la version statistique de la propriété de l’espérance en probabilité que nous verrons plus loin.

P3. La somme pondérée des écarts à la moyenne arithmétique est nulle.

Démonstration:

D'abord, par définition, nous savons que :

et (31)

il s'ensuit que :

(32)

Ainsi, cet outil ne peut être utilisé comme mesure de dispersion!

C.Q.F.D.

Par extension la moyenne des écarts à la moyenne pondéré par les effectifs est nulle aussi :

(33)

Ce résultat est relativement important car il permettra plus loin de mieux saisir le concept d'écart-type et de variance.

P4. Soit à démontrer :

(34)

Démonstration:

Tout d’abord, nous prenons 2 nombres réels non nuls et tels que et nous écrivons :

1. La moyenne arithmétique :

(35)

2. La moyenne géométrique :

(36)

3. La moyenne harmonique :

(37)

4. La moyenne quadratique :

(38)

Remarque: Les comparaisons entre les moyennes précitées et la médiane ou encore les moyennes glissantes et pondérées n'ont pas de sens c'est pour cela que nous nous abstenons à les faire.

Prouvons déjà que par l'absurde en posant :

(39)

Par commodité posons nous savons que . Or :

(40)

et nous cherchons à montrer que n'est pas possible. Mais ceci découle des équivalences suivantes :

(41)

Il y donc contradiction et ce qui vérifie notre hypothèse initiale :

(42)

Regardons maintenant si :

Sous l'hypothèse . Nous cherchons donc maintenant à montrer que :

(43)

Or nous avons les équivalences suivantes :

(44)

et la dernière expression est évidement correcte.

Or le carré d'un nombre est toujours positif ce qui vérifie notre hypothèse initiale :

(45)

Nous prouvons maintenant et démontrons-le par l'absurde en posant :

(46)

Or le carré d'un nombre est toujours positif ce qui vérifie notre hypothèse initiale :

(47)

Nous avons donc bien :

(48)

Démontrons par l'absurde que en posant et que .

Démonstration:

Nous avons alors :

(49)

Il y a donc contradiction avec l'hypothèse initiale et nous avons donc bien :

(50)

C.Q.F.D.

Ces inégalités démontrées, nous pouvons alors passer à une figure que nous attribuons à Archimède pour placer trois de ces moyennes. L'intérêt de cet exemple est de montrer qu'il existe des relations remarquables parfois entre la statistique et le géométrie (fruit du hasard ).

(51)

Nous allons d'abord poser et O est le milieu de . Ainsi, le cercle dessiné O et de rayon . D est l’intersection de la perpendiculaire à passant par B et du cercle (nous choisissons l’intersection que nous voulons). H est quant à lui le projeté orthogonal de B sur . est de centre

Archimède affirme que est la moyenne arithmétique de a et b et que est la moyenne géométrique de a et b, et la moyenne harmonique de a et b.

Nous démontrons donc que (trivial) :

Donc est bien la moyenne arithmétique de a et b.

Ensuite nous avons dans le triangle rectangle ADB:

(52)

Puis dans le triangle rectangle nous avons :

(53)

Nous additionnons alors ces deux égalités, et nous trouvons :

(54)

Nous savons que D est sur un cercle de diamètre , donc ADC est rectangle en D, donc :

(55)

Puis nous remplaçons et par a et b:

(56)

Et donc, est bien la moyenne géométrique de a et b.

Nous reste à prouver alors que est la moyenne harmonique de a et b :

Nous avons dans un premier temps (projection orthogonale) :

(57)

Puis nous avons aussi (projection orthogonale aussi):

(58)

Nous avons donc :

(59)

et comme , nous avons donc :

(60)

est donc bien la moyenne harmonique de a et b, Archimède ne s’était pas trompé.

TYPES DE VARIABLES

Lorsque nous avons parlé des échantillons au début de ce chapitre, nous avons fait mention de deux types d'informations : les variables quantitatives et qualitatives. Nous n'avons cependant pas précisé qu'il existait deux types de variables quantitatives très importantes qu'il convient absoluement de différencier :

1. Les variables discrètes

2. Les variables continues

Voyons de près de quoi il s'agit car maintenant que le concept de moyenne vous est connu, nous allons pouvoir aborder des calculs plus formels et qui prendront tout leur sens :

VARIABLES DISCRÈTES

Soit X un variable indépendante (un élément d'un échantillon dont la propriété est indépendante des autres éléments) qui peut prendre les valeurs aléatoires discrètes dans avec les probabilités respectives où, de par l'axiomatique des probabilités:

(61)

Alors nous définissons "l'espérance mathématique" de la variable X par:

(62)

En d'autres termes, nous savons qu'à chaque événement de l'espace des échantillons est associé une probabilité à laquelle nous associons également une valeur (donnée par la variable aléatoire). La question étant alors de savoir quelle valeur, à long terme, nous pouvons obtenir. La valeur espérée, (l'espérance mathématique donc...) est alors la moyenne pondérée, par la probabilité, de toutes les valeurs des événements de l'espace des échantillons.

Si la probabilité est donnée par une fonction de distribution (voir les définitions de fonctions de distribution plus bas) de la variable aléatoire, nous avons:

(63)

Remarque: peut être notée s'il n'y pas de confusion possible.

Voici quelque propriétés mathématiques importantes de l'espérance (linéarité):

P1. Mutiplication par une constante :

(64)

P2. Somme de deux variables aléatoires :

(65)

P3. Espérance d'une constante :

(66)

Nous en déduisons que pour n variables aléatoires , définies sur une même loi de distribution:

(67)

Après avoir traduit la tendance par l'espérance, il est intéressant de traduire la dispersion ou "déviation standard" autour de l'espérance par une valeur appelée "variance de X", notée V(X) ou (lire "sigma-deux") et donnée sous sa forme discrète par:

(68)

La variance n'est cependant pas comparable directement à la moyenne, car l'unité de la variance est le carré de l'unité de la variable, ce qui découle directement de sa définition. Pour que l'indicateur de dispersion puisse être comparé aux paramètres de tendance centrale (moyenne, médiane et... mode), il suffit d'en prendre la racine carrée.

Par commodité, nous définissons ainsi "l'écart-type" de X, noté , par:

(69)

L’écart-type est donc la moyenne quadratique des écarts entre les observations et leur moyenne.

Remarques:

R1. L'écart-type de la variable aléatoire X peut être noté s'il n'y pas de confusion possible.

R2. L'écart-type et la variance sont, dans la littérature, souvent appelés "paramètres de disperions".

Définition: Le rapport (exprimé en %) parfois utilisé dans les entreprises comme comparaison de la moyenne et de l'écart-type est appelée le "coefficient de variation" (C.V.).

Pourquoi trouvons nous un carré (réciproquement une racine) dans cette définition ? La raison intuitive est simple (la rigoureuse l'est nettement moins…). Nous avons démontré plus haut que la somme des écarts à la moyenne pondéré par les effectifs, est toujours nulle :

(70)

Or, si nous assimilons les effectifs par la probabilité en normalisant ceux-ci par rapport à n, nous tombons sur une relation qui est la même que la variance à la différence que le terme entre paranthèse n'est pas au carré. Et nous voyons alors immédiatement le problème... la mesure de dispersion serait toujours nulle d'où la nécessité de porter cela au carré.

Nous pourrions imaginer cependant d'utiliser la valeur absolue des écarts à la moyenne (ou la médiane), mais pour un certain nombre de raisons que nous verrons plus loin lors de notre étude des estimateurs, les statisticiens ont préféré élevé au carré cette différence (les nombres négatifs deviennent alors positifs, et la somme des carrés des écarts ne peut être nulle).

Dans le cas où nous avons à disposition une série de mesures couplées, nous pouvons estimer la valeur moyenne (l'espérance) et la variance des mesures par les estimateurs suivants (il s'agit simplement au fait de l'espérance et l'écart-type d'un échantillon dont les événements sont tous équiprobables) dont la notation est particulière :

et (71)

Démonstration:

(72)

C.Q.F.D.

Le terme de la somme se trouvant dans l'expression de la variance (écart-type) est donc appelée "somme des carrés des écarts à la moyenne". Nous l'appelons aussi la "somme des carrés totale", ou encore la "variation totale" dans le cade de l'étude de l'ANOVA (voir la fin de ce chapitre).

Remarque: Il est important que le lecteur comprenne que dans ce cas l'espérance se calcule simplement en utilisant la moyenne arithmétique!

La variance peut également s'écrire sous la forme de la "formule de Huyghens" que nous réutiliserons plusieurs fois par la suite. Voyons de quoi il s'agit:

(73)

Soit X une variable aléatoire d'espérance (valeur constante et déterminée) et de variance (valeur constante et déterminée), nous définissons la "variable centrée réduite" par la relation:

et l'on démontre de façon très simple (contactez-nous si vous souhaitez que nous ajoutions la démonstration) que:

(74)

Voici quelque propriétés mathématiques importantes de la variance :

P1. Multiplication par une constante :

(75)

P2. Somme de deux variables aléatoires :

(76)

où nous avons introduit le concept de "covariance".

En utilisant la linéarité de l'espérance et le fait que nous avons pour la covariance :

(77)

et donc :

(78)

Remarque: Ainsi, nous retrouvons bien si que .

Ainsi, le terme de covariance est défini par l'expression:

(79)

appelée "forme bilinéaire de la variance" ou "forme multivariée".

Remarque: Les statistiques peuvent être découpées selon le nombre de variables aléatoires que nous étudions. Ainsi, lorsqu'une seule variable aléatoire est étudiée, nous parlons de "statistique univariée", pour deux variables aléatoires de "statistique bivariée" et en général, de "statistique multivariée" sur laquelle nous reviendrons en détail.

Si la convariance est univariée, nous avons dès lors:

(80)

Si les variables sont équiprobables, nous la retrouvons dans la littérature sous la forme suivante qui découle de calculs que nous avons déjà fait ultérieurement avec l'espérance :

(81)

La covariance est un indicateur de la variation simultanée de X et Y. En effet si, en général X et Y seront positifs (corrélés positivement), tandis que si Y décroît lorsque X croît, ces même produits seront négatifs (corrélés négativement). croissent simultanément, les produits

Soit un vecteur de composantes et un autre vecteur de composantes , tous deux étant des variables aléatoires, le calcul de la covariance des composantes deux à deux donnent ce que l'on appelle la "matrice des covariances" (outil très utilisé en mathématiques financières).

Effectivement, si nous notons:

(82)

Nous pouvons dès lors écrire une matrice symétrique carrée sous la forme:

(83)

Cette matrice a comme propriété remarquable que si nous prenons deux vecteurs identiques et que nous calculons les composantes de la matrice, alors la diagonale de cette dernière donnera les variances des composantes de vecteurs (voir les exemples dans le chapitre d'économétrie)! Raisons pour laquelle cette matrice est souvent appelée "matrices des variances-covariances".

Remarque: Cette matrice est très importante et nous la retrouverons fréquemment dans le chapitre d'économétrie lors de notre étude da la théorie du portefeuille et dans les techniques de fouille de données (data mining, clustering) dans le chapitre de méthodes numériques (l'analyse par composantes principales).

Rappelons maintenant que nous avions un axiome en probabilité (cf. chapitre de Probabilités) qui énoncait que deux événements A,B sont indépendants si :

(84)

De la même façon, par extension, nous définissons l'indépendance des variables aléatoires discrètes.

Définition: Soit X,Y deux variables aléatoires discrètes. Nous disons que X,Y sont "indépendantes" si :

(85)

Plus généralement, les variables discrètes sont indépendantes (en bloc) si :

. (86)

L'indépendance de deux variables aléatoires implique que leur covariance est nulle (la réciproque est fausse). Prouvons ceci dans le cas où les variables aléatoires ne prennent qu'un nombre fini de valeurs et respectivement, avec I, J des ensembles finis :

(87)

et donc :

(88)

Remarque: Donc plus la covariance est faible, plus les séries sont indépendantes. A l'inverse, plus la covariance est élevée, plus les séries sont liées.

Etant donné que :

(89)

si X, Y sont indépendantes alors :

et (90)

De manière plus générale si sont indépendantes (en bloc) alors :

(91)

Souvent en statistique, il est utile de déterminer l'écart-type de la moyenne empirique (ou en d'autres termes... : l'erreur quadratique moyenne). Voyons de quoi il s'agit :

Soit la moyenne d'une serie de termes déterminés chacun par la mesure de plusieurs valeurs::

(92)

alors:

(93)

et si toutes les variables aléatoires sont identiquement distribuées nous avons alors:

Pour la variance, le même raisonnement s'applique:

(94)

et si les variables aléatoires sont toutes identiquement distribuées:

d'où l'écart-type de la moyenne ou "erreur-type":

(95)

Cette relation se trouve dans de nombreux logiciels (dont dans les graphiques MS Excel) soit écrite avec l'écart-type (comme ci-dessus), soit avec la notation de la variance (suffit de mettra au carré...).

Nous avons donc:

(96)

où désigne la somme des n variables aléatoires et leur moyenne.

La variable centrée réduite que nous avions introduite plus haut:

(97)

peut alors s'écrire de plusieurs manières:

(98)

Par ailleurs, en supposant que le lecteur connaît déjà ce qu'est une loi normale , nous démontrerons cela plus loin en détails car c'est important (!), alors il est intéressant de noter que la loi de probabilité de la variable aléatoire , moyenne de n variables aléatoires identiquement distribuées et linéairement indépendantes, est alors la loi:

(99)

Maintenant, considérons X et Y deux variables aléatoires ayant pour covariance:

(100)

Nous pouvons démontrer que (voir la démonstration de cette inégalité dans le chapitre de calcul vectoriel dans la définition du produit scalaire):

(101)

Ce qui nous donne:

(102)

Finalement nous obtenons une forme de l'inégalité statistique dite "inégalité de Cauchy-Schwarz" :

(103)

Si les variances de X et Y sont non nulles, la corrélation entre X et Y est définie par le "coefficient de corrélation linéaire" :

(104)

ce qui peut aussi s'écrire sous forme développée (en utilisant la formule de Huyghens) :

(105)

ou encore plus condensée :

(106)

Quels que soient l'unité et les ordres de grandeur, le coefficient de corrélation est un nombre sans unité, compris entre -1 et 1. Il traduit la plus ou moins grande dépendance linéaire de X et Y et ou, géométriquement, le plus ou moins grand aplatissement. Un coefficient de corrélation nul ou proche de 0 signifie qu'il n'y a pas de relation linéaire entre les caractères. Mais il n'entraîne aucune notion d'indépendance plus générale.

Quand le coefficient de corrélation est proche de 1 ou -1, les caractères sont dits fortement corrélés. Il faut prendre garde à la confusion fréquente entre corrélation et causalité. Que deux phénomènes soient corrélés n'implique en aucune façon que l'un soit cause de l'autre.

Ainsi:

- si nous avons affaire à une corrélation négative dite "corrélation négative parfaite" (tous les points de mesures sont situés sur une droite de régression de pente négative).

- si nous avons affaire à une corrélation négative ou positive dite "corrélation imparfaite"

- si la corrélation est nulle...

- si nous avons affaire à une corrélation positive dite "corrélation positive parfaite" (tous les points de mesures sont situés sur une droite de régression de pente positive).

L'analyse de régression et de corrélation poursuit donc deux objectifs:

1. Déterminer le degré d'association entre les différentes variables: celui-ci est exprimé par le coefficient de détermination, qui est le carré du coefficient de corrélation. Le coefficient de détermination mesure la contribution d'une des variables à l'explication de la seconde.

2. Déterminer les caractéristiques de cette association, c'est-à-dire des paramètres et de la droite de régression (voir la section d'analyse numérique du site au chapitre des algorithmes traitant de la régression linéaire). Si l'on peut faire valablement l'hypothèse de la stabilité du processus générateur des couples de valeurs des deux variables, la connaissance de ces paramètres permettrait de prédire le comportement du phénomène étudié

En utilisant les expression de la moyenne et de l'écart-type de variables équiprobables tel que démontré plus haut, nous passons de :

(107)

à :

(108)

Soit après simplification :

(109)

Remarque: Dans la littérature le coefficient de corréation est souvent appelée "coefficient d'échantillonage de Pearson" ou encore "test de Bravais-Pearson" et lorsque nous le portons au carré, nous parlons alors de "coefficient de détermination" .

VARIABLES CONTINUES

Définitions:

D1. Nous disons que X est une variable continue si sa "fonction de répartition" est continue. La fonction de répartition de X étant définie par:

(110)

soit la probabilité cumulée que la variable aléatoire X soit plus petite ou égale à la valeur x fixée. Nous avons aussi bien évidemment .

D2. Si de plus la fonction de répartition F de X est continûment dérivable de dérivée (la "fonction de densité" ou "fonction de masse") alors nous disons que X est absolument continue et dans ce cas nous avons:

(111)

avec la condition de normalisation:

(112)

Toute fonction de distribution de probabilité doit satisfaire l'intégrale de normalisation dans son domaine de définition!

Remarque: Il est intéressant de remarquer que la définition amène à ce la probabilité qu'une variable aléatoire totalement continue prenne une valeur données est nulle. Donc ce n'est parce que un événement à une probabilité nulle peut arriver!!!

La moyenne ayant été défini par la somme pour une variable discrète, elle devient une intégrale pour une variable continue:

(113)

et la variance s'écrit donc :

(114)

Nous avons alors aussi la médiane qui est logiquement redéfinie dans le cas d'une variable aléatoire continue par:

(115)

Souvent les statisticiens utilisent les notations suivantes pour l'espérance mathématique:

(116)

et pour la variance:

(117)

Par la suite, nous calculerons ces différents termes avec développements uniquement dans les cas les plus usités.

FONCTIONS DE DISTRIBUTIONS

Lorsque nous observons des phéonomènes stochastiques, et que nous prenons note des valeurs prises par ces derniers et que les reporte graphiquement, nous observons toujours que les différentes mesures obtenues suivent une caractéristique courbe ou droite typique fréquemment reproductible.

Dans le domaine des probabilités et statistiques, nous appelons ces caractéristiques des "fonctions de distribution" car elles indiquent la fréquence avec laquelle la variable aléatoire apparaît avec certaines valeurs.

Remarque: Nous utilisons aussi simplement le terme "fonction" ou encore "loi" pour désigner ces caractéristiques.

Ces fonctions sont en pratique bornées par ce que nous appelons "l'étendue de la distribution" qui correspond à la différence entre la donnée maximale (à droite) et la donnée minimale (à gauche) des valeurs des données observées :

(118)

Si les valeurs observées se distribuent d'une certaine manière c'est qu'elles ont alors une probabilité d'avoir une certaine valeur de la fonction de distribution.

Définitions:

D1. Le relation mathématique qui donne la probabilité qu'a une variable aléatoire d'avoir une valeur donnée de la fonction de distribution est appelée "fonction de densité", "fonction de masse" ou encore "fonction marginale".

D2. La relation mathématique qui donne la probabilité cumulée qu'a une variable aléatoire d'être inférieure ou égale à une certaine valeur est nommée la "fonction de répartition" ou "fonction cumulée".

D3. Des variables aléatoires sont dites "indépendantes et identiquements distribuées" (i.i.d.) si elles suivent toutes la même fonction de distribution et qu'elles sont indépendantes...

Remarque: Le lecteur pourra trouver la fonction de distribution de Weibull (ou "loi de Weibull") dans le chapitre traitant des techniques de gestion (section de mathématiques sociales).

De telles fonctions étant très nombreuses dans la nature, nous proposons au lecteur un étude détaillée des plus connues seulement.

FONCTION DISCRÈTE UNIFORME

Si nous admettons qu'il est possible d'associer une probabilité à un événement, nous pouvons concevoir des situations où nous pouvons supposer a priori que tous les événements élémentaires sont équiprobables (c'est-à-dire qu'ils ont même probabilité). Nous utilisons alors le rapport entre le nombre de cas favorables et le nombre de cas possibles pour calculer la probabilité de tous les événements de l'Univers des événements U. Plus généralement si U est un ensemble fini d'événements équiprobables et A une partie de U nous avons sous forme ensembliste :

(119)

Plus communément, soit e un événement pouvant avoir N issues équiprobables possibles. Alors la probabilité d'observer l'issue donnée de l'événement suit une "fonction discrète uniforme" (ou "loi discrète uniforme") donnée par la relation :

(120)

Ayant pour espérance (ou moyenne) :

(121)

Si nous nous mettons dans le cas particulier où où . Nous avons alors (cf. chapitre de Suites et Séries):

(122)

Et pour variance :

(123)

Exemple:

Tracé de la fonction de distribution et respectivement de répartition pour la loi discrète uniforme de paramètres {1,5,8,11,12} (nous voyons que chaque valeur a bien une probabilité équiprobable) :

(124)

FONCTION DE BERNOULLI

Si nous avons affaire à un observation binaire alors la probabilité d'un événement reste constant d'une observation à l'autre s'il n'y a pas d'effet mémoire (autrement dit: une somme de variables de Bernoulli, deux à deux indépendante). Nous appelons ce genre d'observations où la variable aléatoire à valeurs 0 ou 1, avec probabilité (1-p), p respectivement, des "essais de Bernoulli".

Ainsi, une variable aléatoire X suit une "fonction de Bernoulli" (ou "loi de Bernoulli") si elle ne peut prendre que les valeurs 0 ou 1, associées aux probabilités q et p de sorte que et:

(125)

L'exemple classique d'un tel processus est le jeu de pile de face.

Si nous considérons N événements où nous obtenons k fois une des issues possibles et N-k l'autre suivant un certain ordre (ou arrangement), alors la probabilité d'obtenir un ordre (arrangement) donné est:

(126)

conformément à ce que nous avions vu obtenu combinatoire dans le chapitre de Probabilités!

Exemple:

Tracé de la fonction pour :

(127)

La fonction de Bernoulli a donc pour espérance (moyenne):

(128)

et pour variance (nous utilisons la formule de Huyghens démontrée plus haut):

(129)

Remarque: L'exemple ci-dessus n'est certes par pertinent mais nous verrons dans le chapitre de Techniques De Gestion que la fonction de Bernoulli apparaît naturellement au début de notre étude des files d'attentes.

FONCTION GÉOMÉTRIQUE

La loi géométrique ou "loi de Pascal" consiste dans une épreuve de type Bernoulli (dont la probabilité de succès est p et celle d'échec ) que nous renouvellons de manière indépendante jusqu'au premier succès.

Si nous appelons X la variable aléatoire donnant le rang du premier succès la probabilité que est alors (car particulier de la fonction de Bernoulli) :

(130)

avec .

Cette loi a pour espérance :

(131)

Or, cette dernière relation s'écrit aussi (car c'est une simple série géométrique):

(132)

Effectivement, nous avons démontré dans le chapitre sur les Suites et Séries que :

(133)

En prenant la limite lorsque nous obtenons :

(134)

car .

Ensuite, il suffit de dériver les deux expressions par rapport à q et nous obtenons :

(135)

Nous avons donc :

(136)

Calculons maintenant la variance en rappelant comme à chaque fois que (formule de Huyghens):

(137)

Commençons donc par calculer :

(138)

Le dernier terme de cette expression est l'équivalent de l'espérance calculée précédemment. Soit :

(139)

Il reste à calculer :

(140)

Nous avons :

(141)

Or en dérivant l’égalité :

(142)

Nous obtenons :

(143)

Par conséquent :

(144)

Donc :

(145)

Pour finir :

(146)

Exemple:

E1. Vous essayez, tard dans la nuit et dans l'obscurité, d'ouvrir une serrure au moyen d'un trousseau de 5 clés, sans porter attention, car vous êtes un peu fatigué (ou un peu éméché...) à chaque clé essayée. Sachant qu'une seule convient, quelle est la probabilité d'utiliser la bonne clé au n-ème essai.

(147)

E2. Tracé de la fonction de distribution et répartition pour la fonction Géométrique de paramètre :

(148)

Déterminons maintenant la fonction de répartition de la loi géométrique. Nous partons donc de:

(149)

et par définition la fonction de répartition sera alors donnée par:

(150)

Posons . Nous avons alors:

(151)

FONCTION BINOMIALE

Si nous revenons maintenant à notre relation de l'événement binaire dont la probabilité d'un arrangement particulier est pour rappel :

Alors la densité de probabilité d'avoir k fois l'événement p et N-k fois l'événement q dans n'importe quel arrangement (ou ordre) sera donné par les différentes possibilités d'avoir des arrangements avec k et N-k fois ces événements multipliés par P(N,k) la probabilité de chaque séquence d'arrangement particulière.

Le nombres d'arrangements possibles est, nous l'avons démontré (cf. chapitre Probabilités), donné par la binômiale :

(152)

donc la probabilité d'obtenir tous les arrangements possibles est :

(153)

Remarque: Cela équivaut à l'étude d'un tirage avec remise (cf. chapitre de Probabilités) simple avec contrainte sur l'ordre ou à l'étude d'une série de succès ou d'échecs. Nous utiliserons cette relation dans le cadre de la théorie des files d'attentes ou en fiabilité.

Nous parlons souvent de "tirage non exhaustif" dans le sens où cette loi s'applique bien si la composition du lot est très grande par rapport au nombre d'élément choisis (le rapport étant petit si vous préférez) car effectivement dans la relation n'apparaît pas la taille du lot qui sert de base au ttirage mais seulement la quantité des différents éléments qui peuvent en être sortis.

Ecrite autrement ceci donne la "fonction Binomiale" (ou "loi Binomiale") connue aussi sous la forme de la fonction de distribution suivante :

(154)

et parfois notée:

(155)

Nous avons bien évidemment pour la fonction de répartition :

(156)

Il vaut mieux utiliser MS Excel pour ne pas s'embêter à calculer ce de relations (ou tout autre logiciel largement répandu).

L'espérance mathématique (moyenne) de P(N,k) est:

(157)

La variance de la distribution binomiale étant:

(158)

L'écart-type étant , nous avons :

(159)

Exemple:

Tracé de la fonction de distribution et respectivement de répartition de la loi binômiale :

(160)

FONCTION HYPERGÉOMÉTRIQUE

Nous considèrons pour approche à cette fonction un exemple simple concernant une urne contenant nm sont noires et les autres m' blanches (pour un exemple concret utilisé dans l'industrie se reporter au chapitre sur les Techniques De Gestion). Nous tirons successivement, et sans les remettre dans l'urne, p boules. Quelle est la probabilité que parmi ces p boules, il y en ait k qui soient noires (dans cet énoncé l'orde du tirage ne nous intéresse donc pas!). boules dont

Remarque: Cela équivaut à l'étude non ordonnée d'un tirage sans remise (cf. chapitre de Probabilités) avec contrainte sur les occurences. Donc sans contrainte d'occurence nous retombons sur un tirage sans remise simple. Nous utiliserons cette relation souvent dans le domaine de la qualité ou de la fiabilité.

Nous parlons souvent de "tirage exhaustif" avec la loi hypergéométrique car contrairement à la loi binômiale, la taille du lot qui sert de base au tirage va apparaître dans la loi.

Les p boules peuvent être choisies parmi les n boules de façons (représentant donc le nombre de tirages différents possibles) avec pour rappel (cf. chapitre de Probabilités) :

Les k boules noires peuvent être choisies parmi les m noires de façons. Les p-k boules blanches peuvent être elles choisies de façons. Il y a donc tirages qui donnent kp-k boules blanches. boules noires et

La probabilité recherchée vaut donc:

(161)

et est dite suivre une "fonction Hypergéométrique" (ou "loi Hypergéométrique").

Il n'est pas interdit de faire le calcul direct de l'espérance et de la variance la fonction hypergéométrique mais le lecteur pourra sans trop de peine imaginer que ce calcul va être… relativement indigeste. Alors nous pouvons utiliser une méthode indirecte qui de plus est intéressante.

D'abord le lecteur aura peut-être, même certainement, remarqué qu'au fait l'expérience de la loi hypergéométrique est une série d'essais de Bernoulli (sans remise bien entendu!).

Alors, nous allons tricher en utilisant dans un premier temps la propriété de linéarité de l'espérance. Définissons une nouvelle variable correspondant implicitement au fait à l'expérience da la fonction hypergéométrique (plusieurs essais de Bernoulli de suite!) :

(162)

où représente le nombre de boule blanche tirée au i-ème tirage (soit 0 ou 1). Or, nous savons que pour tout i la variable aléatoire suite une fonction de Bernoulli pour laquelle nous avons démontré précédemment que . Dès lors, de par la propriété de linéarité de l'espérance nous avons :

(163)

Or, dans l'essai de Bernoulli, p est la probabilité d'obtenir l'élément recherché (pour rappel…). Dans la loi hypergéométrique ce qui nous intéresse est la probabilité d'avoir une boule noire (qui sont en quantité m, avec donc m' boules blanches) par rapport à la quantité totale de boules. Et le rapport nous donne évidemment cette probabilité. Ainsi, nous avons :

(164)

Pour déterminer la variance, nous allons utiliser la variance de la fonction de Bernoulli et la relation suivante démontrée lors de l'introduction de l'espérance et de la covariance au début de ce chapitre :

(165)

Dons en rappelant que nous avons il vient:

(166)

Or, pour la loi de Bernoulli, nous avons:

(167)

Alors nous avons déjà:

(168)

Ensuite, nous avons facilement:

(169)

Le calcul de nécessite une bonne compréhension des probabilités (c'est un bon rappel!).

L'espérance est donnée (implicitement) par la somme pondérée des probabilités que deux événements aient lieu en même temps comme nous le savons. Or, nos événements sont binaires: soit c'est une boule noire (1) soit c'est une boule blanche (0). Donc tous les termes de la somme n'ayant pas deux boules noirs consécutivement seront nuls!

Le problème est alors de calculer la probabilité d'avoir deux boules noires consécutives et celle-ci s'écrit don:

(170)

Donc nous avons finalement:

(171)

Soit:

(172)

Finalement:

(173)

où nous avons utilisé un résultat (série de Gauss) vu dans le chapitre de Suites Et Séries.

Soit:

(174)

Exemple:

Tracé de la fonction de distribution et répartition pour la fonction Hypergéométrique de paramètre :

(175)

FONCTION MULTINOMIALE

Considérons une approche à nouveau par l'exemple :

Soit muni d'une probabilité équivalente . Nous tirons n avec la probabilité . Quelle est la probabilité d'obtenir le nombre 1, fois le nombre 2, fois, sur une suite d'un tirage de n éléments. fois de suite un élément de

Remarque: Cela équivaut à l'étude d'un tirage avec remise (cf. chapitre de Probabilités) avec contraintes sur les occurences. Donc sans contraintes nous verrons par l'exemple que nous retombons sur un tirage avec remise simple.

Nous avons vu dans le chapitre de Probabilités, que si nous prenons un ensemble d'événements ayant plusieurs issues, alors les différentes combinaisons de suites que nous pouvons obtenir en prenant p éléments choisis parmi n est:

(176)

Il y a donc :

(177)

façons différentes d'obtenir fois un certain événement.

Il y a ensuite :

(178)

façons différentes d'obtenir un second événement puisque dans l'ensemble de la suite, de n on été tirés ce qui fait qu'il n'en reste plus sur lesquels nous pouvons obtenir les voulus. éléments déjà

Par récurrence immédiate nous avons alors:

(179)

combinaisons de sortir fois certains événements dans l'ordre donné!

La probabilité P recherchée suite donc une "fonction Multinomiale" (ou "loi Multinomiale") donnée par :

(180)

Plus exactement il faudrait écrire :

(181)

Exemples:

E1. Nous lançons un dé non-pipé 12 fois. Quelle est la probabilité que les six faces apparaissent le même nombre de fois (mais pas nécessairement consécutivement!).

(182)

E1. Nous lançons un dé non-pipé 12 fois. Quelle est la probabilité qu'une face apparaisse 12 fois (mais pas nécessairement consécutivement!).

(183)

FONCTION DE POISSON

Pour certains événements fort rares, la probabilité p est très faible et tend vers zéro. Toutefois la valeur moyenne tend vers une valeur fixe lorsque n tend vers l'infini.

Nous partirons donc d'une distribution binomiale de moyenne que nous supposerons finie lorsque n tend vers l'infini.

La probabilité de k réussites lors de n épreuves vaut (cf. chapitre de Probabilités) :

(184)

En posant , cette expression peut s'écrire:

(185)

En regroupant les termes, nous pouvons mettre la valeur de sous la forme:

(186)

Nous reconnaissons que, lorsque n tend vers l'infini, le deuxième facteur du produit a pour limite .

Quant au troisième facteur, puisque nous nous intéressons aux petites valeurs de k (la probabilité de réussite est très faible), sa limite pour n tendant vers l'infini vaut 1.

Nous obtenons ainsi la "fonction de Poisson" (ou "loi de Poisson") :

(187)

Remarque: Nous retrouverons fréquemment cette loi dans différents chapitres du site comme par exemple lors de l'étude des techniques de gestion en maintenance préventive ou encore dans le même chapitre lors de l'étude des théories des files d'attentes (le lecteur peut s'y reporter pour un exemple intéressant et pragmatique).

Exemple:

Tracé de la fonction de distribution et répartition pour la fonction de Poisson de paramètre :

(188)

Cette distribution est importante car elle décrit beaucoup de processus dont la probabilité est petite et constante. Elle est souvent utilisée dans la "queing theory" (temps d'attente), test d'acceptabilité et fiabilité, et contrôles statistiques de qualité. Entre autres, elle s'applique aux processus tels que: l'émission des quanta de lumière par des atomes excités, le nombre de globules rouges observés au microscope, le nombre d'appels arrivant à une centrale téléphonique ainsi qu'au cas qui nous concerne, le nombre de désintégrations de noyaux atomiques. La distribution de Poisson est valable pour presque toutes les observations faites en physique nucléaire ou corpusculaire.

L'espérance (moyenne) de la fonction de Poisson est:

(189)

Ce résultat peut paraître déroutant.... la moyenne s'exprime par la moyenne??? Oui il ne faut simplement pas oublier que celle-ci est donnée par :

(190)

Remarque: Pour plus de détails sinon le lecteur devra se reporter à la partie concernant les "estimateurs" dans le présent chapitre.

La variance de la fonction de distribution de Poisson est elle donnée par:

(191)

toujours avec:

(192)

Les lois de distribution statistiques sont établies en supposant la réalisation d'un nombre infini de mesures. Il est évident que nous ne pouvons en effectuer qu'un nombre fini N. D'où la nécessité d'établir des correspondances entre les valeurs utiles théoriques et expérimentales. Pour ces dernières nous n'obtenons évidemment qu'une approximation dont la validité est toutefois suffisante.

Ainsi, théoriquement nous avons :

(193)

soit dans le cas d'une distribution de Poisson par exemple:

, , (194)

mais expérimentalement, nous avons :

, , (195)

Donc à chaque fois qu'une mesure est faite, il s'ensuit une incertitude sur le résultat unique obtenu. Supposons avoir compté (observé) N événements en fonction d'une certaine variable; l'écart entre N et la moyenne sera en moyenne . Il est donc naturel d'écrire:

(196)

Mais comme nous pouvons donc écrire l'observation de N événements comme étant:

(197)

FONCTION DE GAUSS-LAPLACE/LOI NORMALE

Cette caractéristique est la plus importante fonction de distribution en statistiques suite au résultat d'un théorème connu appelé "théorème central limite" qui comme nous le verrons, permet de démontrer que toute suite de variables aléatoires inépendantes de même loi ayant une espérance et un écart-type fini et non nécessairement égaux converge vers une fonction de Gauss-Laplace (loi Normale).

Il est donc très important de focaliser particulièrement sont attention sur les développements qui vont être faits ici!

Partons d'une fonction Binomiale et faisons tendre le nombre n d'épreuves vers l'infini.

Si p est fixé au départ, la moyenne tend également vers l'infini; de plus l'écart-type tend également vers l'infini.

Remarque: Le cas où p varie et tend vers 0 tout en laissant fixe la moyenne ayant été étudié lors de la présentation de la fonction de Poisson.

Si nous voulons calculer la limite de la fonction Binomiale, il s'agira donc de faire un changement d'origine qui stabilise la moyenne, en 0 par exemple, et un changement d'unité qui stabilise l'écart, à 1 par exemple.

Voyons tout d'abord comment varie en fonction de k et calculons la différence:

(198)

Nous en concluons que est une fonction croissante de k, tant que est positif.

Remarquons que et que par conséquent la valeur de k voisine de la moyenne . D'autre part la différence est le taux d'accroissement de la fonction . Nous pouvons alors écrire : constitue le maxima de

(199)

Si n devient grand il est clair que k l'est également! Dès lors, pour autant que p soit fixé et que nous nous intéressions aux valeurs de la fonction k proches de la moyenne alors les variations de k peuvent s'écrire :

(200)

Nous définissons maintenant une nouvelle variable qui tend vers zéro lorsque nous effectuons un passage à la limite pour k et telle que la moyenne soit nulle (variation négligeables) et son écart-type soit unitaire. Nous avons alors :

(201)

Appelons F(x) l'expression de calculée en fonction de la nouvelle variable. Le taux d'accroissement de F(x) vaut alors :

(202)

et, en appliquant le résultat trouvé précédemment, nous obtenons :

(203)

Comme nous avons posé et , il vient :

(204)

Après un passage à la limite pour n tendant vers l'infini, le dénominateur du deuxième terme tendant beaucoup plus vite vers l'infi que le numérateur, nous obtenons :

(205)

Cette relation peut encore s'écrire:

(206)

et en intégrant les deux membres de cette égalité nous obtenons (cf. chapitre de Calcul Différentiel Et Intégral) :

(207)

La fonction suivante est une des solutions de la relation précédente:

(208)

La constante est déterminée par la condition que , qui représente la somme de toutes les probabilités, vaut 1. Nous pouvons montrer que :

(209)

Démonstration:

D'abord, nous avons :

(210)

puisque est une fonction paire (cf. chapitre d'Analyse Fonctionnelle). Ecrivons maintenant le carré de l'intégrale de la manière suivante :

(211)

et faisons un changement de variable en passant en coordonnées polaires, dès lors nous ferons aussi usage du Jacobien dans ses mêmes coordonnées (cf. chapitre de Calcul Différentiel Et Intégral) :

(212)

Par extension pour nous avons .

C.Q.F.D.

Nous obtenons donc :

(213)

En revenant aux variables non normées, nous obtenons donc la "fonction Gauss-Laplace" (ou "loi de Gauss-Laplace") ou également appelée "loi Normale" :

(214)

souvent notée N(,). La probabilité cumulée étant bien évidemment donnée par :

(215)

Ce qui est intéressant aussi avec cette loi, c'est qu'en utilisant les propriétés de linéarité de l'espérance et de la variance que nous avons vu plus haut alors il vient immédiatement que la somme de deux variables aléatoires indépendantes et identiquements distribuées selon une loi de Gauss-Laplace suit aussi une loi de Gauss-Laplace dont les paramètres sont (la démonstration se trouve plus loin):

1. La somme des deux variances (ou la racine carrée de la somme des écart-types)

2. La somme des deux espérances (ou moyennes)

Ce résultat est ce que nous nommons en statistiques la "stabilité" de la loi de Gauss-Laplaces. Nous retrouverons ce type de propriétés pour d'autres lois que nous étudierons plus loin.

Exemple:

Tracé de la fonction de distribution et répartition pour la fonction Normale de paramètres:

(216)

Cette loi régit sous des conditions très générales, et souvent rencontrées, beaucoup de phénomènes aléatoires. Elle est par ailleurs symétrique par rapport à la moyenne .

Montrons maintenant que représente bien l'espérance mathématique (ou la moyenne) de x (c'est un peu bête mais on peut quand même vérifier...):

(217)

Posons . Nous avons dès lors :

(218)

Calculons :

(219)

Donc :

(220)

Remarque: Le lecteur peut trouver cela déroutant dans un premier temps que le paramètres d'une fonction soit un des résultats que nous cherchons de la fonction. Ce qui dérange est la mise en pratique d'une telle chose. Au fait, tout s'éclairera lorsque nous étudierons plus dans ce chapitre les concepts "d'estimateurs de vraisemblance".

Montrons aussi (...) que représente bien l’écart type de X (il convient, en d’autres termes de montrer que ) et pour cela rappelons que nous avions démontré que (formule de Huyghens):

(221)

Nous avons déjà calculé tout à l'heure commençons alors par calculer :

(222)

Posons qui conduit dès lors à :

(223)

Or, nous savons (la première intégrale est évidente, la seconde moins mais nous l'avons déjà calculée un peu plus haut) :

(224)

Il reste donc à calculer la première intégrale. Pour ce procédons par une intégration par parties (voir chapitre de calcul différentiel et intégral) :

(225)

D'où :

(226)

Il vient finalement :

(227)

Une signification supplémentaire de l'écart-type dans la loi de Gauss-Laplace est une mesure de la largeur de la distribution telle que (cela ne peut se vérifier qu'à l'aide d'intégration à l'aide de méthodes numériques) :

(228)

La largeur de l'intervalle a une très grande importance dans l'interprétation des incertitudes d'une mesure. La présentation d'un résultat comme signifie que la valeur moyenne a environ 68.3% de chance (probabilité) de se trouver entre les limites de et , ou qu'elle a 95.5% de se trouver entre et etc.

Remarque: Ce concept est beaucoup utilisé en gestion de la qualité en entreprise particulièrement avec le concept industriel anglo-saxon Six Sigma (cf. chapitre de Techniques De Gestion) qui impose une maîtrise de 6 autour de chaque côté (!) de la moyenne des côtés des pièces fabriquées.

Niveau de qualité Sigma	Taux de non-défection assuré en %	Taux de défection en parties par million
1	68.26894	317'311
2	95.4498	45'500
3	99.73002	2'700
4	99.99366	63.4
5	99.999943	0.57
6	99.9999998	0.002

(229)

La loi de Gauss-Laplace n'est par ailleurs pas qu'un outil d'analyse de données mais également de génération de données. Effectivement, cette loi est une des plus importantes dans le monde des multinationales qui recourent aux outils statistiques pour la gestion du risque, la gestion de projets et la simulation lorsqu'un grand nombre de variables aléatoires sont en jeu. Le meilleur exemple d'application en étant le logiciel CrystalBall ou @Risk de Palisade (mon préféré...).

Dans ce cadre d'application (gestion de projets), il est par ailleurs très souvent fait usage de la somme (durée des tâches) ou le produit de variables aléatoires (facteur d'incertitude du client) suivant des lois de Gauss-Laplace. Voyons comment cela se calcule :

SOMME DE DEUX VARIABLES ALÉATOIRES

Soit X, Y deux variables aléatoires indépendantes. Supposons que X suit la loi et que Y. Alors, la variable aléatoire aura une densité égale au produit de convolution de. C'est-à-dire, suit la loi

(230)

Pour simplifier l'expression, faisons le changement de variable et posons , . Nous obtenons,

(231)

Nous posons :

(232)

Alors :

(233)

Sachant que notre expression devient :

(234)

Nous reconnaissons l'expression de la loi de Gauss-Laplace de moyenne et d'écart type .

Par conséquent, suit la loi :

PRODUIT DE DEUX VARIABLES ALÉATOIRES

Soit X, Y deux variables aléatoires indépendantes réelles. Nous désingernons par et les densités correspondantes et nous cherchons à déterminer la densité de la variable .

Notons f la fonction de densité du couple (X,Y). Vu que X, Y sont indépendantes (cf. chapitre de Probabilités) :

(235)

La fonction de répartition de Z est :

(236)

où .

D peut se réécrire comme union disjointe (nous faisons cette opération pour anticiper lors du futur changement de variables une division par zéro) :

(237)

avec :

(238)

Nous avons :

. (239)

La dernière intégrale vaut zéro car est de mesure (épaisseur) nulle pour l'intégrale selon x.

Nous effectuons ensuite le changement de variable suivant :

(240)

Le jacobien de la transformation est:

(241)

Donc:

(242)

Notons la densité de la variable Z. Par définition :

(243)

D’un autre côté :

(244)

comme nous venons de voir. Par conséquent :

(245)

Ce qui est un peu triste c'est que dans le cas d'une loi de Gauss-Laplace, cette intégrale ne peut être calculée que numériquement... il faut alors faire appel à des méthodes d'intégration du type Monte-Carlo (cf. chapitre de Méthodes Numériques).

LOI NORMALE centrée réduite

Cependant, la fonction de Gauss-Laplace n'est pas tabulée puisqu'il faudrait autant de table numériques que de valeurs possibles pour la moyenne et l'écart-type (qui sont donc des paramètres de la fonction comme nous la'vons vu).

C'est pourquoi, en opérant un changement de variable, la loi Normale devient la "loi Normale centrée réduite" où :

1. "Centrée" signifie soustraire la moyenne (la fonction à alors pour axe de symétrie l'axe des ordonnées)

2. "Réduite" signifie, diviser par l'écart-type

Par ce changement de variable, la variable k est remplacée par la variable aléatoire centrée réduite :

(246)

Si la variable k a pour moyenne et pour écart- type alors la variable a pour moyenne 0 et pour écart-type 1.

Donc la relation :

(247)

s'écrit alors (trivialement) plus simplement :

(248)

qui n'est d'autre que l'expression de la loi normale centrée réduite souventé notée N(0,1)!

Attention!!! Nous retrouverons très fréquemment cette distribution en physique!

DROITE DE HENRY

Souvent, dans les entreprises c'est la loi de Gauss-Laplace (Normale) qui est analysée mais des logiciels courants et facilement accessibles comme MS Excel sont incapables de vérifier que les données mesurées suivent une loi Normale lorsque nous faisons de l'analyse fréquentielle (aucun outil intégré par défaut ne permet de le faire) et que nous avons pas les données d'origines non groupées.

L'astuce consiste alors à utiliser la variable centré réduite qui se construit comme nous l'avons démontré plus haut avec la relation suivante:

(249)

L'idée de la droite d'Henry est alors d'utiliser la relation linéaire entre k et k* donnée par l'équation de la droite:

(250)

peut être tracée pour déterminer la moyenne et l'écart-type de la loi Normale.

Exemple:

Supposons que nous ayons l'analyse fréquentielle suivante de 10'000 tickets de caisse dans un supermarché :

Montant des tickets	Nombre de tickets	Nombre cumulés de tickets	Fréquences relatives cumulées
[0;50[	668	668	0.068
[50,100[	919	1'587	0.1587
[100,150[	1'498	3'085	0.3085
[150,200[	1'915	5000	0.5000
[200,250[	1'915	6'915	0.6915
[250,300[	1'498	8'413	0.8413
[300,350[	919	9'332	0.9332
[350,400[	440	9'772	0.9772
[400 et +	228	10'000	1

(251)

Si nous traçons maintenant cela sous MS Excel nous obtenons:

(252)

Ce qui ressemble furieusement à une loi Normal d'où l'autorisation, sans trop de risques, d'utiliser dans cet exemple la technique de la droite d'Henry.

Mais que faire maintenant? Eh bien connaissant les fréquences cumulées, il ne nous reste plus qu'à calculer pour chacune d'entre elles k* à l'aide de tables numériques ou avec la fonction NORMSINV() de MS Excel (car rappelons que l'intégration de la fonction gaussienne n'est pas des plus faciles….).

Ceci nous donnera les valeurs de la loi Normale centrée réduite N(0,1) de ces mêmes fréquences respectives cumulées (fonction de répartition). Ainsi nous obtenons (nous laissons le soin au lecteur de chercher sa table numérique…):

Borne de l'intervalle	Fréquences relatives cumulées	Correspondance pour k* de N(0,1)
50	0.068	-1.5
100	0.1587	-1
150	0.3085	-0.5
200	0.5000	0
250	0.6915	0.5
300	0.8413	1
350	0.9332	1.5
400	0.9772	2
-	1	-

(253)

Signalons que dans le tableau ci-dessus, dans MS Excel, les valeurs de fréquences cumulées nulles et unitaires (extrêmes) posent problèmes. Il faut alors jouer un petit peu...

Mais comme nous l'avons spécifié plus haut, nous avons sous forme discrète:

(254)

Donc graphiquement sous MS Excel cela donne :

(255)

Donc à l'aide de la régression donnée par MS Excel (ou calculée par vos soins selon les techniques de régressions linéaires vues dans le chapitre de méthodes numériques). Il vient :

(256)

Donc nous avons immédiatement :

(257)

Il s'agit donc d'une technique particulière pour une distribution particulière! Des techniques similaires plus ou moins simples (ou compliquées suivant les cas) existent pour nombre de distributions.

FONCTION LOG-NORMALE

Nous disons qu'une variable aléatoire positive X suit une "fonction log-normale" (ou "loi log-normale") de paramètres, si la variable suit une loi normale de moyenne et de variance .

Ce type de scénario se retrouve fréquement en physique, dans les techniques de maintenance ou encrore en économétrie (voir ces chapitres respectifs du site pour des exemples concrets). Il y a par ailleurs une remarque importante relativement à la loi log-normale dans le traitement plus loin de théorème central limite!

Nous avons donc (selon notre étude de la loi normale) pour la probabilité cumulée :

(258)

La densité de X pour est donc (cf. chapitre de Calcul Intégral) :

(259)

L'espérance (moyenne) de X est donnée alors par (le logarithme népérien n'étant pas défini pour nous bornons l'intégrale à partir de zéro) :

(260)

avec le changement de variable :

(261)

L'expression est par ailleurs égale à :

(262)

La dernière intégrale devient donc :

(263)

Rappelons que la variance de X est définie par :

(264)

Calculons :

(265)

on a fait le changement de variable :

(266)

L'expression est égale à :

(267)

La dernière intégrale devient donc :

(268)

Donc :

(269)

Pour et le graphe de f est le suivant :

Exemple:

Tracé de la fonction de distribution et répartition pour la fonction Log-Normale de paramètre :

(270)

FONCTION UNIFORME

Soient . Nous définissons la "fonction uniforme" (ou "loi uniforme") par la relation :

(271)

Il s'agit bien d'une fonction de distribution car elle vérifie (intégrale simple) :

(272)

La fonction uniforme a par ailleurs pour espérance (moyenne) :

(273)

et pour variance :

(274)

signifie qu'en dehors du domaine de définition [a,b] la fonction de distribution est nulle. Nous retrouverons ce type de notation dans certaines autres fonctions de distribution.

Exemple:

Tracé de la fonction de distribution et respectivement de répartition pour la loi Uniforme pour :

(275)

Remarque: Cette fonction est souvent utilisée en simulation dans les entreprises pour signaler que la variable aléatoire a des probabilités égales d'avoir une valeur comprise dans un certaine intervalle (typiquement dans les rendements de portefeuilles ou encore dans l'estimation des durées des projets). Le meilleur exemple d'application étant à nouveau le logiciel CrystalBall ou @Risk qui s'intègre dans MS Project.

FONCTION TRIANGULAIRE

Soit . Nous définissons la "fonction triangulaire" (ou "loi triangulaire") par construction selon les deux relations suivantes:

(276)

où a est souvent assimilé à la valeur optimiste, b à la valeur attendue et c à la valeur pessimiste.

C'est effectivement la seule manière de l'écrire si le lecteur garde à l'esprit que le triangle de base c-ah telle que sa surface soit égale à l'unité (sur demande nous pouvons détailler le raisonnement au cas où ce ne serait pas clair). doit avoir une hauteur

La fonction de répartition est alors facile à déterminer:

(277)

Exemple:

Tracé de la fonction de distribution et répartition pour la fonction triangulaire de paramètre :

(278)

La pente de la première droite est donc bien évidemment et la pente de la deuxième droite .

Cette fonction est une fonction de distribution si elle vérifie :

(279)

Il s'agit dans ce cas de l'aire du triangle qui rappelons-le est simplement la base multipliée par la hauteur le tout divisé par 2 (cf. chapitre sur les Formes Géométriques):

= 1 (280)

Remarque: Cette fonction est beaucoup utilisée en gestion de projet dans le cadre de l'estimation des durées des tâches ou encore en simulations industrielles par des non spécailistes en statistiques. La valeur a correspondant à la valeur optimiste, la valeur c à la valeur attendue (mode) et la valeur b à la valeur pessimiste. Le meilleur exemple d'application étant à nouveau le logiciel CrystalBall ou @Risk qui s'intègre dans MS Project.

La fonction triangulaire a par ailleurs une espérance (moyenne) :

(281)

et pour variance :

(282)

on remplace par l'expression obtenue précédemment et on simplifie (c'est de l'algèbre élémentaire pénible…) :

(283)

FONCTION DE PARETO

La "fonction de Pareto" (ou "loi de Pareto") est la formalisation du principe des 80-20. Cet outil d'aide à la décision détermine les facteurs (environ 20%) cruciaux qui influencent la plus grande partie (80%) de l'objectif.

Remarque: Cette loi est un outil fondamental en gestion de la qualité (cf. chapitre sur les Techniques De Gestion). Elle est aussi utilisée en réassurance. La théorie des files d'attente s'est intéressée à cette distribution, lorsque des recherches des années 90 ont montré que cette loi régissait aussi nombre de grandeurs observées dans le trafic internet (et plus généralement sur tous les réseaux de données à grande vitesse).

Une variable aléatoire est dite par définition suivre une loi de Pareto si elle est donnée par :

(284)

avec et (donc ).

La fonction de densité de Pareto est alors :

(285)

La distribution de Pareto est définie par deux paramètres, x_m et k (nommé "index de Pareto").

C'est par ailleurs bien une fonction de distribution :

(286)

L'espérance (moyenne) est donnée par :

(287)

si . Si , l'espérance n'existe pas.

Pour calculer l'espérance, en utilisant la relation :

(288)

Nous avons :

(289)

si . Si , n'existe pas.

Donc si :

(290)

Si , la variance n'existe pas.

Exemple:

Tracé de la fonction de distribution et répartition pour la fonction de Pareto de paramètre :

Remarque: Il faut noter que lorsque la distribution s'approche de où est la fonction Delta de Dirac.

FONCTION EXPONENTIELLE

Soient . Nous définissons la "fonction exponentielle" (ou "loi exponentielle") par la relation :

(291)

Remarques:

R1. Cette fonction se retrouve fréquemment en physique nucléaire ou encre en physique quantique elle est donc de la plus haute importance pour le physicien.

Il s'agit par ailleurs bien d'une fonction de distribution car elle vérifie :

(292)

La fonction exponentielle a pour espérance (moyenne) :

(293)

et pour variance

en utilisant à nouveau et il ne nous reste plus qu'à calculer :

(294)

Un changement de variable conduit à :

(295)

Une double intégration par parties donne :

(296)

D'où il vient dès lors :

(297)

Donc l'écart-type (non pas la variance hein!) et la moyenne ont exactement la même expression!

Exemple:

Tracé de la fonction de distribution et répartition pour la fonction exponentielle de paramètre :

(298)

Déterminons maintenant la fonction de répartition de la loi exponentielle:

(299)

Donc:

(300)

Remarque: Nous verrons plus loin que la fonction de distribution Exponentielle n'est qu'un cas particulier d'une fonction plus générale qui est la fonction du Khi-Deux, cette dernière aussi n'étant qu'un cas particulier d'une fonction encore plus générale qui est la fonction Gamma.

FONCTION DE CAUCHY

Soient X,Y deux variables aléatoires indépendantes suivant des lois normales centrées réduites. La fonction de densité est donc donnée par :

(301)

Rappel : de variance unité et espérance nulle.

La variable aléatoire :

(302)

(la valeur absolue intervient dans l'intégrale lors du changement variable) suit une caractéristique appelée "fonction de Cauchy" (ou "loi de Cauchy").

Déterminons sa fonction de densité f.

f est déterminée par la relation (générale) :

(303)

Donc (application du calcul intégral élémentaire) :

(304)

dans le cas où f est continue.

Etant donné que X et Y sont indépendantes, la fonction de densité du vecteur aléatoire est donné par un des axiomes des probabilités (cf. chapitre de Probabilités) :

(305)

Donc :

(306)

où donc .

Cette dernière intégrale devient :

(307)

Faisons le changement de variable dans l'intégrale intérieure. Nous obtenons :

(308)

Donc :

(309)

C'est maintenant que la valeur absolue va nous être utile pour écrire :

(310)

Pour la première intégrale nous avons :

(311)

Il ne reste donc plus que la seconde intégrale et en faisant le changement de variable , nous obtenons :

(312)

Ce que nous noterons par la suite (afin de respecter les notations optées jusqu'à présent) :

(313)

et qui n'est d'autre que la fonction de Cauchy.

Il s'agit par ailleurs bien d'une fonction de distribution car elle vérifie :

(314)

Exemple:

Tracé de la fonction de distribution:

(315)

La fonction de Cauchy a pour espérance (moyenne) :

(316)

Attention !!! Les calculs précédants ne donnent pas zéro au fait car la soustraction d'infinis est non pas nul mais indeterminé ! La loi de Cauchy n'admet pas donc pas d'espérance rigoureusement parlant!

Ainsi, même si nous pouvons bricoler une variance :

(317)

celle-ci est absurde et n'existe rigoureusement parlant pas puisque la l'espérance n'existe pas...!

LOI BÊTA

Rappelons d'abord que la fonction Gamma d'Euler est définie par la relation (cf. chapitre de Calcul Différentiel Et Intégral) :

(318)

Nous avons démontré (cf. chapitre de Calcul Différentiel Et Intégral) qu'une propriété de cette fonction est que :

(319)

De plus, nous démontrons (c'est quasiment intuitif) que :

(320)

où :

(321)

En faisant le changement de variables :

(322)

nous obtenons :

(323)

Pour l'intégrale interne nous utilisons la substitution et nous trouvons :

(324)

La fonction B qui apparaît dans l'expression ci-dessus est appelée "fonction bêta" et nous avons donc :

(325)

Maintenant que nous avons défini ce qu'était la fonction bêta, considérons deux paramètres et considérons la relation particulière (la version générale est présentée dans le chapitre de techniques de gestion) ci-dessous comme étant la "fonction de distribution Bêta" ou "loi bêta" :

(326)

où :

(327)

qui est égal à une constante si nous fixons a,b.

Nous vérifions d'abord que que est bien une fonction de distribution :

(328)

Maintenant, nous calculons qu'elle est sont espérance (moyenne) :

(329)

et sa variance :

(330)

En sachant que et que nous trouvons :

(331)

et donc :

(332)

Exemple:

Tracé de la fonction pour en rouge, en vert, en noir, en bleu, en magenta, en cyan, en gris, en turquoise, en jaune, en couleur or :

(333)

et tracé de la fonction de distribution et répartition de la loi bêta de paramètres :

(334)

FONCTION GAMMA

La fonction Gamma d'Euler étant connue, considérons deux paramètres et définissons la "fonction Gamma" (ou "loi Gamma") comme étant donnée par la relation :

(335)

En faisant le changement de variables nous obtenons :

(336)

et pouvons alors écrire la relation sousune forme plus classique que nous trouvons fréquemment dans les ouvrages :

(337)

Ensuite, nous vérifions avec un raisonnement similaire en tout point celui de fonction bêta que est une fonction de distribution :

(338)

Exemple:

Tracé de la fonction pour en rouge, en vert, en noir, en bleu, en magenta :

(339)

et tracé de la fonction de distribution et répartition pour la fonction Gamma de paramètre :

(340)

La fonction Gamma a par ailleurs pour espérance (moyenne):

(341)

et pour variance :

(342)

Démontrons une propriété de la fonction Gamma qui nous servira à démontrer plus tard dans ce chapitre lors de notre étude de l'analyse de la variance et des intervalles de confiance sur des petites échantillons, une propriété extrêmement importante de la loi du khi-deux.

Comme nous le savons, la fonction de densité d'une variable aléatoire suivant une fonction Gamma de paramètres est :

(343)

avec (cf. chapitre de Calcul Différentiel Et Intégral) la fonction Gamma d'Euler :

(344)

Par ailleurs, quand une variable aléatoire suite une fonction Gamma nous le notons .

Soit X, Y deux variables indépendantes. Montrons que si et alors :

(345)

Notons f la fonction de densité du couple (X,Y), la fonction de densité de X et la fonction de densité de Y. Vu que X, Y sont indépendantes, nous avons :

(346)

pour tout .

Soit . La fonction de répartition de Z est alors :

(347)

où .

Remarque: Nous appelons un tel calcul une "convolution" et les statisticiens ont souvent à manipuler de telles entités ayant à travailler sur des nombreuses variables aléatoires qu'il faut sommer ou même multiplier.

En simplifiant :

(348)

Nous effectuons le changement de variable suivant :

(349)

Le jacobien est alors (cf. chapitre de Calcul Différentiel Et Intégral) :

(350)

Donc avec le nouvelle borne d'intégration :

(351)

Si nous notons g la fonction de densité de Z nous avons :

(352)

Par suite :

(353)

et étant nulles lorsque leur argument est négatif, nous pouvons changer les borndes d'intégration :

pour (354)

Calculons g :

(355)

Après le changement de variable nous obtenons :

(356)

où B est la fonction bêta que nous avons plus haut notre étude la fonction de distribution bêta. Or nous avons aussi démontré la relation :

(357)

Donc :

(358)

Ce qui finalement nous donne :

(359)

Ce qui montre que bien que si deux variables aléatoires suivent une fonction Gamma alors leur somme aussi tel que :

(360)

donc la fonction Gamma est stable par addition de même que le sont toutes les lois qui découlent de la loi gamma et que nous allons aborder ci-après.

FONCTION DE KHI-DEUX (OU DE PEARSON)

La "fonction de Khi-Deux" (appelée aussi "loi du Khi-Deux" ou encore "loi de Pearson") n'est dans un premier temps qu'un cas particulier de la fonction de distribution Gamma dans le cas où et , avec k entier positif :

(361)

Tous les calculs faits auparavant s'appliquent et nous avons alors immédiatement:

(362)

Exemple:

Tracé de la fonction pour en rouge, en vert, en noir, en bleu :

(363)

et tracé de la fonction de distribution et respectivement de répartition pour la loi du khi-deux pour :

(364)

Dans la littérature, il est de tradition de noter :

ou (365)

pour indiquer que la distribution de la variable aléatoire X est la loi du khi-deux. Par ailleurs il est courant de nommer le paramètre k "degré de liberté" et de l'abréger "ddl".

La fonction khi-deux découle donc de la loi gamma et par ailleurs en prenant nous retrouvons aussi la loi exponentielle (voir plus haut) pour :

(366)

Par ailleurs, puisque (cf. chapitre de Calcul Différentiel Et Intégral) , la loi du khi-deux avec k égal à l'unité peut s'écrire sous la forme :

(367)

FONCTION DE STUDENT

La "fonction de Student" (ou "loi de Student") de paramètre k est définie par la relation :

(368)

avec k étant le degré de liberté de la loi du khi-deux sous jacente à la construction de la fonction de Student comme nous allons le voir.

Il s'agit bien d'une fonction de distribution car elle vérifie également (reste à démontrer directement mais bon comme nous allons le voir elle est le produit de deux fonctions de distribution donc indirectement...) :

(369)

Voyons la démonstration la plus simple pour justifier la provenance de la loi de Student et qui nous sera en même temps très utile dans l'inférence statistique et l'analyse de la variance plus loin.

Pour cette démonstration, rappelons que:

R1. Si X, Y sont deux variables aléatoires indépendantes de densités respectives , la loi du couple (X,Y) possède une densité f vérifiant (axiome des probabilités!):

(370)

R2. La loi N(0,1) est donnée par (voir plus haut):

(371)

R3. La loi est donnée par (voir précédemment):

(372)

pour et .

R4. La fonction est définie pour tout par (cf. chapitre de Calcul Différentiel et Intégral):

(373)

et vérifie (cf. chapitre de Calcul Différentiel et Intégral):

(374)

pour .

Ces rappels étant faits, considérons maintenant X une variable aléatoire suivant la loi N(0,1) et Y une variable aléatoire suivant la loi .

Nous supposons X et Y indépendantes et nous considérons la variable aléatoire (c'est à l'origine l'étude historique de la loi de Student dans le cade de l'inférence statistique qui a amené à poser cette variable dont nous justifierons l'origine plus loin):

(375)

Nous allons montrer T suit une loi de Student de paramètre n.

Démonstration:

Notons F et f les fonctions de répartition et de densité de T et ,f les fonctions de densité de X, Y et (X,Y) respectivement. Nous avons alors pour tout :

(376)

où:

(377)

la valeur imposée positive et non nulle de y étant due au fait qu'elle est sous une racine et en plus au dénominateur.

Ainsi:

(378)

où comme X suit une loi N(0,1):

(379)

est la fonction de répartition de la loi normale centrée réduite.

Nous obtenons alors la fonction de densité de T en dérivant F:

(380)

car (trivial):

(381)

Donc:

(382)

En faisant le changement de variable:

(383)

nous obtenons:

(384)

ce qui est bien la loi de Student de paramètre n.

C.Q.F.D.

Voyons maintenant quelle est l'espérance de la loi de Student:

(385)

Nous avons:

(386)

Mais existe si et seulement si . En effet pour :

(387)

et:

(388)

Tandis que pour nous avons:

(389)

Ainsi pour , l'espérance n'existe pas.

Donc pour :

(390)

Voyons maintenant la valeur de la variance. Nous avons donc:

(391)

Discutons de l'existence de . Nous avons trivialement:

(392)

X suit une loi normale centrée réduite donc:

(393)

Pour ce qui est de nous avons:

(394)

où nous avons fait le changement de variable .

Mais l'intégrale définissant converge seulement si .

Donc existe si et seulement si et vaut alors selon les propriétés de la loi Gamma d'Euler démontrées dans le chapitre de Calcul Différentiel et Intégral:

(395)

Ainsi pour :

(396)

Exemple:

Tracé de la fonction de distribution et répartition pour la fonction de Student de paramètre :

(397)

FONCTION DE FISHER

La "fonction de Fisher" (ou "loi de Fisher-Snedecor") de paramètres k et l est définie par la relation:

(398)

si . Les paramètres k et l sont des entiers positifs et correspondent aux degrés de liberté des deux lois du khi-deux sous-jacents. Cette distribution est souvent notée ou F(k,l).

(399)

Voyons la démonstration la plus simple pour justifier la provenance de la loi de Fisher et qui nous sera en même temps très utile dans l'inférence statistique et l'analyse de la variance plus loin.

Pour cette démonstration, rappelons que:

R1. La loi est donnée par (voir plus haut):

(400)

pour et .

R2. La fonction est définie pour tout par (cf. chapitre de Calcul Différentiel et Intégral):

(401)

Soit X, Y deux variables aléatoires indépendantes suivant respectivement les lois et .

Nous considérons la variable aléatoire:

(402)

Nous allons donc montrer que la loi de T est la loi de Fisher-Snedecor de paramètres n, m.

Notons pour cela F et f les fonctions de répartition et de densité de T et ,f les fonctions de densité de X, Y et (X,Y) respectivement. Nous avons pour tout :

(403)

où:

(404)

où les valeurs positives imposées proviennent de l'origine d'une loi du khi-deux pour x et y.

Ainsi :

(405)

Nous obtenons la fonction de densité de T en dérivant F . D'abord la dérivée intérieure:

(406)

Ensuite en explicitant puisque:

et (407)

nous avons alors:

(408)

En faisant le changement de variable:

(409)

nous obtenons :

(410)

C.Q.F.D.

FONCTION DE BENFORD

En 1938, un mathématicien du nom de Franck Benford fait une constatation curieuse. Dans la bibliothèque de l'université, il remarque que les premières pages des tables de logarithmes sont nettement plus usées que les dernières.

Seule explication possible : nous avons plus souvent besoin d'extraire le logarithme de chiffres commençant par 1 que de chiffres commençant par 9, ce qui implique que les premiers sont "plus nombreux" que les seconds.

Bien que cette idée lui paraisse tout à fait invraisemblable, Benford entreprend de vérifier son hypothèse. Rien de plus simple : il se procure des tables de valeurs numériques, et calcule le pourcentage d'apparition du chiffre le plus à gauche. Les résultats qu'il obtient confirment son intuition:

Chiffe initial	Probabilité d'apparition
1	30,1 %
2	17,6 %
3	12,5 %
4	9,7 %
5	7,9 %
6	6,7 %
7	5,8 %
8	5,1 %
9	4,6 %

(411)

A partir de ces données, Benford trouve expérimentalement que la probabilité qu'un nombre commence par le chiffre n (excepté 0) est (nous allons le démontrer plus loin) donnée par la relation :

(412)

appelée "fonction de Benford" (ou "loi de Benford").

Exemple:

Voici un tracé de la fonction précédente :

(413)

Il convient de préciser que cette loi ne s'applique qu'à des listes de valeurs "naturelles", c'est-à-dire à des chiffres ayant une signification physique. Elle ne fonctionne évidemment pas sur une liste de chiffres tirés au hasard.

La loi de Benford a été testée sur toute sorte de table : longueur des fleuves du globe, superficie des pays, résultat des élections, liste des prix de l'épicerie du coin... Elle se vérifie à tous les coups.

Elle est évidemment indépendante de l'unité choisie. Si l'on prend par exemple la liste des prix d'un supermarché, elle fonctionne aussi bien avec les valeurs exprimées en Francs qu'avec les mêmes prix convertis en Euros.

Cet étrange phénomène est resté peu étudié et inexpliqué jusqu'à une époque assez récente. Puis une démonstration générale en a été donnée en 1996, qui fait appel au théorème de la limite centrale.

Aussi surprenant que cela puisse paraître, cette loi a trouvé une application : le fisc l'utilise aux Etats-Unis pour détecter les fausses déclarations. Le principe est basé sur la restriction vue plus haut : la loi de Benford ne s'applique que sur des valeurs ayant une signification physique.

S'il existe une distribution de probabilité universelle sur de tels nombres, ils doivent êtres invariants sous un changement d'échelle tel que:

(414)

Si :

(415)

alors:

(416)

et la normalisation de la distribution donne:

(417)

si nous dérivons par rapport à et que nous posons , nous obtenons :

(418)

en posant finalement . Nous avons :

(419)

Cette équation différentielle a pour solution:

(420)

Cette fonction, n'est pas en premier lieu à proprement parler une fonction de distribution de probabilité (elle diverge) et deuxièment, les lois de la physique et humaines imposent des limites.

Nous devons donc comparer cette distribution par rapport à une référence arbitraire. Ainsi, si le nombre décimal étudié contient plusieurs puissance de 10 (10 au total: 0,1,2,3,4,5,6,7,9) la probabilité que le premier chiffre non nul (décimal) soit est donné par la distribution logarithmique:

(421)

Les bornes de l'intégrale sont de 1 à 10 puisque la valeur nulle est interdite.

L'intégrale du dénominateur donne:

(422)

L'intégrale du numérateur donne:

(423)

Ce qui nous donne finalement:

(424)

De par les propriétés des logarithmes (voir le chapitre d'analyse fonctionelle dans la section d'algèbre du site) nous avons :

(425)

Cependant, la loi de Benford ne s'applique pas uniquement aux données invariantes par changement d'échelle mais également à des nombres de provenant de sources quelconques. Expliquer ce cas implique une investigation plus rigoureuse en utilisant le théorème de la limite centrale. Cette démonstration a été effectuée seulement en 1996 par T. Hill par une approche utilisant la distribution des distributions.

eSTIMATEURS DE VRAISEMBLANCE

Ce qui va suivre est d'une extrême importance en statistiques et est utilisé énormément en pratique. Il convient donc d'y accorder une attention toute particulière!

Nous supposons que nous disposons d'observations qui sont des réalisations de variable aléatoire (non biaisées) indépendantes de loi de probabilité inconnue.

Nous allons chercher à estimer cette loi de probabilité P inconnue à partir des observations .

Supposons que nous procèdons par tâtonnement pour estimer la loi de probabilité P inconnue . Une manière de procéder est de se demander si les observations avaient une probabilité élevée ou non de sortir avec cette loi de probabilité arbitraire P.

Nous devons pour cela calculer la probabilité conjointe qu'avaient les observations de sortir avec . Cette probabilité vaut :

(1)

en notant P la loi de probabilité supposée associée à . Il serait alors particulièrement maladroit de choisir comme une loi de probabilité (avec ses paramètres!) qui minimise cette quantité.

Au contraire, nous allons chercher la probabilité qui maximise , c'est-à-dire qui rende les observations le plus vraisemblable possible.

Nous sommes donc amené à chercher le (ou les) paramètre(s) qui maximise(nt) la quantité :

(2)

Cette quantité L porte le nom de "vraisemblance" . C'est une fonction du ou des paramètres et des observations .

La ou les valeurs du paramètre qui maximisent la vraisemblance sont appelées "estimateurs du maximum de vraisemblance".

Faisons quand même trois petits exemples (très classiques, utiles et importants dans l'industrie) avec dans l'ordre d'importance (donc pas forcément dans l'ordre de facilité...) la fonction de distribution de Gauss-Laplace, la fonction de distribution exponentielle et finalement binomiale.

Remarque: Ces trois exemples sont important car utilisés dans les SPC (maîtrise statistiques de processus) dans différentes multinationales à travers le monde (cf. chapitre sur les Techniques De Gestion).

ESTIMATEURS DE LA LOI NORMALE

Soit un n-échantillon de variables aléatoires indentiquements distribuées supposées suivre une loi de Gauss-Laplace (loi Normale) de paramètres et .

Nous recherchons quelles sont les valeurs des estimateurs de maximum de vraisemblance qui maximisent la vraisemblance de la loi Normale ?

Remarque: Il va de soit que les estimateurs de maximum de vraisemblance sont ici :

(3)

Nous avons démontré plus haut que la densité d'une variable aléatoire gaussienne était donnée par :

(4)

La vraisemblance est alors donnée par:

(5)

Maximiser une fonction ou maximiser son logarithme est équivalent donc la "log-vraisemblance" sera:

(6)

Pour déterminer les deux estimateurs de la loi Normale, fixons d'abord l'écart-type. Pour cela, dérivons par rapport à et regardons pour quelle valeur de la moyenne la fonction s'annule.

Il nous reste après simplification le terme suivant:

(7)

Ainsi, l'estimateur de maximum de vraisemblance de la moyenne (espérance) de la loi Normale est donc après réarrangement:

(8)

et nous voyons qu'il s'agit simplement de la moyenne arithmétique (ou appelée aussi "moyenne empirique").

Fixons maintenant la moyenne. L'annulation de la dérivée de en conduit à :

(9)

Ce qui nous permet d'écrire (expression que nous avons déjà rencontré... !) l'estimateur de maximum de vraisemblance pour l'écart-type (la variance lorsque la moyenne est connue selon la loi de distribution supposée elle aussi connue!):

(10)

Cependant, nous n'avons pas encore défini ce qu'était un bon estimateur ! Ce que nous entendons par là:

- Si l'espérance d'un estimateur est égale à elle-même, nous disons que cet estimateur est "sans biais"

- Si l'espérance d'un estimateur n'est pas égale à elle-même, nous disons alors que cet estimateur est "biaisé".

Dans l'exemple précédent, la moyenne est donc non biaisée (trivial car la moyenne de la moyenne arithmétique est égale à elle même). Mais qu'en est-il de la variance (in extenso de l'écart-type) ?

Un petit calcul simple par linéarité de l'espérance (puisque les variables aléatoires sont indentiquement distribuées) va nous donner la réponse dans le cas où la moyenne théorique est approchée comme dans la pratique (industrie) par l'estimateur de la moyenne (cas le plus fréquent). Nous avons donc le calcul de l'espérance de la "variance empirique":

(11)

Or, comme les variables sont équidistribuées:

(12)

Et nous avons (formule de Huyghens):

et (13)

où la deuxième relation ne peut s'écrire que parce que nous utilisons l'estimateur de maximum de vraisemblance de la moyenne. D'où:

(14)

et comme:

et (15)

Nous avons finalement:

(16)

nous avons donc un biais de:

(17)

Nous noterons également que la différence l'estimateur tend vers un estimateur sans biais lorsque le nombre d'essais tend vers l'infini . Nous disons alors que nous avons un "estimateur asymptotiquement non biaisé" ou plus simplement "estimateur sans biais" noté E.S.B en abrégé.

Remarque: Un estimateur est aussi dit "estimateur consistant" s'il converge en probabilité, lorsque , vers la vraie valeur du paramètre.

De par les propriétés de l'espérance, nous avons :

(18)

Nous avons donc finalement l'estimateur de maximum de vraisemblance biaisé ou appelé également "variance empirique" ou encore "variance échantillonnale" et donc donné par :

(19)

lorsque nous avons donc l'estimateur de maximum vraisemblance non biaisé:

(20)

deux relations que nous retrouvons souvent dans les tables et dans de nombreux logiciels et que nous utiliserons plus bas dans les développements des intervalles de confiance et des tests d'hypothèses!

Au total, cela nous fait donc trois estimateurs pour la meme quantité!! Comme dans l'écrasante majorité des cas de l'industrie la moyenne théorique n'est pas connue, nous utilisons le plus souvent les deux relations encadrées ci-dessus. Maintenant, c'est la que c'est plus vicieux : lorsque nous calculons le biais des deux estimateurs, le premier est biaisé, le second ne l'est pas. Donc nous aurions tendance à utiliser que le seconde. Que nenni! Car nous pourrions aussi parler de la variance et de la précision d'un estimateur, qui sont aussi des critères importants pour juger de la qualité d'un estimateur par rapport a un autre. Si nous faisions le calcul de la variance des deux estimateurs, alors le premier, qui est biaisé, a une variance plus petite que le second qui est sans biais! Tout ça pour dire que le critère du biais n'est pas (et de loin) le seul a àtudier pour juger de la qualité d'un estimateur.

ESTIMATEUR DE LA LOI DE POISSON

En utilisant la même méthode que pour la loi Normale (Gauss-Laplace), nous allons donc rechercher l'estimateur de maximum de vraisemblance la loi exponentielle qui rappelons-le, est définie par :

(21)

Dès lors, la vraisemblance est donnée par :

(22)

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

(23)

Nous cherchons maintenant à la maximiser :

(24)

et obtenons donc son unique estimateur de maximum de vraisemblance qui sera :

(25)

Sachant que l'écart type de cette distribution (voir plus haut) n'est que la racine carrée de la moyenne, nous avons alors pour l'écart-type de maximum de vraisemblance :

(26)

ESTIMATEUR DE LA LOI BINOMIALE

En utilisant la même méthode que pour la loi Normale (Gauss-Laplace) et la loi de Poisson, nous allons donc rechercher l'estimateur de maximum de vraisemblance la loi Binomiale qui rappelons-le, est définie par :

(27)

Dès lors, la vraisemblance est donnée par :

(28)

Il convient de se rappeler que le facteur qui suit le terme combinatoire exprime déjà les variables successives selon ce que nous avons vu lors de notre étude de la fonction de distribution de Bernoulli et de la fonction binômiale.

Maximiser une fonction ou maximiser son logarithme est équivalent donc:

(29)

Nous cherchons maintenant à la maximiser :

(30)

Ce qui donne :

(31)

d'où nous tirons l'estimateur de maximum de vraisemblance qui sera :

(32)

Ce résultat est assez intuitif si l'on considère l'exemple classique et ennuyeux d'une pièce de monnaie qui à une chance sur deux de tomber sur une des ces faces. La probabilité p étant le nombre de fois k où une face donnée a été observée sur le nombre d'essais total (toutes faces confondues).

Remarque: Dans la pratique, il n'est pas aussi simple d'appliquer ces estimateurs. Il faut bien réfléchir auxquels sont les plus adaptés à une expérience donnée et idéalement calculer également l'erreur quadratique moyenne (erreur standard) de chacun des estimateurs de la moyenne (comme nous l'avons déjà fait pour la moyenne empirique plus tôt).

INTERVALLES DE CONFIANCE

Jusqu'à maintenant nous avons toujours déterminé les différents estimateurs de vraisemblance ou estimateurs simples (variance, écart-type) à partir de lois (fonctions) statistiques théoriques ou mesurées sur toute une population de données.

Nous allons maintenant aborder une approche un peu différente et importante dans l'industrie en se demandant maintenant quelles doivent être les tailles d'échantillons pour avoir une certaine validité (intervalle de confiance I.C.) pour les données mesurées ou encore quel écart-type ou fractile dans une loi Normale centrée réduite (grand nombre d'échantillons), du Khi-deux, de Student ou de Fisher correspond à un certain intervalle de confiance (nous verrons ces deux derniers cas de faibles échantillons dans la partie traitant de l'analyse de la variance ou ANOVA) lorsque la variance ou la moyenne est connue ou respectivement inconnue sur l'ensemble ou une partie de la population de données.

Indiquons que ces intervalles de confiance utilisent le théorème central limite démontré plus loin (afin d'éviter toute frustration) et que les développements que nous allons faire maintenant nous seront également utiles dans le domaine des Tests d'Hypothèse qui ont une place majeure en statistique!

I.C. SUR LA MOYENNE AVEC VARIANCE théorique CONNUE

Commençons par le cas le plus simple et le plus courant qui est la détermination du nombre d'échantillons pour avoir une certaine confiance dans la moyenne des mesures effectués d'une variable aléatoires supposée suivre une loi Normale.

Nous avons démontré au début de ce chapitre que l'erreur-type (écart-type à la moyenne) était :

(33)

Maintenant, avant d'aller plus loin, considérons X comme une variable aléatoire suivant une loi Normale de moyenne et d'écart-type . Nous souhaiterions déterminer à combien de sigma correspond un intervalle de confiance de 95%. Pour déterminer cela, nous écrivons d'abord:

(34)

Remarque: Donc avec un intervalle de confiance de 95% vous aurez raison 19 fois sur 20, ou n'importe quel autre niveau de confiance ou niveau de risque (1-niveau de confiance) que vous vous serez fixé à l'avance. En moyenne, vos conclusions seront donc bonnes, mais nous ne pourrons jamais savoir si une décision particulière est bonne!

En centrant et réduisant la variable aléatoire :

(35)

Notons maintenant Y la variable centrée réduite :

(36)

Puisque la loi Normale centrée réduite est symétrique :

(37)

D'où :

(38)

A partir de là en lisant dans les tables numériques de la loi centrée réduite, nous avons pour satisfaire cette égalité que :

(39)

Ce qui s'obtient facilement avec MS Excel en utlisant la fonction: NORMALSINV((1-0.95)/2).

Donc :

(40)

Ce qui est noté de façon traditionnelle dans le cas général autre que 95% par (Z n'est pas une variable aléatoire c'est juste le facteur qui est la variable suivante) :

(41)

Or, considérons que la variable X sur la quelle nous souhaitons faire de l'inférence statistique est justement la moyenne. Dès lors :

(42)

Dès lors nous en tirons :

(43)

Ainsi, si nous pouvons maintenant savoir le nombre d'échantillons à avoir pour s'assurer un intervalle de précision autour de la moyenne et pour qu'un pourcentage donné des mesures se trouvent dans cet intervalle et en supposant l'écart-type expérimental connu d'avance.

Cependant... en réalité, la variable Z provient du théorème central limite (voir plus bas) qui donne pour un échantillon de grande taille (approximativement):

(44)

En réarrangeant nous obtenons:

(45)

et comme Z peut être négatif ou positif alors il est plus censé d'écrire cela sous la forme:

(46)

Soit:

(47)

que les ingénieurs notent:

(48)

avec LCL étant la lower confidence limit et UCL la upper confidence limit. C'est de la terminologie Six Sigma (cf. chapitre Techniques de Gestion).

Et nous venons de voir plus avant que pour avoir une intervalle de confiance à 95% nous devions avoir Z=1.96. Et puisque la loi Normale est symétrique:

(49)

Cela se note finalement:

(50)

soit dans le cas d'un IC (intervalle de confiance) à 95%:

(51)

I.C. SUR LA VARIANCE AVEC moyenne théorique CONNUE

Commencons à démontrer une propriété fondamentale de la loi du kh-deux :

Si la variable aléatoire X suit une loi Normale centrée réduite alors son carré suit une loi du khi-deux de degré de liberté 1 :

(52)

Démonstration:

Pour démontrer cette propriété, il suffit de calculer la densité de la variable aléatoire avec . Or, si et si nous posons , alors pour tout nous obtenons :

(53)

Puisque la loi Normale est symétrique par rapport à 0 pour la variable aléatoire X, nous pouvons écrire :

(54)

En notant la fonction de répartition de la loi Normale centrée réduite (sa probabilité cumulée en d'autres termes pour rappel), nous avons :

(55)

et comme :

(56)

alors :

(57)

La fonction de répartition de la variable aléatoire (probabilité cumulée) est donne donnée par :

(58)

si y est supérieur ou égal à zéro, nulle si y inférieur à zéro. Nous noterons cette réparation pour la suite des calculs.

Puisque la fonction de distribution est la dérivée de la fonction de répartition et que X suit une loi Normale alors nous avons pour la variable aléatoire X :

(59)

alors nous pour la loi de distribution de Y :

(60)

Le théorème est donc bien démontré tel que si X suit une loi Normale centrée réduite alors son carré suit une loi du khi-deux à 1 degré de liberté tel que :

(61)

C.Q.F.D.

Ce type de relation est utilisée dans les processus industriels et leur contrôle. Typiquement utilisée par la méthode Six Sigma dans les SPC (cf. chapitre de Techniques De Gestion).

Nous allons maintenant utiliser un résultat démontré lors de notre étude de la loi Gamma. Nous avons effectivement vu plus haut que la somme de deux variables aléatoires suit aussi une loi Gamma dont les paramètres s'additionnent :

(62)

Comme la loi du khi-deux n'est qu'un cas particulier de la loi Gamma, le même résultat s'applique.

Pour être plus précis, cela revient à écrire :

Corollaire : Si sont des variables aléatoires indépendantes et identiquement distribuées N(0,1) alors par extension de la démonstration précédente où nous avons montré que:

(63)

et de la propriété d'addition de la loi Gamma, la somme de leurs carrés suit alors une loi du khi-deux de degré k tel que:

(64)

Ainsi, la loi du à k degrés de liberté est la loi de probabilité de la somme des carrés de k variables normales centrées réduites indépendantes entre elles. Il s'agit de la propriété de linéarité de la loi du Khi-deux.

Maintenant voyons une autre propriété importante de la loi du khi-deux : Si sont des variables aléatoires indépendantes et identiquement distribuées (donc de même moyenne et même écart-type et suivant une loi Normale) et si nous posons l'estimateur de maximum de vraisemblance de la variance:

(65)

alors, le rapport de la variable aléatoire sur l'écart-type supposé connu de l'ensemble de la population (dit "écart-type vrai" ou "écart-type théorique" pour bien différencier!) multiplié par le nombre d'échantillons n de la population suit une loi du khi-deux de degré n telle que :

(66)

Remarques:

R1. En laboratoire, les peuvent être vues comme une classe d'échantillons d'un même produit étudié identiquement par différentes équipes de recherche avec des instruments de même précision (écart-type de mesure nul).

R2. est la "variance inter-classe" également appelée "variance expliquée". Donc elle donne la variance d'une mesure ayant eu lieu dans les différents laboratoires.

Ce qui est intéressant c'est qu'à partir du calcul de la loi du khi-deux en connaissant n et l'écart-type il est possible d'estimer cette variance (écart-type) inter-classe.

Pour voir que cette dernière propriété est une généralisation élémentaire de la relation :

(67)

Il suffit de constater que la variable aléatoire est une somme de n carrés de N(0,1) indépendants les uns des autres. Effectivement, rappelons qu'une variable aléatoire centrée réduite (voir note étude de la loi Normale) est donnée par :

(68)

Dès lors :

(69)

Or, puisque les variables aléatoires sont indépendantes et identiquement distribuées selon une loi Normale centrée réduite, alors les variables aléatoires :

(70)

sont aussi indépendantes et identiquement distribuées mais selon une loi Normale (de par la stabilité de la loi Normale).

Puisque:

(71)

en réarrangeant nous obtenons:

(72)

Donc sur la population de mesures, l'écart-type suit la relation donnée ci-dessus. Il est donc possible de faire de l'inférence statistique sur l'écart-type lorsque l'estimateur de maximum de vraisemblance de la moyenne (moyenne empirique) est connue (…) et donc l'écart-type théorique de toute la population inconnue (mais l'écart-type empirique connu).

Puisque la fonction du khi-deux n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors l'intervalle de confiance à 95% (par exemple…) de la manière suivante:

(73)

Soit en notant :

(74)

le dénominateur étant alors bien évidemment la probabilité cumulée. Cette relation est rarement utilisée dans la pratique car la moyenne théorique n'est pas connue. Voyons donc le cas le plus courant:

I.C. SUR LA VARIANCE AVEC moyenne empirique connue

Cherchons maintenant à faire de l'inférence statistique lorsque la moyenne de la population n'est pas connue. Pour cela, considérons maintenant la somme:

(75)

où pour rappelest la moyenne de l'échantillon:

(76)

En continuant le développement nous avons:

(77)

Or, nous avons démontré au début de ce chapitre que la somme des écarts à la moyenne était nulle. Donc:

(78)

et reprenons l'estimateur sans biais de la loi Normale (nous changeons de notation pour respecter les traditions et bien différencier la moyenne empirique de la moyenne théorique):

(79)

Dès lors:

(80)

ou autrement écrit:

(81)

Puisque le deuxième terme (au carré) suit une loi Normale centrée réduite aussi, alors si nous le supprimons nous obtenons de par la propriété démontrée plus haut de la loi du Khi-deux:

(82)

Ces développements nous permettent cette fois-ci de faire aussi de l'inférence sur la variance d'une loi lorsque les paramètres et sont tous les deux inconnus pour l'ensemble de la population. C'est ce résultat qui nous donne, par exemple, l'intervalle de confiance:

(83)

lorsque la moyenne est donc inconnue.

I.C. SUR LA MOYENNE AVEC moyenne empirique connue

Nous avons démontré beaucoup plus haut que la loi de Student provenait de la relation suivante:

(84)

si X et Y sont des variables aléatoires indépendantes et si X suit une loi Normale centrée réduite N(0,1) et Y une loi du khi-deux tel que:

(85)

Voici une application très importante du résultat ci-dessus:

Supposons que constituent un échantillon aléatoire de taille n issu de la loi . Alors nous pouvons déjà écrire que:

(86)

Et pour U qui suit une loi , si nous posons (ce qui signifie implicitement que le terme est celui que nous avons éliminé lors du développement précdént) alors:

(87)

Nous avons alors après quelques simplifications:

(88)

Donc puisque:

(89)

suite une loi de Student de paramètre k alors:

(90)

suit une loi de Student de paramètre n-1.

Ce qui nous donne aussi:

(91)

Ce qui nous permet de faire de l'inférence sur la moyenne d'une loi Normale d'écart-type inconnu mais dont l'estimateur sans biais de l'écart-type est connu (donc l'écart-type théorique est inconnu!). C'est ce résultat qui nous donne l'intervalle de confiance:

(92)

où nous retrouvons les mêmes indices que pour l'inférence statistique sur la moyenne d'une variable aléatoire d'écart-type connu puisque la loi de Student est symétrique!

Remarque: Le résultant précédent fut obtenu par William S. Gosset aux alentours de 1910. Gosset qui avait étudié les mathématiques et la chimie, travaillait comme statisticien pour la brasserie Guinness en Angleterre. À l'époque, on savait que si sont des variables aléatoires indépendantes et identiquement distribuées alors:

(93)

Toutefois, dans les applications statistiques on s'intéressait bien évidemment plutôt à la quantité:

(94)

on se contentait alors de supposer que cette quantité suivait à peu près une loi Normale centrée réduite ce qui n'était pas une mauvais approximation comme le montre l'image ci-dessous ():

(95)

Suite à de nombreuses simulations, Gosset arriva à la conclusion que cette approximation était valide seulement lorsque n est suffisamment grand (donc cela lui donnait l'indication comme quoi il devait y avoir quelque part derrière le théorème central limite). Il décida de déterminer l'origine de la distribution et après avoir suivi un cours de statistique avec Karl Pearson il obtint son fameux résultat qu'il publia sous le pseudonyme de Student. Ainsi, on appelle loi de Student la loi de probabilité qui aurait dû être appelée la loi ou fonction de Gosset.

LOI FAIBLE DES GRANDS NOMBRES

Nous allons maintenant nous attarder sur une relation très intéressante en statistique qui permet de dire pas mal de choses tout en ayant peu de données et ce quelque soit la loi considérée (ce qui est pas mal quand même!). C'est une propriété très utilisée en simulation statistique par exemple dans le cadre de l'utilisation de Monte-Carlo.

Soit une variable aléatoire à valeurs dans . Alors nous allons démontrer la relation suivante appelée "inégalité de Markov" :

(96)

avec dans le contexte particulier des probabilités.

En d'autres termes, nous proposons de démontrer que la probabilité qu'une variable aléatoire soit plus grande ou égale qu'une valeur est inférieure ou égale à son espérance divisée par la valeur considérée et ce quelle que soit la loi de distribution de la variable aléatoire X!

Démonstration:

Notons les valeurs de X par , où (c'est-à-dire triées par ordre croissant) et posons . Nous remarquons d'abord que l'inégalité est triviale au cas ou . Effectivement, comme X ne peut être compris qu'entre 0 et par définition alors la probabilité qu'il soit supérieure à est nul. En d'autres termes :

(97)

et X étant positif, E(X) l'est aussi, d'où l'inégalité pour ce cas particulier dans un premier temps.

Sinon, nous avons et il existe alors un tel que . Donc :

(98)

C.Q.F.D.

Exemple :

Nous supposons que le nombre de pièces sortant d'une usine donnée en l'espace d'une semaine est une variable aléatoire d'espérance 50. Nous nous souhaitons estimer la probabilité que la production dépasse 75 pièces nous appliquerons simplement :

(99)

Considérons maintenant une sorte de généralisation de cette inégalité appelée "inégalité de Bienaymé-Tchebychev" (abrégée "inégalité BT") qui va nous permettre d'obtenir un résultat très intéressant un peu plus bas.

Considérons une variable aléatoire X. Alors nous allons démontrer l'inégalité de Bienaymé-Tchebychev suivante:

(100)

Nous obtenons cette inégalité en écrivant d'abord (puisqu'il s'agit d'une probabilité cumulée) :

(101)

et le choix du carré va nous servir pour une simplification future.

Puis en appliquant l'inégalité de Markov (comme quoi c'est quand même utile…) à la variable aléatoire avec il vient automatiquement :

(102)

Ensuite, en utilisant la définition de la variation donnée plus haut :

(103)

Nous obtenons bien :

(104)

Exemple :

Nous reprenons l'exemple où le nombre de pièces sortant d'une usine donnée en l'espace d'une semaine est une variable aléatoire d'espérance 50. Nous supposons en plus que la variance de la production hebdomadaire est de 25. Nous cherchons à calculer la probabilité que la production de la semaine prochaine soit comprise entre 40 et 60 pièces.

Pour calculer ceci il faut d'abord se souvenir que l'inégalité de BT est basée en parties sur le terme donc nous avons :

(105)

donc l'inégalité de BT nous permet bien de travailler sur des intervalles égaux en valeur absolue ce qui s'écrit aussi :

(106)

Ensuite, ne reste plus qu'à appliquer simplement l'inégalité numériquement :

(107)

Ces deux inégalités vont nous permettre d'obtenir une relation très importante et puissante que nous appelons la "loi faible des grands nombres" (L.F.G.N.) ou encore "théorème de Khintchine".

Considérons une variable aléatoire X admettant une variance et une suite de variables aléatoires indépendantes (donc non corrélées deux-deux) de même loi que X et ayant toutes les mêmes espérances et les mêmes écarts-types .

Ce que nous allons montrer est que si nous mesurons une même quantité aléatoire de même loi au cours d'une suite d'expériences indépendantes (alors dans ce cas, nous disons techniquement que la suite de variables aléatoires sont définies sur le même espace probabilisé), alors la moyenne arithmétique des valeurs observées va se stabiliser sur l'espérance de X quand le nombre de mesures est infiniment élevée.

De manière formelle ceci s'exprime sous la forme :

(108)

lorsque .

Donc en d'autres termes la probabilité cumulée que la différence entre la moyenne arithmétique et l'espérance des variables aléatoires observées soit compris dans un intervalle autour de la moyenne tend vers zéro quand le nombre de variables aléatoires mesurées tend vers l'infini (ce qui est finalement intuitif).

Ce résultat nous permet d'estimer l'espérance mathématique en utilisant la moyenne empirique (arithmétique) calculée sur un très grand nombre d'expériences.

Démonstration:

Nous utilisons l'inégalité de Bienaymé-Tchebychev pour la variable aléatoire (cette relation s'interprète difficilement mais permet d'avoir le résultat escompté) :

(109)

Et nous calculons d'abord en utilisant les propriétés mathématiques de l'espérance que nous avions démontrées plus haut:

(110)

et dans un deuxième temps en utilisant les propriétés mathématiques de la variance aussi déjà démontrées plus haut :

(111)

et puisque nous avons supposé les variables non corrélées entre elles alors la covariance est nulle dès lors :

(112)

Donc en injectant cela dans l'inégalité BT :

(113)

nous avons alors :

(114)

qui devient :

(115)

et l'inégalité tend bien vers zéro quand n au numérateur tend vers l'infini.

C.Q.F.D.

Signalons que cette dernière relation est souvent notée dans certains ouvrages et conformément à ce que nous avons vu au début de chapitre:

(116)

ou encore:

(117)

Donc, pour :

(118)

FONCTION CARACTÉRISTIQUE

Avant de donner une démonstration à la manière ingénieur de ce théorème, introduisons d'abord la conception de "fonction caractéristique" qui tient une place centrale en statistiques.

D'abord, rappelons que la transformée de Fourier est donnée dans sa version physicienne par (cf. chapitre de Suites et Séries) les relations :

(119)

Nous souhaitons maintenant démontrer que si:

alors (120)

Démonstration:

Nous partons donc de:

(121)

Une intégration par parties donne :

(122)

En imposant que, f tend vers zéro à l'infini, nous avons alors:

(123)

et:

(124)

C'est la premier résultat dont nous avions besoin.

C.Q.F.D.

Maintenant, démontrons que si:

alors (125)

Démonstration:

Nous partons donc de:

(126)

C'est le deuxième résultat dont nous avions besoin.

C.Q.F.D.

Maintenant effectuons le calcul de la transformée de Fourier de la loi Normale centrée-réduite (ce choix n'est pas innocent…) :

(127)

Nous savons que cette dernière relation est trivialement solution de l'équation différentielle:

(128)

en prenant la transformée de Fourier des deux côté de l'égalité, nous avons en utilisant les deux résultats précédent:

alors (129)
alors

Nous avons:

(130)

Ou encore:

(131)

Donc après intégration:

(132)

Nous en déduisons:

(133)

et donc pour :

(134)

ce qui équivaut à:

(135)

Ainsi:

(136)

Nous avons alors:

(137)

Nous avons démontré lors de notre étude de la loi Normale que:

(138)

Donc:

(139)

Nous avons alors (résultat important!):

(140)

Introduisons maintenant la fonction caractéristique telle que définie par les statisticiens:

(141)

qui est un outil analytique important et puissant permettant d'analyser une somme de variables indépendantes. De plus, cette fonction contient toutes les informations caractéristiques de la variable aléatoire X.

Remarque: La notation n'est pas innocente puisque le E[…] représente comme un espérance de la fonction de densité par rapport à l'exponentielle complexe.

Donc la fonction caractéristique de la variable aléatoire normale centrée réduite de distribution:

(142)

devient simple à déterminer car:

(143)

raison pour laquelle la fonction caractéristique est souvent assimilée à une simple transformée de Fourier.

Et grâce au résultat précédent:

(144)

Donc:

(145)

qui est le résultat dont nous avons besoin pour le théorème central limite.

Mais avant cela, regardons d'un peu plus près cette fonction caractéristique:

(146)

En développement de MacLaurin nous avons (cf. chapitre Suites et Séries):

(147)

et en intervertissant la somme et l'intégrale, nous avons:

(148)

Cette fonction caractéristique contient tous les moments (terme général utilisé pour l'écart-type et l'espérance) de X. Nous en déduisons facilement la construction du moment par la fonction caractéristique elle-même:

(149)

THÉORÈME CENTRAL LIMITE

Le théorème de la limite centrale est un ensemble de résultats du début du 20ème siècle sur la convergence faible d'une suite de variables aléatoires en probabilité. Intuitivement, d'après ces résultats, toute somme (implicitement: la moyenne de ses variables) de variables aléatoires indépendantes et identiquement distribuées tend vers une certaine variable aléatoire. Le résultat le plus connu et le plus important est simplement appelé "théorème de la limite centrale" qui concerne une somme de variables aléatoires dont le nombre tend vers l'infini et c'est celui-ci que nous allons démontrer de manière heuristique ici.

Dans le cas le plus simple, considéré ci-dessous pour la démonstration du théorème, ces variables sont continues, indépendantes et possèdent la même moyenne et la même variance. Pour tenter d'obtenir un résultat fini, il faut centrer cette somme en lui soustrayant sa moyenne et la réduire en la divisant par son écart-type. Sous des conditions assez larges, la loi de probabilité (de la moyenne) converge alors vers une loi Normale centrée réduite. L'omniprésence de la loi Normale s'expliquant par le fait que de nombreux phénomènes considérés comme aléatoires sont dus à la superposition de causes nombreuses.

Ce théorème de probabilités possède donc une interprétation en statistique mathématique. Cette dernière associe une loi de probabilité à une population. Chaque élément extrait de la population est donc considéré comme une variable aléatoire et, en réunissant un nombre n de ces variables supposées indépendantes, nous obtenons un échantillon. La somme de ces variables aléatoires divisée par n donne une nouvelle variable nommée la moyenne empirique. Celle-ci, une fois réduite, tend vers une variable normale réduite lorsque n tend vers l'infini.

Le théorème de la limite centrale nous dit à quoi il faut s'attendre en matière de sommes de variables aléatoires indépendantes. Mais qu'en est-il des produits ? Eh bien, le logarithme d'un produit (à facteurs strictement positifs) est la somme des logarithmes des facteurs, de sorte que le logarithme d'un produit de variables aléatoires (à valeurs strictement positives) tend vers une loi Normale, ce qui entraîne une loi log-Normale pour le produit lui-même. Bon nombre de grandeurs physiques (en particulier la masse et la longueur, c'est une question de dimension, ne peuvent être négatives) sont le produit de différents facteurs aléatoires, de sorte qu'elles suivent une loi log-Normale. Il en va de même pour le cours en Bourse d'un actif risqué.

En elle-même, la convergence vers la loi Normale de nombreuses sommes de variables aléatoires lorsque leur nombre tend vers l'infini n'intéresse que le mathématicien. Pour le praticien, il est intéressant de s'arrêter un peu avant la limite : la somme d'un grand nombre de ces variables est presque gaussienne, ce qui fournit une approximation souvent plus facilement utilisable que la loi exacte.

En s'éloignant encore plus de la théorie, on peut dire que bon nombre de phénomènes naturels sont dus à la superposition de causes nombreuses, plus ou moins indépendantes. Il en résulte que la loi Normale les représente de manière raisonnablement efficace.

A l'inverse, on peut dire qu'aucun phénomène concret n'est vraiment gaussien car il ne peut dépasser certaines limites, en particulier s'il est à valeurs positives.

Démonstration:

Soit une suite (échantillon) de variables aléatoires continues (dans notre démonstration simplifiée…), indépendantes (mesures de phénomènes physiques ou mécaniques indépendants par exemple) et identiquement distribuées, dont la moyenne et l'écart-type existent.

Nous avons au début de ce chapitre que:

sont les mêmes expressions d'une variable centrée réduite générée à l'aide d'une suite de n variables aléatoires identiquement distribuées qui par construction a donc une moyenne nulle et une variance unitaire:

et (150)

Développons la première forme de l'égalité antéprécédente (elles sont de toute façon égales les deux!):

(151)

Maintenant utilisons la fonction caractéristique de la loi Normale centrée-réduite:

(152)

Comme les variables aléatoires sont indépendantes et identiquement distribuées, il vient:

(153)

Un développement de Taylor donne du terme entre accolades donne au troisième ordre:

(154)

Finalement:

(155)

Posons:

(156)

Nous avons alors:

(157)

Nous avons donc quand n tend vers l'infini (cf. chapitre d'Analyse fonctionnelle):

(158)

Nous retrouvons donc la fonction caractéristique de la loi Normale centrée réduite!

En deux mots, le Théorème Central Limite (TCL) dit que pour de grands échantillons, la somme centrée et réduite de n variables aléatoires identiquement distribuées suit une loi (presque) Normale centrée et réduite. Et donc nous avons in extenso pour la moyenne empirique:

Malgré l'immensité de son champ d'applications, le TCL n'est pas universel. Dans sa forme la plus simple, il impose en particulier à la variable considérée d'avoir des moments du premier et du deuxième ordre (moyenne et variance). Si tel n'est pas le cas, il ne s'applique plus.

L'exemple le plus simple d'échec du TLC est donné par la distribution de Cauchy, qui n'a ni moyenne, ni variance, et dont la moyenne empirique a toujours la même distribution (Cauchy) quelle que soit la taille de l'échantillon.

Maintenant, nous allons illustrer le théorème central limite dans le cas d'une suite de variables aléatoires indépendantes suivant une loi de Bernoulli de paramètre 1/2.

Nous pouvons imaginer que représente le résultat obtenu au n-ième lancé d'une pièce de monnaie (en attribuant le nombre 1 pour pile et 0 pour face). Notons:

(159)

la moyenne. Nous avons pour tout n bien évidemment:

(160)

et donc:

(161)

Après avoir centré et réduit nous obtenons:

(162)

Notons la fonction de répartition de la loi Normale centrée réduite.

Le théorème central limite nous dit que pour tout :

(163)

A l'aide de Maple nous avons tracé en bleu quelques graphiques de la fonction:

(164)

pour différentes valeurs de n. Nous avons représenté en rouge la fonction .

(165)

(166)

(167)

(168)

Ces graphiques nous montrent bien la convergence de vers. En fait nous remarquons que la convergence est carrément uniforme ce qui est confirmé par le "théorème central limite de Moivre-Laplace":

Soit une suite de variables aléatoires indépendantes de même loi de Bernoulli de paramètre p, . Alors:

(169)

tend uniformément vers sur lorsque .

TESTS D'HYPOTHÈSE (OU D'ADÉQUATION)

Lors de notre étude des intervalles de confiance, nous sommes arrivées aux relations suivantes:

et:

et enfin:

qui permettaient donc de faire de l'inférence statistique en fonction de la connaissance ou non de la moyenne ou de la variance sur la totalité ou sur un échantillon de la population. En d'autres termes de savoir dans quelles bornes se situait un moment (moyenne ou variance) en fonction d'un certain niveau de confiance imposé. Nous avions vu que le deuxième intervalle ci-dessus ne peut être que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le troisième.

Nous allons également démontré en détails plus loin les deux intervalles suivants:

(170)

et:

(171)

Le premier intervalle ci-dessus ne peut êtrel lui aussi que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le deuxième.

Lorsque nous cherchons à savoir si nous pouvons faire confiance à la valeur d'un moment avec une certaine confiance, nous parlons de "test d'hypothèse" ou "test d'adéquation" ou encore de "test de conformité".

Les tests d'hypothèses sont destinés à vérifier si un échantillon peut être considéré comme extrait d'une population donnée ou représentatif de cette population, vis-à-vis d'un paramètre comme la moyenne, la variance ou la fréquence observée. Ceci implique que la loi théorique du paramètre est connue au niveau de la population.

Par exemple, si nous souhaitons savoir avec une certaine confiance si une moyenne donnée d'un échantillon de population est réaliste par rapport à la vraie moyenne théorique inconnue, nous utiliserons le "test-Z" qui est simplement:

si la moyenne de toute la population se trouve bien dans les bornes pour la confiance donnée, la moyenne de l'échantillon test de taille n avec l'écart-type de toute la population connue!

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

alors la soustraction (différencier) des moyennes donne:

Donc pour la différence de deux moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

Nous pouvons alors adapter le test-Z sous la forme:

Cette relation est très utile lorsque pour deux échantillons de deux populations de données, nous voulons vérifier s'il existe une différence significative des différences des moyennes théoriques à un niveau de confiance donné et la probabilité associée pour avoir cette différence par exemple donné par:

Donc:

Nous parlons du "test-Z de la moyenne à deux échantillons" et il est beaucoup utilisé dans l'industrie pour vérifier l'égalité de la moyenne de deux populations de mesures.

Et si l'écart-type théorique n'est pas connu, nous utiliserons les "test-T" de Student:

Dans la même idée pour l'écart-type, nous utiliserons le "test du khi-deux":

Et lorsque nous voulons test l'égalité de la variance de deux populations nous utilisons le "test-F" de Fisher (démontré plus bas lors de notre étude de l'analyse de la variance):

Le fait que nous obtenions alors l'ensemble des valeurs satisfaisant à ce test borné à droite et (!) à gauche est ce que nous appelons dans le cas général un "test bilatéral" car il comprend le test unilatéral à gauche et unilatéral à droite. Ainsi, tous les test susmentionnés sont dans une forme bilatérale mais nous pourrions en faire une analyse unilatérale aussi!

Signalons aussi que les tests où les lois des variables aléatoires sous jacentes sont connues comme c'est le cas pour les quatre relations données ci-dessus (normalement distribuées!) sont appelées des "tests paramétriques".

Nous allons dans ce qui suit voir un autre démontrer l'origine du le test F de Fisher et par la même occasion nous introduirons deux autres tests qui sont le "test-T homoscédastique" et le "test-T hétéroscédastique".

ANALYSE DE LA VARIANCE (ANOVA a un facteur)

L'objectif de l'analyse de la variance (contrairement à ce que son nom pourrait laisser penser) est une technique statistique permettant de comparer les moyennes de deux populations ou plus. Cette méthode, néanmoins, doit son nom au fait qu'elle utilise des mesures de variance afin de déterminer le caractère significatif, ou non, des différences de moyenne mesurées sur les populations.

Pour l'analyse de la variance abrégée "ANOVA" (ANalysis Of VAriance) ou "ANAVAR" (ANAlyse de la VARiance) nous allons d'abord rappeler, comme nous l'avons démontré, que la loi de Fisher-Snedecor est donnée par le rapport de deux variables aléatoires indépendantes suivant une loi du khi-deux et divisée par leur degré de liberté tel que:

(172)

et nous allons voir maintenant son importance.

Considérons un échantillons aléatoire de taille n, disons issu de la loi et un échantillon aléatoire de taille m, disons issu de la loi .

Considérons les estimateurs de maximum de vraisemblance de l'écart-type de la loi Normale traditionnellement notée dans le domaine de l'analyse de la variance par:

et (173)

Les statistiques ci-dessus sont les statistiques que nous utiliserions pour estimer les variances si les moyennes empiriques sont connues. Donc nous pouvons utiliser un résultat démontré plus haut lors de notre étude des intervalles de confiance:

(174)

Comme les sont indépendantes des (hypothèse!), les variables:

(175)

sont indépendantes l'une de l'autre.

Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:

et (176)

ainsi que:

et (177)

Nous avons donc:

(178)

Soit:

(179)

Ce théorème nous permet de déduire l'intervalle de confiance du rapport de deux variances lorsque la moyenne empirique est connue. Puisque la fonction du Fisher n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors l'intervalle de confiance à 95% (par exemple…) de la manière suivante:

(180)

Dans le cas où les moyennes sont inconnues, nous utilisons l'estimateur sans biais de la variance traditionnellement notée dans le domaine de l'analyse de la variance par:

et (181)

Pour estimer les variances théoriques, nous utilisons le résultat démontré plus haut:

et (182)

Comme les sont indépendantes des (hypothèse!), les variables:

(183)

sont indépendantes l'une de l'autre. Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:

et (184)

ainsi que:

et (185)

Nous avons donc:

(186)

Soit:

(187)

(188)

R. A. Fisher (1890-1962) est, comme Karl Pearson, l'un des principaux fondateurs de la théorie moderne de la statistique. Fisher étudia à Cambridge où il obtint en 1912 un diplôme en astronomie. C'est en étudiant la théorie de l'erreur dans les observations astronomiques que Fisher s'intéressa à la statistique. Fisher est l'inventeur de la branche de la statistique appelée l'analyse de la variance.

Au début du 20ème siècle, R. Fischer développe donc la méthodologie des plans d'expérience. Pour valider l'utilité d'un facteur, il met au point un test permettant d'assurer que des échantillons différents sont de natures différentes. Ce test est basé sur l'analyse de la variance (des échantillons), et nommé ANOVA (analyse normalisée de la variance).

Prenons k échantillons de n valeurs aléatoires chacun (appelé "facteur explicatif" dans l'analyse de la variance). Chacune des valeurs étant considérée comme une observation ou une mesure de quelque chose. Nous aurons donc un nombre total de N d'observations (mesures) donnée par:

(189)

si chacun des échantillons a un nombre identique de valeurs tel que .

Nous considérerons que chacun des k échantillons est issu (suit) d'une variable aléatoire suivant une loi Normale.

En termes de test, nous voulons tester si les moyennes des k échantillons sont égales sous l'hypothèse que leurs variances sont égales. Ce que nous écrivons sous forme d'hypothèse de la manière suivante:

(190)

Autrement dit: les échantillons sont représentatifs d'une même population (d'une même loi statistique). C'est-à-dire que les variations constatées entre les valeurs des différents échantillons sont dues essentiellement au hasard. Pour cela nous étudions la variabilité des résultats dans les échantillons et entre les échantillons.

Nous noterons i l'indice d'échantillon (de 1 à k) et j l'indice de l'observation (de 1 à n). Donc sera la valeur de la j-ème observation de l'échantillon de données numéro i.

Selon l'hypothèse susmentionnée, nous avons:

(191)

Nous noterons par la moyenne empirique/estimée (arithmétique) de l'échantillon i :

(192)

et la moyenne empirique/estimée des N valeurs (soit la moyenne des ) donnée donc par:

(193)

En utilisant les propriétés de l'espérance et de la variance déjà démontrées plus haut nous savons que:

et (194)

avec qui est la moyenne des moyennes vraies :

(195)

Maintenant, introduisons la "variance totale" comme étant la variance estimée sans biais en considérant l'ensemble des N observations comme un seul échantillon:

(196)

où rappelons que le terme au numérateur est appelé "variation totale".

La variance entre échantillons (c'est-à-dire entre les moyennes des échantillons) est l'estimateur de la variance des moyennes des échantillons:

(197)

Comme nous avons démontré que si toutes les variables sont identiquement distribuées (même variance) la variance des individus vaut n fois celle de la moyenne:

(198)

Si dans notre situation, nous considérons les variables comme étant la moyenne des échantillons, alors les individus sont les variables aléatoires contenus dans les échantillons!

Alors la variance des observations (variables aléatoires dans un échantillon) est donnée par :

(199)

Nous avons donc ci-dessus l'hypothèse de l'égalité des variance qui est exprimée sous forme mathématique pour les développements à suivre.

La variance résiduelle est l'effet des facteurs non contrôlés. C'est par définition la moyenne des variances des échantillons.

(200)

Au final, ces indicateurs sont parfois résumés sous la forme suivante:

(201)

Remarquons que si les échantillons n'ont pas la même taille, nous avons alors:

(202)

Remarques:

R1. Le terme est souvent indiqué dans l'industrie par l'abréviation SST signifiant en anglais "Sum of Squares Total" ou plus rarement TSS pour "Total Sum of Square".

R2. Le terme est souvent indiqué dans l'industrie par l'abréviation SSB signifiant en anglais "Sum of Squares Between (samples)" ou plus rarement SSk pour "Sum of Squared Beetween treatments".

R3. Le terme est souvent indiqué dans l'industrie par l'abréviation SSW signifiant en anglais "Sum of Squares Within (samples)" ou plus rarement SSE pour "Sum of Squared due to Errors".

Indiquons que nous voyons souvent dans la littérature (nous réutiliserons un peu plus loin cette notation):

(203)

avec donc l'estimateur sans biais de la variance des observations:

(204)

Avant d'aller plus loin, arrêtons-nous sur la variance résiduelle (moyenne). Nous avons donc pour des échantillons qui ne sont pas de même taille:

(205)

Ouvrons maintenant une petite parenthèse… Prenons le cas particulier deux échantillons seulement. Nous pouvons alors écrire:

(206)

Soit en introduisant l'estimateur de maximum de vraisemblance de la variance:

(207)

Nous pouvons d'ailleurs observer que dans le cas particulier où:

(208)

alors:

(209)

Donc:

(210)

Supposons maintenant que nous souhaitions comparer avec un certain intervalle de confiance la moyenne de deux populations ayant une variance différente pour savoir si elles sont de natures différentes ou non.

Nous connaissons pour le moment deux tests pour vérifier les moyennes. Le test-Z et le test-T. Comme dans l'industrie il est rare que nous ayons le temps de prendre des grands échantillons, concentrons-nous sur le deuxième que nous avions démontré plus haut:

(211)

Et rappelons aussi que:

(212)

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

(213)

alors la soustraction (différencier) des moyennes donne:

(214)

Donc pour la différence de deux moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

(215)

Est maintenant l'idée est de prendre l'approximation (sous l'hypothèse que les variances sont égales):

(216)

Cette approximation est appelée "hypothèse homoscédastique".

Nous avons alors l'intervalle de confiance:

(217)

Comme l'idée est de tester l'égalité des moyennes théoriques à partir des estimateurs connus alors:

(218)

avec:

(219)

Dans la plupart des logiciels disponibles sur le marché, le résultat est uniquement donné à partir du fait que le que nous avons est compris dans le correspondant au l'intervalle de confiance imposé donné rappelons-le par:

(220)

dans le cas de l'hypothèse homoscédastique (égalité des variances) sinon par:

(221)

dans l'hypothèse hétéroscédasticité (non égalité des variances).

Donc:

(222)

Si nous faisons ce test avec deux échantillons à variances égales, nous parlons du "t-test homoscédastique", sinon du "test-t hétéroscédastique".

Bref, fermons cette parenthèse et revenons à nos moutons… Nous en étions donc au tableau suivant:

(223)

où nous avons donc le cas d'échantillon de même taille:

(224)

Ainsi que la variance totale qui est la somme de la variance des moyennes (inter-classes) et de la variance résiduelle (intra-classes) et ce que les échantillons soient de même taille ou non:

(225)

Effectivement:

(226)

Or, nous avons:

(227)

car:

(228)

Donc:

(229)

Sous les hypothèses mentionnées au début (égalité des moyennes entre échantillons) nous avons:

(230)

ce qui découle immédiatement de la démonstration que nous avions fait lors de notre étude de l'inférence statistique où nous avions obtenu:

(231)

Ce que nous souhaitons faire c'est voir s'il y a une différence entre la variance des moyennes (inter-classes) et de la variance résiduelle (intra-classes). Pour comparer deux variances lorsque les moyennes vraies sont inconnues nous avons vu que le mieux était d'utiliser le test de Fisher.

De même, nous avons:

(232)

Effectivement, nous avons:

(233)

Donc de par la linéarité de la loi du Khi-deux:

(234)

puisque:

(235)

et parce que:

(236)

Donc pour résumer nous avons:

et (237)

et puisque , nous avons alors:

(238)

C'est maintenant qu'intervient la loi de Fisher dans l'hypothèse où les variances sont égales! Puisque:

et (239)

Or, nous avons démontré dans notre étude de la loi de Fisher un peu plus haut que:

(240)

où dans notre cas d'étude:

(241)

Indiquons encore que la relation précédente:

(242)

et souvent indiquée dans la littérature sous la formation suivante:

(243)

où MSK est appelé "Mean Square for treatments" et MSE "Mean Square for Error".

Remarque: S'il y a seulement deux populations, il faut bien comprendre qu'à moment l'utilisation du test-T de student suffit amplement.

Tout les calculs que nous avons fait sont très souvent représentés dans les logiciels sous la forme d'une table standardisée donc voici la forme et le contenu (c'est ainsi que le présente MS Excel ou Minitab par exemple):

Source	Somme des carrés	ddl du	Moyenne des carrés	F	Valeur critique F
Inter-Classe		k-1
Intra-Classe		N-k
Total		N-1

(244)

CALCULS D'ERREURS

Il est impossible de connaître la valeur exacte d'une grandeur physique expérimentalement, il est très important donc d'en déterminer l'incertitude.

Nous appelons bien évidemment "erreur", la différence entre la valeur mesurée et la valeur exacte. Cependant, comme nous ignorons la valeur exacte, nous ne pouvons pas connaître l'erreur commise quand même…. Le résultat est donc toujours incertain. C'est la raison pour laquelle nous parlons parfois des "incertitudes de mesure".

Nous distinguons deux types d'incertitudes :

1. Les "erreurs systématiques" : elles affectent le résultat constamment et dans le même sens (erreurs des appareils de mesures, limites de précision, etc.). Il faut alors éliminer, ou corriger le résultat, si possible !

2. Les "erreurs accidentelles" (statistiques) : il faut alors répéter les mesures, calculer la moyenne et évaluer l'incertitude en utilisant les outils de statistique.

INCERTITUDES ABSOLUES ET RELATIVES

Si la vraie valeur d'une grandeur est x (connue théoriquement) et la valeur mesurée est , est "l'incertitude absolue" (l'incertitude dû aux appareils de mesure) telle que :

(245)

Le résultat s'écrit alors :

(246)

L'incertitude relative est quant à elle définie par :

(247)

L'incertitude absolue permet de savoir l'approximation du dernier chiffre significatif de celle-ci. Par contre, lorsque nous désirons comparer deux mesures ayant des incertitudes absolues afin de déceler lequel a la plus grande marge d'erreur, nous calculons l'incertitude relative de ce nombre en divisant l'incertitude absolue par le nombre, et transformé en pourcentage.

En d'autres termes, l'incertitude relative permet d'avoir une idée de la précision de la mesure. Si nous faisonsune mesure avec une précision avec une incertitude absolue de 1 [mm], nous ne saurons pas si c'est une bonne mesure ou non. Ça dépend nous avons mesuré la taille d'une pièce de monnaie, de notre voisin, de la distance Paris-Marseille ou de la distance Terre-Lune. Bref, ça dépend de l'incertitude relative (c'est-à-dire du rapport de l'incertitude absolue sur la mesure).

ERREURS STATISTIQUES

Dans la plupart des mesures, nous pouvons estimer l'erreur due à des phénomènes aléatoires par une série de n mesures :

Comme nous l'avons vu plus haut, la valeur moyenne arithmétique sera alors :

(248)

et l'écart moyen (estimateur biaisé démontré plus haut) :

(249)

et l'écart quadratique moyen ou écart-type (estimateur sans biais ou E.S.B) :

(250)

et nous avions démontré que l'écart-type de la moyenne était donné par :

(251)

et comme nous l'avons vu, après un grand nombre de mesures indépendantes, la distribution des erreurs sur une mesure suit une gaussienne tel que nous puissions écrire :

(252)

PROPAGATION DES ERREURS

Soit une mesure et une fonction de x. Quelle est l'incertitude sur y ?

Lorsque est petit, est remplacé au voisinage de x par sa tangente (il s'agit simplement de la dérivée bien sûr) :

(253)

mais si y dépend de plusieurs grandeurs x,z,t mesurées avec les incertitudes :

(254)

alors l'erreur maximale possible est alors la différentielle totale exacte (voir chapitre de calcul différentiel et intégral) :

(255)

Ce qui conduit à :

(256)

Il apparaît ainsi clairement qu'une opération mathématique ne peut améliorer l'incertitude sur les données.

Remarque: Le résultat d'une multiplication, d'une division, d'une soustraction ou d'une addition est arrondi à autant de chiffres significatif que la donnée qui en comporte le moins. Conventionnellement, le logarithme en base 10 d'un nombre, conserve autant de chiffres dans la mantisse (partie à droite de la virgule) qu'il y a de chiffres significatifs dans le nombre de départ. Inversement, la valeur de l'exponentielle en base 10 d'un nombre comporte autant de chiffres significatifs qu'il y a de décimales dans ce nombre.

CHIFFRES SIGNIFICATIFS

Dans les petites écoles (et aussi les plus grande parfois), il est demandé de transformer une mesure exprimée en une certaine unité en une autre unité.

Par exemple, en prenant les tables, nous pouvons avoir le type de conversion suivante :

(257)

Vient alors la question suivante (que l'élève peut avoir oublié…). Au départ d'une mesure dont la précision est de l'ordre de 1 [lb] (donc de l'ordre de 0.5 [kg]), une simple conversion d'unité pourrait-elle amener à une précision au 1/10 [mg] près ?

De cet exemple il faut donc retenir qu'une marge d'incertitude est associée à toute valeur mesurée et à toute valeur calculée à partir de valeurs mesurées.

Dans les sciences exactes, tout raisonnement, toute analyse doivent prendre cette incertitude en compte.

Mais pourquoi des chiffres sont-ils significatifs et d'autres pas alors ? Parce qu'en sciences, nous ne rapportons que ce qui a objectivement été observé (principe d'objectivité). En conséquence, nous limitons l'écriture d'un nombre aux chiffres raisonnablement fiables en dépit de l'incertitude : les chiffres significatifs. La précision que des chiffres supplémentaires sembleraient apporter est alors illusoire.

Il faut alors savoir arrondir selon des règles et conventions. Par exemple, lorsque le chiffre de rang le plus élevé qu'on laisse tomber est supérieur à 5, le chiffre précédent est augmenté de 1 (exemple : 12.66 s'arrondit à 12.7). Lorsque le chiffre de rang le plus élevé qu'on laisse tomber est inférieur à 5, le chiffre précédent reste inchangé (exemple 12.64 s'arrondit à 12.6). Lorsque le chiffre de rang le plus élevé qu'on laisse tomber est égal à 5, si un des chiffres qui le suivent n'est pas nul, le chiffre précédent est augment de 1 (exemple : 12.6502 s'arrondit à 12.7). Si le chiffre de rang le plus élevé que nous laissons tomber est un 5 terminal (qui n'est suivi d'aucun chiffre) ou qui n'est suivi que de zéros, nous augmentons de 1 le dernier chiffre du nombre arrondi s'il est impair, sinon nous le laissons inchangé (exemples : 12.75 s'arrondit à 12.8 et 12.65 à 12.6). Dans ce dernier cas, le dernier chiffre du nombre arrondi est toujours un chiffre pair.

Les chiffres significatifs d'une valeur comprennent tous ses chiffres déterminés avec certitude ainsi que le premier chiffre sur lequel porte l'incertitude (ce dernier significatif occupe le même rang que l'ordre de grandeur de l'incertitude).

Souvent, les sources de données ne mentionnent pas d'intervalle de confiance (c'est-à-dire une indication +/-). Par exemple, lorsque nous écrivons nous considérons conventionnellement que l'incertitude est du même ordre de grandeur que le rang du dernier chiffre significatif (soit le chiffre incertain).

En fait, seul le rang décimal de l'incertitude est implicite : sa marge réelle n'est pas précisée.

Exemples :

E1. Incertitude implicite

(258)

E2. On mesure la longueur d'une planchette au moyen d'un double mètre. La lecture sur l'instrument donne : .

Si l'incertitude sur la mesure est de les chiffres certains sont le 5 et le 0 et le premier chiffre certain est le 7. Nous rapporterons la mesure, 507 [mm], 3 chiffres significatifs.

E3. Pour noter sans ambiguïté la valeur de 510 [mm] soit avec deux chiffres significatifs soit avec 3 chiffres significatifs nous la mettons en notation scientifique :

(259)

D'autres possibilités avec trois chiffres significatifs sont de terminer le nombre par un point 510. [mm] ou changer d'unité et faire apparaître ainsi une virgule 51.0 [mm]