LASE : menu « erreurs », mode extraction

Ce menu regroupe diverses options permettant une étude statistique rapide d'un jeu de données expérimentales, en particulier l'estimation des barres d'erreur à partir de plusieurs spectres et l'analyse des jeux de valeurs obtenus par la méthode de Monte-Carlo.


Moyenne & variance

Cette option permet d'obtenir les paramètres statistiques principaux permettant de décrire un échantillon de valeurs : valeur moyenne, écart-type, étendue, coefficient d'asymétrie et d'aplatissement.

Seules les valeurs en Y du graphe sont utilisées (seules les études sur un graphe à valeurs réelles ont donc un sens). Le modèle utilisé pour ces estimations est le modèle le plus simple : chaque valeur yi d'un graphe est la réalisation d'une variable aléatoire Yi. Ces variables sont supposées indépendantes, identiquement distribuées (i.i.d.) ; on note Y une variable de même loi et indépendante de toutes ces variables et n le nombre de valeurs dans le graphe étudié.

La valeur moyenne m est une estimation de l'espérance µ = E(Y), à condition que E(Y) existe (ce n'est pas le cas d'une variable suivant une loi de Cauchy, par exemple). L'estimation est d'autant meilleure que n augmente. La valeur calculée reste une estimation de µ même si les valeurs ne sont pas indépendantes, mais la précision n'augmente alors pas forcément avec n. L'intervalle de confiance proposé est un intervalle à 95%. Construit à partir de la loi normale, il est approximatif et n'est valable que pour un grand échantillon (plus de 100 valeurs). Pour de plus petits échantillons, il sous-estime l'intervalle réel et n'a plus aucun sens si l'échantillon est très petit et que la distribution d'origine n'est pas gaussienne.

s*2 est une estimation de la variance de la population, sans biais ; s* est une estimation, biaisée (d'autant plus que l'échantillon est petit), de l'écart-type. Ces valeurs n'ont de sens que si la loi de Y admet une variance et si les Yi sont i.i.d.

LASE indique aussi les valeurs extrêmes observées (min et max), ainsi que l'étendue (max - min).

La médiane est la valeur plus grande que la moitié des valeurs dans l'échantillon, plus petite que l'autre moitié. L'écart absolu moyen est la moyenne des valeurs absolues des écarts entre les valeurs observées et cette médiane (moyenne des |y - médiane|).


Barres d'erreur

Cette option permet de réaliser la moyenne de plusieurs graphes, créant ainsi un graphe moyen, en estimant en même temps les barres d'erreur en chaque point du spectre moyen. La boîte de dialogue ci-contre permet de contrôler la façon dont cette moyenne est réalisée et les graphes à prendre en compte pour cela.

La partie supérieure de la fenêtre permet de sélectionner les graphes à moyenner. La partie inférieure permet de contrôler le calcul des valeurs moyennes, en particulier la façon dont on doit considérer les abscisses des divers graphes utilisés pour la moyenne.

Tout en bas, il est possible d'indiquer le nom à utiliser pour le graphe contenant le graphe moyen et les barres d'erreur associées. Dans ce nom, le caractère # est remplacé par le nombre de graphes utilisé pour la moyenne, s'il n'apparaît qu'une fois.

Estimation des barres d'erreur

La liste des graphes à moyenner est affichée en haut, à droite de la boîte de dialogue. Pour y ajouter un graphe, utiliser le bouton Ajouter spectre et choisissez le graphe dans le sélecteur qui apparaît. Si aucun graphe n'a été choisi au préalable, tous les graphes disponibles apparaissent dans le sélecteur ; dans le cas contraire, seuls les graphes de même type (ou de type inconnu) sont proposés. Pour ôter un graphe, choisissez-le dans la liste est cliquez sur Effacer spectre. Il est possible d'effacer tous les graphes de la liste en cliquant sur Tout effacer. En cliquant sur Tout ajouter, tous les graphes disponibles de même type que les graphes déjà sélectionnés sont ajoutés à la liste.

On donc considère ici un lot de N graphes. Le i-ème graphe contient ni points, (Xi, j, Yi, j). On cherche à réaliser la moyenne de ces N graphes et à estimer l'incertitude correspondante. Les estimateurs statistiques sont utilisés pour cela : moyenne arithmétique (estimation de l'espérance) des Yi, j pour la moyenne et variance « vraie » (S*2) correspondante (estimation de la variance) comme carré de la barre d'erreur.

Le bloc Traitement des Y regroupe diverses options qui modifient le calcul des barres d'erreur. Dans la grande majorité des cas, il n'y a pas lieu d'en modifier les réglages. Chacune des options est activée en cochant la case à gauche de son nom.

L'option Multiplier s par permet, lorsque l'on craint de sous-estimer les erreurs, d'y ajouter un terme correctif. Quelques propositions ont été faites dans la littérature, qui sont proposées si l'on clique sur le bouton Suggestion. Remarque. De façon générale, l'utilisation de cette option me paraît dangereuse et inutile, d'autant plus que la méthode d'obtention des valeurs suggérée n'est pas statistiquement justifiée.

L'option Calculer le s moyen, selon Bevington propose une estimation de l'erreur moyenne sur tous les points des graphes moyennés. La formule de Bevington conduit en général à une erreur légèrement sous-estimée, mais donne une idée plus correcte de l'erreur quand quelques points sont aberrants parmi tous les points mesurés.

L'option Diviser par racine(N) divise les barres d'erreur par la racine du nombre de points utilisés pour calculer les moyennes. On obtient ainsi, sous réserve que les mesures soient indépendantes, une estimation de l'incertitude sur la moyenne, et non sur les valeurs expérimentales. S'il y a le même nombre de mesures pour chaque valeur de X (ce qui est implicitement supposé par presque tous les modes de calculs &emdash; voir ci-dessous), cela revient en pratique à un simple facteur multiplicatif sur l'ensemble des valeurs des barres d'erreur, qui peut donc être appliqué ou retiré grâce aux opérations diverses. En revanche, dans le cas de nombre de mesures variable, l'effet en est plus complexe.

Le bloc Traitement des X permet de préciser comment sont utilisées les valeurs en X des graphes moyennés. Le résultat de cette utilisation est utilisé comme valeurs en X dans le graphe moyen.

Dans le cas idéal, tous les graphes ont le même nombre de points et le j-ème point à toujours la même abscisse X. Dans ce cas, il n'y a pas lieu de prendre en compte ces valeurs, qui sont simplement réutilisées pour le graphe moyen. Ce cas correspond à l'option Ignorer.

En pratique, il arrive souvent que les valeurs en X soient théoriquement les mêmes, mais varient légèrement d'un graphe à l'autre à cause de la difficulté à reproduire exactement l'expérience. Les graphes ont donc toujours le même nombre de points. Dans ce cas, il suffit pour tenir compte de la variabilité des X de les moyenner et de moyenner aussi les valeurs de Y correspondantes. Ce cas correspond à l'option Moyenner.

Lorsque les graphes n'ont pas le même nombre de points, ou lorsque les valeurs des abscisses pour le j-ème point sont très différentes d'un graphe à l'autre, les méthodes ci-dessus ne sont plus applicables. LASE propose trois méthodes pour continuer à faire les moyennes dans ce cas.

Avec l'option Interpoler, les abscisses du graphe moyen sont uniformément réparties dans la région commune aux abscisses de tous les graphes, avec autant de points que le graphe qui a le moins de points. Les moyennes sont alors faites entre les valeurs interpolées (par spline cubique) pour ces absisses, pour chacun des spectres.

Avec cette méthode, les résultats sont d'autant plus entâchés d'erreur que les abscisses utilisées sont différentes des abscisses originales des graphes. En particulier, si les abscisses ne sont à l'origine pas uniformément réparties dans les graphes, on obtient un spectre moyen qui n'est pas optimal. Pour pallier ce problème, l'option Recaler, qui fonctionne sur le même principe que la précédente, utilise comme abscisses de calcul les abscisses du premier graphe de la liste des graphes à moyenner.

Dans le pire des cas, les graphes n'ont pas la même répartition des abscises. Les méthodes ci-dessus ne sont donc pas optimales. Dans ce cas, l'option Pseudo-fusion est plus adaptée : elle réutilise toutes les valeurs des abscisses pour former un graphe unique, trié par abscisses croissantes. Ensuite, les répétitions de la même abscisse sont recherchées. Pour chaque répétition, les valeurs sont moyennées et l'écart-type correspondant est utilisé comme barre d'erreur pour le point résultant. On peut donc très bien obtenir ainsi un graphe avec des barres d'erreur uniquement sur certains points, voire en aucun point si aucune abscisse n'est répétée.


Corrélations

Cette option permet d'estimer le coefficient de corrélation linéaire et la covariance entre deux séries de valeurs (qui doivent avoir le même nombre de points). Les deux séries de points sont indiquées dans la boîte de dialogue (figue ci-dessous), en cliquant sur le bouton correspondant pour appeler le sélecteur de graphes. Seules les valeurs en Y sont utilisées, les valeurs en X sont supposées correspondre au numéro de mesure.

Calcul de la covariance

En plus du calcul du coefficient de corrélation et la covariance, cette option crée un nouveau graphe qui contient, en X, les valeurs du premier graphe et, en Y, celles du second. L'étude visuelle du nuage de points ainsi obtenu permet d'avoir une idée de l'existence de liaisons entre les deux séries de valeur (en particulier dans le cas d'un coefficient de corrélation voisin de 0, qui ne signifie pas une absence de liaison).


Estimation d'une distribution

Cette option permet, à partir d'une série de valeurs expérimentales, de construire un histogramme de répartition de ces valeurs, ce qui donne une idée de la distribution ayant généré ces valeurs. La boîte de dialogue ci-contre permet de savoir comment construire cet histogramme.

Construire l'histogramme

La ligne du haut précise les données du spectre à utiliser : valeurs en X ou valeurs en Y.

En-dessous est indiqué le nombre de classes de l'histogramme final. Ces classes sont de même taille, réparties entre les bornes indiquées. Le nombre de classe optimal dépend du nombre de valeurs dans le spectre, mais n'est pas connu théoriquement. Empiriquement, une valeur de racine(n) est utilisée : c'est la valeur proposée quand on clique sur le bouton Proposition.

Les valeurs de l'histogramme peuvent être exprimées soit en effectifs, soit (pour une comparaison directe d'histogrammes) en fréquences, grâce aux deux boutons correspondants.


Estimation d'une densité

Cette option n'est pas encore disponible.


Test de Kolmogorov-Smirnov

Beaucoup de tests statistiques reposent sur l'hypothèse d'une distribution gaussienne des valeurs expérimentales. Le test de Kolmogorov-Smirnov, qui permet de comparer deux distributions expérimentales ou une distribution expérimentale et une empirique, permet de vérifier cette hypothèse.

La boîte de dialogue qui apparaît permet de définir la variante du test à utiliser : comparaison avec une distribution théorique (pour l'instant, gaussienne uniquement) - dont les paramètres peuvent être déterminés à partir de l'expérience ou indiqués par l'utilisateur - ou comparaison entre deux distributions expérimentales.

Kolmogorov-Smirnov

Le critère de test, Dn, représente une mesure de la distance entre la fonction de répartition empirique et la fonction de répartition théorique. Sa loi n'est connue, de façon asymptotique, que si la fonction de répartition théorique est parfaitement déterminée sans recours à l'expérience. En général, ce n'est pas le cas (l'espérance et l'écart-type de la gaussienne de référence, par exemple, sont estimées à partir des données expérimentales) et l'on doit recourir à des simulations de type Monte-Carlo.

Pour la comparaison à une gaussienne, des valeurs empiriques sont connues pour plus de 25 valeurs, pour les seuils de 1% et 5%. LASE affiche ces valeurs.


Test de Cramer-von Mises

Ce test permet de comparer deux fonctions de répartition, l'une empirique et l'autre empirique ou théorique. Il se configure de la même façon que le test de Kolmogorov-Smirnov (voir ci-dessus).

Le critère de test, nwn², est une mesure de la distance entre les deux fonctions de répartition et doit donc être le plus faible possible. Là encore, la loi exacte n'est pas connue et l'on doit recourir à des simulations de type Monte-Carlo dans le cas général. Pour une comparaison avec une gaussienne, une formule empirique des valeurs de seuil à 1% et 5% a été proposée (pour plus de 25 valeurs) et LASE l'utilise pour donner les résultats.


Le menu « Filtrer » (mode extraction) Sommaire Le menu « Affichage » (mode extraction)

Emmanuel CURIS
Last modified: Wed Jan 30 14:50:24 CET 2002