dbo:abstract
|
- En statistique, une donnée aberrante (ou horsain, en anglais outlier) est une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs « normalement » mesurées. Une donnée aberrante peut être due à la variabilité inhérente au phénomène observé, ou indiquer une erreur expérimentale. Dans ce dernier cas, elles sont parfois écartées. Les données aberrantes peuvent apparaître par hasard dans n'importe quelle distribution, mais elles indiquent souvent soit une erreur de mesure, soit que la population est distribuée suivant une loi de probabilité à queue lourde. Dans le premier cas, il convient de se débarrasser de ces valeurs ou bien d'utiliser des indicateurs statistiques plus robustes face aux données aberrantes tandis que dans le second cas elles indiquent que la distribution est fortement asymétrique et qu'il faut donc se montrer très prudent dans l'utilisation d'outils ou de raisonnement conçus pour une distribution normale. Une cause fréquente de données aberrantes est le mélange de deux distributions, qui peuvent être issues de 2 sous-populations bien distinctes, ou qui peuvent indiquer « mesure correcte » contre « erreur de mesure » : ce phénomène peut être modélisé au travers d'un modèle de mélange. Dans de plus grandes séries de données, quelques valeurs peuvent être éloignées de façon raisonnable de la moyenne. Cela peut être dû à une erreur systématique aussi appelée biais qui peut être inhérent au modèle utilisé pour décrire la distribution du phénomène, ou il peut s'agir de quelques valeurs qui sont loin du centre des données. Les données aberrantes peuvent également indiquer une donnée fausse, des calculs erronés ou bien les limites d'un modèle statistique. Cependant, dans de grands échantillons, un petit nombre de données aberrantes est attendu (qui n'est dû à aucune condition anormale). Les données aberrantes, regroupant les valeurs les plus extrêmes, peuvent inclure la valeur maximale ou la valeur minimale, ou les deux: cela dépend si ces valeurs sont extrêmement élevées ou faibles. Cependant, les valeurs maximum et minimum ne sont pas toujours des données aberrantes car elles peuvent ne pas être trop éloignées des autres valeurs. Une interprétation statistique naïve d'une série de données contenant des données aberrantes peut être trompeuse et induire en erreur. Par exemple, si une personne décide de calculer la température moyenne de 10 objets dans une pièce, et que 9 d'entre eux ont une température située entre 20 et 25 degrés Celsius mais que le dernier est un four en marche à 175 °C, la médiane de la série sera située entre 20 et 25 °C mais la température moyenne sera entre 35,5 et 40 °C. Dans ce cas, la médiane est un meilleur indicateur de la température des objets que la moyenne. Il est incorrect de penser que la moyenne et la médiane sont des indicateurs équivalents. Comme illustré dans cet exemple, le caractère aberrant de certaines données peut révéler leur appartenance à une population différente du reste des valeurs de la série. Les indicateurs ou estimateurs capables de composer avec les données aberrantes sont dits robustes: la médiane est un indicateur robuste tandis que la moyenne n'en est pas un. (fr)
- En statistique, une donnée aberrante (ou horsain, en anglais outlier) est une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs « normalement » mesurées. Une donnée aberrante peut être due à la variabilité inhérente au phénomène observé, ou indiquer une erreur expérimentale. Dans ce dernier cas, elles sont parfois écartées. Les données aberrantes peuvent apparaître par hasard dans n'importe quelle distribution, mais elles indiquent souvent soit une erreur de mesure, soit que la population est distribuée suivant une loi de probabilité à queue lourde. Dans le premier cas, il convient de se débarrasser de ces valeurs ou bien d'utiliser des indicateurs statistiques plus robustes face aux données aberrantes tandis que dans le second cas elles indiquent que la distribution est fortement asymétrique et qu'il faut donc se montrer très prudent dans l'utilisation d'outils ou de raisonnement conçus pour une distribution normale. Une cause fréquente de données aberrantes est le mélange de deux distributions, qui peuvent être issues de 2 sous-populations bien distinctes, ou qui peuvent indiquer « mesure correcte » contre « erreur de mesure » : ce phénomène peut être modélisé au travers d'un modèle de mélange. Dans de plus grandes séries de données, quelques valeurs peuvent être éloignées de façon raisonnable de la moyenne. Cela peut être dû à une erreur systématique aussi appelée biais qui peut être inhérent au modèle utilisé pour décrire la distribution du phénomène, ou il peut s'agir de quelques valeurs qui sont loin du centre des données. Les données aberrantes peuvent également indiquer une donnée fausse, des calculs erronés ou bien les limites d'un modèle statistique. Cependant, dans de grands échantillons, un petit nombre de données aberrantes est attendu (qui n'est dû à aucune condition anormale). Les données aberrantes, regroupant les valeurs les plus extrêmes, peuvent inclure la valeur maximale ou la valeur minimale, ou les deux: cela dépend si ces valeurs sont extrêmement élevées ou faibles. Cependant, les valeurs maximum et minimum ne sont pas toujours des données aberrantes car elles peuvent ne pas être trop éloignées des autres valeurs. Une interprétation statistique naïve d'une série de données contenant des données aberrantes peut être trompeuse et induire en erreur. Par exemple, si une personne décide de calculer la température moyenne de 10 objets dans une pièce, et que 9 d'entre eux ont une température située entre 20 et 25 degrés Celsius mais que le dernier est un four en marche à 175 °C, la médiane de la série sera située entre 20 et 25 °C mais la température moyenne sera entre 35,5 et 40 °C. Dans ce cas, la médiane est un meilleur indicateur de la température des objets que la moyenne. Il est incorrect de penser que la moyenne et la médiane sont des indicateurs équivalents. Comme illustré dans cet exemple, le caractère aberrant de certaines données peut révéler leur appartenance à une population différente du reste des valeurs de la série. Les indicateurs ou estimateurs capables de composer avec les données aberrantes sont dits robustes: la médiane est un indicateur robuste tandis que la moyenne n'en est pas un. (fr)
|
rdfs:comment
|
- En statistique, une donnée aberrante (ou horsain, en anglais outlier) est une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs « normalement » mesurées. Une donnée aberrante peut être due à la variabilité inhérente au phénomène observé, ou indiquer une erreur expérimentale. Dans ce dernier cas, elles sont parfois écartées. (fr)
- En statistique, une donnée aberrante (ou horsain, en anglais outlier) est une valeur ou une observation qui est « distante » des autres observations effectuées sur le même phénomène, c'est-à-dire qu'elle contraste grandement avec les valeurs « normalement » mesurées. Une donnée aberrante peut être due à la variabilité inhérente au phénomène observé, ou indiquer une erreur expérimentale. Dans ce dernier cas, elles sont parfois écartées. (fr)
|