Différences significatives entre 2 (petits) jeux de données

par matt41fr Mar 2 Fév 2016 - 20:59

Bonjour,

Je suis certain que ce sujet a déjà été traité ici mais je me perds dans des informations diverses et parfois contradictoires.

J’ai deux jeux de données différents issus de mesures :

E1_1 = 10.02
E1_2 = 9.75
E1_3 = 9.85

E2_1 = 10.11
E2_2 = 10.14
E3_3 = 10.12

Ma question est la suivante, est ce qu’il est possible de mettre en évidence une différence significative (ou non) entre mes jeux de données E1 et E2 (notamment entre mes moyennes de E1 et E2) ?

Vu le nombre de données qui est limité, doit on privilégier un test non paramétrique ? Comment justifie-t-on l’utilisation d’un test non paramétrique vs. Paramétrique ?

Merci pour votre aide…

Suspect

par gg Mar 2 Fév 2016 - 21:25

Bonjour.

On n'a manifestement pas assez d'éléments pour faire une étude statistique. Donc si on a d'autres renseignements, on pourra éventuellement traiter la question. Par exemple si on sait que chacun des deux jeux provient d'une variable aléatoire Normale d'écart type de l'ordre de 0,1 (situation classique en qualité industrielle) on pourra appliquer un test classique.

En contrôle qualité, dans des situations gaussiennes, on utilise des échantillons de 5, mais sans conclure directement (si on a des doutes, on contrôle avec des échantillons plus importants)

Cordialement.

par matt41fr Mer 3 Fév 2016 - 4:50

Bonjour,

Merci pour ce premier retour.

Comment définir si les jeux proviennent de variables aléatoire ? Si je comprends bien, avec cette condition, l'utilisation de jeux de données avec 3 valeurs serait possible. Est ce exact ?

Quels genres de test applique t'on dans le cas ou nous aurions 5 valeurs ? et d'ou vient ce 5 (pourquoi pas 6, 7...) ?
Connaîtriez vous des références bibliographiques qui pourraient m'éclairer sur le nombre d'échantillons et les tests à appliquer.

D'avance merci pour vos retours.

par gg Mer 3 Fév 2016 - 12:16

heu ... tu ne sembles pas lire mes phrases en entier !!

Tes questions relèvent des bases de la théorie des tests, et faire une analyse comme celle que tu veux sans connaître ces bases est "casse gueule". Prends un bouquin de statistiques générales et étudie-le, c'est assez rapide, une partie des idées sont assez élémentaires.

Pour l'effectif de 5, c'est une habitude pour les "cartes de contrôle"; c'est à la fois petit (coût moindre) et suffisant pour un test grossier. Mais on est dans une situation bien particulière.
Avec 3, on n'a quasiment plus le moyen d'obtenir des tests utiles, on justifie les évidences.

par matt41fr Mer 3 Fév 2016 - 20:34

gg a écrit:heu ... tu ne sembles pas lire mes phrases en entier !!

Tes questions relèvent des bases de la théorie des tests, et faire une analyse comme celle que tu veux sans connaître ces bases est "casse gueule". Prends un bouquin de statistiques générales et étudie-le, c'est assez rapide, une partie des idées sont assez élémentaires.

Pour l'effectif de 5, c'est une habitude pour les "cartes de contrôle"; c'est à la fois petit (coût moindre) et suffisant pour un test grossier. Mais on est dans une situation bien particulière.
Avec 3, on n'a quasiment plus le moyen d'obtenir des tests utiles, on justifie les évidences.

Merci pour ce retour, j'avais bien lu tes phrases en entier...

J'ai déjà pas mal potassé les bouquins de statistiques mais je ne trouve pas vraiment de réponse claire à cette question, d'où mon passage ici (qui me semblait être un lieu approprié pour mes questions). Les tests stats et le nombre d'échantillons à utiliser sont souvent des sujets complexes à appréhender (en tout cas je trouve).

Admettons que je passe d'un nombre de 3 à 5, comment peut on justifier que ce nombre est suffisant autrement que par un argument "d'habitude" ? Quel serait le test le plus adapté pour effectuer une comparaison de moyennes dans ce cas ?

par gg Mer 3 Fév 2016 - 21:07

Soit tu ne lis pas en entier, soit tu ne comprends pas les phrases, soit tu es flemmard et tu écris le début de la phrase comme s'il était suffisant : "Comment définir si les jeux proviennent de variables aléatoire ?"

Le nombre d'individus dans un échantillon (*) peut être optimisé dans certaines situations, le valeurs les plus courantes allant d'une bonne dizaine à quelques milliers. Mais en général on n'a pas vraiment le choix, on travaille avec ce qu'on a. Les très petits échantillons (quelques individus) n'ont d'utilité que si l'échantillonnage est répétitif (cas des cartes de contrôle) ou s'ils sont étudiés par des statisticiens spécialistes.

Voilà pourquoi tu n'auras pas de réponse claire, il n'y en a pas de générale, et pourquoi je ne peux pas te dire "Quel serait le test le plus adapté pour effectuer une comparaison de moyennes" vu que ça dépend de ce qu'on sait déjà sur ce que tu étudies. Moi, je ne sais rien.

Et comme tu ne percutes pas sur "variable aléatoire Normale", je commence à penser que tu as "lu des choses", mais sans pouvoir en tirer une vraie expérience sur les tests. En statistiques, on sait faire certaines choses, mais il n'y a pas de miracle : avec peu de données, on obtiendra de piètres résultats.

Donc soit tu peux améliorer très nettement la taille de ton échantillon de valeurs, et tu pourras utiliser des tests paramétriques (avec une trentaine de valeurs, pas de souci, soit tu ne peux pas obtenir autant de valeurs, et tu pourras quand même obtenir suffisamment de valeurs pour faire un test (paramétrique ou non suivant ce que tu sais -ou pas- de la répartition théorique des valeurs, soit tu es obligé à rester à 3 (ou 4 ou 5), et tu ne pourras pas faire grand chose, sauf si tu as déjà de bonnes connaissances sur la répartition théorique des valeurs (je t'ai donné un exemple).

En pratique, si ce sont des mesures effectives, on a souvent la possibilité de supposer que la répartition théorique est gaussienne (Normale), ce qui permet d'utiliser des tests paramétriques, du genre de celui de Student. mais avec 3 valeurs, ce n'est pas sérieux, la mesure de la dispersion est bien trop imprécise.

Cordialement.

(*) échantillon statistique : En statistiques, le mot échantillon a une signification technique, donc même si on étudie des échantillons - chimiques par exemple-, on ne parlera pas du nombre d'échantillons pour le nombre de choses étudiées.

par matt41fr Jeu 4 Fév 2016 - 7:52

gg a écrit:Soit tu ne lis pas en entier, soit tu ne comprends pas les phrases, soit tu es flemmard et tu écris le début de la phrase comme s'il était suffisant : "Comment définir si les jeux proviennent de variables aléatoire ?"

Bonjour, désolé mais je ne comprends pas le fond de cette phrase... Que je ne comprenne pas est une chose, mais je n'ai rien d'un flemmard et je tente de comprendre. A mon sens, je n'ai pas eu de réponse à la question posée, mais peut être que je ne maitrise pas bien le vocabulaire (complexe) du statisticien. Je précise au passage que si vous ne souhaitez pas me répondre, nul besoin de faire ce genre de commentaires.

gg a écrit:Donc soit tu peux améliorer très nettement la taille de ton échantillon de valeurs, et tu pourras utiliser des tests paramétriques (avec une trentaine de valeurs, pas de souci, soit tu ne peux pas obtenir autant de valeurs, et tu pourras quand même obtenir suffisamment de valeurs pour faire un test (paramétrique ou non suivant ce que tu sais -ou pas- de la répartition théorique des valeurs, soit tu es obligé à rester à 3 (ou 4 ou 5), et tu ne pourras pas faire grand chose, sauf si tu as déjà de bonnes connaissances sur la répartition théorique des valeurs (je t'ai donné un exemple).

- Cas 1 : "soit tu peux améliorer très nettement la taille de ton échantillon de valeurs"
Je ne peux malheureusement pas augmenter la taille de l'échantillon, d'où ma question initiale.

- Cas 2 : "soit tu ne peux pas obtenir autant de valeurs, et tu pourras quand même obtenir suffisamment de valeurs pour faire un test"
Les 3 valeurs sont issues de mesures analytiques. Je ne comprends pas ce cas, je n'ai pas assez de valeurs mais je peux quand même en obtenir suffisemment (??)

- Cas 3 : "soit tu es obligé à rester à 3 (ou 4 ou 5), et tu ne pourras pas faire grand chose, sauf si tu as déjà de bonnes connaissances sur la répartition théorique des valeurs"
C'est mon cas, je suis contraint de rester à 3 valeurs et je ne connais pas la répartition théorique de ces valeurs, et mon ignorance fait que je ne sais pas du tout comment la déterminer.

A noter que je ne cherche pas le test parfait, qui je le sais, ne peut exister pour un jeu de données si petit, mais simplement un indicateur qui me permettrait de dire que mes deux populations ne sont pas significativement différentes, en gardant bien en tête les limites associées à un tel jeu de données.

Je vois que certains utilisent, sur de petits jeux de données, un test non paramétrique de Wilcoxon. Il semble y avoir pas mal de limitations mais cela pourrait être une piste...

par gg Jeu 4 Fév 2016 - 8:50

La phrase concernée était un peu longue, tu l'as coupée au milieu. De " ...provient d'une variable aléatoire Normale d'écart type de l'ordre de 0,1 ...", tu es arrivé à "Comment définir si les jeux proviennent de variables aléatoire ?"
Autrement dit, je parlais d'une situation très particulière, qui permet effectivement des réflexions plus poussées car on a des connaissances, tu coupe en plein milieu ...

Bon, je mets ça sur le compte de l'ignorance, mais à ce moment là, il ne faut pas rêver : Tu ne feras pas grand chose de tes 6 mesures. Car tu le dis, tu ne peux pas augmenter les tailles de tes échantillons. Même Wilcoxon n'a pas de sens avec 3 valeurs.

Désolé !

par matt41fr Jeu 4 Fév 2016 - 9:03

OK merci, je vais voir ce que je peux faire pour augmenter le jeu de données pour passer à 5 ou 6 valeurs par séries de mesures... Même si en terme de ressources, ça augmentera le coût total de l'analyse.

Je pourrai peut être faire quelque chose de mieux avec un nombre de valeurs de ce type là.

par droopy Jeu 4 Fév 2016 - 9:16

Bonjour,

matt41fr a écrit:Je précise au passage que si vous ne souhaitez pas me répondre, nul besoin de faire ce genre de commentaires.

Je partage cette opinion. Je ne comprends pas l'agacement et quelque part la violence des propos qui font écho à l'ignorance de la personne qui pose la question. Personne n'oblige personne à répondre et la courtoisie est à mon sens bien plus constructive que le dédain.

J'ai toujours pensé que le premier problème de ce forum était l'anonymat et que le deuxième était l'absence de modérateur sérieux.

Si tu n'as aucune idée de la distribution sous-jacente de tes données, effectivement le test de Wilcoxon est habituellement une alternative au test paramétrique. Le problème ici, c'est que comme l'a déjà dit gg, avec 3 valeurs par échantillons le test de wilcoxon ne sera jamais significatif. Tu en as l'exemple parfait avec tes données :

Code:: x <- c(10.02, 9.75, 9.85) y <- c(10.11,10.14,10.12) wilcox.test(x, y) Wilcoxon rank sum test data: x and y W = 0, p-value = 0.1 alternative hypothesis: true location shift is not equal to 0

Le test n'est pas significatif alors que si tu regardes les rangs :

Code:: rank(c(x,y)) [1] 3 1 2 4 6 5

tu ne peux pas avoir de meilleure discrimination entre tes deux groupes puisque les 3 premières valeurs ont les 3 plus petits rangs, alors que les trois dernières valeurs ont les rangs les plus élevés. Autrement dit même dans le cas le plus extrême le test de wilcoxon ne conclut pas à une différence entre tes populations. Ici tu fais face à un problème de puissance du test, à son incapacité à rejeter l'hypothèse nulle.

L'autre question qui me vient quand je vois tes données, c'est l'indépendance entre tes mesures. Est-ce que les trois premières mesures ont été faites sur le même individu (au sens statistique du terme) ou est-ce que ce sont trois mesures indépendances faites sur trois individus différents ? Si tu es dans le dernier cas, quelque soit le test ça n'ira pas car l'hypothèse d'indépendance est une hypothèse très forte et entrainera la nullité des résultats des test.

Cordialement

par matt41fr Jeu 4 Fév 2016 - 9:54

droopy a écrit:tu ne peux pas avoir de meilleure discrimination entre tes deux groupes puisque les 3 premières valeurs ont les 3 plus petits rangs, alors que les trois dernières valeurs ont les rangs les plus élevés. Autrement dit même dans le cas le plus extrême le test de wilcoxon ne conclut pas à une différence entre tes populations. Ici tu fais face à un problème de puissance du test, à son incapacité à rejeter l'hypothèse nulle.
L'autre question qui me vient quand je vois tes données, c'est l'indépendance entre tes mesures. Est-ce que les trois premières mesures ont été faites sur le même individu (au sens statistique du terme) ou est-ce que ce sont trois mesures indépendances faites sur trois individus différents ? Si tu es dans le dernier cas, quelque soit le test ça n'ira pas car l'hypothèse d'indépendance est une hypothèse très forte et entrainera la nullité des résultats des test.

Merci pour ton retour. J'ai toutefois un élément qui m'interpelle. D'un côté tu me dis que je ne peux pas avoir de meilleure discrimination mais pourtant, p=0.1 et je ne peux donc pas rejeter H0 si j'ai bien compris.Dans ce cas là, on pourrait s'attendre à une différence entre les populations et donc à rejeter H0 non ?

Concernant la seconde question. Les mesures ont été faites sur 3 prélèvement d'un échantillon à J1 et 3 prélèvements sur le même échantillon à J2. On admet que l'échantillon est homogène. Je dirai donc que les trois premières mesures ont été faites sur le même individu.

par droopy Jeu 4 Fév 2016 - 9:58

matt41fr a écrit:'un côté tu me dis que je ne peux pas avoir de meilleure discrimination mais pourtant, p=0.1 et je ne peux donc pas rejeter H0 si j'ai bien compris.Dans ce cas là, on pourrait s'attendre à une différence entre les populations et donc à rejeter H0 non ?

C'est bien tout le problème que présente le fait d'avoir 3 individus avec le test de wilcoxon. Quel que soit la réalité tu ne pourras jamais conclure à une différence entre tes populations. Autrement dit ton test n'est pas informatif car quelle que soit la situation tu ne peux jamais rejeter ton hypothèse nulle. Donc ça n'a pas d'utilité.

Cordialement

par matt41fr Jeu 4 Fév 2016 - 14:47

droopy a écrit:
matt41fr a écrit:'un côté tu me dis que je ne peux pas avoir de meilleure discrimination mais pourtant, p=0.1 et je ne peux donc pas rejeter H0 si j'ai bien compris.Dans ce cas là, on pourrait s'attendre à une différence entre les populations et donc à rejeter H0 non ?
C'est bien tout le problème que présente le fait d'avoir 3 individus avec le test de wilcoxon. Quel que soit la réalité tu ne pourras jamais conclure à une différence entre tes populations. Autrement dit ton test n'est pas informatif car quelle que soit la situation tu ne peux jamais rejeter ton hypothèse nulle. Donc ça n'a pas d'utilité.

Cordialement

OK, en conclusion, j'ai bien peur qu'avec des jeux de données de 3 valeurs je ne puisse pas faire beaucoup de choses... Je vais essayer de passer à 5 échantillons par série, ça semble être un nombre d'individus plus représentatif.

Un grand merci !

par Contenu sponsorisé

Différences significatives entre 2 (petits) jeux de données

Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données

Re: Différences significatives entre 2 (petits) jeux de données