Quel tests statistiques faire dans mon cas?

par moilolo93 Ven 22 Avr 2016 - 7:19

Bonjour,

Je suis étudiante en master 2 et je réalise un mémoire, il me faut faire des stats mais je ne sais pas du tout quels tests choisir ! Shocked

J'ai fait une expérience sur 2 groupes de 19 personnes (mon échantillon est un peu faible) avant et après une séquence d'apprentissage spécifique pour un groupe et normale pour l'autre. Je souhaite montrer qu'avant, la moyenne des deux groupes n'est pas significativement différente, et qu'elle l'est après la séquence d'apprentissage afin de conclure que cette séquence spécifique a un effet bénéfique.
J'avais pensé à faire un test de khi2 mais il me semble qu'il faut faire d'autres tests avant pour vérifier la normalité ou je ne sais quoi d'autre. De plus, je ne sais plus comment on pose HO, H1 et comment on trouve le DDL (j'ai beau chercher dans mes anciens cours, je n'arrive pas à y mettre la main dessus)
J'ai eu quelques cours de stats en licence mais je n'avais pas compris grand chose. Du coup, je suis bien embêtée aujourd'hui.

Merci pour votre aide.

PS : je dispose du logiciel open office (ce n'est pas grand chose), je peux télécharger un logiciel gratuit (si possible assez simple d'utilisation car je n'y connais vraiment pas grand chose), j'ai un peu travaillé sur R en licence mais j'avais eu un peu de mal Wink

Moilolo93

par Florent Aubry Ven 22 Avr 2016 - 10:29

Si tu ne t'intéresse pas au effets intra-sujet du premier groupe, tu peux considérer que tu as 2 groupes indépendants (ce qui est inexact formellement). Tu as donc à faire une Anova à 1 facteur à trois niveaux (groupe 1 avant, groupe 1 après, groupe contrôle) suivie, si elle est significative, d'un test post-hoc de Dunnett avec comme groupe de référence le groupe contrôle.

par c@ssoulet Ven 22 Avr 2016 - 11:18

C'est un schéma très classique en recherche clinique, du type essai comparatif en parallèle. La façon la plus simple d'analyser ca est l'ANOVA en mesures répétées.

En pratique on procède en 2 étapes
1-description de la population à l'inclusion (3 colonnes: population totale, sous population premier groupe, sous population 2e groupe) ce que tu appelles comparer la population avant = comparer groupe1/groupe 2 à l'inclusion.
2- analyse de variance en mesures répétées, ce qui t'intéressera sera l'interaction (= les deux moyenne ont elles évolué de façon significativement différente)

par Florent Aubry Ven 22 Avr 2016 - 12:30

c@ssoulet, d'après ce que j'ai compris de la description faite par moilolo93, la mesure est bien répétée (avant / après) sur la population testée mais ne l'est pas pour le second groupe, indépendant du premier. Si les deux groupes avaient eu deux mesures, le t de Student apparié est la solution.

par c@ssoulet Ven 22 Avr 2016 - 12:39

Moi je comprends 2 groupes de 19 sujets, mesure avant/après apprentissage pour chaque sujet, un groupe suit un apprentissage spécifique, l'autre groupe un apprentissage normal.

On va laisser moilolo nous éclaircir ca

par moilolo93 Ven 22 Avr 2016 - 14:18

Merci pour vos réponses
Alors les deux groupes sont testés avant et après. Pour le premier groupe il y a apprentissage spécifique et pour le second classique.
J'ai fait un test de student qui montre que la différence de résultats lors des tests Avants n'est pas significative entre les deux groupes. J'ai fait le même test avec les résultats du test final et là la différence est montrée colle significative par le test. Ça va dans le sens que je veux donc je pense que ça suffit. Qu'en pensez vous ??

par StatStatS Ven 22 Avr 2016 - 16:50

bonjour,
si je comprends bien vous comparez des moyennes de groupe. groupe 1 vs 2 avant et groupe 1 vs 2 après.
je me demande s'il ne serait pas plus intéressant de regarder l'apprentissage de chaque individu.

note après g1 i1 - note avant g1 i1
...
note après g1 i19 - note avant g1 i19
et pareil pour groupe 2

et comparer ces apprentissages (distribution)

par moilolo93 Sam 23 Avr 2016 - 9:12

Bonjour StatStatS,
C'est vrai que cette méthode est peut être plus intéressante, mais le faut il les comparer par des Stats ou puis je simplement dire qu'il y a eu progression ou non ?
Merci

par StatStatS Sam 23 Avr 2016 - 10:22

Si les distributions suivent des lois normales vous pourrez comparer les moyennes avec un t test.

par moilolo93 Sam 23 Avr 2016 - 11:37

Comment puis je vérifier que les distributions suivent une loi normale ?

par StatStatS Sam 23 Avr 2016 - 11:41

La distribution a une forme de cloche, il y a symétrie des données. Un test permet de statuer.

par moilolo93 Sam 23 Avr 2016 - 11:45

Ce n'est pas le cas de mes données

par StatStatS Sam 23 Avr 2016 - 11:47

Alors il ne faut pas comparer les moyennes.

par moilolo93 Sam 23 Avr 2016 - 11:52

Que puis je faire alors ??

par StatStatS Sam 23 Avr 2016 - 11:54

Comparez vos distributions, les médianes, l'étendue inter quartile. Vous aurez probablement de quoi conclure.

par moilolo93 Sam 23 Avr 2016 - 12:14

D'accord merci beaucoup pour ces conseils

par Florent Aubry Dim 24 Avr 2016 - 6:41

Attention : pour faire des tests statistiques paramétriques relevant d'un modèle linéaire, il faut que les résidus suivent une loi normale et non les données comme on le lit trop souvent. En effet, ce n'est que dans le cas de l'hypothèse nulle (pas de différence significative entre groupes) que les données suivront alors une loi normale. S'il y a des différences significatives, cela signifie qu'il y a un mélange de plusieurs distributions gaussiennes, même si la différence n'est pas suffisamment significative pour discriminer les sous-populations entre elles.

Si tu penses que les tests paramétriques ne s'appliquent pas, bien qu'ils soient quand même assez robustes face à la violation de la normalité des résidus, utilises alors un test non paramétrique équivalent, c'est-à-dire le test rangs de Wilcoxon pour données appariées (an anglais : Wilcoxon matched-pairs signed-ranks test)

par StatStatS Dim 24 Avr 2016 - 6:58

C'est bien les résidus qui doivent suivre une loi normale mais dans le cas évoqué si les données ne suivent pas une loi normale alors les résidus non plus. Les résidus seront les résultats individuels moins la moyenne.

par c@ssoulet Lun 25 Avr 2016 - 7:18

Vu que moilolo part d'un peu loin côté maitrise et que le respect des assomptions n'est pas verifiable basiquement je lui conseillerais un truc simple: calculer la différences avant/apres pour chaque individu et comparer les 2 groupes avec un test non paramétrique (mann-whitney)

par Florent Aubry Lun 25 Avr 2016 - 7:36

Soit deux groupes de variance unité et de différence de moyenne de 4 et soit 50 mesures dans chaque groupe, alors :
1) différence significative entre groupes p < 0.001
2) normalité des résidus (test de Shapiro) : p ~ 0.54
3) normalité des données dans chaque groupe (test de Shapiro) :
- groupe 1 p ~ 0.45
- groupe 2 p ~ 0.7
4) normalité des données (donc groupes confondus) par le test de Shapiro : p < 0.001

Conclusion : les données de suivant pas une loi normale mais les résidus si.

Pour les personnes voulant contrôler les résultats, voici les données simulées :
"Y" "G"
-1.20988040010873 "A"
4.43476517873628 "B"
0.37995078240785 "A"
4.74077011476491 "B"
1.39112720917037 "A"
3.28498998686093 "B"
-0.404445155437497 "A"
4.4640242817918 "B"
1.85302633915529 "A"
3.39931984588236 "B"
-0.989892128878616 "A"
5.35396915657525 "B"
0.0138468187833034 "A"
5.16687251166057 "B"
-1.04299972913604 "A"
6.33504638088024 "B"
-0.658465231147396 "A"
4.48549625585627 "B"
-1.24625998187882 "A"
4.71787639285697 "B"
-0.198949147384767 "A"
4.39672770937425 "B"
-0.343959046057744 "A"
4.46094041877845 "B"
0.102630314003396 "A"
2.72275961064008 "B"
-0.538182494397031 "A"
3.00200599342107 "B"
-0.836538318064905 "A"
5.36673694623267 "B"
-0.0376067307766745 "A"
5.99358641620551 "B"
-0.788996846470904 "A"
4.04543336277518 "B"
-0.654442810918678 "A"
4.05017744566277 "B"
0.954724026156948 "A"
4.77579533072093 "B"
0.740313952451266 "A"
2.56202515265304 "B"
-0.0292803499337925 "A"
4.35626858606749 "B"
-0.414591014194516 "A"
3.20152286147648 "B"
-0.610226816398659 "A"
2.78985285372737 "B"
-0.217502605366208 "A"
4.87201407018916 "B"
-0.0142701129238842 "A"
4.09635261424807 "B"
-0.291139371734531 "A"
3.93423973390339 "B"
-0.271922441414177 "A"
3.75487056861129 "B"
-0.56744246838716 "A"
5.28159626272985 "B"
0.203467490827486 "A"
3.53071671508705 "B"
-0.40974450248176 "A"
2.9306112628296 "B"
1.13171627529209 "A"
4.93951302914644 "B"
-0.181636086482437 "A"
5.03103564917342 "B"
0.734730905194748 "A"
4.02723020570891 "B"
0.0413908983901872 "A"
4.05487759338756 "B"
0.374818562655219 "A"
4.19530223315751 "B"
1.05770133125423 "A"
4.19624164636172 "B"
0.031119962212326 "A"
5.17153516469164 "B"
-1.52007240434924 "A"
2.79653590360704 "B"
1.68256140110053 "A"
5.3288057280351 "B"
0.0035517729660597 "A"
4.41720771732018 "B"
-2.43236800415996 "A"
4.36172541729608 "B"
-1.38400568954572 "A"
4.90416811540021 "B"
-0.798498117888332 "A"
5.58358307881403 "B"
-0.252111376053106 "A"
6.21193743398406 "B"
-0.365858419003467 "A"
2.40956179978678 "B"
0.307089063249802 "A"
3.67718909253866 "B"
-0.196212709203333 "A"
4.62469761290123 "B"
0.20284534546003 "A"
3.77429354167212 "B"
-1.76958666177933 "A"
4.17143920507038 "B"
-0.180681410937253 "A"
3.28477308598813 "B"

N.B. ; Le solution de C@ssoulet est très proche de celle que je préconisais par un test non-paramétrique.

par c@ssoulet Lun 25 Avr 2016 - 11:28

Florent, tu vas la perdre cette pauvre moilolo avec tes trucs.

A mon avis, il faut exposer clairement le problème et le résoudre le plus simplement possible

- La question est: es ce qu'on s'améliore plus avec l'apprentissage bidule par rapport à l'apprentissage classique.
- On doit donc travailler avec une méthode ou sur une variable adaptée pour évaluer une amélioration
- Si on veut rester basique et ne pas se prendre le chou avec une anova, on calcule la variable "différence avant-après". On a notre critère d'évaluation de l'amélioration.
- On teste la différence entre les 2 méthodes d'apprentissage sur ce critère, avec un test non paramétrique qui produira un résultat relativement solide puisque aucune hypothèse sur la distribution des variables ne sous tendra son résultat.

Et voilà, pour moilolo c'est torché.

Entre nous (moilolo, ne lis pas ca...), même si ce que tu dis concernant la distribution des résidus pouvant être différente de la distribution des variables est vrai, ta démonstration ne me convainc pas du tout car elle est basée sur un test de SW, dont le résultat est très dépendant du nombre d'observations. Tu appliques plusieurs fois le même test sur des groupes d'effectif très différents (sous groupes vs données poolées) et donc il est tout à fait possible qu'un résultat différent soit simplement le reflet d'effectifs différents.
Et ce test s'interprète "à l'envers". Hypothèse nulle = normalité. Pour un p significatif, je rejette l'hypothèse nulle, donc la distribution n'est pas normale. Plus l'effectif est important, plus on rejette "facilement" l'hypothèse de normalité. C'est ce que tes données montrent.

par StatStatS Lun 25 Avr 2016 - 11:54

Faire un test sur les données poolees n'a pas de sens selon moi. Deux systèmes sont mélangés, on s'attend plutôt à avoir des données bimodales. C'est encore pire avec 4 groupes.

par Florent Aubry Lun 25 Avr 2016 - 12:33

@c@ssoulet et @StatStatS, ce n'est pas à moilolo que je répondais directement sauf pour lui signaler que l'affirmation : "les données ne sont pas normales donc les résidus ne le sont pas" était fausse. Il semble malheureusement que ma remarque dans un commentaire précédent "S'il y a des différences significatives, cela signifie qu'il y a un mélange de plusieurs distributions gaussiennes, même si la différence n'est pas suffisamment significative pour discriminer les sous-populations entre elles." n'ait pas été lue donc j'ai pris un exemple sur des groupes équilibrés de même variance et avec une différence de 4 ce qui ne souffre aucune discussion quant à la possibilité de discriminer des groupes (AUC sous la courbe ROC proche de l'unité) pour montrer que je pouvais facilement invalider cette affirmation. Mon test montre bien que je rejette l'hypothèse nulle pour la population et c'est bien ce que je voulais montrer alors que je ne peux pas la rejeter pour les résidus

Plus spécifiquement :
- @c@ssoulet, tu sais très bien que toute démonstration sur un cas illustratif utilise des approximations et tu sais très bien que ce que j'affirme est vrai.
- @StatStatS, nous sommes d'accord et tu ne fais que renforcer le problème que j'ai soulevé qui venait d'une réponse, sans doute involontairement ambigüe, de ta part.

par joyeux_lapin13 Mar 26 Avr 2016 - 7:44

Florent Aubry a écrit:Attention : pour faire des tests statistiques paramétriques relevant d'un modèle linéaire, il faut que les résidus suivent une loi normale et non les données comme on le lit trop souvent. En effet, ce n'est que dans le cas de l'hypothèse nulle (pas de différence significative entre groupes) que les données suivront alors une loi normale. S'il y a des différences significatives, cela signifie qu'il y a un mélange de plusieurs distributions gaussiennes, même si la différence n'est pas suffisamment significative pour discriminer les sous-populations entre elles.

Si tu penses que les tests paramétriques ne s'appliquent pas, bien qu'ils soient quand même assez robustes face à la violation de la normalité des résidus, utilises alors un test non paramétrique équivalent, c'est-à-dire le test rangs de Wilcoxon pour données appariées (an anglais : Wilcoxon matched-pairs signed-ranks test)

Euh... je suis pas d'accords avec le début. En effet certains tests demandent à ce que les résidus suivent une loi normale, mais beaucoup de tests paramétriques demandent cette hypothèse sur les données en l'état. Ma mémoire me fait défaut et si besoin est je peux prendre le temps d'en citer quelques uns mais de souvenir, par exemple, le test du T2 de Hotelling nécessite que les matrices suivent des lois de Wishart, choses qui est vrai uniquement si tu les obtiens depuis la matrice de covariance d'une matrice de variables aléatoires qui suivent une loi normale. De mémoire pour le F de Fisher-Snedecor, il faut que tes variances suivent une loi du chi2, ce qui est vrai si tes données suivent une loi normale, idem pour le test de Student.

Mais en effet, dés fois on peut lire certains tests qui nécessitent la normalité des résidus (notamment tout ce qui se reporte à la régression linéaire) et la plupart des gens traduisent: ah mes données doivent suivre une loi normale. Sauf que pour certains tests c'est bien sur ça que doivent porter les hypothèses d'utilisation.

par Florent Aubry Mar 26 Avr 2016 - 8:44

@joyeux_lapin13 :
En fait, il y a deux choses différentes que d'ailleurs j'ai mis un certain temps à comprendre.

La première concerne l'application du modèle linéaire généralisé. En théorie, les résidus des données transformées via la fonction de lien doivent suivre une loi normale. Par contre, les données brutes ne suivent pas la loi normale (comptage poissonien, logit, ...)

La seconde concerne le test statistique adapté au modèle. Si l'estimation du modèle est fait par la méthode des moindres carrés ou par une méthode du maximum de vraisemblance (ML ou plus encore REML), le critère statistique final sera différent (F, khi-deux, ...). Il faut en effet faire très attention au critère utilisé notamment dans le cas d'analyses multivariées car certains critères sont moins robustes que d'autres face à la violation de la normalité (Bartlett pour l'égalité de variance, T2 ou plus grande valeur propre de Roy pour les Manova).

Ce en quoi tu as raison dans ta remarque est que je n'aurais pas du parler de "tests" dans la mesure où cela conduit au critère final qui utilise ou non la normalité mais d'analyses.

D'autre part, la notion même de normalité des données est ambigüe. Le F de Fisher-Snedecor est bien la rapport entre deux khi-deux centrés mais c'est sous l'hypothèse nulle, c'est-à-dire que tous mes groupes ont la même moyenne et la même variance.
Dans le test final de l'Anova, on teste le rapport entre la variance expliquée par le modèle et la variance intra-groupe sous l'hypothèse que chacune s'explique par la même distribution gaussienne. Pour que ce test ait un sens, il ne faut pas que les données soient gaussiennes (c'est-à-dire l'ensemble des valeurs poolées) mais qu'elles le soient dans chacun des groupes sinon le dénominateur du test n'a pas de sens. C'est d'ailleurs une condition plus forte que celle des données gaussiennes puisque le fait que les données poolées soient gaussiennes n'impliquent pas que les groupes en eux-mêmes le soient (cf. découpage de la variable en classes).
En régression simple, le test bien que basé sur le F ne teste pas exactement les mêmes valeurs puisque ce qu'on cherche à tester est si les données estimées suivent la même loi que les résidus. Par contre, on suppose toujours que les résidus sont gaussiens.

En conclusion, nous sommes d'accord. Il faut dissocier la notion de résidus gaussiens de celle de données gaussiennes et certains tests fonctionnent d'autant mieux que si l'hypothèse nulle était vérifiée, alors les données étaient gaussiennes mais pour prendre le cas de l'Anova ou de la régression, on cherche ce qui permet d'affirmer le contraire.

par Contenu sponsorisé

Quel tests statistiques faire dans mon cas?

Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?

Re: Quel tests statistiques faire dans mon cas?