Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
statistique et linguistique : conditions d'application ANOVA
5 participants
Page 1 sur 1
statistique et linguistique : conditions d'application ANOVA
Bonjour,
voici une question théorique que je me pose depuis longtemps :
il existe des prérequis pour appliquer un test paramétrique sur lesquels il semble que tout le monde est d'accord. J'ai cependant entendu des collègues linguistiques dire que, d'après leur statisticien attitré, il n'est pas nécessaire de considérer "normalité" et "homogénéité" pour appliquer une ANOVA. Avec mes connaissances limitées, je ne vois vraiment pas d'explication à cette exception, ma question est donc : est-il possible d'avoir des résultats fiables ainsi, et si oui, pourquoi ?
Merci beaucoup !
voici une question théorique que je me pose depuis longtemps :
il existe des prérequis pour appliquer un test paramétrique sur lesquels il semble que tout le monde est d'accord. J'ai cependant entendu des collègues linguistiques dire que, d'après leur statisticien attitré, il n'est pas nécessaire de considérer "normalité" et "homogénéité" pour appliquer une ANOVA. Avec mes connaissances limitées, je ne vois vraiment pas d'explication à cette exception, ma question est donc : est-il possible d'avoir des résultats fiables ainsi, et si oui, pourquoi ?
Merci beaucoup !
arno4800- Nombre de messages : 8
Date d'inscription : 07/06/2017
Re: statistique et linguistique : conditions d'application ANOVA
Je pense que "homogénéité" veut dire "homogénéité des variances"??
Je ne suis pas sûr de pouvoir répondre à cette question. La seule réponse qui me vient à l'esprit est que l'ANOVA est une procédure robuste à la non normalité et à l'hétéroscédasticité (variances différentes). Ceci a été démontré de très nombreuses fois depuis des décennies. La robustesse signifie que la procédure reste sensiblement valide si on s'éloigne de ces deux importantes conditions d'application. Et ceci est vrai pour l'ensemble du modèle linéaire général.
Il reste qu'il vaut mieux que les conditions d'application soient vérifiées.
Eric.
Je ne suis pas sûr de pouvoir répondre à cette question. La seule réponse qui me vient à l'esprit est que l'ANOVA est une procédure robuste à la non normalité et à l'hétéroscédasticité (variances différentes). Ceci a été démontré de très nombreuses fois depuis des décennies. La robustesse signifie que la procédure reste sensiblement valide si on s'éloigne de ces deux importantes conditions d'application. Et ceci est vrai pour l'ensemble du modèle linéaire général.
Il reste qu'il vaut mieux que les conditions d'application soient vérifiées.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: statistique et linguistique : conditions d'application ANOVA
Bonjour Arno,
Sans argument, le statisticien de ton laboratoire qui t'a conseillé n'a pas été convaincant.
L'ANOVA sera parfois aussi intéressante qu'un test non paramétrique mais seulement sous certaines conditions très spécifiques.
Il faut voir à quel point tu perds de la puissance et à quel point ton risque de première espèce "alpha" augmente lorsque tu utilises une ANOVA par défaut.
Pour en savoir plus, combien de groupes veux-tu comparer et quel est ton échantillon total ?
Sinon, je te conseille de lire ce mémoire qui est intéressant :
http://scholarscompass.vcu.edu/cgi/viewcontent.cgi?article=5026&context=etd&sei-redir=1&referer=http%3A%2F%2Fwww.bing.com%2Fsearch%3Fq%3Dcomparing%2Bwelch%2Banova%2Bkruskal%26src%3Die9tr%26adlt%3Dstrict#search=%22comparing%20welch%20anova%20kruskal%22
Sans argument, le statisticien de ton laboratoire qui t'a conseillé n'a pas été convaincant.
L'ANOVA sera parfois aussi intéressante qu'un test non paramétrique mais seulement sous certaines conditions très spécifiques.
Il faut voir à quel point tu perds de la puissance et à quel point ton risque de première espèce "alpha" augmente lorsque tu utilises une ANOVA par défaut.
Pour en savoir plus, combien de groupes veux-tu comparer et quel est ton échantillon total ?
Sinon, je te conseille de lire ce mémoire qui est intéressant :
http://scholarscompass.vcu.edu/cgi/viewcontent.cgi?article=5026&context=etd&sei-redir=1&referer=http%3A%2F%2Fwww.bing.com%2Fsearch%3Fq%3Dcomparing%2Bwelch%2Banova%2Bkruskal%26src%3Die9tr%26adlt%3Dstrict#search=%22comparing%20welch%20anova%20kruskal%22
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: statistique et linguistique : conditions d'application ANOVA
Bonjour Eric,
merci beaucoup pour ta réponse.
si je comprends bien, il a été montré que les prérequis "imposés" habituellement, normalité de la distribution et homogénéité des variances, ne sont en fait pas vraiment nécessaires ? Est-ce un fait généralement accepté dans la littérature sur le sujet ?
Merci encore !
merci beaucoup pour ta réponse.
si je comprends bien, il a été montré que les prérequis "imposés" habituellement, normalité de la distribution et homogénéité des variances, ne sont en fait pas vraiment nécessaires ? Est-ce un fait généralement accepté dans la littérature sur le sujet ?
Merci encore !
arno4800- Nombre de messages : 8
Date d'inscription : 07/06/2017
Re: statistique et linguistique : conditions d'application ANOVA
Si, ça reste nécessaire, mais le schéma de l'ANOVA (et du modèle linéaire général) resiste assez bien si on s'écarte de ces prérequis.
Oui, c'est généralement accepté dans la littérature.
Ceci dit :
1) il est faux (et dangereux) de prétendre que "il n'est pas nécessaire de considérer "normalité" et "homogénéité" pour appliquer une ANOVA". C'est pousser le bouchon un peu trop loin tout de même..
2) Il existe de nombreuses généralisations de l'ANOVA à des cas non gaussiens (et/ou non égalité des variances). Par, exemple, si la loi de la variable à expliquer est supposément connue (e.g., binomiale, poisson, exponentielle, etc.), il existe de nos jours le GLM qui est - de très loin - préférable à une anova sur des données non normales en invoquant la robustesse de cette méthode, etc.
HTH, Eric
Oui, c'est généralement accepté dans la littérature.
Ceci dit :
1) il est faux (et dangereux) de prétendre que "il n'est pas nécessaire de considérer "normalité" et "homogénéité" pour appliquer une ANOVA". C'est pousser le bouchon un peu trop loin tout de même..
2) Il existe de nombreuses généralisations de l'ANOVA à des cas non gaussiens (et/ou non égalité des variances). Par, exemple, si la loi de la variable à expliquer est supposément connue (e.g., binomiale, poisson, exponentielle, etc.), il existe de nos jours le GLM qui est - de très loin - préférable à une anova sur des données non normales en invoquant la robustesse de cette méthode, etc.
HTH, Eric
Dernière édition par Eric Wajnberg le Jeu 8 Juin 2017 - 16:14, édité 1 fois
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: statistique et linguistique : conditions d'application ANOVA
Bonjour Zezima,
merci pour ta réponse.
mes données sont en général constituées de 4 groupes comprenant chacun une vingtaine de locuteurs.
comment puis-je faire pour savoir à quel point je perds de la puissance et à quel point le risque de première espèce augmente avec une ANOVA ?
merci pour la référence !
merci pour ta réponse.
mes données sont en général constituées de 4 groupes comprenant chacun une vingtaine de locuteurs.
comment puis-je faire pour savoir à quel point je perds de la puissance et à quel point le risque de première espèce augmente avec une ANOVA ?
merci pour la référence !
arno4800- Nombre de messages : 8
Date d'inscription : 07/06/2017
Re: statistique et linguistique : conditions d'application ANOVA
Merci Eric.
je n'ai jamais eu l'occasion de discuter directement avec le statisticien en question, ce sont des personnes peu formées en stat qui m'ont présenté la chose ainsi... c'est pour ça que je voulais avoir un avis plus précis.
je vais aller m'intéresser à la GLM, merci pour le conseil !
Arno
je n'ai jamais eu l'occasion de discuter directement avec le statisticien en question, ce sont des personnes peu formées en stat qui m'ont présenté la chose ainsi... c'est pour ça que je voulais avoir un avis plus précis.
je vais aller m'intéresser à la GLM, merci pour le conseil !
Arno
arno4800- Nombre de messages : 8
Date d'inscription : 07/06/2017
Re: statistique et linguistique : conditions d'application ANOVA
j'ai posé une autre question sur le forum à propos de la différence entre l'utilisation de l'anova et du t-test, si vous aviez qq minutes pour y répondre, cela m'aiderait beaucoup !
arno4800- Nombre de messages : 8
Date d'inscription : 07/06/2017
Re: statistique et linguistique : conditions d'application ANOVA
Arno, il y a un petit code à la fin de l'article, que tu peux utiliser (si tu sais coder un petit peu en SAS).
Sinon, je préfèrerais te dire que prendre en compte l'hétérogénéité des variances par défaut est plus safe que prendre une ANOVA par défaut, en termes de risque alpha et de puissance.
L'ANOVA sera meilleure si tu as des différences de variance dans un seul groupe par rapport à tous les autres groupes alors que prendre en compte l'hétérogénéité des variances sera plus adapté si tu as au moins 2 groupes qui sont différents en termes de variances par rapport aux autres.
Fais attention également au statisticien de ton labo, il peut avoir un avis mais sans avoir simulé des données ou vérifié de la littérature, c'est complexe d'évaluer ça.
ps: s'il te dit que l'hypothèse de normalité n'est pas importante, ne le crois pas
ps2: combien de données as-tu au final ? Peut-être qu'un test de Levene pourrait être utilisé pour tester l'homogénéité des variances, il a une bonne puissance sur des échantillons de taille raisonnable
Sinon, je préfèrerais te dire que prendre en compte l'hétérogénéité des variances par défaut est plus safe que prendre une ANOVA par défaut, en termes de risque alpha et de puissance.
L'ANOVA sera meilleure si tu as des différences de variance dans un seul groupe par rapport à tous les autres groupes alors que prendre en compte l'hétérogénéité des variances sera plus adapté si tu as au moins 2 groupes qui sont différents en termes de variances par rapport aux autres.
Fais attention également au statisticien de ton labo, il peut avoir un avis mais sans avoir simulé des données ou vérifié de la littérature, c'est complexe d'évaluer ça.
ps: s'il te dit que l'hypothèse de normalité n'est pas importante, ne le crois pas
ps2: combien de données as-tu au final ? Peut-être qu'un test de Levene pourrait être utilisé pour tester l'homogénéité des variances, il a une bonne puissance sur des échantillons de taille raisonnable
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: statistique et linguistique : conditions d'application ANOVA
Merci Zezima,
si je comprends bien, dans le cas où j'ai 1 groupes sur 4 qui présente une hétérogénéité des variances, je peux tout de même appliquer une ANOVA ? A partir de 2 groupes ou plus, il faut éviter l'anova ? Mais ceci est valable seulement si les données suivent une loi normale, n'est ce pas ? La normalité étant le premier élément à considérer avec l'homogénéité ?
Merci.
Arno
si je comprends bien, dans le cas où j'ai 1 groupes sur 4 qui présente une hétérogénéité des variances, je peux tout de même appliquer une ANOVA ? A partir de 2 groupes ou plus, il faut éviter l'anova ? Mais ceci est valable seulement si les données suivent une loi normale, n'est ce pas ? La normalité étant le premier élément à considérer avec l'homogénéité ?
Merci.
Arno
arno4800- Nombre de messages : 8
Date d'inscription : 07/06/2017
Re: statistique et linguistique : conditions d'application ANOVA
Je vais redire ce que j'ai dit, mais d'une manière différente.
Il faut commencer la réfléxion par la distribution des données. Si vous avez un comptage, un pourcentage, etc., toute cette discussion est sans objet. L'ANOVA n'est pas le bon modèle. Dans cas, un GLM s'impose.
Ensuite seulement (i.e., si on pense être dans le cas gaussien), on regarde les conditions d'application de l'ANOVA, et on commence à discuter robustesse, homoscédasticité, etc.
Si vous nous disiez dans quelle unité votre variable à expliquer est exprimée (i.e., si on commençais par le début), peut-être cette discussion pourra devenir plus pertinente.
Eric.
Il faut commencer la réfléxion par la distribution des données. Si vous avez un comptage, un pourcentage, etc., toute cette discussion est sans objet. L'ANOVA n'est pas le bon modèle. Dans cas, un GLM s'impose.
Ensuite seulement (i.e., si on pense être dans le cas gaussien), on regarde les conditions d'application de l'ANOVA, et on commence à discuter robustesse, homoscédasticité, etc.
Si vous nous disiez dans quelle unité votre variable à expliquer est exprimée (i.e., si on commençais par le début), peut-être cette discussion pourra devenir plus pertinente.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: statistique et linguistique : conditions d'application ANOVA
Eric, merci pour vos commentaires et votre question.
je travaille sur des variables continues ; pour faire simple, il s'agit par exemple du nombre de fois qu'un locuteur utilise une structure syntaxique particulière lors de son discours.
je compare des groupes de locuteurs de deux langues maternelles différentes et des groupes d'apprenants des langues en question. les données de ces groupes d'apprenants ne sont souvent pas normalement distribuées.
mes groupes sont composés en général d'une vingtaine de locuteurs et donc d'une vingtaine de mesures.
j'espère que c'est plus clair...
je travaille sur des variables continues ; pour faire simple, il s'agit par exemple du nombre de fois qu'un locuteur utilise une structure syntaxique particulière lors de son discours.
je compare des groupes de locuteurs de deux langues maternelles différentes et des groupes d'apprenants des langues en question. les données de ces groupes d'apprenants ne sont souvent pas normalement distribuées.
mes groupes sont composés en général d'une vingtaine de locuteurs et donc d'une vingtaine de mesures.
j'espère que c'est plus clair...
arno4800- Nombre de messages : 8
Date d'inscription : 07/06/2017
Re: statistique et linguistique : conditions d'application ANOVA
Continues oui, mais discrètes. Vous êtes donc sur une variable de comptage, et un comptage suit une loi de Poisson, pas une loi normale (sauf si les comptages moyens sont élevés). La discussion ici est donc bien sans objet. Ce n'est pas une ANOVA qui convient, mais un GLM pour données de Poisson, que l'on appelle une régression log-linéaire.arno4800 a écrit:je travaille sur des variables continues ; pour faire simple, il s'agit par exemple du nombre de fois qu'un locuteur utilise une structure syntaxique particulière lors de son discours.
HTH, Eric.
Dernière édition par Eric Wajnberg le Ven 9 Juin 2017 - 8:21, édité 1 fois
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: statistique et linguistique : conditions d'application ANOVA
Eric a écrit:mais discrètes. Vous êtes donc sur une variable de comptage
Tout à fait d'accord, on est en train de parler de l'ANOVA alors qu'elle n'est pas adaptée à vos données.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: statistique et linguistique : conditions d'application ANOVA
Une variable continue n'est rien d'autre qu'une variable discrète avec pas d'incrément très faible.Continues oui, mais discrètes
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: statistique et linguistique : conditions d'application ANOVA
Arff et quel est le pas d'incrément d'une variable qui théoriquement prend une infinité de valeurs dans un intervalle ?Une variable continue n'est rien d'autre qu'une variable discrète avec pas d'incrément très faible.
Le post dérive vers quelque chose de bcp trop philosophique non ?
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: statistique et linguistique : conditions d'application ANOVA
infinitésimal
-> oui c'est philosophique. De là à dire qu'on dériverait...oui je suis d'accord
-> oui c'est philosophique. De là à dire qu'on dériverait...oui je suis d'accord
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: statistique et linguistique : conditions d'application ANOVA
Peut-être philosophique, je ne sais. Je crains en revanche que cette réponse pourrait induire en erreur le lecteur non averti qui cherche à comprendre quand on est sur une variable de comptage ou non, et quand une loi de Poisson doit être utilisée ou non. Eric.droopy a écrit:Le post dérive vers quelque chose de bcp trop philosophique non ?
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: statistique et linguistique : conditions d'application ANOVA
Merci à tous pour vos éléments de réponse !
Arnaud
Arnaud
arno4800- Nombre de messages : 8
Date d'inscription : 07/06/2017
Sujets similaires
» ANOVA: conditions d'application, démarche
» Besoin d'aide analyse statistique ANOVA.débutante
» Analyse discriminantes conditions d'application
» Analyse résiduelle ANOVA 1 facteur / ANOVA 2 facteurs
» Analyse de variance quand les ho d'application non vérifiées
» Besoin d'aide analyse statistique ANOVA.débutante
» Analyse discriminantes conditions d'application
» Analyse résiduelle ANOVA 1 facteur / ANOVA 2 facteurs
» Analyse de variance quand les ho d'application non vérifiées
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum