Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
ANOVA, comparaison multiple.
2 participants
Page 1 sur 1
ANOVA, comparaison multiple.
Bonjour,
Si notre variable à expliquer n'est pas gaussienne mais exponentielle, nous ne pouvons pas réaliser d'ANOVA ?
Aussi, je veux comparer différents types d'article et savoir si certains sont plus sujet à une catégorie de défauts que d'autres, par exemple j'ai 10 types d'articles et 50 catégories de défaut, j'aimerais faire tout ça d'un coup, j'ai pensé à la comparaison multiple mais je sais pas comment faire ni sûr que ce soit le bon procédé.
Je travaille avec le logiciel R, toute aide sera la bienvenue.
Merci.
Si notre variable à expliquer n'est pas gaussienne mais exponentielle, nous ne pouvons pas réaliser d'ANOVA ?
Aussi, je veux comparer différents types d'article et savoir si certains sont plus sujet à une catégorie de défauts que d'autres, par exemple j'ai 10 types d'articles et 50 catégories de défaut, j'aimerais faire tout ça d'un coup, j'ai pensé à la comparaison multiple mais je sais pas comment faire ni sûr que ce soit le bon procédé.
Je travaille avec le logiciel R, toute aide sera la bienvenue.
Merci.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
Pour votre première question, non, vous ne pouvez pas réaliser d'ANOVA standard. En revanche, il a d'autres solutions, notamment un GLM. Si la variable distribuée exponentiellement est une durée, alors vous avez également à votre disposition tout l'arsenal de l'analyse de survie.
Pour votre seconde question, il s'agit de corréler deux variables qualitatives (articles et catégories de défaut). Il y plusieurs solutions. La plus simple est de passer par un Chi2 sur table de contingence (chisq.test() dans R) et on peut faire des comparaisons multiples si nécessaire.
HTH, Eric.
Pour votre seconde question, il s'agit de corréler deux variables qualitatives (articles et catégories de défaut). Il y plusieurs solutions. La plus simple est de passer par un Chi2 sur table de contingence (chisq.test() dans R) et on peut faire des comparaisons multiples si nécessaire.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ANOVA, comparaison multiple.
Merci pour ta réponse Eric.
Je suis pas sûr que se soient des distributions exponentielles finalement, car lorsque j’applique le test de Kolmogorov Smirnov :
j'obtiens une p-value < 0.05.
Mais il y a une chose que je comprends pas, pour les tests se sont les résidus qui doivent être gaussiens pas nécessairement la variable d'entrée, car je lis partout des contradictions.
Pour la seconde question c'est pas tout à fait deux variables qualitatives, j'ai ma variable "type d'article" qui est qualitative et 50 variables qualitatives où chacune resprésente un défaut différent et prend ses valeurs dans |N, car ma variable "type article" peut avoir plusieurs type de défaut et plusieurs fois le même.
Je suis pas sûr que se soient des distributions exponentielles finalement, car lorsque j’applique le test de Kolmogorov Smirnov :
- Code:
ks.test(TPS,pexp)
j'obtiens une p-value < 0.05.
Mais il y a une chose que je comprends pas, pour les tests se sont les résidus qui doivent être gaussiens pas nécessairement la variable d'entrée, car je lis partout des contradictions.
Pour la seconde question c'est pas tout à fait deux variables qualitatives, j'ai ma variable "type d'article" qui est qualitative et 50 variables qualitatives où chacune resprésente un défaut différent et prend ses valeurs dans |N, car ma variable "type article" peut avoir plusieurs type de défaut et plusieurs fois le même.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
Si vous nous disiez que représente la variable TPS, ça aiderait ...
Pour faire simple, les résidus ont globalement le même type de distribution que la variable d'entrée, puisque un résidu n'est juste que la variable d'entrée moins sa variable prédite. Mais c'est bien la variable d'entrée qui compte dans le choix du modèle.
Je ne comprends pas la notation "|N". Que cela signifie-t'il ?
Eric.
Pour faire simple, les résidus ont globalement le même type de distribution que la variable d'entrée, puisque un résidu n'est juste que la variable d'entrée moins sa variable prédite. Mais c'est bien la variable d'entrée qui compte dans le choix du modèle.
Je ne comprends pas la notation "|N". Que cela signifie-t'il ?
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ANOVA, comparaison multiple.
TPS représente le temps pour produire certains article (1er histogramme).
Et le second histogramme le temps d'arrêt.
J'ai essayé d'écrire "l'ensemble des entiers naturels" par |N, mais c'est raté ^^.
Et le second histogramme le temps d'arrêt.
J'ai essayé d'écrire "l'ensemble des entiers naturels" par |N, mais c'est raté ^^.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
Puisque la variable TPS est une durée, alors un GLM ou un modèle de survie (par exemple un modèle de Cox) fera l'affaire.
Pour le reste, juste faire des comparaisons de moyennes sur les catégories entre les types d'article devrait vous amener pas mal d'information, au moins pour commencer.
HTH, Eric.
Pour le reste, juste faire des comparaisons de moyennes sur les catégories entre les types d'article devrait vous amener pas mal d'information, au moins pour commencer.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ANOVA, comparaison multiple.
Merci Eric,
Comment réaliser des comparaisons de moyennes sur toutes les catégories d'un coup (sur les 50) depuis RStudio ?
Comment réaliser des comparaisons de moyennes sur toutes les catégories d'un coup (sur les 50) depuis RStudio ?
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
Un point que je n'ai pas encore bien compris: Pour un type d'article donné, et pour un défaut donné, la valeur correspondante (issue de "l'ensemble des entiers naturels") est un comptage, i.e., le nombre de fois où ce défaut est observé pour cet article donné ? C'est bien ça ?
Si tel est le cas, vous êtes bien face à une table de contingence de dimension 10x50, et ma réponse initiale ("La plus simple est de passer par un Chi2 sur table de contingence (chisq.test() dans R) et on peut faire des comparaisons multiples si nécessaire") reste la bonne. Il y a d'autres approches possibles (e.g., AFC) mais qui ne sont pas forcément nécessaire ici.
HTH, Eric.
Si tel est le cas, vous êtes bien face à une table de contingence de dimension 10x50, et ma réponse initiale ("La plus simple est de passer par un Chi2 sur table de contingence (chisq.test() dans R) et on peut faire des comparaisons multiples si nécessaire") reste la bonne. Il y a d'autres approches possibles (e.g., AFC) mais qui ne sont pas forcément nécessaire ici.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ANOVA, comparaison multiple.
Eric Wajnberg a écrit:Un point que je n'ai pas encore bien compris: Pour un type d'article donné, et pour un défaut donné, la valeur correspondante (issue de "l'ensemble des entiers naturels") est un comptage, i.e., le nombre de fois où ce défaut est observé pour cet article donné ? C'est bien ça ?
Oui c'est exactement ça, par exemple, il y a "n" tache(s) sur l'article alors le défaut "tache" prendra la valeur "n".
Eric Wajnberg a écrit: Si tel est le cas, vous êtes bien face à une table de contingence de dimension 10x50, et ma réponse initiale ("La plus simple est de passer par un Chi2 sur table de contingence (chisq.test() dans R) et on peut faire des comparaisons multiples si nécessaire") reste la bonne. Il y a d'autres approches possibles (e.g., AFC) mais qui ne sont pas forcément nécessaire ici.
HTH, Eric.
D'accord je vais partir sur cette solution, donc je fais :
- Code:
T = table(Data$article, Data$cat1, ... , Data$cat50)
chisq.test(T)
Est-ce qu'il n'y à pas un risque "d'inflation du risque" avec une comparaison multiple aussi grande ?
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
[quote="Bibilerikiki"]
D'accord je vais partir sur cette solution, donc je fais :
Eric.
D'accord je vais partir sur cette solution, donc je fais :
- Code:
T = table(Data$article, Data$cat1, ... , Data$cat50)
chisq.test(T)
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ANOVA, comparaison multiple.
Ah mais je crois que mes données sont déjà sous la forme d'une table de contingence.
Mais je me suis trompé, ma variable à expliquée est qualitative mais les types de défauts sont quantitatifs puisqu'ils comptent le nombre de fois où survient un défaut.
Le test du chi2 marche toujours dans ce cas ?
Autre chose, j'ai réalisé le test de Kruskal-Wallis sur mes catégories d'articles contre le pourcentage d'articles défectueux pour chaque catégorie, j'obtiens une p-value < 0.05 donc certaines classes sont différentes, comment savoir lesquelles ?
Et quel test utiliser pour comparer les écart-types, Kruskal-Wallis compare les moyennes si je ne me trompe pas ?
J'ai oublié de préciser, les classes (catégories d'articles) sur lesquelles je fais les tests ne sont pas toutes de même taille mais toutes supérieures à 30.
Merci.
Mais je me suis trompé, ma variable à expliquée est qualitative mais les types de défauts sont quantitatifs puisqu'ils comptent le nombre de fois où survient un défaut.
Le test du chi2 marche toujours dans ce cas ?
Autre chose, j'ai réalisé le test de Kruskal-Wallis sur mes catégories d'articles contre le pourcentage d'articles défectueux pour chaque catégorie, j'obtiens une p-value < 0.05 donc certaines classes sont différentes, comment savoir lesquelles ?
Et quel test utiliser pour comparer les écart-types, Kruskal-Wallis compare les moyennes si je ne me trompe pas ?
J'ai oublié de préciser, les classes (catégories d'articles) sur lesquelles je fais les tests ne sont pas toutes de même taille mais toutes supérieures à 30.
Merci.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
Le fait que vous comptiez le nombre de fois où survient quelque chose veut dire que vous faite ce qu'on appelle une contingence, et, oui, dans cas, un Chi2 sur table de contingence (il y a d'autres sortes de Chi2) est une solution possible, comme je l'ai dit plusieurs fois dans cette discussion.
je ne comprends pas la phrase "j'ai réalisé le test de Kruskal-Wallis sur mes catégories d'articles contre le pourcentage d'articles défectueux pour chaque catégorie". Je ne comprends pas le mot "contre". Que comparez-vous vraiment ? Sinon, on peut faire des comparaisons multiples après un test de Kruskal-Wallis.
Eric.
je ne comprends pas la phrase "j'ai réalisé le test de Kruskal-Wallis sur mes catégories d'articles contre le pourcentage d'articles défectueux pour chaque catégorie". Je ne comprends pas le mot "contre". Que comparez-vous vraiment ? Sinon, on peut faire des comparaisons multiples après un test de Kruskal-Wallis.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ANOVA, comparaison multiple.
Pour le tableau de contingence il faut que je regroupe en une seule ligne tout les articles de même type en sommant pour obtenir les totaux des différents défauts, par exemple:
a b
x 1 0
y 0 1
x 1 1
en :
a b
x 2 1
y 0 1
Mais du coup je perds de l'information.
J'ai comparé mes types d'articles par rapport au pourcentage d'articles refusés dans ces catégories (pas par rapport au pourcentage de défauts, je me suis trompé dans ma formulation).
J'ai du mal à bien expliquer, je sais pas si c'est compréhensible ?
Merci pour l'aide.
Edit : Le problème si je procède de cette façon, est que mes effectifs n'ont pas la même taille, alors on peut contourner le problème en divisant par la taille de l'effectif pour obtenir des proportions mais dans ce cas il faudra faire deux tableaux : http://grasland.script.univ-paris-diderot.fr/STAT98/stat98_8/stat98_8.htm
Et comment utiliser ces deux tableaux simultanément.
a b
x 1 0
y 0 1
x 1 1
en :
a b
x 2 1
y 0 1
Mais du coup je perds de l'information.
J'ai comparé mes types d'articles par rapport au pourcentage d'articles refusés dans ces catégories (pas par rapport au pourcentage de défauts, je me suis trompé dans ma formulation).
J'ai du mal à bien expliquer, je sais pas si c'est compréhensible ?
Merci pour l'aide.
Edit : Le problème si je procède de cette façon, est que mes effectifs n'ont pas la même taille, alors on peut contourner le problème en divisant par la taille de l'effectif pour obtenir des proportions mais dans ce cas il faudra faire deux tableaux : http://grasland.script.univ-paris-diderot.fr/STAT98/stat98_8/stat98_8.htm
Et comment utiliser ces deux tableaux simultanément.
Dernière édition par Bibilerikiki le Ven 4 Aoû 2017 - 7:54, édité 1 fois
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
Oui, il faut regrouper. Quelle information perdez-vous ?
Pour le reste, je le répète, il existe des moyens de faire des comparaisons multiples après une test de Krukal-Wallis.
Eric.
Pour le reste, je le répète, il existe des moyens de faire des comparaisons multiples après une test de Krukal-Wallis.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ANOVA, comparaison multiple.
Je repost mon édit car il peut passer inaperçu.
Edit : Le problème si je procède de cette façon, est que mes effectifs n'ont pas la même taille, alors on peut contourner le problème en divisant par la taille de l'effectif pour obtenir des proportions mais dans ce cas il faudra faire deux tableaux : http://grasland.script.univ-paris-diderot.fr/STAT98/stat98_8/stat98_8.htm
Et comment utiliser ces deux tableaux simultanément.
Edit : Le problème si je procède de cette façon, est que mes effectifs n'ont pas la même taille, alors on peut contourner le problème en divisant par la taille de l'effectif pour obtenir des proportions mais dans ce cas il faudra faire deux tableaux : http://grasland.script.univ-paris-diderot.fr/STAT98/stat98_8/stat98_8.htm
Et comment utiliser ces deux tableaux simultanément.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
Vous vous compliquez la vie.
Je le répète une fois encore (et après j'arrête). Vous avez une table de contingence - que vous devez construire - et faire un Chi2 dessus. Sans ceci, il sera difficile d'avancer.
Eric.
Je le répète une fois encore (et après j'arrête). Vous avez une table de contingence - que vous devez construire - et faire un Chi2 dessus. Sans ceci, il sera difficile d'avancer.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ANOVA, comparaison multiple.
On est d'accord que :
a b
x 1 0
y 0 1
x 1 1
x 2 0
est différent de
a b
x 1 1
y 0 1
x 3 1
Pourtant la table de contingence est la même et le résultat du test du Chi2 aussi.
a b
x 1 0
y 0 1
x 1 1
x 2 0
est différent de
a b
x 1 1
y 0 1
x 3 1
Pourtant la table de contingence est la même et le résultat du test du Chi2 aussi.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
Il es préférable de ne pas avoir deux "row names" identiques. Ce qui n'a guère de sens. Comme je l'ai également déjà dit, vous devez regrouper. Peut-être la fonction table() devrait vous être utile..
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ANOVA, comparaison multiple.
Eric Wajnberg a écrit:Il est préférable de ne pas avoir deux "row names" identiques. Ce qui n'a guère de sens.
Si justement, chaque ligne correspond à la production d'un objet :
On va dire que je produis 3 ballons de foot (bf) et 2 ballons de basket (bb) et que je cherche à observer deux types de défaut (d1 et d2).
d1 d2
bf 1 0
bf 1 1
bf 1 1
bb 2 0
bb 1 1
J'ai pas produit autant de ballon de basket que de ballon de foot donc logiquement j'aurai plus de défaut si je les compte pour tout les ballons de foot pourtant en moyenne j'en ai moins.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
Les catégories sont "ballon de foot" et "ballon de basket". La table de contingence dans ce cas est :
d1 d2
bf 3 2
bb 3 1
Ou alors, chaque catégorie correspond à un seul ballon, et il n'est pas souhaitable d'avoir deux "row names" identiques (ce que j'ai déjà expliqué). Mais ce n'est pas ce que vous expliquiez.
Il semble que cette discussion ne soit plus une discussion de statistique. Mais plutôt une discussion centrée sur des problèmes de compréhension des mots. Il semble que le mot "regrouper" n'ait par exemple pas le même sens pour vous que pour moi (j'ai pourtant l'impression d’utiliser le sens du dictionnaire). De même pour d'autres mots et explications que j'ai utilisés et répétés plusieurs fois ici, apparemment en vain.
Je crains donc de ne pas pouvoir vous aider d'avantage à ce point. Désolé,
Cordialement, Eric.
d1 d2
bf 3 2
bb 3 1
Ou alors, chaque catégorie correspond à un seul ballon, et il n'est pas souhaitable d'avoir deux "row names" identiques (ce que j'ai déjà expliqué). Mais ce n'est pas ce que vous expliquiez.
Il semble que cette discussion ne soit plus une discussion de statistique. Mais plutôt une discussion centrée sur des problèmes de compréhension des mots. Il semble que le mot "regrouper" n'ait par exemple pas le même sens pour vous que pour moi (j'ai pourtant l'impression d’utiliser le sens du dictionnaire). De même pour d'autres mots et explications que j'ai utilisés et répétés plusieurs fois ici, apparemment en vain.
Je crains donc de ne pas pouvoir vous aider d'avantage à ce point. Désolé,
Cordialement, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ANOVA, comparaison multiple.
J'ai bien compris ce qu'est une table de contingence, mais ce que j'essaye d'expliquer, c'est que ça ne peut pas fonctionner dans ma situation car je perds l'information du nombre de ballon produit pour chaque catégorie de ballon.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
le nombre en question est encore dans la table. Quelle information perdez-vous (question déjà posée ici).
Cordialement, Eric.
Cordialement, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ANOVA, comparaison multiple.
Eric Wajnberg a écrit:le nombre en question est encore dans la table. Quelle information perdez-vous (question déjà posée ici).
Cordialement, Eric.
Je perds l'information du nombre de ballons produit pour chaque catégorie, dans mon fichier les données sont sous la forme :
defaut_1 defaut_2 ... defaut_n
objet_1 1 0 2
objet_2 1 1 0
objet_3 1 1 0
objet_4 2 0 1
objet_5 1 1 ... 0
Par exemple objet_1, objet_2, objet_3 sont des ballons de foot et objet_4, objet_5 de basket.
Je n'ai pas produit autant de ballons de basket que de foot, ce que je veux étudier c'est si un type de ballon ici foot et basket est d'avantage enclin à avoir plus de défaut, plus de défaut d'un certain type, mes effectifs pour chaque classe sont différents ( toujours > 30 ), par exemple j'ai 50 ballons de foot produits et seulement 35 de basket.
Il me faut donc un test qui prenne en compte la taille des classes, car en regroupant pour faire une table de contingence je perds l'information du nombre de ballon dans chaque classe.
Merci.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: ANOVA, comparaison multiple.
Et pourtant, dans ce cas - et après regroupement - on continue à avoir l'information bf=3+2=5, et bb=3+1=4. L'information en question n'est donc pas perdue. Au risque de me répéter encore une fois (j'ai l'impression de ne pas être lu), la réponse à votre question (prendre en compte la taille des classes, faire un test, etc.): Un chi2 sur la table de contingence est le test qui vous convient (parmi d'autres possibles).Eric Wajnberg a écrit:Les catégories sont "ballon de foot" et "ballon de basket". La table de contingence dans ce cas est :
d1 d2
bf 3 2
bb 3 1
Je ne peux guère vous aider d'avantage à présent. Désolé.
Cordialement, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Sujets similaires
» ANOVA multiple + GLM
» test comparaison multiple
» Analyse résiduelle ANOVA 1 facteur / ANOVA 2 facteurs
» Choix d'un test de comparaison multiple
» regression multiple et PLS
» test comparaison multiple
» Analyse résiduelle ANOVA 1 facteur / ANOVA 2 facteurs
» Choix d'un test de comparaison multiple
» regression multiple et PLS
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum