Test post Kruskal Wallis.

par Bibilerikiki Mar 8 Aoû 2017 - 10:05

Bonjour,
J'ai réalisé un test de Kruskal Wallis et j'ai trouvé qu'il y avait une différence entre mes groupes, mais je ne sais pas entre lesquels.
J'ai essayé les tests de Steel Dwass, Siegel Castellan et j'obtiens des résultats totalement différents.
Je comprends pas, quel test est adapté après Kruskal Wallis ?
Merci.

par zezima Mar 8 Aoû 2017 - 11:07

Bonjour,

Le test post-hoc que tu fais après un test est différent en fonction de la dépendance entre tes comparaisons.

Tu peux avoir des corrections pour lesquelles tu n'as pas de dépendance des comparaisons : Holm.
Ou d'autres pour lesquelles tu as une tendance sous certaines conditions : Williams, Dunnett.

Egalement, il faut prendre en compte la distribution et l'homoscédasticité de tes groupes pour appliquer certains tests post-hoc.

Quel est ton objectif ?
Que cherche-tu à comparer ?

par Bibilerikiki Mar 8 Aoû 2017 - 12:33

Bonjour zezima,
Alors j'étudie la production de plusieurs type d'objet.

Pour chaque production il y a une certaine quantité d'objet défectueux.
J'essaye de montrer si oui ou non la production de certains type d'objets présente d'avantage d'objet défectueux.

Par exemple:

Première production je produis 150 "clio" et 10 sont défectueuses.
Deuxième prod : 90 "twingo" 10 défectueuses.
Troisième prod : 80 "clio" 8 defecteuses.
Ect

Est ce que les clio ont plus tendance à être défectueuses que les twingo ?

La distribution de mes données n'est pas gaussienne.
Merci

par Eric Wajnberg Mar 8 Aoû 2017 - 13:16

zezima a écrit:Egalement, il faut prendre en compte la distribution et l'homoscédasticité de tes groupes pour appliquer certains tests post-hoc.

On est dans du non-paramétrique ici. La distribution ou l'homogénéité des variances n'ont guère d'importance ici.

Eric.

par zezima Mar 8 Aoû 2017 - 13:33

Bibil

Il semblerait que tu ne t'intéresses pas à des variables continues mais à des proportions entre chacun de tes groupes, je ne pense pas que le Kruskal-Wallis soit adapté dans un premier temps.
Tu obtiendrais dans ton exemple un tableau de contingence "défectueux/non-défectueux" versus "type de voiture", c'est bien ça ?

Eric Wajnberg a écrit:
zezima a écrit:Egalement, il faut prendre en compte la distribution et l'homoscédasticité de tes groupes pour appliquer certains tests post-hoc.
On est dans du non-paramétrique ici. La distribution ou l'homogénéité des variances n'ont guère d'importance ici.

Eric.

Oui, ma phrase n'était pas liée à l'exemple du sujet, c'était pour le mettre en garde pour de futures comparaisons.

par Bibilerikiki Mar 8 Aoû 2017 - 14:22

Mon tableau est sous la forme:

Voiture .... Pourcentage défectueuses
Clio ...................... 10
Twingo .................. 5
Clio ...................... 12
Focus ................... 3
Clio ...................... 5
Twingo ................. 8

Les pourcentages ne sont pas calculés sur les mêmes quantités, certains pour des productions de 100 voitures, d'autres 1000 ect.

par zezima Mar 8 Aoû 2017 - 14:59

Oui mais il s'agit quand même de pourcentages, et non de moyennes/médianes.

Les données ne représentent pas des données continues.

Il faut que tu mettes tes données sous forme de tableau de contingence pour croiser les deux variables dont je t'ai parlé.

Exemple :

------------------------------Clio--Twingo
Pièces non défectueuses..580....1050
Pièces défectueuses.........20.......50

par Bibilerikiki Mar 8 Aoû 2017 - 15:09

D'accord et une fois avec les données sous cette forme j'applique quel test non paramétrique ?

par zezima Mar 8 Aoû 2017 - 15:20

Il faut calculer tes effectifs théoriques pour chaque cellule de ton tableau :
- si le plus petit effectif théorique est supérieur à 5 : un test du Chi2
- s'il est compris entre 3 et 5, une correction de Yates sur ton Chi2
- s'il est plus petit que 3, un test de Fisher Exact

Fais en sorte que ton tableau de contingence soit de la taille 2x2 si tu veux répondre à ton objectif "Est ce que les clio ont plus tendance à être défectueuses que les twingo ?"

par Bibilerikiki Mer 9 Aoû 2017 - 7:03

Bonjour zezima,
J'avais pris l'exemple avec deux voitures mais dans mon cas c'est avec une cinquantaine.
Donc la première étape est de savoir s'il existe des différences entre les différentes classes par rapport au nombre de défaut, puis "d'isoler" celles qui sont différentes (s'il y en a).
Y a t'il une manière de calculer les effectifs théoriques directement dans R ?

Petite question, si je voulais différencier mes classes sur plusieurs critères, par exemple : quantité de colle utilisée, quantité de tissu ect
Exemple:

-------------------------Clio--Twingo--Megane
Pièces non défectueuses..580....1050......200
Pièces défectueuses.........20.......50.......10
Quantité de tissu.............10.......12.........5
Quantité de colle..............5.........7.........5

Merci.

par zezima Mer 9 Aoû 2017 - 7:29

Bonjour,

Tu as beaucoup de modalités et un nombre confortable de données.
Tu veux également comparer plusieurs variables afin d'avoir des "groupes" de voitures qui se différencient si je comprends bien.

Tu me parles de p-valeurs mais tout dépend de ce qui t'est demandé, veux-tu avoir une pseudo preuve (p-valeur) de ce que tu veux mettre en avant au niveau de tes voitures ou bien veux-tu mieux connaître ton jeu de voitures, auquel cas des statistiques descriptives pourraient suffire.

Ce qui me vient tout de suite lorsque tu me dis que tu veux différencier tes voitures et ce pour plusieurs variables différentes, c'est le data-mining.
L'une des méthodes du data-mining les plus simples et répondant à ta question est l'analyse pluridimensionnelle (ACP, AFC, FAMD), qui permettent de répartir tes marques de voitures dans plusieurs dimensions/axes et d'en ressortir des groupes de variables qui expliquent et caractérisent chaque groupe de voiture (exemple : tu obtiendrais 3 groupes de voitures [Groupe1 : Twingo et Clio, voitures défectueuses avec peu de colle et peu de tissu]; [Groupe2 : Megane et Hyunday, voitures non-défectueuses avec beaucoup de colle et peu de tissu]; etc...).
Tu obtiendrais du coup une classification de tes groupes de voitures, avec leurs paramètres.

L'analyse pluridimensionnelle est applicable sous R (logiciel gratuit), tu as des tutoriels de François Husson sur youtube.
Voici un exemple de ce que ça t'afficherait : http://ct72.espaces-naturels.fr/sites/default/files/images/ct72b/figure_64.jpg
(chaque point correspond à une caractéristique)

par Bibilerikiki Mer 9 Aoû 2017 - 8:20

J'aimerais bien tout faire, expliquer et analyser mes données.
Mais surtout savoir s'il y a des différences entre mes groupes par rapport aux voitures défectueuses et si oui identifier entre quels groupes, ensuite (en bonus) analyser sur l'ensemble de mes variables (analyse factorielle mais quoi choisir ??), le problème pour l'analyse factorielle est de savoir si ça prend bien en compte mes effectifs car les autres variables dépendent des effectifs.
Par exemple :
-------------------------Clio--Twingo--Megane
Pièces non défectueuses..580....1050......200
Pièces défectueuses.........20.......50.......10
Quantité de tissu.............10.......12.........5
Quantité de colle..............5.........7.........5

Le 5 en quantité de colle pour la clio est le total pour les 580 pas pour une seule, donc est-ce que les tests prennent ça en compte ?

Pour en revenir à mon problème initial à savoir "y a t'il des différences entre mes groupes par rapport aux voitures défectueuses et si oui identifier entre quels groupes" comment je procède car ça ne sera pas un tableau 2x2 mais 50x2 ?
Et comment calculer directement les effectifs théoriques ?
Merci.

par zezima Mer 9 Aoû 2017 - 9:20

Si tu as 50 modalités pour ta variable "groupe de voiture", je pense que c'est compliqué de faire un test, il trouvera forcément une différence de proportion entre tes voitures.
Soit il te faudrait moins de modalités, soit il faudrait que tu fasses une AFC (si tes variables sont quantitatives).

Je ne sais pas pourquoi tu veux absolument un test statistique avec un p-valeur, qui te demande la p-valeur ?

Tu peux regarder avec un barplot tes proportions de pièces défectueuses par type de voiture et les classer du plus grand au plus petit, ça te donnera déjà des indices.

Les effectifs théoriques sont calculés de la sorte pour chaque cellule (n correspond à effectif) :

-------------------------------A-------B----|----
C...................................nCA....nCB....|nC
D...................................nDA....nDB...|nD
---------------------------------------------|----
.......................................nA.....nB.....|nTotal

Effectif_théorique_CA=nC*nA/nTotal
Effectif_théorique_CB=nC*nB/nTotal
Effectif_théorique_DA=nD*nA/nTotal
Effectif_théorique_DB=nD*nB/nTotal

Mais ne fais pas un chi2 sur un tableau 2x50

Est-ce que parmi tes variables tu n'as que des variables catégorielles (des proportions) ou tu as également des variables continues ?
Pour une ACP ou AFC, il te faudra un tableau normal (ligne=une voiture, colonne=une variable, avec une colonne qui correspond au type de voiture)

par Bibilerikiki Mer 9 Aoû 2017 - 12:37

Alors pour mon tableau total, j'ai 47 types de voitures et 32 variables qui sont toutes quantitatives certaines sont des "comptages" comme le nombre de voitures produites, le nombre de voitures défectueuses, d'autres sont des variables continues comme le temps de production, la quantité de colle utilisée.
Toutes les variables dépendent du nombre de voitures produites et il faut absolument que mon modèle/test le prenne en compte sinon les résultats n'auront aucun sens. Si ce n'est pas possible, alors je peux diviser chaque variable par le nombre de voitures produites pour avoir la moyenne par voiture pour chaque production.

Chaque ligne de mon tableau correspond à une production ou un seul type de voiture est produit, exemple:

..........................Voitures........Nb........Defectueuses......Colle A (en tonne)....Colle B (en tonne)
Production_1...........Clio...........100...............3............................0.1......................0
Production_2.........Megane........200...............5...........................0.1......................0
Production_3..........Twingo........50................0...........................0.05.....................0
Production_4.........Megane........150...............2...........................0.8......................0
Production_5...........Clio............500...............8............................0.......................0.2

Pour la production 1 on a utilisé en moyenne 1kg par voiture de colle, soit 0.1 tonne au total.
On peut remarquer qu'en changeant de colle on a moins de voitures défectueuses (en pourcentage) pour les clio.

1) En gros j'aimerais déjà savoir si les Twingo on plus de défauts que les Clio resp Megane ect, donc uniquement les 3 premières colonnes du tableau, (c'est le plus important).

2) Puis ensuite voir pourquoi il y a plus de défaut, est-ce que le type de colle utilisé a une influence ect, (important mais après 1)).

3) Regrouper les voitures qui se ressemblent, (pas super important après 2)).

Merci.

par zezima Mer 9 Aoû 2017 - 13:29

Ce que tu appelles variable quantitatives "comptage" correspond dans l'absolu à des proportions, pour le pourcentage de voiture défectueuses par exemple.

1) Tu peux calculer le pourcentage de voitures défectueuses par marque (calcul de proportions) et les afficher sur un barplot de la proportion la plus grande à la plus petite, pas besoin de test statistique

2) Une solution est de faire la représentation dont je t'ai parlé. Tu peux créer des intervalles de pourcentages de pièces défectueuses par voiture et afficher tes variables en fonction de cette variable.
Tu peux aussi avoir recours à des Odds-Ratios pour voir l'impact de tes variables sur ton pourcentage de pièces défectueuses.
Tu peux également faire une régression logistique multivariée mais je ne suis pas spécialiste de ce type de régression donc je préfère ne pas rentrer dans les détails.

3) Là tu peux faire une FAMD qui est une représentation sous plusieurs axes de tes variables quantitatives et qualitatives. Ou alors une ACP et une ACM.

par Bibilerikiki Mer 9 Aoû 2017 - 14:05

1) Mais est-ce que cette différence sera significative, c'est ça qui m'intéresse sinon je ferai tout simplement des moyennes ou comme vous m'avez proposé.

2) Je ne connais pas les Odds-Ratios mais ça m'intéresse, par contre je comprends pas pourquoi la régression logistique multivariée, un glm est plus adapté si je veux expliquer les défauts par rapport au reste des variables.

3) FAMD = L’Analyse factorielle de données mixtes ?

Merci

par zezima Mer 9 Aoû 2017 - 14:31

1) Pourquoi veux-tu une p-valeur, qui a demandé cette p-valeur, un patron, un tuteur, un professeur ? Et dans quel objectif également ?
Non ce ne sont pas des moyennes, ce sont des proportions, on parle de moyenne d'âge, de taille moyenne mais pas de moyenne de voitures défectueuses sur 100 voiture, ça n'a pas de sens, ce sont des proportions.

2) Les OR donnent une information sur l'impact d'une variable sur une autre (exemple : tu as 6 fois plus de chances d'être cadre si tes parents sont cadres plutôt qu'ouvriers, ici OR=6 ; pour ton exemple on pourrait avoir par exemple, on a 5 fois plus de voitures défectueuses si les portes sont en fer plutôt qu'en plastique)
Les régressions logistiques multivariées permettent d'obtenir des Odds Ratios.
Les défauts est une variable binaire ("défaut"/"pas défaut") pour chaque voiture, il faut que tu penses à l'individu qui dans ton étude est UNE voiture et que tu aies une ligne par voiture dans ton tableau si tu veux appliquer ces méthodes.

3) Exactement

Il faut d'abord que tu saches ce que tu veux faire, quel est ton objectif et 'est-ce que tu as vraiment besoin de pvaleurs' et ensuite que tu arranges tes données en conséquence

par Bibilerikiki Mer 9 Aoû 2017 - 15:06

1) C'est moi qui veux savoir si c'est significatif ou non et je dois informer mon supérieur des résultats, si je lui dis A est mieux que B mais qu'en réalité ce n'est pas significatif, ça sera pas super super.

Pas la moyenne sur les défauts évidement ^^, mais pour les colles par exemple.

2) J'ai pas de variables défaut, à chaque fois j'ai des voitures défectueuses, dans chaque production.
Mais la régression logistique porte sur une variable qualitative en réponse, hors le pourcentage de voitures défectueuses est quantitatif.

par zezima Mer 9 Aoû 2017 - 15:10

D'accord, désolé je ne sais pas comment étudier les pourcentages quantitatifs.

par Contenu sponsorisé

Test post Kruskal Wallis.

Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.

Re: Test post Kruskal Wallis.