Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Score
2 participants
Page 1 sur 1
Score
Bonjour,
Je travaille sur un jeu de donnée de taille 6000*8.
J'ai une variable binaire qui prend 1 lorsque l'évènement s'est réalisé et 0 sinon.
Le problème est que je n'ai que 165 individus qui prennent 1 soit 2,75% de l'effectif total environ. Donc quand je veux réaliser des tests comme le Khi 2, je ne respecte pas la règle des 5% pour chaque modalité. Les tests ne sont donc pas précis.
Je vois pas comment faire une bonne analyse des variables explicatives si je ne peux pas verifier leur dépendance.
De plus, j'ai des données manquantes mais je veux qu'elles soient comptabilisées comme une modalité à part entière dans le score.
Je travaille sur R.
Si quelqu'un peux m'aider, me conseiller.
Merci par avance et bonne journée.
Je travaille sur un jeu de donnée de taille 6000*8.
J'ai une variable binaire qui prend 1 lorsque l'évènement s'est réalisé et 0 sinon.
Le problème est que je n'ai que 165 individus qui prennent 1 soit 2,75% de l'effectif total environ. Donc quand je veux réaliser des tests comme le Khi 2, je ne respecte pas la règle des 5% pour chaque modalité. Les tests ne sont donc pas précis.
Je vois pas comment faire une bonne analyse des variables explicatives si je ne peux pas verifier leur dépendance.
De plus, j'ai des données manquantes mais je veux qu'elles soient comptabilisées comme une modalité à part entière dans le score.
Je travaille sur R.
Si quelqu'un peux m'aider, me conseiller.
Merci par avance et bonne journée.
SoniaB- Nombre de messages : 3
Date d'inscription : 12/07/2017
Re: Score
Un test exact de Fisher est peut-être la solution à votre question. Il y a la fonction fisher.test() qui fait ceci sous R.
Je ne suis pas sûr cependant de bien comprendre quelle est la question que vous poser sur vos données.
HTH, Eric.
Je ne suis pas sûr cependant de bien comprendre quelle est la question que vous poser sur vos données.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Score
Bonjour,
Merci pour votre réponse. J'ai déjà essayé le Fisher.test mais j'ai cette erreur :
Error in fisher.test(appren$Defaillance, appren$region) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
J'ai essayé de mettre de nouvelles valeurs pour le paramètre workspace mais je n'ai pas réussi à résoudre le problème.
Pour le tableau de contingence, j'ai :
1 2 3 4 5 6 7 8 9 10 11 12 13 14
0 476 223 456 218 444 124 430 102 69 122 148 139 1254 228
1 12 8 11 9 15 5 3 2 1 3 4 5 50 7
Merci du temps que vous m'accordez.
Merci pour votre réponse. J'ai déjà essayé le Fisher.test mais j'ai cette erreur :
Error in fisher.test(appren$Defaillance, appren$region) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
J'ai essayé de mettre de nouvelles valeurs pour le paramètre workspace mais je n'ai pas réussi à résoudre le problème.
Pour le tableau de contingence, j'ai :
1 2 3 4 5 6 7 8 9 10 11 12 13 14
0 476 223 456 218 444 124 430 102 69 122 148 139 1254 228
1 12 8 11 9 15 5 3 2 1 3 4 5 50 7
Merci du temps que vous m'accordez.
SoniaB- Nombre de messages : 3
Date d'inscription : 12/07/2017
Re: Score
Vous avez probablement trop de valeurs pour que ce test puisse tourner.
L'alternative est de regrouper des modalités pour augmenter le nombre de données par modalité.
Deux points à rappeler ici :
1) La règle n'est pas - comme vous dites - d'avoir 5% pour chaque modalité, mais d'avoir au minimum des effects de 5 (pas en pourcent) dans chaque cas.
2) Par ailleurs, cette règle ne concerne pas les effectifs observés, mais les effectif attendus sous H0 (puisque ces effectifs interviennent au niveau des dénominateurs des contributions de chaque case au Chi2).
La fonction chisq.test() de R fourni les valeurs attendues sous H0 dans la valeur "expected", et ça permet justement de vérifier qu'on est bien dans les clous..
HTH, Eric.
L'alternative est de regrouper des modalités pour augmenter le nombre de données par modalité.
Deux points à rappeler ici :
1) La règle n'est pas - comme vous dites - d'avoir 5% pour chaque modalité, mais d'avoir au minimum des effects de 5 (pas en pourcent) dans chaque cas.
2) Par ailleurs, cette règle ne concerne pas les effectifs observés, mais les effectif attendus sous H0 (puisque ces effectifs interviennent au niveau des dénominateurs des contributions de chaque case au Chi2).
La fonction chisq.test() de R fourni les valeurs attendues sous H0 dans la valeur "expected", et ça permet justement de vérifier qu'on est bien dans les clous..
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Score
Oui oui j'ai pensé à regrouper mais cela perdait un peu son sens pour cette variable la.
Merci beaucoup pour vos précisions.
Bonne journée à vous.
Merci beaucoup pour vos précisions.
Bonne journée à vous.
SoniaB- Nombre de messages : 3
Date d'inscription : 12/07/2017
Sujets similaires
» Z-score ou anova ?
» Validité d'un score
» Z-score extrème et GEE
» Seuil et sensibilité d'un score
» Question sur le Score de Propension - épisode 3
» Validité d'un score
» Z-score extrème et GEE
» Seuil et sensibilité d'un score
» Question sur le Score de Propension - épisode 3
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum