Score

par SoniaB Mer 12 Juil 2017 - 12:48

Bonjour,

Je travaille sur un jeu de donnée de taille 6000*8.
J'ai une variable binaire qui prend 1 lorsque l'évènement s'est réalisé et 0 sinon.
Le problème est que je n'ai que 165 individus qui prennent 1 soit 2,75% de l'effectif total environ. Donc quand je veux réaliser des tests comme le Khi 2, je ne respecte pas la règle des 5% pour chaque modalité. Les tests ne sont donc pas précis.
Je vois pas comment faire une bonne analyse des variables explicatives si je ne peux pas verifier leur dépendance.

De plus, j'ai des données manquantes mais je veux qu'elles soient comptabilisées comme une modalité à part entière dans le score.

Je travaille sur R.

Si quelqu'un peux m'aider, me conseiller.

Merci par avance et bonne journée.

par Eric Wajnberg Jeu 13 Juil 2017 - 5:08

Un test exact de Fisher est peut-être la solution à votre question. Il y a la fonction fisher.test() qui fait ceci sous R.

Je ne suis pas sûr cependant de bien comprendre quelle est la question que vous poser sur vos données.

HTH, Eric.

par SoniaB Jeu 13 Juil 2017 - 8:12

Bonjour,

Merci pour votre réponse. J'ai déjà essayé le Fisher.test mais j'ai cette erreur :

Error in fisher.test(appren$Defaillance, appren$region) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.

J'ai essayé de mettre de nouvelles valeurs pour le paramètre workspace mais je n'ai pas réussi à résoudre le problème.

Pour le tableau de contingence, j'ai :

1 2 3 4 5 6 7 8 9 10 11 12 13 14
0 476 223 456 218 444 124 430 102 69 122 148 139 1254 228
1 12 8 11 9 15 5 3 2 1 3 4 5 50 7

Merci du temps que vous m'accordez.

par Eric Wajnberg Jeu 13 Juil 2017 - 10:24

Vous avez probablement trop de valeurs pour que ce test puisse tourner.

L'alternative est de regrouper des modalités pour augmenter le nombre de données par modalité.

Deux points à rappeler ici :

1) La règle n'est pas - comme vous dites - d'avoir 5% pour chaque modalité, mais d'avoir au minimum des effects de 5 (pas en pourcent) dans chaque cas.

2) Par ailleurs, cette règle ne concerne pas les effectifs observés, mais les effectif attendus sous H0 (puisque ces effectifs interviennent au niveau des dénominateurs des contributions de chaque case au Chi2).

La fonction chisq.test() de R fourni les valeurs attendues sous H0 dans la valeur "expected", et ça permet justement de vérifier qu'on est bien dans les clous..

HTH, Eric.

par SoniaB Jeu 13 Juil 2017 - 12:24

Oui oui j'ai pensé à regrouper mais cela perdait un peu son sens pour cette variable la.

Merci beaucoup pour vos précisions.

Bonne journée à vous.

par Contenu sponsorisé

Score

Score

Re: Score

Re: Score

Re: Score

Re: Score

Re: Score