Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

-15%
Le deal à ne pas rater :
(Adhérents) LEGO® Icons 10318 Le Concorde
169.99 € 199.99 €
Voir le deal

Score

2 participants

Aller en bas

score - Score Empty Score

Message par SoniaB Mer 12 Juil 2017 - 12:48

Bonjour,

Je travaille sur un jeu de donnée de taille 6000*8.
J'ai une variable binaire qui prend 1 lorsque l'évènement s'est réalisé et 0 sinon.
Le problème est que je n'ai que 165 individus qui prennent 1 soit 2,75% de l'effectif total environ. Donc quand je veux réaliser des tests comme le Khi 2, je ne respecte pas la règle des 5% pour chaque modalité. Les tests ne sont donc pas précis.
Je vois pas comment faire une bonne analyse des variables explicatives si je ne peux pas verifier leur dépendance.

De plus, j'ai des données manquantes mais je veux qu'elles soient comptabilisées comme une modalité à part entière dans le score.

Je travaille sur R.

Si quelqu'un peux m'aider, me conseiller.

Merci par avance et bonne journée.

SoniaB

Nombre de messages : 3
Date d'inscription : 12/07/2017

Revenir en haut Aller en bas

score - Score Empty Re: Score

Message par Eric Wajnberg Jeu 13 Juil 2017 - 5:08

Un test exact de Fisher est peut-être la solution à votre question. Il y a la fonction fisher.test() qui fait ceci sous R.

Je ne suis pas sûr cependant de bien comprendre quelle est la question que vous poser sur vos données.

HTH, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1237
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

score - Score Empty Re: Score

Message par SoniaB Jeu 13 Juil 2017 - 8:12

Bonjour,

Merci pour votre réponse. J'ai déjà essayé le Fisher.test mais j'ai cette erreur :

Error in fisher.test(appren$Defaillance, appren$region) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.

J'ai essayé de mettre de nouvelles valeurs pour le paramètre workspace mais je n'ai pas réussi à résoudre le problème.

Pour le tableau de contingence, j'ai :

1 2 3 4 5 6 7 8 9 10 11 12 13 14
0 476 223 456 218 444 124 430 102 69 122 148 139 1254 228
1 12 8 11 9 15 5 3 2 1 3 4 5 50 7

Merci du temps que vous m'accordez.


SoniaB

Nombre de messages : 3
Date d'inscription : 12/07/2017

Revenir en haut Aller en bas

score - Score Empty Re: Score

Message par Eric Wajnberg Jeu 13 Juil 2017 - 10:24

Vous avez probablement trop de valeurs pour que ce test puisse tourner.

L'alternative est de regrouper des modalités pour augmenter le nombre de données par modalité.

Deux points à rappeler ici :

1) La règle n'est pas - comme vous dites - d'avoir 5% pour chaque modalité, mais d'avoir au minimum des effects de 5 (pas en pourcent) dans chaque cas.

2) Par ailleurs, cette règle ne concerne pas les effectifs observés, mais les effectif attendus sous H0 (puisque ces effectifs interviennent au niveau des dénominateurs des contributions de chaque case au Chi2).

La fonction chisq.test() de R fourni les valeurs attendues sous H0 dans la valeur "expected", et ça permet justement de vérifier qu'on est bien dans les clous..

HTH, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1237
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

score - Score Empty Re: Score

Message par SoniaB Jeu 13 Juil 2017 - 12:24

Oui oui j'ai pensé à regrouper mais cela perdait un peu son sens pour cette variable la.

Merci beaucoup pour vos précisions.

Bonne journée à vous.

SoniaB

Nombre de messages : 3
Date d'inscription : 12/07/2017

Revenir en haut Aller en bas

score - Score Empty Re: Score

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum