Les posteurs les plus actifs de la semaine
Eric Wajnberg
 


test sur deux proportions avec des données manquantes

Aller en bas

test sur deux proportions avec des données manquantes

Message par labjon01 le Ven 20 Aoû 2010 - 13:16

Bonjour,

Je m'occupe d'un certain système d'information en santé et l'une de mes tâches est aussi d'analyser les données qui y sont stockées.
Le problème, c'est que pour certaines lignes d'information, il y a des champs (ou colonnes) où l'information est manquante.

Voici donc mon problème:

Je veux comparer la proportion de la maladie A sur le total des maladies pour la région X avec la proportion de cette même maladie dans la région Y.

Région X
Fréquence maladie A: 1164
Total des maladies: 4915
Proportion X: 23,68%
Données manquantes: 22,5% du total des maladies (avec l'hypothèse que la maladie A est susceptible d'être plus touchée)

Région Y
Fréquence maladie A: 47190
Total des maladies: 136461
Proportion Y: 34,58%
Données manquantes: 8,7% du total des maladies (avec l'hypothèse que la maladie A est susceptible d'être plus touchée)

Donc, voilà, comment faire un test pour comparer ces deux proportions en tenant compte des données manquantes?

Merci d'avance!

labjon01

Nombre de messages : 8
Age : 34
Localisation : Québec
Date d'inscription : 20/08/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: test sur deux proportions avec des données manquantes

Message par joyeux_lapin13 le Ven 20 Aoû 2010 - 13:43

Bonjour,

la gestion des données manquantes dépend de l'analyse que tu comptes faire.

En général toutes les méthodes populaires ont un algorithme qui permet de les prendre en compte, aprés tout dépend de ton avis personnel sur cet algorithme pour savoir si tu vas t'en servir ou pas.

Néanmoins il me semble que pour les régressions et les tests de dépendance, tu peux mettre une croix sur l'espoir de pouvoir les conserver.
avatar
joyeux_lapin13

Nombre de messages : 1924
Age : 35
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: test sur deux proportions avec des données manquantes

Message par labjon01 le Ven 20 Aoû 2010 - 15:29

Merci joyeux_lapin13.

En fait, c'est justement cet algorithme qui m'intéresse. Aurais-tu une idée de où je pourrais en trouver un pour un test de proportion?


labjon01

Nombre de messages : 8
Age : 34
Localisation : Québec
Date d'inscription : 20/08/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: test sur deux proportions avec des données manquantes

Message par joyeux_lapin13 le Ven 20 Aoû 2010 - 16:34

Je me suis peut-être mal exprimé, mais chaque méthode (ou presque) a un algorithme pour gérer les données manquantes, tout dépend sur quel méthode tu t'orientes.

Par exemple les arbres de décisions se servent de variables de substitution, les fôrets aléatoires de la matrice de proximité, les régressions PLS se servent de la covariance des données globales ect ect ect ect...

Là en l'occurence tu sembles vouloir uniquement faire un test, par conséquent tu vas surement devoir supprimer les individus qui en ont et testé sur le jeux restants.
avatar
joyeux_lapin13

Nombre de messages : 1924
Age : 35
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: test sur deux proportions avec des données manquantes

Message par labjon01 le Ven 20 Aoû 2010 - 17:15

En effet, je n'ai pas le choix de faire le test sur le jeu de données restant. Mais ce que je voudrais arriver à faire, c'est inclure le % de données manquantes à mon niveau de confiance. Car avec les proportions que j'ai là, le test m'indique clairement que la proportion x est significativement plus petite que la proportion y. Mais si je pouvais tenir compte du fait que mes proportions comportent une marge d'erreur supplémentaire dû à des données manquantes, je pourrais refaire un test qui m'indiquerait plus clairement si la région Y est significativement plus problématique que la région Y. Mais comment insérer cette information supplémentaire au test?

labjon01

Nombre de messages : 8
Age : 34
Localisation : Québec
Date d'inscription : 20/08/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: test sur deux proportions avec des données manquantes

Message par joyeux_lapin13 le Ven 20 Aoû 2010 - 19:54

Personnellement je saurais pas te dire, tu peux gérer les données manquantes si tu peux avoir une référence, or cette référence se trouve au sein du jeu lui même. Partant du principe que tes variables sont trés trés peu corréles pour pas dire absolument pas, tu n'as absolument aucune informations sur ce que pourrait être cette valeur manquante, donc espérer tirer une information et s'en servir dans un test...

Ce que j'aurais fait moi, si tu as assez de données pour construire des tests robustes, j'aurais fait deux groupes de même taille quitte a perdre encore un peu d'information mais au moins tu peux faire appliquer ton test correctement. Il faudra néanmoins prendre tes données de façon aléatoire (tirage uniforme), ça ne devrait en rien alterner la réalité si tu as assez d'individus étant donné qu'il n'y a pas de corrélation entre eux.
avatar
joyeux_lapin13

Nombre de messages : 1924
Age : 35
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: test sur deux proportions avec des données manquantes

Message par labjon01 le Ven 20 Aoû 2010 - 20:14

Merci pour ta réponse, mais je peux apporter une modification au test pour prendre en compte le fait que j'ai deux populations qui ne sont pas de même taille . Wink

Je crois que je vais tester sous trois scénarios:
- un sous l'hypothèse que toutes les données manquantes seraient des maladies A
- un sous l'hypothèse que toutes les données manquantes ne seraient pas des maladies A
- un sous l'hypothèse que toutes les données manquantes sont réparties aléatoirement entre la maladie A et les autres maladies (ce qui ferait en sorte que mes proportions seraient théoriquement représentatives même avec les données manquantes)

labjon01

Nombre de messages : 8
Age : 34
Localisation : Québec
Date d'inscription : 20/08/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: test sur deux proportions avec des données manquantes

Message par joyeux_lapin13 le Ven 20 Aoû 2010 - 20:19

Il me semble que faire ça, étant donné le nombre imposant de données manquantes (NA on dit accessoirement pour raccourcir), c'est alterner la réalité...

Enfin je pense que tu devrais faire mon idée et voir ce que ça te donnera, ensuite, et pour être dans la problématique qui, je le sens bien lol, te perturbe, les NA sont le fléau de l'analyse, c'est un souci récurrent, c'est assez coutumier de s'adapter en les éliminants, l'état d'esprit serait que: "plutot d'aller dans la mauvaise direction et bien autant aller le plus loin avec ce qu'on a et comme on peut".

Mais comme je le dis toujours, c'est mon point de vue, surement encore limité, attends de voir l'avis de personnes qui en connaissent bien plus que moi.


Dernière édition par joyeux_lapin13 le Ven 20 Aoû 2010 - 20:27, édité 2 fois
avatar
joyeux_lapin13

Nombre de messages : 1924
Age : 35
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: test sur deux proportions avec des données manquantes

Message par labjon01 le Ven 20 Aoû 2010 - 20:22

Ok, d'accord. Merci.

labjon01

Nombre de messages : 8
Age : 34
Localisation : Québec
Date d'inscription : 20/08/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: test sur deux proportions avec des données manquantes

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum