Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Quel méthode d'imputation choisir?
4 participants
Page 1 sur 1
Quel méthode d'imputation choisir?
Bonjour,
A la suite d'une étude scientifique, il me manque des données dans mon tableau statistique (Excel ci joint) pour réaliser une ANOVA à 2 facteurs.
En gros, j'ai 5 facteurs Amplitude avec à l'intérieur de chacun d'entre eux 5 facteurs intensité. Chacune de mes données est influencé par les deux facteurs (ça augmente avec l'intensité et également avec l'amplitude).
Je souhaitais savoir qu'elle était la meilleur méthode d'imputation à adopter?
PS : j'utilise Statistica mais je peux essayer un autre logiciel si il ne peut pas faire cette méthode.
En vous remerciant d'avance!
A la suite d'une étude scientifique, il me manque des données dans mon tableau statistique (Excel ci joint) pour réaliser une ANOVA à 2 facteurs.
En gros, j'ai 5 facteurs Amplitude avec à l'intérieur de chacun d'entre eux 5 facteurs intensité. Chacune de mes données est influencé par les deux facteurs (ça augmente avec l'intensité et également avec l'amplitude).
Je souhaitais savoir qu'elle était la meilleur méthode d'imputation à adopter?
PS : j'utilise Statistica mais je peux essayer un autre logiciel si il ne peut pas faire cette méthode.
En vous remerciant d'avance!
Robin94- Nombre de messages : 3
Date d'inscription : 14/05/2017
Re: Quel méthode d'imputation choisir?
Je ne comprends pas votre question. Que voulez-vous dire par "méthode d'imputation" ?
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Quel méthode d'imputation choisir?
Je voudrais remplacer mes cases vides par des valeurs.
Robin94- Nombre de messages : 3
Date d'inscription : 14/05/2017
Re: Quel méthode d'imputation choisir?
Bonjour,
Quelle est la proportion de valeurs manquantes? L'imputation multiple ne vaut le coup que lorsque tu en as plus de 5 ou 10%.
Tout dépend ensuite de la nature de tes données manquantes. Rubin a développé la classification suivante:
- donnéees manquantes complètement aléatoirement (MCAR): les valeurs manquantes sont manquantes par pur hasard (par exemple, l'infirmière casse le flacon contenant le prelevement de sang d'un patient). En général, ces valeurs sont ignorables (mais si tu en as beaucoup les ignorer te fera perdre de la puissance)
- données manquantes aléatoirement (MAR): la valeur manquante dépend de la valeur d'autres variables mais qui ont été mesurées. Par exemple, si les sujets les plus âgés ont plus tendance à avoir des valeurs manquantes, en tenant compte de l'âge, tu peux imputer les valeurs manquantes
- données manquantes non aléatoirement (MNAR): le fait que la valeur soit manquante dépend de la valeur elle-meme (par exemple, le BMI est plus souvent manquant chez les patients dont le BMI est élevé) dans ce cas l'imputation type imputation multiple n'est pas approprié, et des études de sensibilité sont préférables.
Si tes données sont MAR, tu peux utiliser l'imputation multiple. L'idée est d'utiliser l'information disponible pour tirer au sort des valeurs plausibles pour tes valeurs manquantes. Tu obtiens m jeu de données complets, sur lesquels tu conduis l'analyse initialment prévue et ensuite tu appliques les règles de Rubin pour combiner les m effets estimés. Je te conseille d'utiliser la méthode appelée FCS ou chained equations, qui est souvent plus flexible que la modelisation conjointe.
Enfin, dernière question: tes valeurs manquantes sont-elles sur la variable dépendante ou les variables explicatives? Si c'est sur les variables explicatives, ton modèle d'imputation doit inclure toutes les variables et la variable dépendante également.
Je ne sais pas comment faire ça avec Statistica, mais dans R tu as les packages mi ou mice.
Ayana
Quelle est la proportion de valeurs manquantes? L'imputation multiple ne vaut le coup que lorsque tu en as plus de 5 ou 10%.
Tout dépend ensuite de la nature de tes données manquantes. Rubin a développé la classification suivante:
- donnéees manquantes complètement aléatoirement (MCAR): les valeurs manquantes sont manquantes par pur hasard (par exemple, l'infirmière casse le flacon contenant le prelevement de sang d'un patient). En général, ces valeurs sont ignorables (mais si tu en as beaucoup les ignorer te fera perdre de la puissance)
- données manquantes aléatoirement (MAR): la valeur manquante dépend de la valeur d'autres variables mais qui ont été mesurées. Par exemple, si les sujets les plus âgés ont plus tendance à avoir des valeurs manquantes, en tenant compte de l'âge, tu peux imputer les valeurs manquantes
- données manquantes non aléatoirement (MNAR): le fait que la valeur soit manquante dépend de la valeur elle-meme (par exemple, le BMI est plus souvent manquant chez les patients dont le BMI est élevé) dans ce cas l'imputation type imputation multiple n'est pas approprié, et des études de sensibilité sont préférables.
Si tes données sont MAR, tu peux utiliser l'imputation multiple. L'idée est d'utiliser l'information disponible pour tirer au sort des valeurs plausibles pour tes valeurs manquantes. Tu obtiens m jeu de données complets, sur lesquels tu conduis l'analyse initialment prévue et ensuite tu appliques les règles de Rubin pour combiner les m effets estimés. Je te conseille d'utiliser la méthode appelée FCS ou chained equations, qui est souvent plus flexible que la modelisation conjointe.
Enfin, dernière question: tes valeurs manquantes sont-elles sur la variable dépendante ou les variables explicatives? Si c'est sur les variables explicatives, ton modèle d'imputation doit inclure toutes les variables et la variable dépendante également.
Je ne sais pas comment faire ça avec Statistica, mais dans R tu as les packages mi ou mice.
Ayana
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: Quel méthode d'imputation choisir?
Bonjour,
J'ajouterais même que la CCA (Complete Case Analysis) s'utilise lorsque moins de 5 ou 10% des lignes ont des données manquantes (et non pas 5 ou 10% des données globales sont manquantes). C'est une condition lorsque tu fais des analyses multivariées.
Sinon, je n'ai également entendu dire que du bien de l'imputation multiple, qui évite des biais que tu pourrais avoir avec des imputation vers la moyenne/ vers la régression/ ou l'imputation de la dernière valeur observée.
J'ajouterais même que la CCA (Complete Case Analysis) s'utilise lorsque moins de 5 ou 10% des lignes ont des données manquantes (et non pas 5 ou 10% des données globales sont manquantes). C'est une condition lorsque tu fais des analyses multivariées.
Sinon, je n'ai également entendu dire que du bien de l'imputation multiple, qui évite des biais que tu pourrais avoir avec des imputation vers la moyenne/ vers la régression/ ou l'imputation de la dernière valeur observée.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Quel méthode d'imputation choisir?
Merci pour vos réponses!
Robin94- Nombre de messages : 3
Date d'inscription : 14/05/2017
Re: Quel méthode d'imputation choisir?
Juste pour compléter. Il existe des moyens de faire des ANOVA même si le schéma n'est pas parfaitement équilibré (i.e., avec des données manquantes). C'est même très fréquemment utilisé..
HTH, Eric.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Sujets similaires
» CHOISIR UNE METHODE STATISTIQUE
» Quelle méthode d'analyse choisir ?
» SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
» Besoin d'aide INTERPRETATION REGRESSION LOGISTIQUE
» Recherche de méthode
» Quelle méthode d'analyse choisir ?
» SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
» Besoin d'aide INTERPRETATION REGRESSION LOGISTIQUE
» Recherche de méthode
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum