Quel méthode d'imputation choisir?

par Robin94 Dim 14 Mai 2017 - 17:45

Bonjour,

A la suite d'une étude scientifique, il me manque des données dans mon tableau statistique (Excel ci joint) pour réaliser une ANOVA à 2 facteurs.

En gros, j'ai 5 facteurs Amplitude avec à l'intérieur de chacun d'entre eux 5 facteurs intensité. Chacune de mes données est influencé par les deux facteurs (ça augmente avec l'intensité et également avec l'amplitude).

Je souhaitais savoir qu'elle était la meilleur méthode d'imputation à adopter?

PS : j'utilise Statistica mais je peux essayer un autre logiciel si il ne peut pas faire cette méthode.

En vous remerciant d'avance!

par Eric Wajnberg Lun 15 Mai 2017 - 3:56

Je ne comprends pas votre question. Que voulez-vous dire par "méthode d'imputation" ?

Eric.

par Robin94 Lun 15 Mai 2017 - 6:13

Je voudrais remplacer mes cases vides par des valeurs.

par Ayana Lun 15 Mai 2017 - 9:06

Bonjour,
Quelle est la proportion de valeurs manquantes? L'imputation multiple ne vaut le coup que lorsque tu en as plus de 5 ou 10%.

Tout dépend ensuite de la nature de tes données manquantes. Rubin a développé la classification suivante:
- donnéees manquantes complètement aléatoirement (MCAR): les valeurs manquantes sont manquantes par pur hasard (par exemple, l'infirmière casse le flacon contenant le prelevement de sang d'un patient). En général, ces valeurs sont ignorables (mais si tu en as beaucoup les ignorer te fera perdre de la puissance)
- données manquantes aléatoirement (MAR): la valeur manquante dépend de la valeur d'autres variables mais qui ont été mesurées. Par exemple, si les sujets les plus âgés ont plus tendance à avoir des valeurs manquantes, en tenant compte de l'âge, tu peux imputer les valeurs manquantes
- données manquantes non aléatoirement (MNAR): le fait que la valeur soit manquante dépend de la valeur elle-meme (par exemple, le BMI est plus souvent manquant chez les patients dont le BMI est élevé) dans ce cas l'imputation type imputation multiple n'est pas approprié, et des études de sensibilité sont préférables.

Si tes données sont MAR, tu peux utiliser l'imputation multiple. L'idée est d'utiliser l'information disponible pour tirer au sort des valeurs plausibles pour tes valeurs manquantes. Tu obtiens m jeu de données complets, sur lesquels tu conduis l'analyse initialment prévue et ensuite tu appliques les règles de Rubin pour combiner les m effets estimés. Je te conseille d'utiliser la méthode appelée FCS ou chained equations, qui est souvent plus flexible que la modelisation conjointe.

Enfin, dernière question: tes valeurs manquantes sont-elles sur la variable dépendante ou les variables explicatives? Si c'est sur les variables explicatives, ton modèle d'imputation doit inclure toutes les variables et la variable dépendante également.

Je ne sais pas comment faire ça avec Statistica, mais dans R tu as les packages mi ou mice.

Ayana

par zezima Lun 15 Mai 2017 - 9:14

Bonjour,

J'ajouterais même que la CCA (Complete Case Analysis) s'utilise lorsque moins de 5 ou 10% des lignes ont des données manquantes (et non pas 5 ou 10% des données globales sont manquantes). C'est une condition lorsque tu fais des analyses multivariées.

Sinon, je n'ai également entendu dire que du bien de l'imputation multiple, qui évite des biais que tu pourrais avoir avec des imputation vers la moyenne/ vers la régression/ ou l'imputation de la dernière valeur observée.

par Robin94 Lun 15 Mai 2017 - 9:25

Merci pour vos réponses!

par Eric Wajnberg Lun 15 Mai 2017 - 11:45

Juste pour compléter. Il existe des moyens de faire des ANOVA même si le schéma n'est pas parfaitement équilibré (i.e., avec des données manquantes). C'est même très fréquemment utilisé..

HTH, Eric.

par Contenu sponsorisé

Quel méthode d'imputation choisir?

Quel méthode d'imputation choisir?

Re: Quel méthode d'imputation choisir?

Re: Quel méthode d'imputation choisir?

Re: Quel méthode d'imputation choisir?

Re: Quel méthode d'imputation choisir?

Re: Quel méthode d'imputation choisir?

Re: Quel méthode d'imputation choisir?

Re: Quel méthode d'imputation choisir?