Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine

-24%
Le deal à ne pas rater :
Promo sur APPLE Airpods 2 avec boitier de charge
136 € 179 €
Voir le deal

Données manquantes MAR vs MNAR

Aller en bas

Données manquantes MAR vs MNAR Empty Données manquantes MAR vs MNAR

Message par zezima le Mer 14 Oct 2020 - 9:19

Bonjour,

Les données MAR (Missing At Random) dépendent d'une autre variable observée complétée (e.g. les hommes vont avoir moins tendance à accepter de répondre à un sondage sur la dépression).
Les données MNAR (Missing Not At Random) dépendent de la nature de la variable en question (e.g. les personnes avec un grand salaire auront moins tendance à partager des informations sur leurs revenus).

Je me demandais, est-ce que le fait qu'une ou plusieurs machines qui ne marchent pas dans une étude impliquent la présence de valeurs manquantes (e.g. des balances qui ne marchent pas) est considéré comme une variable MAR ou MNAR ?
L'information concernant le fait que les balances marchent n'est pas comprise dans nos bases de données et c'est également un évènement directement lié au fait que la variable a des données manquantes, ce qui me fait penser que cela correspondrait plutôt à des données MNAR.

Merci
zezima
zezima

Nombre de messages : 939
Date d'inscription : 26/02/2013

Revenir en haut Aller en bas

Données manquantes MAR vs MNAR Empty Re: Données manquantes MAR vs MNAR

Message par gg le Mer 14 Oct 2020 - 9:50

Bonjour.

je ne connaissais pas cette distinction, mais je raisonne directement : Si le non fonctionnement est lié à la variable (ex : poids trop important; ou au contraire, inférieur à la plus petite mesure possible), c'est MNAR. Si c'est une raison aléatoire ou due à une autre cause, c'est MAR.
Qu'en penses-tu ?

Cordialement.

gg

Nombre de messages : 2162
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

Données manquantes MAR vs MNAR Empty Re: Données manquantes MAR vs MNAR

Message par zezima le Mer 14 Oct 2020 - 13:27

Bonjour gg, merci pour ta réponse, je suis d'accord avec ta vision des choses,

En effet, le fait que les machines ne marchent pas dépent de l'entraînement des personnes dans les hôpitaux concernés.
Donc finalement on est sur du MAR je pense (car c'est une variable extérieure qui lead la donnée manquante, même si je n'ai pas cette variable dans mon jeu de données).
zezima
zezima

Nombre de messages : 939
Date d'inscription : 26/02/2013

Revenir en haut Aller en bas

Données manquantes MAR vs MNAR Empty Re: Données manquantes MAR vs MNAR

Message par Ayana le Jeu 15 Oct 2020 - 10:05

Bonjour,

Question intéressante!
En effet, le fait que les machines ne marchent pas dépent de l'entraînement des personnes dans les hôpitaux concernés.
Sauf si tu penses que les vraies valeurs (mais manquantes) diffèrent selon le niveau de qualification des techniciens qui s'occupent des machines, les données sont peut-être MCAR (Missing Completely at random selon la classification de Don Rubin), et dans ce cas, une analyse des cas complets est non biaisée.

Ayana
Ayana
Ayana

Nombre de messages : 546
Localisation : Londres
Date d'inscription : 18/08/2009

Revenir en haut Aller en bas

Données manquantes MAR vs MNAR Empty Re: Données manquantes MAR vs MNAR

Message par zezima le Ven 16 Oct 2020 - 12:15

Bonjour Ayana,

Oui en effet ça peut également venir de la qualification des équipes.
Je vais essayer de me renseigner sur les potentielles sources de nos données manquantes.

Est-ce qu'on est bien d'accord que même en cas de MCAR, une imputation peut avoir du sens afin d'avoir une précision plus élevée sur un indicateur de performance ?
(je viens de voir également que malheureusement la majorité des méthodes d'imputation sont adaptées à du MAR, ça fait du sens étant donné que la structure des variable va permettre de faire l'imputation)
zezima
zezima

Nombre de messages : 939
Date d'inscription : 26/02/2013

Revenir en haut Aller en bas

Données manquantes MAR vs MNAR Empty Re: Données manquantes MAR vs MNAR

Message par AdrienC le Mar 24 Nov 2020 - 13:05

Bonjour,

Je fais une partie de ma thèse sur les données manquantes : MCAR, MAR et MNAR. En effet la distinction n'est pas toujours évidente. Je pense qu'il s'agit de données :
- MAR car les machines ne fonctionnent pas et cela est du à quelque chose : par exemple un défaut mécanique dans la récolte des données

On pourrait donc imaginer une variable latente : "présence d'un défaut mécanique : oui ou non".

Pour faire de l'imputation MAR : je te conseille d'utiliser l'imputation multiple (à vérifier que tes données soient bien normales) ou même des équations chainées (package mice).

On évite de supprimer les lignes avec des données manquantes car cela crée un biais sauf dans le cadre MCAR : vu que c'est purement aléatoire, ce n'est pas grave de perdre cette information.

- Je ne pense pas que ce soit MNAR, car la variable est manquante que sur certaine machine mais ce n'est pas liée à la variable elle même mais à la machine.

Si tu veux absolument faire de l'imputation dans le cadre MNAR : je te conseille d'utiliser la technique de Heckman qui est la moins biaisée même s'il faut s'attendre à avoir de mauvaise performance Sad

Bonne journée Smile


PS : si tu as le temps, tu peux faire de la simulation en amputant ton tableau de façon MAR (avec le package mice de R), et de tester tes algorithmes d'imputation afin de calculer l'erreur d'imputation. Cela te permettra de savoir si c'est une bonne idée d'imputer ou non.
AdrienC
AdrienC

Nombre de messages : 87
Date d'inscription : 15/03/2018

Revenir en haut Aller en bas

Données manquantes MAR vs MNAR Empty Re: Données manquantes MAR vs MNAR

Message par Ayana le Mar 24 Nov 2020 - 14:59

Bonjour,

Zezima, pour répondre ta question:
Est-ce qu'on est bien d'accord que même en cas de MCAR, une imputation peut avoir du sens afin d'avoir une précision plus élevée sur un indicateur de performance ?

Ca dépend sur quoi tu as tes donnes manquantes et ce que tu mets dans ton modele d'imputation, mais généralement, avec des données MCAR, tu vas introduire du bruit dans tes données plus qu'autre chose. Au final, tu auras des résultats similaires en termes de precision avec les deux methodes, mais tu te rajoutes des hypotheses parametriques supplementaires.

Ensuite, pour repondre a Adrien:
MAR car les machines ne fonctionnent pas et cela est du à quelque chose : par exemple un défaut mécanique dans la récolte des données

Oui, je suis d'accord, il y a une raison derriere la panne de la machine, pour autant, cela n'implique pas forcément un mécanisme non ignorable des données manquantes. Par exemple, si la machine n'a pas marche car il y a eu une coupure d'électricite 2h plus tot, on connait la cause mais a priori c'est MCAR.

On pourrait donc imaginer une variable latente : "présence d'un défaut mécanique : oui ou non".
On aurait alors un proble separation totale puisque defaut mecanique implique donnees manquantes, non? Et meme si l'overlap est suffisant, je ne suis pas sure que la vraie valeur (mais non observee) de la variable depende de la presence d'un defaut mecanique de la machine.

Pour faire de l'imputation MAR : je te conseille d'utiliser l'imputation multiple (à vérifier que tes données soient bien normales) ou même des équations chainées (package mice).

Pas sur de comprendre le "ou meme", les equations chainees sont une des deux principales methodes d'imputation multiple, l'autre etant la modelisation conjointe. MICE est preferable quand il y a plusieurs variables a imputer qui sont de natures differentes (e.g. continues, discretes, binaires ou ordinales)

Code:
On évite de supprimer les lignes avec des données manquantes car cela crée un biais sauf dans le cadre MCAR : vu que c'est purement aléatoire, ce n'est pas grave de perdre cette information.
Si on parle de données manquantes sur l'outcome, c'est generalement vrai (mais il y a des cas ou l'analyse des cas complets est valide sous certains mecanismes MAR), mais l'analyse des cas complets est non biaisee dans beaucoup de cas lorsqu'il s'agit de donnees manquantes sur des covariables. Dans ce cas, les donnees peuvent etre MAR tant que les donnees manquantes ne dependent pas simultanement de l'outcome et de l'exposition d'interet.

Ayana
Ayana
Ayana

Nombre de messages : 546
Localisation : Londres
Date d'inscription : 18/08/2009

Revenir en haut Aller en bas

Données manquantes MAR vs MNAR Empty Re: Données manquantes MAR vs MNAR

Message par AdrienC le Mar 24 Nov 2020 - 15:14

Bonjour Ayana,

Il est vrai qu'il est compliqué de savoir si c'est MCAR, MAR ou MNAR si l'on ne sait pas pourquoi telle ou telle machine ne récolte pas bien les données. En effet, j'avais déjà eu une étude comme ça où il y avait eu une coupure d'électricité et c'était du purement au hasard, on avait décidé de les considérer comme MCAR.

Ce qui ne me dérange pas c'est de supposer que les données sont MAR. De toute façon la plupart des algorithmes d'imputation sont performants sur MAR et donc par définition sur MCAR aussi.

L'imputation multiple classique suppose que les données sont distribuées selon une loi normale multivariée. Ceci est très rare et il existe assez peu de tests qui vérifient la multinormalité (il existe des publications récentes à ce sujet).

J'avais remarqué qu'à travers des simulations (dans mon étude) que l'algorithme MICE était très utile car comme vous le dites, il peut très bien s'adapter aux données quantitatives et qualitatives comme MissForest. Le problème pour MissForest qui est une technique basée sur les forêts aléatoires est que ça n'a jamais été prouvé "officiellement" (pour l'instant) qu'elle fonctionnait sur MAR.

L'étude des données manquantes est un monde et il est compliqué de s'y retrouver parfois, surtout que la plupart des personnes imputent par la moyenne ce qui est faux et même dangereux pour reprendre la citation de Rubin
AdrienC
AdrienC

Nombre de messages : 87
Date d'inscription : 15/03/2018

Revenir en haut Aller en bas

Données manquantes MAR vs MNAR Empty Re: Données manquantes MAR vs MNAR

Message par Ayana le Mar 24 Nov 2020 - 15:56

Bonjour,

Ce qui ne me dérange pas c'est de supposer que les données sont MAR. De toute façon la plupart des algorithmes d'imputation sont performants sur MAR et donc par définition sur MCAR aussi.

Oui, c'est vrai, mais si under MCAR le modele d'imputation n'est pas compatible avec le modele d'analyse, cela peut entrainer une inflation de la variance, donc il faut quand meme se mefier

L'imputation multiple classique suppose que les données sont distribuées selon une loi normale multivariée. Ceci est très rare et il existe assez peu de tests qui vérifient la multinormalité (il existe des publications récentes à ce sujet).

Je suppose ici que tu parles du "joint modelling"? Oui, c'est vrai, et helas des qu'il y a des donnees manquantes sur plus de deux ou trois variables, cette hypothese est souvent mise a mal, d'ou le recours a l'imputation multiple par equations chainees. Il y a pas mal de choses la-dessus dans le bouquin de James Carpenter.

Le problème pour MissForest qui est une technique basée sur les forêts aléatoires est que ça n'a jamais été prouvé "officiellement" (pour l'instant) qu'elle fonctionnait sur MAR.
Avec l'utilisation de forets aleatoires pour l'imputation, la validite l'hypothese principale de compatibilite entre le modele d'imputation et le modele d'analyse est a questionner (un modele etant non parametrique, l'autre l'etant). D'ailleurs, il y a un papier recent qui montre vraiment les problemes avec cette approche: https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-020-01080-1

surtout que la plupart des personnes imputent par la moyenne ce qui est faux et même dangereux pour reprendre la citation de Rubin
Helas... Ces methodes ad hoc (et je mets la missing category approach dans le meme panier), c'est un peu la plaie. Je sors d'une reunion avec des informaticiens sur cette question des donnees manquantes est leurs methodes preferees sont l'imputation simple (a partir d'un modele de regression) et la categorie manquante. La réunion a ete douloureuse... Rolling Eyes
Ayana
Ayana

Nombre de messages : 546
Localisation : Londres
Date d'inscription : 18/08/2009

Revenir en haut Aller en bas

Données manquantes MAR vs MNAR Empty Re: Données manquantes MAR vs MNAR

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut


 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum