Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Peut-on exclure des données manifestement erronnées ?
3 participants
Page 1 sur 1
Peut-on exclure des données manifestement erronnées ?
Bonjour,
Je travaille à partir d'une base de données partiellement incomplète ou erronnée. Ainsi, si l'on visualise l'ensemble à la manière du nuage de points, les données les plus extrêmes sont en réalité des erreurs. Est-il possible d'en tirer quelque chose malgré tout ? Par exemple, en excluant ces informations manifestenent incorrectes ? Cela garantira-t-il toujours la validité des données restantes ?
Merci de votre réponse
Camille
Je travaille à partir d'une base de données partiellement incomplète ou erronnée. Ainsi, si l'on visualise l'ensemble à la manière du nuage de points, les données les plus extrêmes sont en réalité des erreurs. Est-il possible d'en tirer quelque chose malgré tout ? Par exemple, en excluant ces informations manifestenent incorrectes ? Cela garantira-t-il toujours la validité des données restantes ?
Merci de votre réponse
Camille
Cafekam- Nombre de messages : 2
Date d'inscription : 20/04/2009
Re: Peut-on exclure des données manifestement erronnées ?
Salut,
Tout dépend de l'analyse que tu veux mener et de l'objectif que tu veux atteindre. En régression logistique par exemple lors d'un découpage d'une variable en classes, il est commun de créer une modalité "manquant" pour les valeurs manquantes. En outre le découpage en classe permet de limiter l'inpact des valeurs extrêmes.
Un autre exemple, lorsque les données sont incomplète dans la modélisation de durées de vies on parle de censure et/ou troncature. Ces données se sont pas pour autant supprimées, ces censures/troncatures sont même prises en compte dans la modélisation.
Une chose est certaine en supprimant les données erronées, extrêmes, incomplètes, tu perds de l'information.
++
Tout dépend de l'analyse que tu veux mener et de l'objectif que tu veux atteindre. En régression logistique par exemple lors d'un découpage d'une variable en classes, il est commun de créer une modalité "manquant" pour les valeurs manquantes. En outre le découpage en classe permet de limiter l'inpact des valeurs extrêmes.
Un autre exemple, lorsque les données sont incomplète dans la modélisation de durées de vies on parle de censure et/ou troncature. Ces données se sont pas pour autant supprimées, ces censures/troncatures sont même prises en compte dans la modélisation.
Une chose est certaine en supprimant les données erronées, extrêmes, incomplètes, tu perds de l'information.
++
sai9004- Nombre de messages : 45
Date d'inscription : 26/08/2008
Re: Peut-on exclure des données manifestement erronnées ?
C'est un problème difficile, pour lequel il n'y a pas vraiment de règles stricles. La difficulté consiste surtout à ne pas orienter tes résultats. C'est à dire en parlant simplement de ne pas créer "artificiellemen" une tendance, simplement en virant les points "qui t'emmerdent". C'est pourquoi en règle générale, du moins en recherche clinique, on ne fixe pas stricto senso une "barre" au delà de laquelle les données sont manifestement erronnées. On cherche à revenir à la source de chaque point litigieux (en épluchant le dossier patient) et à justifier, point par point, la décision qu'on prend. En clair, si on trouve des indices en faveur d'une connerie, on essaie de la corriger et si manifestement toute correction est impossible, alors on peut prendre la décision de virer la valeur et de la considérer comme une donnée manquante. Mais on argumente toujouts cette décision. Si pas d'explication concrète à la valeur hors normes, on la garde, meme si on n'en a pas envie....
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Peut-on exclure des données manifestement erronnées ?
Merci beaucoup, c'est limpide ! Je devrais avoir d'autres questions très prochainement...
Cafekam- Nombre de messages : 2
Date d'inscription : 20/04/2009
Sujets similaires
» Peut-on traiter des données non manquantes => Test du Chi-2
» Exclure la constante d'un modèle change le rang des Var Ind?
» peut on faire des moyennes de modeles PLS?
» Peut-on tout généraliser à un Pearson
» significativité de test de moyenne et valeur de la p-valeur
» Exclure la constante d'un modèle change le rang des Var Ind?
» peut on faire des moyennes de modeles PLS?
» Peut-on tout généraliser à un Pearson
» significativité de test de moyenne et valeur de la p-valeur
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum