Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Au secours ( Régression Linéaire)
4 participants
Page 1 sur 1
Au secours ( Régression Linéaire)
Bonjour ,
Je me permets de vous écrire car je rame sur un modèle assez simple. C'est une régression linéaire à deux variables.
L'objectif çà serait de définir mes données aberrantes, mais je ne sais pas sur quel critère m'appuyer pour dire cette observation est atypique.
Ce que j'ai fait pour l'instant :
- J'ai afficher le graphe des résidus studentisés et je me suis concentré sur les points qui sont à l'extérieure de [-2,2] . Mais est ce que cela suffit pour dire que tous les points qui sont à l'extérieur sont à supprimer des données. Pour cela j'ai aussi calculé les distances de Cook hélas elles sont toutes inférieures à 1.
Donc que faire ?
Je vous remercie.
Je me permets de vous écrire car je rame sur un modèle assez simple. C'est une régression linéaire à deux variables.
L'objectif çà serait de définir mes données aberrantes, mais je ne sais pas sur quel critère m'appuyer pour dire cette observation est atypique.
Ce que j'ai fait pour l'instant :
- J'ai afficher le graphe des résidus studentisés et je me suis concentré sur les points qui sont à l'extérieure de [-2,2] . Mais est ce que cela suffit pour dire que tous les points qui sont à l'extérieur sont à supprimer des données. Pour cela j'ai aussi calculé les distances de Cook hélas elles sont toutes inférieures à 1.
Donc que faire ?
Je vous remercie.
Amiral56- Nombre de messages : 9
Date d'inscription : 08/04/2013
Re: Au secours ( Régression Linéaire)
Bonjour,
Le seul critère viable pour éliminer des valeurs aberrantes c'est la non plausibilité de la valeur (une taille de patient de 3m, un âge de 350...) mais sinon, extraire les valeurs qui s'écartent un peu trop, on appelle ça de la fraude. Toutefois, s'il y a seulement une ou deux valeurs extrêmes, il peut être intéressant de faire une analyse de sensibilité, c'est à dire la même analyse avec et sans ces points, afin de voir si les résultats sont qualitativement identiques.
Ayana
Le seul critère viable pour éliminer des valeurs aberrantes c'est la non plausibilité de la valeur (une taille de patient de 3m, un âge de 350...) mais sinon, extraire les valeurs qui s'écartent un peu trop, on appelle ça de la fraude. Toutefois, s'il y a seulement une ou deux valeurs extrêmes, il peut être intéressant de faire une analyse de sensibilité, c'est à dire la même analyse avec et sans ces points, afin de voir si les résultats sont qualitativement identiques.
Ayana
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: Au secours ( Régression Linéaire)
Bonjour,
C'est toujours une question difficile car elle ne relève pas vraiment des stats. Les outils stats supposent que toutes tes données sont bonnes : i.e. elles correspondent aux exigences des outils que tu vas utiliser.
Donc aucune technique n'est vraiment valide pour dire qu'une valeur est aberrante ou pas car elles ont toutes leurs propres exigences et donc une valeur sortira du lot dans une méthode mais pas nécessairement dans une autre.
Donc pour conclure, tout dépend de l'objectif final en termes de stats (modélisation, prédiction, mise en évidence d'effet de facteurs...) et si tu as des infos sur la manière dont ont été acquises les données.
Pour le forum, précise au moins quel est l'objectif en termes de stats.
nik
C'est toujours une question difficile car elle ne relève pas vraiment des stats. Les outils stats supposent que toutes tes données sont bonnes : i.e. elles correspondent aux exigences des outils que tu vas utiliser.
Donc aucune technique n'est vraiment valide pour dire qu'une valeur est aberrante ou pas car elles ont toutes leurs propres exigences et donc une valeur sortira du lot dans une méthode mais pas nécessairement dans une autre.
Donc pour conclure, tout dépend de l'objectif final en termes de stats (modélisation, prédiction, mise en évidence d'effet de facteurs...) et si tu as des infos sur la manière dont ont été acquises les données.
Pour le forum, précise au moins quel est l'objectif en termes de stats.
nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Au secours ( Régression Linéaire)
Bonjour ,
Merci à vous.
-Ayana : Je suis d'accord avec vous. Quand je trace les résidus studentisés j'ai un nombre considérable d'observations qui sont un tout petit peu plus grand que 2 ou inférieures à -2. Donc j'ai fait ce que vous m'aviez dit . Supprimer ces données et voire le comportement du modèle mais qu'est ce que vous appelez "voir si les résultats sont qualitativement identiques" ?
Les remarques que j'ai eu c'était juste au niveau du coef de determination qui s'approchait de plus en plus de 1.
- Nik : Mon objectif était tout simplement de déterminer les coefficient des variables explicatives ou autrement l'estimateur sans biais de beta. Mais la question que je me suis posé est ce que mon béta est bon et à quelle précision , est ce qu'en supprimant les données dont le rés Stud à l'extérieur de [-2,2] je ne vais pas améliorer mon modéle.
Merci encore. Désolé si j'ai dit des bétises !
Merci à vous.
-Ayana : Je suis d'accord avec vous. Quand je trace les résidus studentisés j'ai un nombre considérable d'observations qui sont un tout petit peu plus grand que 2 ou inférieures à -2. Donc j'ai fait ce que vous m'aviez dit . Supprimer ces données et voire le comportement du modèle mais qu'est ce que vous appelez "voir si les résultats sont qualitativement identiques" ?
Les remarques que j'ai eu c'était juste au niveau du coef de determination qui s'approchait de plus en plus de 1.
- Nik : Mon objectif était tout simplement de déterminer les coefficient des variables explicatives ou autrement l'estimateur sans biais de beta. Mais la question que je me suis posé est ce que mon béta est bon et à quelle précision , est ce qu'en supprimant les données dont le rés Stud à l'extérieur de [-2,2] je ne vais pas améliorer mon modéle.
Merci encore. Désolé si j'ai dit des bétises !
Amiral56- Nombre de messages : 9
Date d'inscription : 08/04/2013
Re: Au secours ( Régression Linéaire)
Pour les analyses de sensibilité, le but est de regarder si les conclusions statistiques sont les mêmes, avec et sans ces valeurs, enlevées une à une. Si l'analyse est significative dans tous les cas ou non significatives dans tous les cas, pas de problème et toutes les données peuvent être gardées. Si en revanche la présence ou non de ces valeurs dans l'analyse change la conclusion statistique, ça remet en cause la validité de l'étude, et il vaut mieux raisonner en termes cliniques que statistiques, c'est à dire essayer de comprendre ce qu'on observe en regard de la question étudiée...
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: Au secours ( Régression Linéaire)
Je n'ai pas bien saisi votre proposition :
"Si l'analyse est significative dans tous les cas ou non significatives dans tous les cas, pas de problème et toutes les données peuvent être gardées".
Quand j’interprète cette donnée que je trouve atypique cela n'a pas du tout l'air d'être une erreur de saisie de donnée c'est plutôt un porc un peu différent des autres. Mais en feuilletant les cours disponibles sur le net, il y en qui disent dès que le | ti* |>2 il faut automatiquement supprimer la donnée . Quand je supprime cette donnée là, mon modèle change évidemment les coeff beta changent et R² augmente.
NB : Cette observation elle a un | ti* |=7>>2 mais par contre sa distance de Cook frôle le 0 donc inférieur à 1 et rien à signaler non plus dans la Hat Matrix.
Donc la question qui se pose est ce qu'il faut une distance de cook >1 , Coeff(HatMatrix) grand et | ti* |>>2 pour pouvoir conclure que le point est aberrant ?
Merci
"Si l'analyse est significative dans tous les cas ou non significatives dans tous les cas, pas de problème et toutes les données peuvent être gardées".
Quand j’interprète cette donnée que je trouve atypique cela n'a pas du tout l'air d'être une erreur de saisie de donnée c'est plutôt un porc un peu différent des autres. Mais en feuilletant les cours disponibles sur le net, il y en qui disent dès que le | ti* |>2 il faut automatiquement supprimer la donnée . Quand je supprime cette donnée là, mon modèle change évidemment les coeff beta changent et R² augmente.
NB : Cette observation elle a un | ti* |=7>>2 mais par contre sa distance de Cook frôle le 0 donc inférieur à 1 et rien à signaler non plus dans la Hat Matrix.
Donc la question qui se pose est ce qu'il faut une distance de cook >1 , Coeff(HatMatrix) grand et | ti* |>>2 pour pouvoir conclure que le point est aberrant ?
Merci
Amiral56- Nombre de messages : 9
Date d'inscription : 08/04/2013
Re: Au secours ( Régression Linéaire)
Statistiquement, c'est donc un problème de plan d'échantillonnage mal équilibré.Quand j’interprète cette donnée que je trouve atypique cela n'a pas du tout l'air d'être une erreur de saisie de donnée c'est plutôt un porc un peu différent des autres
Avant de lancer l'artillerie de l'analyse de sensibilité, regardes tout simplement les valeurs leviers (peut être ce que tu as fait quand tu parles de la matrice chapeau). Si les résidus important en valeur absolue ou les distances de cook élevées correspondent également à une valeur levier élevée alors la valeur dite "aberrante" va fortement tirer ton modèle (et sortira dans une analyse de sensibilité).
Si tu as plusieurs valeurs aberrantes, il faut également veiller à ce qu'elle n'occasionne pas une hétéroscédasticité des résidus quand on regarde la distrib de Y en fonction des prédicteurs. Sinon il faut en tenir compte.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Au secours ( Régression Linéaire)
Toutes mes distances de Cook sont faibles , tous les coefficients de la Hat Matrice sont faibles aussi ...
Amiral56- Nombre de messages : 9
Date d'inscription : 08/04/2013
Re: Au secours ( Régression Linéaire)
Avant de parler maths il faut parler clinique dans cette situation. Il faut étudier chaque valeur "hors norme", vérifier l'absence d'erreur grossiere et verifier la validité de la "donnée source" dans le dossier patient. Si on sort une donnée, on garde une trace écrite de la raison de l'exclusion de l'analyse. Si il n'y a pas d'argument concret et convainquant pour supprimer une donnée, on la garde. Si il y a eu exclusion de certaines données, il faut les décrire et présenter les raisons et la justification clinique de leur exclusion de l'analyse avant de présenter l'analyse statistique.
Si on n'est pas très carré là dessus, on trouve toujours une bonne raison plus ou moins mathématique de virer les points emmerdants, et donc de créer artificiellement une différence ou un lien qui n'existe pas.
Si on n'est pas très carré là dessus, on trouve toujours une bonne raison plus ou moins mathématique de virer les points emmerdants, et donc de créer artificiellement une différence ou un lien qui n'existe pas.
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Au secours ( Régression Linéaire)
Merci c@ssoulet.
Votre réponse me convient parfaitement. Mais je pense à tous les documents que je feuilleté qui conseillé de supprimer toutes les observations dont les résidus studentisés sont supérieurs à 2 ou inférieurs à -2. Snif !
Votre réponse me convient parfaitement. Mais je pense à tous les documents que je feuilleté qui conseillé de supprimer toutes les observations dont les résidus studentisés sont supérieurs à 2 ou inférieurs à -2. Snif !
Amiral56- Nombre de messages : 9
Date d'inscription : 08/04/2013
Re: Au secours ( Régression Linéaire)
Si tu prends une population de patients et que tu l'écrètes, il te reste un groupe de patients moyens. Le ventre mou de la pathologie. Ni trop graves ni trop biens, avec des résultats biologiques pas trop extremes, une histoire de la maladie a peu près standard et une réponse au traitement a peu près classique.
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Au secours ( Régression Linéaire)
OK j'en prends note.
Merci beaucoup !
Merci beaucoup !
Amiral56- Nombre de messages : 9
Date d'inscription : 08/04/2013
Sujets similaires
» Comparer résultats régression linéaire et non linéaire
» Régression Logistique vs Régression Linéaire
» test statistique sur des courbes
» regression lineaire
» Regression linéaire
» Régression Logistique vs Régression Linéaire
» test statistique sur des courbes
» regression lineaire
» Regression linéaire
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|