Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Résidus et régression linéaire ordinaire
2 participants
Page 1 sur 1
Résidus et régression linéaire ordinaire
Bonjour,
Je voudrais poser une question technique, sachant que les données sont d'origine historique et franchement glauques : afin de lutter contre des affirmations négationnistes du genre de celles de Faurisson, tout en sachant que ces faussaires utilisent les moindres points de détail pour aboutir à des généralisations pénalement répréhensibles en France, je regardais une série publiée par un Italien atteint de graphorrhée et étudiant des données relatives à des incinérations pendant une quarantaine de jours. Comme cet individu mentionne plusieurs fois avoir été assisté par un statisticien de haut niveau, mais sans du tout dire ce que ce statisticien a apporté à ses propos, j'ai eu l'idée de vérifier directement les données, puisqu'elles sont historiques et publiques, et d'ailleurs redonnées par le négationniste évoqué.
Les données sont limitées à deux variables : le nombre de personnes incinérées, et la quantité de coke utilisée. Il me semble que la première n'est pas trop sujette à erreur, tandis que la seconde est plus floue, avec des brouettées de 60 kilos.
Il n'y a quasiment pas d'autres données : la date, mais chaque date correspond à une ligne et une seule, et chaque ligne à une date ; et encore la durée de l'opération en 1/2 heures pendant la journée, mais elle n'est indiquée que pour quelques journées sur la quarantaine.
Une régression linéaire simple donne un ajustement paraissant valable, avec r^2 valant environ 0.94. Il ne semble pas y avoir d'outlier (au départ il y en avait un mais qui était en fait une faute de frappe..).
Ce qui m'ennuie est relatif aux résidus : le programme que j'utilise (XLSTAT qui est un add on à Excel) m'indique que l'hypothèse que ces résidus suivent une loi normale n'est pas à rejeter, et visuellement, les résidus me semblent plus dispersés quand les valeurs sont basses.
J'imagine bien que d'autres facteurs puissent intervenir, la durée des incinérations si je la connaissais comme les déperditions thermiques y sont sans doute liées, ou l'état de maigreur des sujets dont je n'ai pas la moindre idée. Ou encore une corrélation d'un jour au suivant, si la masse thermique de l'incinérateur est telle que le lendemain et selon le temps écoulé, il faille moins de coke pour une remise en température (le a de y=ax+b est assez élevé).
D'un autre côté, une valeur de 0.94 m'impressionne quand même et j'ai du mal à renoncer à cette régression linéaire.
Qu'en pensez-vous ? le test est-il assez robuste pour qu'avec une variance expliquée élevée, on peut faire l'impasse sur l'inadéquation du test ?
Ou me conseilleriez-vous une méthode que je ne connais pas, et qui permettrait d'analyser les données sans encourir de reproche ?
- je précise que très heureusement, la loi Gayssot a fini par donner des résultats, ou plutôt a finalement convaincu Google de ne plus faire apparaître des sites négationnistes comme auparavant, où on en voyait 5 ou 10 en tout premier lieu avant de voir des sites historiquement sérieux.
- Ma question ne débouchera donc pas sur la moindre publication, autrement peut-être que comme un point très secondaire de personnes luttant depuis des dizaines d'années contre les aberrations de ce genre, cf. PHDN.org si ces questions vous intéressent
J'espère ne pas vous avoir choqué avec l'origine des données et l'absence apparente de toute empathie de ce genre d'approche (je suis évidemment très sensible à la question, et ce n'est du qu'à la méthode utilisée par les négationnistes ; il vaut naturellement mieux prendre de la hauteur, et rappeler beaucoup d'évidences historiques ainsi déniées)
Je vous remercie donc d'autant plus si vous avez la patience de répondre à ma question.
Bien cordialement,
Milos
Je voudrais poser une question technique, sachant que les données sont d'origine historique et franchement glauques : afin de lutter contre des affirmations négationnistes du genre de celles de Faurisson, tout en sachant que ces faussaires utilisent les moindres points de détail pour aboutir à des généralisations pénalement répréhensibles en France, je regardais une série publiée par un Italien atteint de graphorrhée et étudiant des données relatives à des incinérations pendant une quarantaine de jours. Comme cet individu mentionne plusieurs fois avoir été assisté par un statisticien de haut niveau, mais sans du tout dire ce que ce statisticien a apporté à ses propos, j'ai eu l'idée de vérifier directement les données, puisqu'elles sont historiques et publiques, et d'ailleurs redonnées par le négationniste évoqué.
Les données sont limitées à deux variables : le nombre de personnes incinérées, et la quantité de coke utilisée. Il me semble que la première n'est pas trop sujette à erreur, tandis que la seconde est plus floue, avec des brouettées de 60 kilos.
Il n'y a quasiment pas d'autres données : la date, mais chaque date correspond à une ligne et une seule, et chaque ligne à une date ; et encore la durée de l'opération en 1/2 heures pendant la journée, mais elle n'est indiquée que pour quelques journées sur la quarantaine.
Une régression linéaire simple donne un ajustement paraissant valable, avec r^2 valant environ 0.94. Il ne semble pas y avoir d'outlier (au départ il y en avait un mais qui était en fait une faute de frappe..).
Ce qui m'ennuie est relatif aux résidus : le programme que j'utilise (XLSTAT qui est un add on à Excel) m'indique que l'hypothèse que ces résidus suivent une loi normale n'est pas à rejeter, et visuellement, les résidus me semblent plus dispersés quand les valeurs sont basses.
J'imagine bien que d'autres facteurs puissent intervenir, la durée des incinérations si je la connaissais comme les déperditions thermiques y sont sans doute liées, ou l'état de maigreur des sujets dont je n'ai pas la moindre idée. Ou encore une corrélation d'un jour au suivant, si la masse thermique de l'incinérateur est telle que le lendemain et selon le temps écoulé, il faille moins de coke pour une remise en température (le a de y=ax+b est assez élevé).
D'un autre côté, une valeur de 0.94 m'impressionne quand même et j'ai du mal à renoncer à cette régression linéaire.
Qu'en pensez-vous ? le test est-il assez robuste pour qu'avec une variance expliquée élevée, on peut faire l'impasse sur l'inadéquation du test ?
Ou me conseilleriez-vous une méthode que je ne connais pas, et qui permettrait d'analyser les données sans encourir de reproche ?
- je précise que très heureusement, la loi Gayssot a fini par donner des résultats, ou plutôt a finalement convaincu Google de ne plus faire apparaître des sites négationnistes comme auparavant, où on en voyait 5 ou 10 en tout premier lieu avant de voir des sites historiquement sérieux.
- Ma question ne débouchera donc pas sur la moindre publication, autrement peut-être que comme un point très secondaire de personnes luttant depuis des dizaines d'années contre les aberrations de ce genre, cf. PHDN.org si ces questions vous intéressent
J'espère ne pas vous avoir choqué avec l'origine des données et l'absence apparente de toute empathie de ce genre d'approche (je suis évidemment très sensible à la question, et ce n'est du qu'à la méthode utilisée par les négationnistes ; il vaut naturellement mieux prendre de la hauteur, et rappeler beaucoup d'évidences historiques ainsi déniées)
Je vous remercie donc d'autant plus si vous avez la patience de répondre à ma question.
Bien cordialement,
Milos
Milos B.- Nombre de messages : 3
Date d'inscription : 01/06/2011
Re: Résidus et régression linéaire ordinaire
Plusieurs points ici :
Sans plus d'information de votre part (vous constaterez qu'il me faut deviner pas mal de choses dans votre post), il est difficile de vous répondre plus précisément.
HTH, Eric.
Je vois une confusion ici. Les résidus peuvent suivre une loi normale, mais ceci n'a rien à voir avec le fait que les données soient plus ou moins dispersées. On peut avoir des lois normales avec des variances différentes. Je pense que ce qui vous échappe ici est que les résidus doivent avoir une distribution normale (dans une régression linéaire simple) pour chaque valeur des x, séparément. Donc le fait que la variance semble plus élevée pour ce que vous appelez "les valeurs basses" (on imagine les valeurs des x) n'a pas de rapport avec la normalité des résidues.Milos B. a écrit:Ce qui m'ennuie est relatif aux résidus : le programme que j'utilise (XLSTAT qui est un add on à Excel) m'indique que l'hypothèse que ces résidus suivent une loi normale n'est pas à rejeter, et visuellement, les résidus me semblent plus dispersés quand les valeurs sont basses.
Effectivement. Avec une telle valeur, les points sont quasiment tous sur la droite de régression. Quoi que ceci dépende également du nombre de points utilisé, et vous ne dites rien à ce sujet.Milos B. a écrit:D'un autre côté, une valeur de 0.94 m'impressionne quand même et j'ai du mal à renoncer à cette régression linéaire.
Tester la normalité des données est toujours un problème en statistique car les outils disponibles pour faire ça sont notoirement connus pour n'être pas très puissants. En fait, ces outils ne sont donc généralement pas utilisés. En pratique, le plus souvent, on s'appuie sur le fait qu'on analyse une variable notoirement connue comme suivant une loi normale ou non. Et on utilise alors des outils pour des données gaussiennes ou non. Vous ne dites rien sur ce qui est en ordonnée dans votre régression. C'est soit le nombre de personnes incinérées, soit la quantité de coke utilisée. Si c'est la quantité de coke utilisée, alors ça devrait suivre de belles lois normales. Par de problème. Si on revanche vous cherchez à modéliser le nombre de personnes incinérées, alors il s'agit plutôt de lois de Poisson, mais une loi de Poisson converge rapidement vers une loi normale dès lors que la moyenne augmente (en pratique > 30). Vous ne donnez aucune indication, donc il est difficile de vous répondre. En revanche, dans l'hypothèse où vous auriez des loi de Poisson, la variance (par exemple des résidus) devraient augmenter avec la moyenne (par définition) or vous expliquez le contraire, donc je pense que le cas Poisson n'est pas le votre.Milos B. a écrit:Ou me conseilleriez-vous une méthode que je ne connais pas, et qui permettrait d'analyser les données sans encourir de reproche ?
Sans plus d'information de votre part (vous constaterez qu'il me faut deviner pas mal de choses dans votre post), il est difficile de vous répondre plus précisément.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Résidus et régression linéaire ordinaire
Merci de votre réponse,
Il m'a semblé logique de considérer la quantité de coke comme dépendante du nombre de corps incinérés.
Il y a 27 journées. Il y a de 11 à 94 corps, en arrondissant, moyenne 36, écart-type 20, et (en prenant 60 kg par brouettée) de 600 à 2700 kg de coke, moyenne 1251 kg et écart-type 508 ; la droite est représentée par coke = 369 + 24.4 corps.
Malheureusement, en examinant pour le coke les tests de Shapiro-Wilk, Anderson Darling, Liliefors, ou Jarque Bera, une distribution normale est rejetée à chaque fois.
En recherche automatique, la distribution correspondant le mieux est la Beta4, c'est la seule signalée en gras ce qui dénote habituellement une significativité. Le test utilisé est un test de Kolmogorov Smirnov, mais j'ai un avertissement indiquant que l'algorithme a convergé vers un point frontière (boundary point) de l'espace des paramètres. Aucune des 19 autres distributions n'est relevée, les logistiques et log normales ont les p-values les plus élevées sinon (O.72, 079) orientant vers Ho qui est le suivi de ces distributions.
C'est comparable point pour point avec le nombre de victimes, avec les mêmes p-values pour les mêmes distributions, y compris l'avertissement vers la convergence vers un boundary point de l'espace des paramètres ; en fait les résultats sont si semblables qu'on croirait un copier-coller, même si je n'ai pas vérifié les décimales de chaque ligne.
Merci beaucoup d'avoir pris le temps de regarder cette question ; si des compléments sont utiles je serais heureux de vous donner ceux que je peux.
Bien cordialement,
Milos
Il m'a semblé logique de considérer la quantité de coke comme dépendante du nombre de corps incinérés.
Il y a 27 journées. Il y a de 11 à 94 corps, en arrondissant, moyenne 36, écart-type 20, et (en prenant 60 kg par brouettée) de 600 à 2700 kg de coke, moyenne 1251 kg et écart-type 508 ; la droite est représentée par coke = 369 + 24.4 corps.
Malheureusement, en examinant pour le coke les tests de Shapiro-Wilk, Anderson Darling, Liliefors, ou Jarque Bera, une distribution normale est rejetée à chaque fois.
En recherche automatique, la distribution correspondant le mieux est la Beta4, c'est la seule signalée en gras ce qui dénote habituellement une significativité. Le test utilisé est un test de Kolmogorov Smirnov, mais j'ai un avertissement indiquant que l'algorithme a convergé vers un point frontière (boundary point) de l'espace des paramètres. Aucune des 19 autres distributions n'est relevée, les logistiques et log normales ont les p-values les plus élevées sinon (O.72, 079) orientant vers Ho qui est le suivi de ces distributions.
C'est comparable point pour point avec le nombre de victimes, avec les mêmes p-values pour les mêmes distributions, y compris l'avertissement vers la convergence vers un boundary point de l'espace des paramètres ; en fait les résultats sont si semblables qu'on croirait un copier-coller, même si je n'ai pas vérifié les décimales de chaque ligne.
Merci beaucoup d'avoir pris le temps de regarder cette question ; si des compléments sont utiles je serais heureux de vous donner ceux que je peux.
Bien cordialement,
Milos
Milos B.- Nombre de messages : 3
Date d'inscription : 01/06/2011
Re: Résidus et régression linéaire ordinaire
Vous vous compliquez largement trop la vie. Tout d'abord, encore une fois, les tests de normalité sont rarement utilisés.
Par ailleurs, votre variable modélisée "quantité de coke", exprimée en kg, est très certainement gaussienne. Inutile de passer du temps là-dessus.
Egalement, je répète, les tests de normalité sur cette variable doivent être faits pour chaque valeur de la variable en x (nombre de corps), ce qui - en pratique - est vite non réalisable. Prendre toutes les valeurs de cette variable en y pour faire un test de normalité n'a guère de sens, et - puisque la variable en x a un effet - il est juste logique que la distribution globale en y ne soit pas normale.
Enfin, avec un R2 de 94% avec autant de points, vous êtes dans une situation particulièrement simple. La grande majorité des points sont sur la droite, ou en tout cas votre relation est bellement linéaire. Tout est ok, et une régression linéaire est le choix qui convient et est valide.
Cordialement, Eric.
Par ailleurs, votre variable modélisée "quantité de coke", exprimée en kg, est très certainement gaussienne. Inutile de passer du temps là-dessus.
Egalement, je répète, les tests de normalité sur cette variable doivent être faits pour chaque valeur de la variable en x (nombre de corps), ce qui - en pratique - est vite non réalisable. Prendre toutes les valeurs de cette variable en y pour faire un test de normalité n'a guère de sens, et - puisque la variable en x a un effet - il est juste logique que la distribution globale en y ne soit pas normale.
Enfin, avec un R2 de 94% avec autant de points, vous êtes dans une situation particulièrement simple. La grande majorité des points sont sur la droite, ou en tout cas votre relation est bellement linéaire. Tout est ok, et une régression linéaire est le choix qui convient et est valide.
Cordialement, Eric.
Dernière édition par Eric Wajnberg le Sam 9 Mai 2020 - 3:14, édité 1 fois
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Résidus et régression linéaire ordinaire
Bonjour,
Je vous remercie beaucoup de votre aide et avis étayés sur la question qui me préoccupait.
Bien cordialement,
Milos
Je vous remercie beaucoup de votre aide et avis étayés sur la question qui me préoccupait.
Bien cordialement,
Milos
Milos B.- Nombre de messages : 3
Date d'inscription : 01/06/2011
Sujets similaires
» Régression linéaire & pbl sur les résidus
» Résidus dans la régression linéaire simple
» Régression linéaire
» Comparer résultats régression linéaire et non linéaire
» résidus d'une régression logistique [RESOLU]
» Résidus dans la régression linéaire simple
» Régression linéaire
» Comparer résultats régression linéaire et non linéaire
» résidus d'une régression logistique [RESOLU]
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum