Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine

-42%
Le deal à ne pas rater :
Montre Ice-Watch pour Femme – ICE glam Black Rose Gold
52 € 89 €
Voir le deal

Résidus et régression linéaire ordinaire

Aller en bas

regression - Résidus et régression linéaire ordinaire Empty Résidus et régression linéaire ordinaire

Message par Milos B. le Mar 5 Mai 2020 - 20:28

Bonjour,

Je voudrais poser une question technique, sachant que les données sont d'origine historique et franchement glauques : afin de lutter contre des affirmations négationnistes du genre de celles de Faurisson, tout en sachant que ces faussaires utilisent les moindres points de détail pour aboutir à des généralisations pénalement répréhensibles en France, je regardais une série publiée par un Italien atteint de graphorrhée et étudiant des données relatives à des incinérations pendant une quarantaine de jours. Comme cet individu mentionne plusieurs fois avoir été assisté par un statisticien de haut niveau, mais sans du tout dire ce que ce statisticien a apporté à ses propos, j'ai eu l'idée de vérifier directement les données, puisqu'elles sont historiques et publiques, et d'ailleurs redonnées par le négationniste évoqué.

Les données sont limitées à deux variables : le nombre de personnes incinérées, et la quantité de coke utilisée. Il me semble que la première n'est pas trop sujette à erreur, tandis que la seconde est plus floue, avec des brouettées de 60 kilos.
Il n'y a quasiment pas d'autres données : la date, mais chaque date correspond à une ligne et une seule, et chaque ligne à une date ; et encore la durée de l'opération en 1/2 heures pendant la journée, mais elle n'est indiquée que pour quelques journées sur la quarantaine.
Une régression linéaire simple donne un ajustement paraissant valable, avec r^2 valant environ 0.94. Il ne semble pas y avoir d'outlier (au départ il y en avait un mais qui était en fait une faute de frappe..).
Ce qui m'ennuie est relatif aux résidus : le programme que j'utilise (XLSTAT qui est un add on à Excel) m'indique que l'hypothèse que ces résidus suivent une loi normale n'est pas à rejeter, et visuellement, les résidus me semblent plus dispersés quand les valeurs sont basses.
J'imagine bien que d'autres facteurs puissent intervenir, la durée des incinérations si je la connaissais comme les déperditions thermiques y sont sans doute liées, ou l'état de maigreur des sujets dont je n'ai pas la moindre idée. Ou encore une corrélation d'un jour au suivant, si la masse thermique de l'incinérateur est telle que le lendemain et selon le temps écoulé, il faille moins de coke pour une remise en température (le a de y=ax+b est assez élevé).
D'un autre côté, une valeur de 0.94 m'impressionne quand même et j'ai du mal à renoncer à cette régression linéaire.
Qu'en pensez-vous ? le test est-il assez robuste pour qu'avec une variance expliquée élevée, on peut faire l'impasse sur l'inadéquation du test ?
Ou me conseilleriez-vous une méthode que je ne connais pas, et qui permettrait d'analyser les données sans encourir de reproche ?
- je précise que très heureusement, la loi Gayssot a fini par donner des résultats, ou plutôt a finalement convaincu Google de ne plus faire apparaître des sites négationnistes comme auparavant, où on en voyait 5 ou 10 en tout premier lieu avant de voir des sites historiquement sérieux.
- Ma question ne débouchera donc pas sur la moindre publication, autrement peut-être que comme un point très secondaire de personnes luttant depuis des dizaines d'années contre les aberrations de ce genre, cf. PHDN.org si ces questions vous intéressent

J'espère ne pas vous avoir choqué avec l'origine des données et l'absence apparente de toute empathie de ce genre d'approche (je suis évidemment très sensible à la question, et ce n'est du qu'à la méthode utilisée par les négationnistes ; il vaut naturellement mieux prendre de la hauteur, et rappeler beaucoup d'évidences historiques ainsi déniées)

Je vous remercie donc d'autant plus si vous avez la patience de répondre à ma question.

Bien cordialement,

Milos

Milos B.

Nombre de messages : 3
Date d'inscription : 01/06/2011

Revenir en haut Aller en bas

regression - Résidus et régression linéaire ordinaire Empty Re: Résidus et régression linéaire ordinaire

Message par Eric Wajnberg le Mer 6 Mai 2020 - 8:41

Plusieurs points ici :
Milos B. a écrit:Ce qui m'ennuie est relatif aux résidus : le programme que j'utilise (XLSTAT qui est un add on à Excel) m'indique que l'hypothèse que ces résidus suivent une loi normale n'est pas à rejeter, et visuellement, les résidus me semblent plus dispersés quand les valeurs sont basses.
Je vois une confusion ici. Les résidus peuvent suivre une loi normale, mais ceci n'a rien à voir avec le fait que les données soient plus ou moins dispersées. On peut avoir des lois normales avec des variances différentes. Je pense que ce qui vous échappe ici est que les résidus doivent avoir une distribution normale (dans une régression linéaire simple) pour chaque valeur des x, séparément.  Donc le fait que la variance semble plus élevée pour ce que vous appelez "les valeurs basses" (on imagine les valeurs des x) n'a pas de rapport avec la normalité des résidues.
Milos B. a écrit:D'un autre côté, une valeur de 0.94 m'impressionne quand même et j'ai du mal à renoncer à cette régression linéaire.
Effectivement. Avec une telle valeur, les points sont quasiment tous sur la droite de régression. Quoi que ceci dépende également du nombre de points utilisé, et vous ne dites rien à ce sujet.
Milos B. a écrit:Ou me conseilleriez-vous une méthode que je ne connais pas, et qui permettrait d'analyser les données sans encourir de reproche ?
Tester la normalité des données est toujours un problème en statistique car les outils disponibles pour faire ça sont notoirement connus pour n'être pas très puissants. En fait, ces outils ne sont donc généralement pas utilisés. En pratique, le plus souvent, on s'appuie sur le fait qu'on analyse une variable notoirement connue comme suivant une loi normale ou non. Et on utilise alors des outils pour des données gaussiennes ou non. Vous ne dites rien sur ce qui est en ordonnée dans votre régression. C'est soit le nombre de personnes incinérées, soit la quantité de coke utilisée. Si c'est la quantité de coke utilisée, alors ça devrait suivre de belles lois normales. Par de problème. Si on revanche vous cherchez à modéliser le nombre de personnes incinérées, alors il s'agit plutôt de lois de Poisson, mais une loi de Poisson converge rapidement vers une loi normale dès lors que la moyenne augmente (en pratique > 30). Vous ne donnez aucune indication, donc il est difficile de vous répondre. En revanche, dans l'hypothèse où vous auriez des loi de Poisson, la variance (par exemple des résidus) devraient augmenter avec la moyenne (par définition) or vous expliquez le contraire, donc je pense que le cas Poisson n'est pas le votre.

Sans plus d'information de votre part (vous constaterez qu'il me faut deviner pas mal de choses dans votre post), il est difficile de vous répondre plus précisément.

HTH, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1177
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

regression - Résidus et régression linéaire ordinaire Empty Re: Résidus et régression linéaire ordinaire

Message par Milos B. le Mer 6 Mai 2020 - 11:52

Merci de votre réponse,

Il m'a semblé logique de considérer la quantité de coke comme dépendante du nombre de corps incinérés.
Il y a 27 journées. Il y a de 11 à 94 corps, en arrondissant, moyenne 36, écart-type 20, et (en prenant 60 kg par brouettée) de 600 à 2700 kg de coke, moyenne 1251 kg et écart-type 508 ; la droite est représentée par coke = 369 + 24.4 corps.
Malheureusement, en examinant pour le coke les tests de Shapiro-Wilk, Anderson Darling, Liliefors, ou Jarque Bera, une distribution normale est rejetée à chaque fois.

En recherche automatique, la distribution correspondant le mieux est la Beta4, c'est la seule signalée en gras ce qui dénote habituellement une significativité. Le test utilisé est un test de Kolmogorov Smirnov, mais j'ai un avertissement indiquant que l'algorithme a convergé vers un point frontière (boundary point) de l'espace des paramètres. Aucune des 19 autres distributions n'est relevée, les logistiques et log normales ont les p-values les plus élevées sinon (O.72, 079) orientant vers Ho qui est le suivi de ces distributions.

C'est comparable point pour point avec le nombre de victimes, avec les mêmes p-values pour les mêmes distributions, y compris l'avertissement vers la convergence vers un boundary point de l'espace des paramètres ; en fait les résultats sont si semblables qu'on croirait un copier-coller, même si je n'ai pas vérifié les décimales de chaque ligne.

Merci beaucoup d'avoir pris le temps de regarder cette question ; si des compléments sont utiles je serais heureux de vous donner ceux que je peux.

Bien cordialement,

Milos

Milos B.

Nombre de messages : 3
Date d'inscription : 01/06/2011

Revenir en haut Aller en bas

regression - Résidus et régression linéaire ordinaire Empty Re: Résidus et régression linéaire ordinaire

Message par Eric Wajnberg le Jeu 7 Mai 2020 - 18:18

Vous vous compliquez largement trop la vie. Tout d'abord, encore une fois, les tests de normalité sont rarement utilisés.

Par ailleurs, votre variable modélisée "quantité de coke", exprimée en kg, est très certainement gaussienne. Inutile de passer du temps là-dessus.

Egalement, je répète, les tests de normalité sur cette variable doivent être faits pour chaque valeur de la variable en x (nombre de corps), ce qui - en pratique - est vite non réalisable. Prendre toutes les valeurs de cette variable en y pour faire un test de normalité n'a guère de sens, et - puisque la variable en x a un effet - il est juste logique que la distribution globale en y ne soit pas normale.

Enfin, avec un R2 de 94% avec autant de points, vous êtes dans une situation particulièrement simple. La grande majorité des points sont sur la droite, ou en tout cas votre relation est bellement linéaire. Tout est ok, et une régression linéaire est le choix qui convient et est valide.

Cordialement, Eric.


Dernière édition par Eric Wajnberg le Sam 9 Mai 2020 - 3:14, édité 1 fois
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1177
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

regression - Résidus et régression linéaire ordinaire Empty Re: Résidus et régression linéaire ordinaire

Message par Milos B. le Ven 8 Mai 2020 - 6:53

Bonjour,

Je vous remercie beaucoup de votre aide et avis étayés sur la question qui me préoccupait.

Bien cordialement,

Milos

Milos B.

Nombre de messages : 3
Date d'inscription : 01/06/2011

Revenir en haut Aller en bas

regression - Résidus et régression linéaire ordinaire Empty Re: Résidus et régression linéaire ordinaire

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut


 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum