gros jeu de données difficile à analyser

Voir le sujet précédent Voir le sujet suivant Aller en bas

gros jeu de données difficile à analyser

Message par stat08 le Ven 12 Sep 2014 - 9:57

Bonjour à tous,

Je me permets de m'inscrire car je bloque complètement avec l'analyse de mon jeu de données et j'aurais besoin d'idées, de conseils...
Je vais essayer de faire simple..

j'ai une variable à expliquer quantitative (n=8000) et 3 variables explicatives qualitatives pour chaque valeur. J'aurais aimé faire un lm ou glm incluant mes différentes variables.
Mon souci c'est que ma distribution ne correspond à aucune loi quand je fais mes tests. Aucun modèle n'est ajusté (pas loin avec une loi gamma)
Pas d'égalité de variances, pas de résidus normaux... et pourtant je ne veux pas me résoudre à faire du non paramétrique sur un tel jeu de données et avec cette distribution (brute et log transformée en pièce jointe)

Je dois forcément louper quelque chose, non?
Que puis je tenter avant de passer au non paramétrique? réduire mon jeu de donnée en sélectionnant des valeurs au hasard? travailler sur les moyennes (ou médianes)?

merci d'avance
Fichiers joints
Image1.jpg Vous n'avez pas la permission de télécharger les fichiers joints.(19 Ko) Téléchargé 10 fois
Image2.jpg Vous n'avez pas la permission de télécharger les fichiers joints.(28 Ko) Téléchargé 8 fois

stat08

Nombre de messages : 4
Date d'inscription : 12/09/2014

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: gros jeu de données difficile à analyser

Message par Ayana le Ven 12 Sep 2014 - 10:01

Bonjour,

Apres log-transformation, la variable suit une distribution tout a fait acceptable, et il ne faut pas oublier que ce sont surtout les residus qui comptent. Quand tu fais ton modele sur la variable log transformee, que donnent les residus?

Ayana

Ayana

Nombre de messages : 388
Date d'inscription : 18/08/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: gros jeu de données difficile à analyser

Message par stat08 le Ven 12 Sep 2014 - 10:11

merci pour cette réponse rapide
les résidus de mon glm ne suivent pas la loi normale même avec les données log transformées. J'ai testé avec les différentes familles de distribution.
Les qqplot et cie ne sont pas beaux, ça colle pas... je ne comprends pas pourquoi... pale

stat08

Nombre de messages : 4
Date d'inscription : 12/09/2014

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: gros jeu de données difficile à analyser

Message par Nik le Ven 12 Sep 2014 - 13:05

Bonjour,

Avec un n élevé tu as de plus en plus de chance que tes tests statistiques rejettent l'hypothèse H0 d'adéquation à une loi donnée.
La transfo log ne doit pas être appliquée à l'aveugle. Elle a de trop lourdes conséquences sur la variance.
Si vraiment l'exploration graphique des résidus montre une "mauvaise" distribution des résidus alors c'est peut être que ton modèle ne prend pas en compte correctement la variabilité des données. Il peut s'agir d'une variable latente (ça pourrait être ça vue l'allure plus ou moins bimodale en log-transformé) ou du besoin de spécifier une structure de variance plus complexe que le simple sigma=mu du modèle gaussien.

HTH

Nik

Nik

Nombre de messages : 1501
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: gros jeu de données difficile à analyser

Message par stat08 le Ven 12 Sep 2014 - 13:50

scratch , je n'avais encore jamais entendu parler de variables latentes... mais je comprends le fait que mon n élevé n'aide pas et que je n'arrive pas à prendre en compte correctement la variabilité de mes données.

Pour être plus précise, ma variable à expliquer correspond à des erreurs de localisation GPS, c'est-à-dire des distances entre les localisations enregistrées par le GPS et la localisation réelle de l'appareil.
Je n'ai pas de valeur égales à 0 mais beaucoup de valeur entre 0.1 et 10 mètres et puis ça décroit (avec quelques outliers aussi). l'idée est de savoir si la couverture nuageuse, la couverture végétale et l'appareil utilisé ont un effet sur les erreurs de localisation obtenues.

Graphiquement et avec des kruskall-Wallis tout bête, l'effet couverture végétale semble ressortir, mais j'aurais aimé inclure les autres variables dans un modèle et tester les interactions.. C'est là que ça se gâte, je n'arrive pas à construire un modèle ajusté

stat08

Nombre de messages : 4
Date d'inscription : 12/09/2014

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: gros jeu de données difficile à analyser

Message par Nik le Dim 14 Sep 2014 - 8:34

Cela veut-il dire que tu as plusieurs appareils ?
Pour le reste, c'est compliqué de discuter de ce genre de problème sans les données car là on rentre vraiment dans des spécificités des données et plus vraiment sur un pb de stat de base.

Il y a des travaux sur les erreurs de positionnement sur tout ce qui se fait en télémétrie/localisation d'animaux. Tu devrais peut être regarder ce qui est fait dans ce cadre car il y a au moins un point en commun en termes de données, c'est leur nombre Smile.

HTH

Nik

Nik

Nombre de messages : 1501
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: gros jeu de données difficile à analyser

Message par stat08 le Lun 15 Sep 2014 - 8:57

Effectivement, j'ai plusieurs appareils et il s'agit justement de collier gps que nous avons testé avant de les poser sur des animaux. Dans les différents travaux que j'ai pu lire, il arrivent à construire des modèles ajustés...
Je pense que je vais effectivement mieux regarder mes données et leurs spécificités, notamment les outliers, en espérant m'en sortir un jour^^

Merci beaucoup de vous être penchés sur mon cas, je me suis sentie moins seule Smile

stat08

Nombre de messages : 4
Date d'inscription : 12/09/2014

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: gros jeu de données difficile à analyser

Message par Contenu sponsorisé Aujourd'hui à 20:24


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum