Analyse descriptive d'un grand jeu de données

par bloup Mar 13 Mai 2014 - 14:55

Bonjour à tous,

Je fais appel à vous car j'ai besoin de vos expériences concernant l'analyse descriptive d'un grand jeu de données.

Je m'explique : habituellement je manipule des jeux de données dont les effectifs vont de plusieurs 10aines à quelques 100aines d'individus voire rarement 1 ou 2 petits 1000iers.
Ce qui est généralement étudié chez ces individus c'est la concentration d'une molécule endogène ou exogène (variable quantitative continue). Cela peut être un médicament, un nutriment, une protéine, un élément, etc...

Le but est de faire un état des lieu descriptif de la population globale et des sous-populations selon des facteurs tels que l'age, le genre, etc... pour ensuite calculer des concentrations limites avec des risques calculés.

Pour cela, les données sont transformées si nécessaire pour obtenir une distribution normale de la variable étudiée. Lorsque la normalité est atteinte (généralement par des transformations simples comme le log, la racine carrée ou la racine cubique) et vérifiée qualitativement (graphes de distribution, QQplots, coefficients d'aplatissement et d'asymétrie, etc...) ainsi que par des tests statistiques (kolmogorov-smirnov, shapiro-wilk, adéquation du chi-2, etc...) une valeur limite supérieure est calculée en se référant aux tables de la loi normale. Par exemple on calcule la valeur seuil qu'un individu lambda ne pourra dépasser que selon un risque de 1/10 000 qui correspond à la moyenne de la population + 3.72xSD (3.72 étant la valeur du Z-score dans la table de la loi normale centrée réduite correspondant à une probabilité p(A>seuil)=1/10 000).

D'habitude, je ne rencontre pas de gros problèmes pour atteindre une distribution normale mais sur ma dernière étude je dispose d'un très gros effectif : ~30 000.
Une transformation log permet graphiquement et qualitativement de conclure que la distribution semble suivre une loi normale : histogramme en gaussienne, coefficients d'asymétrie et d'aplatissement compris entre -2 et +2. Par contre, tous les test de normalité rejettent l'hypothèse H0 de normalité, y compris les tests sur les coefficients d'aplatissement et de symétrie.

Je ne suis pas familier du tout de l'analyse de gros jeux de données du coup est ce quelqu'un pourrait me dire si des méthodes spécifiques existent pour valider la normalité d'une distribution sur un gros effectif. Je crois me rappeler dans mes lointains souvenirs que dès que les effectifs dépassent une certaine taille, les tests statistiques (KS, SW, etc...) rejettent systématiquement la normalité. Est ce vrai ?
De souvenir aussi, on m'avait indiqué que le fait de se baser uniquement sur les critères graphiques et les coefficients d'aplatissement et de symétrie pouvait suffire. Êtes-vous d'accord ?
Pour ces derniers, l'intervalle [-2,+2] est-il correct ?

Merci d'avance.

par c@ssoulet Mer 14 Mai 2014 - 7:16

Plus l'effectif est important plus le test est puissant et donc plus il met en évidence de faibles écarts à la normalité. Avec de tres grosses populations, le test a tendance a rejeter toute distribution qui n'est pas parfaitement normale.

Ce qui est admis dépend surtout de la spécialité dans laquelle tu travailles et des habitudes des reviewers. Mais dans beaucoup de cas, se baser sur les nomal-quantiles plots est très largement admis.

Le plus simple est de sortir une publi d'une grande étude qui fait référence dans ton domaine, avec des effectifs importants, et d'aller voir le m&m. Cale toi là dessus, ca te fera une référence solide.

par bloup Mer 14 Mai 2014 - 8:00

Merci beaucoup pour ta réponse et ton aide.

Le problème est que dans mon domaine il y a très peu d'études sur des grosses populations et les statistiques étaient abordées de manière un peu superficielle.

Je me suis renseigné un peu plus sur les transformations de données pour atteindre une distribution normale et une transfo plus poussée par Box-Cox ne pourrait-elle pas aider ?
Je n'en ai jamais pratiqué et travaille majoritaire sous R, est ce que vous connaissez des bons tutoriels ?

Merci d'avance.

par c@ssoulet Mer 14 Mai 2014 - 12:09

J'ai du mal à te conseiller sans connaitre ton domaine. Dans le médical, quand on fait des études rétrospectives sur de grosses cohortes, on se contente généralement de vérifications graphiques. Mais dans ce cas l'objectif est de décrire transversalement et / ou longitudinalement une population relativement bien définie (des patients présentant telle pathologie)

Ton problème semble etre un peu différent, dans la mesure ou tu cherches apparemment à définir des sortes de seuils de classification, donc quelque chose qui tourne autour de la valeur prédictive d'une mesure. Je ne comprends pas vraiment ce que tu fais dans le détail, pour moi tout ce qui est valeur prédictive, spécificité, sensibilité d'un test diagnostique tourne toujours autour des courbes ROC mais je ne suis pas vraiment compétent là dedans.

Ce qui me vient immédiatement à l'esprit lorsque je te lis, c'est les "courbes de santé" du carnet de santé, sur lesquelles on reporte des mesures réalisées sur des enfants (poids, taille.. etc) et qui présentent des seuils au delà desquels ces mesures sont considérés comme pathologiques (obésité, troubles de la croissance... etc..). Ces valeurs de référence des courbes et seuils ont été définies par rapport à des données de référence obtenus sur de grosses populations. Je me souviens que la méthode de calcul préconisée par l'OMS pour le calcul des z-scores chez l'enfant tient compte de la médiane, du coefficient de variation et de la puissance de Box-Cox, afin de tenir compte de l'assymétrie et de l'aplatissement des distributions de référence.

Il y a peut etre quelque chose à chercher de ce coté ? L'auteur de référence, pour les courbes Françaises, est Rolland-Cachera.

par bloup Mer 21 Mai 2014 - 8:23

Désolé pour ces quelques jours de silence je me suis laissé submergé par d'autres dossiers...

Pour préciser un peu les choses, je travaille en fait dans le contrôle de l'utilisation de certaines substances interdites et/ou contrôlées chez des animaux pour des raisons éthiques/santé/fraudes.

Dans ce cas il s'agit de vérifier la teneur "naturelle" en métaux lourds chez des animaux d'élevage pour définir un seuil au delà duquel la concentration observée serait "anormale" pour un risque de 1/10 000. Cette anomalie pourra alors être due soit à une contamination locale de l'environnement, soit à l'utilisation de lots de nourriture contaminés, soit à l'utilisation de produits interdits contenant des métaux lourds.

Voilà pourquoi habituellement, nous recherchons à normaliser la distribution afin de pouvoir utiliser les propriétés de la densité de probabilité de la loi normale et extrapoler cette valeur seuil.

Dans ce cas précis, je n'arrive pas à obtenir une adéquation à la loi normale que ce soit avec une transformation simple (log, racine carrée, racine cubique, etc...), ou une transformation plus complexe (un ami a tenté une transformation box-cox mais sans résultats intéressants).

Du coup, je suis bloqué sur cette étude et me pose des questions :
- la loi normale n'est peut être pas la bonne loi à mettre en adéquation avec les données. Quelle autre loi pourrais-je utiliser sachant que mes valeurs sont bornées à gauche à 0 et que la distribution non transformée ressemble fortement à une distribution log-normale ?
- l'effectif est peut être trop élevé avec des points extrêmes trop fréquents. Comment gérer ces points extrêmes sachant qu'ils ne sont pas aberrants et qu'il me manque des informations pour découper cette grosse population en sous-populations ?
- est-il possible (et pertinent surtout) de faire une analyse en tirant aléatoirement un échantillon de ma population et sur quel effectif faudrait-il se baser ?

Merci beaucoup pour vos réponse et votre aide.

par Contenu sponsorisé

Analyse descriptive d'un grand jeu de données

Analyse descriptive d'un grand jeu de données

Re: Analyse descriptive d'un grand jeu de données

Re: Analyse descriptive d'un grand jeu de données

Re: Analyse descriptive d'un grand jeu de données

Re: Analyse descriptive d'un grand jeu de données

Re: Analyse descriptive d'un grand jeu de données