Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Distribution d'une variable différente par groupe ?
4 participants
Page 1 sur 1
Analyse de données
Bonjour,
dans le cadre d'un projet de fin d'année, je dois rédiger un rapport et concevoir des analyses de données (ACM, Clustering, CAH...).
J'ai fait mon choix de données mais je ne sais pas vraiment comment procéder. Quelle analyse faire dans un premiers temps ? Sur quelle structure mon analyse peut se baser ? Étapes des analyses ? En gros quel fil conducteur suivre ? ( présentation du sujet et des données, puis une analyse multivariée ...)
Je compte essentiellement travailler sous R. Je vous joins le lien du jeu de données (car trop volumineux pour pouvoir le joindre).
https://www.data.gouv.fr/fr/datasets/insertion-professionnelle-des-diplomes-de-master-en-universites-et-etablissements-assimil-0/
Si vous avez des idées de méthodes, je suis preneur.
Ps. J'ai commencé à réaliser une ACM et à imputer les valeurs manquantes. Mais le jeu de données est trop volumineux et les calculs sont long.
Je vous remercie par avance pour vos idées.
dans le cadre d'un projet de fin d'année, je dois rédiger un rapport et concevoir des analyses de données (ACM, Clustering, CAH...).
J'ai fait mon choix de données mais je ne sais pas vraiment comment procéder. Quelle analyse faire dans un premiers temps ? Sur quelle structure mon analyse peut se baser ? Étapes des analyses ? En gros quel fil conducteur suivre ? ( présentation du sujet et des données, puis une analyse multivariée ...)
Je compte essentiellement travailler sous R. Je vous joins le lien du jeu de données (car trop volumineux pour pouvoir le joindre).
https://www.data.gouv.fr/fr/datasets/insertion-professionnelle-des-diplomes-de-master-en-universites-et-etablissements-assimil-0/
Si vous avez des idées de méthodes, je suis preneur.
Ps. J'ai commencé à réaliser une ACM et à imputer les valeurs manquantes. Mais le jeu de données est trop volumineux et les calculs sont long.
Je vous remercie par avance pour vos idées.
Khroutchev- Nombre de messages : 32
Date d'inscription : 24/05/2013
Distribution d'une variable différente par groupe ?
Bonjour,
Je suis en plein débat avec mon équipe qui pense qu'une variable ne peut pas naturellement changer de distribution sous certaines conditions.
Il est évident que c'est tout à fait possible, par exemple la distribution du taux de cellules blanches chez les souris non pathologiques et les souris NUNU (qui n'ont plus de défense immunitaire) va être différente.
Certains pourraient penser que la distribution serait juste déplacée, comme un l'exemple de la distribution du poids chez les hommes et chez les femmes.
Le poids des deux groupes d'individus sera normal, la distribution sera juste déplacée.
J'ai cherché des exemples de distributions qui se modifient sous certaines conditions mais je n'en ai pas trouvé.
Auriez-vous un exemple d'une distribution qui est différente sous certaines conditions ?
Merci d'avance.
Je suis en plein débat avec mon équipe qui pense qu'une variable ne peut pas naturellement changer de distribution sous certaines conditions.
Il est évident que c'est tout à fait possible, par exemple la distribution du taux de cellules blanches chez les souris non pathologiques et les souris NUNU (qui n'ont plus de défense immunitaire) va être différente.
Certains pourraient penser que la distribution serait juste déplacée, comme un l'exemple de la distribution du poids chez les hommes et chez les femmes.
Le poids des deux groupes d'individus sera normal, la distribution sera juste déplacée.
J'ai cherché des exemples de distributions qui se modifient sous certaines conditions mais je n'en ai pas trouvé.
Auriez-vous un exemple d'une distribution qui est différente sous certaines conditions ?
Merci d'avance.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Distribution d'une variable différente par groupe ?
Salut,
Dans certains bouquins de stats inferentielles, les auteurs formulent l'hypothese nulle et alternative de la facon suivante (pour un test de Student, par exemple):
H0: les deux echantillons appartiennent a la meme population
H1: les deux echantillons appartiennent a des populations differentes
Comme les tests comparent des distributions, avec cette formulation, on voit que si, comme tu dis une distribution change sous certaines conditions, c'est qu'en fait il ne s'agit pas d'une population homogene mais bien de deux populations.
Dans ton exemple sur les souris, je serais tentee de dire que les souris saines et pathologiques sont deux populations differentes et donc deux distributions independantes plutot qu'une distribution qui "change sous certaines conditions".
Petite question, par simple curiosite: d'ou vient ce debat?
Ayana
Dans certains bouquins de stats inferentielles, les auteurs formulent l'hypothese nulle et alternative de la facon suivante (pour un test de Student, par exemple):
H0: les deux echantillons appartiennent a la meme population
H1: les deux echantillons appartiennent a des populations differentes
Comme les tests comparent des distributions, avec cette formulation, on voit que si, comme tu dis une distribution change sous certaines conditions, c'est qu'en fait il ne s'agit pas d'une population homogene mais bien de deux populations.
Dans ton exemple sur les souris, je serais tentee de dire que les souris saines et pathologiques sont deux populations differentes et donc deux distributions independantes plutot qu'une distribution qui "change sous certaines conditions".
Petite question, par simple curiosite: d'ou vient ce debat?
Ayana
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: Distribution d'une variable différente par groupe ?
Bonjour Ayana et merci pour ta réponse.
Concernant l'exemple sur le test de Student, on parle de populations mais pas forcément de distributions non ?
Je veux dire, il est possible que tes deux groupes appartiennent à des populations différentes mais cela n'induit pas forcément que les distributions ne soient pas similaires/proches (comme pour l'exemple de la normalité du poids pour les homme et les femmes, les populations seront différentes mais la distribution sera normale pour chacun des sous-groupes).
Là je suis dans le cas de figure où j'évalue une fois pour toute la distribution de paramètres.
J'ai un pharmacologiste qui pense que la distribution des paramètres est différentes entre chaque souche de souris.
Je pense que ce pharmacologiste a potentiellement raison mais étant donné la complexité d'évaluer la distribution de chaque paramètre par sous-groupe, nous avons choisi de dire qu'un paramètre suit une distribution globalement.
Cependant lorsque nous parlions de ce pharmacologiste, l'unanimité de mes collègues disait qu'une variable suivra toujours la même distribution, quel que soit le sous groupe analysé et je ne suis pas d'accord (même si je n'ai pas de contre-exemple).
Concernant l'exemple sur le test de Student, on parle de populations mais pas forcément de distributions non ?
Je veux dire, il est possible que tes deux groupes appartiennent à des populations différentes mais cela n'induit pas forcément que les distributions ne soient pas similaires/proches (comme pour l'exemple de la normalité du poids pour les homme et les femmes, les populations seront différentes mais la distribution sera normale pour chacun des sous-groupes).
Là je suis dans le cas de figure où j'évalue une fois pour toute la distribution de paramètres.
J'ai un pharmacologiste qui pense que la distribution des paramètres est différentes entre chaque souche de souris.
Je pense que ce pharmacologiste a potentiellement raison mais étant donné la complexité d'évaluer la distribution de chaque paramètre par sous-groupe, nous avons choisi de dire qu'un paramètre suit une distribution globalement.
Cependant lorsque nous parlions de ce pharmacologiste, l'unanimité de mes collègues disait qu'une variable suivra toujours la même distribution, quel que soit le sous groupe analysé et je ne suis pas d'accord (même si je n'ai pas de contre-exemple).
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Distribution d'une variable différente par groupe ?
Bonjour Zezima.
Un petit souvenir de mon temps d'enseignement en AES : La distribution des salaires dans une entreprise est généralement très différente de la distribution des salaires des ouvriers de l'entreprise, elle même fortement différente de celle des cadres de l'entreprise.
Je n'ai pas d'exemple biologique, j'ai trop peu fréquenté ce domaine.
Cordialement.
NB : Pour le test de Student, on suppose que les deux groupes ont la même distribution, ou des distributions très proches, mais c'est souvent difficile à justifier.
Un petit souvenir de mon temps d'enseignement en AES : La distribution des salaires dans une entreprise est généralement très différente de la distribution des salaires des ouvriers de l'entreprise, elle même fortement différente de celle des cadres de l'entreprise.
Je n'ai pas d'exemple biologique, j'ai trop peu fréquenté ce domaine.
Cordialement.
NB : Pour le test de Student, on suppose que les deux groupes ont la même distribution, ou des distributions très proches, mais c'est souvent difficile à justifier.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Distribution d'une variable différente par groupe ?
Bonjour gg,
Merci pour cette réponse.
D'accord, pour le coup cet exemple est très parlant, j'imagine qu'on avait des lois normales pour les ouvriers et des lois log-normales pour les cadres supérieurs ?
Merci pour cette réponse.
D'accord, pour le coup cet exemple est très parlant, j'imagine qu'on avait des lois normales pour les ouvriers et des lois log-normales pour les cadres supérieurs ?
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Distribution d'une variable différente par groupe ?
A vrai dire, en première année, on se contentait de représenter la situation. Mais ce sont des modèles possibles (éventuellement ces lois censurées inférieurement.
Cordialement.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Sujets similaires
» Groupe taille différente sur diagramme de dispersion
» evaluer la normalité d'une distribution... par groupe ?
» liaison:variable quali#variable quanti, très urgent
» Caractériser la distribution d'une variable unique
» Fonction de distribution d'une variable combinée
» evaluer la normalité d'une distribution... par groupe ?
» liaison:variable quali#variable quanti, très urgent
» Caractériser la distribution d'une variable unique
» Fonction de distribution d'une variable combinée
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum