Les posteurs les plus actifs de la semaine
gg
 
joyeux_lapin13
 
niaboc
 
Caro
 
jeremyJ
 
davPA
 
bogette79
 
Egnon
 
bloup
 
Nik
 


Choix d'un modèle statistique

Voir le sujet précédent Voir le sujet suivant Aller en bas

Choix d'un modèle statistique

Message par Luana33 le Dim 26 Sep 2010 - 23:29

Bonjour,

je dispose de données d'enquête organisées par ménage et je voudrais pour exemple comparer la réussite scolaire des enfants en contrôlant un certain nombre de caractéristiques d'origines.
Pour contrôler totalement l'effet du milieu familial et éviter un risque de biais lié à des variables inobservées influençant à la fois la variable réponse et la variable dont je cherche à saisir l'effet, j'aimerais comparer au sein d'un même ménage des enfants qui possèdent une caractéristique donnée à ceux qui ne la possède pas, autrement dit comparer les résultats des enfants issus d'une même fratrie et ceci en essayant de fixer les effets de genre, de rang de naissance ou d'âge.

Un tel modèle est-il possible? Et si oui, de quel type s'agit-il? Et quelles en sont les implications?

Merci par avance pour votre aide.

Luana33

Nombre de messages: 12
Date d'inscription: 24/09/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix d'un modèle statistique

Message par Nik le Jeu 30 Sep 2010 - 14:43

Bonjour

Si je réponds dans l'ordre à la série de questions qui termine le message :

- oui un modèle est sans doute possible
- une infinité de type...
- aucune idée.

En gros, on ne résout pas une question de stat en balançant une description plus que grossière du problème. Les stat ne sont pas une boîte magique dans laquelle on balance toutes nos interrogations et de laquelle sort un magnifique rapport prêt à l'emploi.

Donc sois plus précis parce que là tu ne risques pas d'avoir de réponse avec un tel message.

Nik

Nik

Nombre de messages: 1263
Date d'inscription: 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix d'un modèle statistique

Message par Luana33 le Jeu 30 Sep 2010 - 19:49

Bonsoir et merci pour votre réponse,

je suis désolée, je n'ai certainement pas été très claire. Je vais tenté de l'être un peu plus...

Alors, je dispose d'un gros échantillon de données, mes données sont organisées par ménage avec donc plusieurs enregistrements concernant un même ménage et ce qui m'intéresse ce sont les enregistrements concernant les enfants du ménage.
Je cherche à tester l'impact de la relation parent-enfant (biologique ou adoptive) sur les résultats scolaires des enfants (mesurés à la fois en termes de scolarisation (variable binaire: oui/non) mais aussi en termes de scores (variable continue)).
En réalisant un modèle aléatoire type logistique pour la scolarisation et en comparant les 2 groupes d'enfants je crains de ne pas parvenir à fixer un certains nombre de caractéristiques du milieu familial d'origine tout simplement parce que je n'ai pas les variables permettant de les mesurer.
Pour limiter ce risque, je souhaiterais comparer au sein des ménages ayant adopté un enfant et ayant par ailleurs des enfants biologiques, la scolarisation ou les résultats des enfants biologiques à ceux des enfants adoptifs appartenant ce même ménage. Je voudrais toutefois pouvoir contrôler des variables se rapportant aux caractéristiques des enfants type âge et rang de naissance.

Après m'être renseigné, je pense qu'il s'agit d'un modèle dit à effet fixe qui me permettrait de tester les différences entre les individus d'un même ménage plutôt qu'entre les individus au sens large mais je suppose que le choix du modèle doit varier entre autre selon le type de la variable réponse et utilisant SAS je ne connais pas les procédures.

Par ailleurs, ma question sur les implications visait à savoir quelles sont les hypothèses qui doivent être satisfaites pour la validité d'un ou des différents modèles de ce type.

Voilà, en espérant avoir été légèrement moins obscure...

Luana33

Nombre de messages: 12
Date d'inscription: 24/09/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix d'un modèle statistique

Message par joyeux_lapin13 le Ven 1 Oct 2010 - 7:58

Bonjour,

un peu comme Nik, les gens ont tendance à décrire un peu trop leur problème littéralement on se réferrant plus au contexte des données qu'à leur forme, or un statisticien sait faire plein de choses mais sur des tables de données quantitatives ou qualitatives, nous donner le contexte nous aide absolument pas.

Si tu veux qu'on t'aide il va falloir nous décrire ta matrice de données, qu'as tu en colonne? et en ligne? combien de variables explicatives et leurs formats respectifs (numériques continues ou numériques catégorielles, qualitatives trés variés ou catégorielles)? enfin as tu une variable à expliquer? ou encore mieux, un copier coller des premières lignes de ta table en laissant les noms des variables voir leurs équivalents anonymisés.

Selon la forme des données explicatives on pourra te dire quel analyse est possible ou pas, selon celle de la variable à expliquer (= variable réponse) on pourra te dire quel analyse est possible ou pas (répétition fait exprés).

joyeux_lapin13

Nombre de messages: 1096
Age: 31
Localisation: Mayotte
Date d'inscription: 21/04/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix d'un modèle statistique

Message par droopy le Ven 1 Oct 2010 - 10:03

un peu comme Nik, les gens ont tendance à décrire un peu trop leur problème littéralement on se réferrant plus au contexte des données qu'à leur forme, or un statisticien sait faire plein de choses mais sur des tables de données quantitatives ou qualitatives, nous donner le contexte nous aide absolument pas.
Je ne partage pas cette analyse, mais alors pas du tout. Un statisticien devant un tableau de chiffre n'est rien de moins qu'une vache regardant passer un train. Si tu ne sais pas d'où sorte les données, pourquoi et comment elles ont été recueillies bah tu ne peux rien en faire. La description du contexte et des données ainsi que la question qui est posée sont les 3 choses nécessaires.

Je suis souvent d'accord avec toi joyeux_lapin mais pas sur ce coup la. Il est évident que de la forme de la variable expliquée dépendra le type de modèle à choisir (régression logistique pour une réponse dichotomique, modèle linéaire si la distribution est normale, etc.), ça n'empêche que la question est claire et que sous prétexte de ne pas avoir de solution a apporté on préfère dire qu'il manque des infos alors que quand on ne peut pas répondre et ben le mieux s'est parfois de se taire au lieu de dire des bêtises.

droopy

droopy

Nombre de messages: 891
Date d'inscription: 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix d'un modèle statistique

Message par joyeux_lapin13 le Ven 1 Oct 2010 - 10:31

Je comprends ton point de vue Droopy mais personnellement son énoncé posé comme ça ne me parle pas du tout, voir se contredit.

Aprés je viens pas faire étalage de ma science, je viens juste dire que j'aurais plaisir à aider si j'arrivais à comprendre ce qu'on veut expliquer et avec quoi ainsi que les hypothèses, en gros je demande à la personne qui pose une question (mon erreur est d'avoir généralisé à toute personne et non uniquement à l'auteur du topic) de le faire simplement et clairement en expliquant les données en colonnes et en lignes et citer le type de variable réponse.

De plus les informations sur le contexte vont plus dans le sens où l'on tombe sur des gens qui connaissent le domaine et peuvent aiguiller en fonction de ce critère, de plus le contexte peut également permettre de filtrer une liste de variable en cherchant celles qui sont plus d'intérêt et virer celle qui ne le sont pas, mais on peut imaginer que c'est une chose que l'auteur du topic controle lui même. Mais ce que je veux dire c'est qu'expliquer un problème uniquement par son contexte... ben c'est pas trés parlant...

Donc j'insiste peut-être mais je pense que souvent on demande un coup de main mais avec un énoncé du type 'prenez et demerdez vous'. Ensuite moi je veux juste aidé, j'suis pas payé sur ce forum donc c'est pas pour emmerder les gens que je dis ça, perso je n'en tire aucune gloire étant donné que mon pseudo est anonyme et travailler dans le biomédical suffit largement à ma satisfaction personnel. Et je connais un bon nombre de forums où on peut jouer les emmerdeurs de façon bien plus efficace.

J'espère ne pas avoir choqué l'auteur du topic, ce n'est pas mon intention, je souhaite juste mieux connaitre son énoncé pour savoir s'il suffit de faire une régression simple ou multiple par exemple ou s'orienter vers autre chose.

Il se peut également qu'à toi ça te parle directement Droopy, mais moi pas du tout. Aprés si quelqu'un donne une solution qui sert à l'auteur pour son problème posé tel quel j'en serais que plus content pour la personne concerné qui aura eu ce qu'elle souhaite.

joyeux_lapin13

Nombre de messages: 1096
Age: 31
Localisation: Mayotte
Date d'inscription: 21/04/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix d'un modèle statistique

Message par Luana33 le Ven 1 Oct 2010 - 12:28

Bonjour et merci à vous 2 pour vos réponses respectives,

je ne suis pas statisticienne en tant que telle, cette discussion est donc pour moi un peu éloignée... Personnellement, quand j'utilise un modèle c'est directement en réponse à une question que je me pose et donc en référence à un contexte dont je connais les limites ainsi que celles des données que j'utilise (je connais leur provenance ainsi que leur biais éventuel). Je ne cherche pas à choisir un modèle en fonction du type de données dont je dispose mais en fonction d'une question, l'application du modèle au type de données vient après la question posée.
En revanche, je suis d'accord avec l'idée que ce contexte je le connais et effectivement c'est à moi d'en contrôler les limites et les biais, la question que je pose est une question technique et effectivement peut être suis je trop dans la théorie pour obtenir une réponse technique.

Alors je vais synthétiser la forme des données de manière littéraire:
-Je dispose d'un identifiant ménage (IDMEN);
-Pour un même identifiant ménage, je dispose de plusieurs lignes avec plusieurs identifiants individus (IDIND);
-A l'intérieur d'un identifiant ménage et pour chaque individu enfant, une variable de type dichotomique (1/0) m'indique si l'enfant est adopté (1) ou biologique (0);
-Pour chaque enfant et donc pour chaque IDIND, une variable de scolarisation (SCO) de type dichotomique m'informe sur la scolarisation de l'enfant (1=oui/0=non) ( il s'agit de ma première variable réponse);
-De même pour chaque enfant, je dispose du niveau scolaire de l'enfant (NIV)soit une variable catégorielle m'indiquant le grade de scolarisation (primaire/secondaire/supérieur) (il s'agit de ma seconde variable réponse pour un second modèle);
- Ensuite pour mes variables de contrôle: je voudrais intégrer le rang de naissance de l'enfant (1,2 ou 3 et plus), l'âge (variable numérique).

La question reste de comparer au sein d'un même ménage, la scolarisation (oui/non) puis le niveau scolaire (primaire/secondaire ou supérieur) des enfants adoptés (1) à celui des enfants biologiques (0) en contrôlant les effets de l'âge et du rang de naissance.
J'aimerais obtenir une estimation pour l'ensemble des ménages des différences de scolarisation entre les enfants adoptés et les enfants biologiques d'un même ménage à âge et rang de naissance identique.
Finalement, je ne veux plus estimer les variations inter-individuelles dans l'ensemble de mon échantillon mais les variations inter-individuelles intra-ménage (au sein de mes ménages).

J'espère avoir été un peu plus claire bien que de manière littéraire,
merci...

Luana33

Nombre de messages: 12
Date d'inscription: 24/09/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix d'un modèle statistique

Message par joyeux_lapin13 le Ven 1 Oct 2010 - 13:12

En gros ta table est sous cette forme: en colonne tes variables explicatives: 'naissance', 'nv scolaire', grade scol.', 'âge', 'rang' (c'est quoi concrêtement le rang au fait?), ainsi que ta variable réponse 'scolarisation'. En ligne tes individus. Donc tu ne souhaites pas faire de la modélisation ou de la classification mais juste de la comparaison si je comprends bien.

Alors je crois que pour celà il faut faire de l'ANOVA, je dis bien que je crois car je ne connais pas cet outil mais je crois avoir lu qu'il permettait celà, à confirmer...

Pour ce qui de "J'aimerais obtenir une estimation pour l'ensemble des ménages des différences de scolarisation entre les enfants adoptés et les enfants biologiques d'un même ménage à âge et rang de naissance identique" : j'ai cru lire en post d'entrée de ton topic que tu avais beaucoup d'individus, en as tu assez pour composer des groupes par âge et rang de taille supérieur à 10-20 individus? si oui alors tu peux régresser ta variable réponse 'scolarisation' sur la variables explicatives 'naissance' et lire les odd-ratios.
Enfin c'est ce que j'ai compris, que toi tu veux faire des groupes et étudier si au sein de chacun des groupes tu as les même effet de ta variables 'naissance' sur la scolarisation?

Si jamais tu veux faire de la modélisation et/ ou de la classification, vue que ta variable réponse est sous forme de classe, tu peux t'orienter vers de la régression logistique (PROC LOGISTIC sous SAS) ou de l'analyse discriminante (PROC DISCRIM sous SAS). Par contre, sur un plan personnel, les variables explicatives et la variable réponse me semble un peu... comment dire... enfin j'aurais pas regardé ces variables explicatives là en fait lol.

S'il y a quoi que ce soit que j'ai compris de travers tiens moi au courant, de même si tu veux des infos sur les procédures SAS dont tu auras besoin.

joyeux_lapin13

Nombre de messages: 1096
Age: 31
Localisation: Mayotte
Date d'inscription: 21/04/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix d'un modèle statistique

Message par Luana33 le Ven 1 Oct 2010 - 14:07

Encore merci pour ta réponse mais je crois qu'effectivement il y a une incompréhension...

La naissance n'est pas du tout une variable explicative...Je reprend le contexte parce que il faut le comprendre je pense, je vais essayer de faire simple.
Alors, je veux bien comparer la réussite scolaire des enfants adoptés aux enfants biologiques. Pour cela si je limite à la scolarisation, imaginons que j'utilise un modèle logistique avec comme variable de contrôle par exemple le revenu, l'origine sociale mais aussi le rang de naissance et l'âge et que je compare enfants adoptés et biologiques, le problème que cela me pose est que je crains qu'il existe des variables du milieu familial qui influencent la réussite scolaire mais que je ne peux pas mesurer parce que pas les variables (imaginons par exemple le temps consacré par les parents à la scolarité de leurs enfants).
Pour éliminer ce problème, je me dis qu'au sein d'un même ménage ces caractéristiques sont identiques pour tous les enfants du ménage tout comme les caractéristiques d'origine sociale des parents ou leur revenu. Donc en comparant les enfants au sein d'un même ménage, je n'ai plus à contrôler les caractéristiques du milieu familial, simplement celles se rapportant aux enfants et susceptibles d'influencer la scolarisation d'où le contrôle par le rang de naissance (ainé ou cadet qui a été prouvé comme une variable influençant la réussite) et l'âge (le niveau d'étude variant selon l'âge).

Donc ma variable réponse: scolarisation (oui/non) puis niveau scolaire (primaire/secondaire et sup)
Mes variables explicatives: age de l'enfant et rang de naissance de l'enfant
Comparaison: 2 groupes d'enfants (adoptés et biologiques) au sein d'un même ménage
Résultats: Estimation des différences pour l'ensemble des ménages mais à partir des différences au sein des ménages.

En ligne=individu par ménage avec même IDMEN
En colonne: variables...
Mon échantillon est très gros (environ 30 000 individus).

Voilà, en espérant avoir clarifié le problème...

Luana33

Nombre de messages: 12
Date d'inscription: 24/09/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix d'un modèle statistique

Message par c@ssoulet le Ven 1 Oct 2010 - 14:31

Je pense que tu pars sur une fausse piste. Les caractéristiques ne sont pas identiques pour tous les enfants d'un ménage.

Déjà, il y a énormément de changements qui peuvent survenir dans un ménage entre l'arrivée du premier enfant et du dernier (bouleversements professionnels, sociaux, pathologies et deuils, recomposition...). Ensuite, tous les parents t'expliqueront qu'on ne s'est pas occupés de la même façon du premier et du petit dernier. Mais alors, pas du tout. Et plus la fratrie est importante, plus cet effet a du poids.

Je pense que tu poursuis un but impossible: essayer de contrôler mathématiquement tous les biais. A mon sens, ce qui fait la difficulté de ce type d'analyse et qui les rend très dépendantes de l'expérience de l'interprétateur, c'est justement qu'elles ne reposent pas exclusivement sur une analyse mathématique froide, mais aussi et peut être surtout sur l'interprétation et le commentaire des résultats. En clair, on peut identifier des biais (mathématiquement ou "logiquement"), essayer d'en contrôler certains (mais pas tous) et sortir un résultat. Mais ces résultats doivent être complétés par une analyse critique du recul avec lesquels ils doivent être interprétés qui est assez difficile à réaliser, et fait appel à des connaissances qui vont au delà d'un simple savoir mathématique et de la bonne application de quelques formules. Tu mets le doigt pile sur le point qui fait la difficulté de l'interprétation des études de santé publique....

c@ssoulet

Nombre de messages: 390
Date d'inscription: 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix d'un modèle statistique

Message par Luana33 le Ven 1 Oct 2010 - 16:26

Je suis d'accord, je sais très bien qu'il persistera des biais simplement je pense que l'on a pas le droit de dire c'est impossible donc je ne tente pas. Je sais très bien qu'il y a des biais et qu'il en existera toujours... Mon idée est de parvenir à dépasser certains des biais qu'un modèle aléatoire ferait subsister notamment en ne prenant pas en compte des caractéristiques inobservables du ménage. Mais je sais très bien que cette analyse n'éliminera pas tout les biais...

En revanche bien que des caractéristiques variables dans le temps subsisteront, un certain nombre de caractéristiques invariantes propres au ménage et non mesurées par enquête pourront être contrôlées.
Par ailleurs, il est fort probable que les 2 groupes d'enfants aient vécu le même événement en cas de bouleversements tels que ceux que tu décrits, la seule différence étant l'âge auquel ils l'auront vécu...

Luana33

Nombre de messages: 12
Date d'inscription: 24/09/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix d'un modèle statistique

Message par c@ssoulet le Lun 4 Oct 2010 - 8:05

Bon. Apparemment tu sais ce que tu vas faire. Donc fais.
Je ne comprends plus trop la question, du coup.

Salut, et bon courage....

.




c@ssoulet

Nombre de messages: 390
Date d'inscription: 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut


Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum