Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Choix d'un modèle statistique
5 participants
Page 1 sur 1
Choix d'un modèle statistique
Bonjour,
je dispose de données d'enquête organisées par ménage et je voudrais pour exemple comparer la réussite scolaire des enfants en contrôlant un certain nombre de caractéristiques d'origines.
Pour contrôler totalement l'effet du milieu familial et éviter un risque de biais lié à des variables inobservées influençant à la fois la variable réponse et la variable dont je cherche à saisir l'effet, j'aimerais comparer au sein d'un même ménage des enfants qui possèdent une caractéristique donnée à ceux qui ne la possède pas, autrement dit comparer les résultats des enfants issus d'une même fratrie et ceci en essayant de fixer les effets de genre, de rang de naissance ou d'âge.
Un tel modèle est-il possible? Et si oui, de quel type s'agit-il? Et quelles en sont les implications?
Merci par avance pour votre aide.
je dispose de données d'enquête organisées par ménage et je voudrais pour exemple comparer la réussite scolaire des enfants en contrôlant un certain nombre de caractéristiques d'origines.
Pour contrôler totalement l'effet du milieu familial et éviter un risque de biais lié à des variables inobservées influençant à la fois la variable réponse et la variable dont je cherche à saisir l'effet, j'aimerais comparer au sein d'un même ménage des enfants qui possèdent une caractéristique donnée à ceux qui ne la possède pas, autrement dit comparer les résultats des enfants issus d'une même fratrie et ceci en essayant de fixer les effets de genre, de rang de naissance ou d'âge.
Un tel modèle est-il possible? Et si oui, de quel type s'agit-il? Et quelles en sont les implications?
Merci par avance pour votre aide.
Luana33- Nombre de messages : 12
Date d'inscription : 24/09/2010
Re: Choix d'un modèle statistique
Bonjour
Si je réponds dans l'ordre à la série de questions qui termine le message :
- oui un modèle est sans doute possible
- une infinité de type...
- aucune idée.
En gros, on ne résout pas une question de stat en balançant une description plus que grossière du problème. Les stat ne sont pas une boîte magique dans laquelle on balance toutes nos interrogations et de laquelle sort un magnifique rapport prêt à l'emploi.
Donc sois plus précis parce que là tu ne risques pas d'avoir de réponse avec un tel message.
Nik
Si je réponds dans l'ordre à la série de questions qui termine le message :
- oui un modèle est sans doute possible
- une infinité de type...
- aucune idée.
En gros, on ne résout pas une question de stat en balançant une description plus que grossière du problème. Les stat ne sont pas une boîte magique dans laquelle on balance toutes nos interrogations et de laquelle sort un magnifique rapport prêt à l'emploi.
Donc sois plus précis parce que là tu ne risques pas d'avoir de réponse avec un tel message.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Choix d'un modèle statistique
Bonsoir et merci pour votre réponse,
je suis désolée, je n'ai certainement pas été très claire. Je vais tenté de l'être un peu plus...
Alors, je dispose d'un gros échantillon de données, mes données sont organisées par ménage avec donc plusieurs enregistrements concernant un même ménage et ce qui m'intéresse ce sont les enregistrements concernant les enfants du ménage.
Je cherche à tester l'impact de la relation parent-enfant (biologique ou adoptive) sur les résultats scolaires des enfants (mesurés à la fois en termes de scolarisation (variable binaire: oui/non) mais aussi en termes de scores (variable continue)).
En réalisant un modèle aléatoire type logistique pour la scolarisation et en comparant les 2 groupes d'enfants je crains de ne pas parvenir à fixer un certains nombre de caractéristiques du milieu familial d'origine tout simplement parce que je n'ai pas les variables permettant de les mesurer.
Pour limiter ce risque, je souhaiterais comparer au sein des ménages ayant adopté un enfant et ayant par ailleurs des enfants biologiques, la scolarisation ou les résultats des enfants biologiques à ceux des enfants adoptifs appartenant ce même ménage. Je voudrais toutefois pouvoir contrôler des variables se rapportant aux caractéristiques des enfants type âge et rang de naissance.
Après m'être renseigné, je pense qu'il s'agit d'un modèle dit à effet fixe qui me permettrait de tester les différences entre les individus d'un même ménage plutôt qu'entre les individus au sens large mais je suppose que le choix du modèle doit varier entre autre selon le type de la variable réponse et utilisant SAS je ne connais pas les procédures.
Par ailleurs, ma question sur les implications visait à savoir quelles sont les hypothèses qui doivent être satisfaites pour la validité d'un ou des différents modèles de ce type.
Voilà, en espérant avoir été légèrement moins obscure...
je suis désolée, je n'ai certainement pas été très claire. Je vais tenté de l'être un peu plus...
Alors, je dispose d'un gros échantillon de données, mes données sont organisées par ménage avec donc plusieurs enregistrements concernant un même ménage et ce qui m'intéresse ce sont les enregistrements concernant les enfants du ménage.
Je cherche à tester l'impact de la relation parent-enfant (biologique ou adoptive) sur les résultats scolaires des enfants (mesurés à la fois en termes de scolarisation (variable binaire: oui/non) mais aussi en termes de scores (variable continue)).
En réalisant un modèle aléatoire type logistique pour la scolarisation et en comparant les 2 groupes d'enfants je crains de ne pas parvenir à fixer un certains nombre de caractéristiques du milieu familial d'origine tout simplement parce que je n'ai pas les variables permettant de les mesurer.
Pour limiter ce risque, je souhaiterais comparer au sein des ménages ayant adopté un enfant et ayant par ailleurs des enfants biologiques, la scolarisation ou les résultats des enfants biologiques à ceux des enfants adoptifs appartenant ce même ménage. Je voudrais toutefois pouvoir contrôler des variables se rapportant aux caractéristiques des enfants type âge et rang de naissance.
Après m'être renseigné, je pense qu'il s'agit d'un modèle dit à effet fixe qui me permettrait de tester les différences entre les individus d'un même ménage plutôt qu'entre les individus au sens large mais je suppose que le choix du modèle doit varier entre autre selon le type de la variable réponse et utilisant SAS je ne connais pas les procédures.
Par ailleurs, ma question sur les implications visait à savoir quelles sont les hypothèses qui doivent être satisfaites pour la validité d'un ou des différents modèles de ce type.
Voilà, en espérant avoir été légèrement moins obscure...
Luana33- Nombre de messages : 12
Date d'inscription : 24/09/2010
Re: Choix d'un modèle statistique
Bonjour,
un peu comme Nik, les gens ont tendance à décrire un peu trop leur problème littéralement on se réferrant plus au contexte des données qu'à leur forme, or un statisticien sait faire plein de choses mais sur des tables de données quantitatives ou qualitatives, nous donner le contexte nous aide absolument pas.
Si tu veux qu'on t'aide il va falloir nous décrire ta matrice de données, qu'as tu en colonne? et en ligne? combien de variables explicatives et leurs formats respectifs (numériques continues ou numériques catégorielles, qualitatives trés variés ou catégorielles)? enfin as tu une variable à expliquer? ou encore mieux, un copier coller des premières lignes de ta table en laissant les noms des variables voir leurs équivalents anonymisés.
Selon la forme des données explicatives on pourra te dire quel analyse est possible ou pas, selon celle de la variable à expliquer (= variable réponse) on pourra te dire quel analyse est possible ou pas (répétition fait exprés).
un peu comme Nik, les gens ont tendance à décrire un peu trop leur problème littéralement on se réferrant plus au contexte des données qu'à leur forme, or un statisticien sait faire plein de choses mais sur des tables de données quantitatives ou qualitatives, nous donner le contexte nous aide absolument pas.
Si tu veux qu'on t'aide il va falloir nous décrire ta matrice de données, qu'as tu en colonne? et en ligne? combien de variables explicatives et leurs formats respectifs (numériques continues ou numériques catégorielles, qualitatives trés variés ou catégorielles)? enfin as tu une variable à expliquer? ou encore mieux, un copier coller des premières lignes de ta table en laissant les noms des variables voir leurs équivalents anonymisés.
Selon la forme des données explicatives on pourra te dire quel analyse est possible ou pas, selon celle de la variable à expliquer (= variable réponse) on pourra te dire quel analyse est possible ou pas (répétition fait exprés).
Re: Choix d'un modèle statistique
Je ne partage pas cette analyse, mais alors pas du tout. Un statisticien devant un tableau de chiffre n'est rien de moins qu'une vache regardant passer un train. Si tu ne sais pas d'où sorte les données, pourquoi et comment elles ont été recueillies bah tu ne peux rien en faire. La description du contexte et des données ainsi que la question qui est posée sont les 3 choses nécessaires.un peu comme Nik, les gens ont tendance à décrire un peu trop leur problème littéralement on se réferrant plus au contexte des données qu'à leur forme, or un statisticien sait faire plein de choses mais sur des tables de données quantitatives ou qualitatives, nous donner le contexte nous aide absolument pas.
Je suis souvent d'accord avec toi joyeux_lapin mais pas sur ce coup la. Il est évident que de la forme de la variable expliquée dépendra le type de modèle à choisir (régression logistique pour une réponse dichotomique, modèle linéaire si la distribution est normale, etc.), ça n'empêche que la question est claire et que sous prétexte de ne pas avoir de solution a apporté on préfère dire qu'il manque des infos alors que quand on ne peut pas répondre et ben le mieux s'est parfois de se taire au lieu de dire des bêtises.
droopy
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Choix d'un modèle statistique
Je comprends ton point de vue Droopy mais personnellement son énoncé posé comme ça ne me parle pas du tout, voir se contredit.
Aprés je viens pas faire étalage de ma science, je viens juste dire que j'aurais plaisir à aider si j'arrivais à comprendre ce qu'on veut expliquer et avec quoi ainsi que les hypothèses, en gros je demande à la personne qui pose une question (mon erreur est d'avoir généralisé à toute personne et non uniquement à l'auteur du topic) de le faire simplement et clairement en expliquant les données en colonnes et en lignes et citer le type de variable réponse.
De plus les informations sur le contexte vont plus dans le sens où l'on tombe sur des gens qui connaissent le domaine et peuvent aiguiller en fonction de ce critère, de plus le contexte peut également permettre de filtrer une liste de variable en cherchant celles qui sont plus d'intérêt et virer celle qui ne le sont pas, mais on peut imaginer que c'est une chose que l'auteur du topic controle lui même. Mais ce que je veux dire c'est qu'expliquer un problème uniquement par son contexte... ben c'est pas trés parlant...
Donc j'insiste peut-être mais je pense que souvent on demande un coup de main mais avec un énoncé du type 'prenez et demerdez vous'. Ensuite moi je veux juste aidé, j'suis pas payé sur ce forum donc c'est pas pour emmerder les gens que je dis ça, perso je n'en tire aucune gloire étant donné que mon pseudo est anonyme et travailler dans le biomédical suffit largement à ma satisfaction personnel. Et je connais un bon nombre de forums où on peut jouer les emmerdeurs de façon bien plus efficace.
J'espère ne pas avoir choqué l'auteur du topic, ce n'est pas mon intention, je souhaite juste mieux connaitre son énoncé pour savoir s'il suffit de faire une régression simple ou multiple par exemple ou s'orienter vers autre chose.
Il se peut également qu'à toi ça te parle directement Droopy, mais moi pas du tout. Aprés si quelqu'un donne une solution qui sert à l'auteur pour son problème posé tel quel j'en serais que plus content pour la personne concerné qui aura eu ce qu'elle souhaite.
Aprés je viens pas faire étalage de ma science, je viens juste dire que j'aurais plaisir à aider si j'arrivais à comprendre ce qu'on veut expliquer et avec quoi ainsi que les hypothèses, en gros je demande à la personne qui pose une question (mon erreur est d'avoir généralisé à toute personne et non uniquement à l'auteur du topic) de le faire simplement et clairement en expliquant les données en colonnes et en lignes et citer le type de variable réponse.
De plus les informations sur le contexte vont plus dans le sens où l'on tombe sur des gens qui connaissent le domaine et peuvent aiguiller en fonction de ce critère, de plus le contexte peut également permettre de filtrer une liste de variable en cherchant celles qui sont plus d'intérêt et virer celle qui ne le sont pas, mais on peut imaginer que c'est une chose que l'auteur du topic controle lui même. Mais ce que je veux dire c'est qu'expliquer un problème uniquement par son contexte... ben c'est pas trés parlant...
Donc j'insiste peut-être mais je pense que souvent on demande un coup de main mais avec un énoncé du type 'prenez et demerdez vous'. Ensuite moi je veux juste aidé, j'suis pas payé sur ce forum donc c'est pas pour emmerder les gens que je dis ça, perso je n'en tire aucune gloire étant donné que mon pseudo est anonyme et travailler dans le biomédical suffit largement à ma satisfaction personnel. Et je connais un bon nombre de forums où on peut jouer les emmerdeurs de façon bien plus efficace.
J'espère ne pas avoir choqué l'auteur du topic, ce n'est pas mon intention, je souhaite juste mieux connaitre son énoncé pour savoir s'il suffit de faire une régression simple ou multiple par exemple ou s'orienter vers autre chose.
Il se peut également qu'à toi ça te parle directement Droopy, mais moi pas du tout. Aprés si quelqu'un donne une solution qui sert à l'auteur pour son problème posé tel quel j'en serais que plus content pour la personne concerné qui aura eu ce qu'elle souhaite.
Re: Choix d'un modèle statistique
Bonjour et merci à vous 2 pour vos réponses respectives,
je ne suis pas statisticienne en tant que telle, cette discussion est donc pour moi un peu éloignée... Personnellement, quand j'utilise un modèle c'est directement en réponse à une question que je me pose et donc en référence à un contexte dont je connais les limites ainsi que celles des données que j'utilise (je connais leur provenance ainsi que leur biais éventuel). Je ne cherche pas à choisir un modèle en fonction du type de données dont je dispose mais en fonction d'une question, l'application du modèle au type de données vient après la question posée.
En revanche, je suis d'accord avec l'idée que ce contexte je le connais et effectivement c'est à moi d'en contrôler les limites et les biais, la question que je pose est une question technique et effectivement peut être suis je trop dans la théorie pour obtenir une réponse technique.
Alors je vais synthétiser la forme des données de manière littéraire:
-Je dispose d'un identifiant ménage (IDMEN);
-Pour un même identifiant ménage, je dispose de plusieurs lignes avec plusieurs identifiants individus (IDIND);
-A l'intérieur d'un identifiant ménage et pour chaque individu enfant, une variable de type dichotomique (1/0) m'indique si l'enfant est adopté (1) ou biologique (0);
-Pour chaque enfant et donc pour chaque IDIND, une variable de scolarisation (SCO) de type dichotomique m'informe sur la scolarisation de l'enfant (1=oui/0=non) ( il s'agit de ma première variable réponse);
-De même pour chaque enfant, je dispose du niveau scolaire de l'enfant (NIV)soit une variable catégorielle m'indiquant le grade de scolarisation (primaire/secondaire/supérieur) (il s'agit de ma seconde variable réponse pour un second modèle);
- Ensuite pour mes variables de contrôle: je voudrais intégrer le rang de naissance de l'enfant (1,2 ou 3 et plus), l'âge (variable numérique).
La question reste de comparer au sein d'un même ménage, la scolarisation (oui/non) puis le niveau scolaire (primaire/secondaire ou supérieur) des enfants adoptés (1) à celui des enfants biologiques (0) en contrôlant les effets de l'âge et du rang de naissance.
J'aimerais obtenir une estimation pour l'ensemble des ménages des différences de scolarisation entre les enfants adoptés et les enfants biologiques d'un même ménage à âge et rang de naissance identique.
Finalement, je ne veux plus estimer les variations inter-individuelles dans l'ensemble de mon échantillon mais les variations inter-individuelles intra-ménage (au sein de mes ménages).
J'espère avoir été un peu plus claire bien que de manière littéraire,
merci...
je ne suis pas statisticienne en tant que telle, cette discussion est donc pour moi un peu éloignée... Personnellement, quand j'utilise un modèle c'est directement en réponse à une question que je me pose et donc en référence à un contexte dont je connais les limites ainsi que celles des données que j'utilise (je connais leur provenance ainsi que leur biais éventuel). Je ne cherche pas à choisir un modèle en fonction du type de données dont je dispose mais en fonction d'une question, l'application du modèle au type de données vient après la question posée.
En revanche, je suis d'accord avec l'idée que ce contexte je le connais et effectivement c'est à moi d'en contrôler les limites et les biais, la question que je pose est une question technique et effectivement peut être suis je trop dans la théorie pour obtenir une réponse technique.
Alors je vais synthétiser la forme des données de manière littéraire:
-Je dispose d'un identifiant ménage (IDMEN);
-Pour un même identifiant ménage, je dispose de plusieurs lignes avec plusieurs identifiants individus (IDIND);
-A l'intérieur d'un identifiant ménage et pour chaque individu enfant, une variable de type dichotomique (1/0) m'indique si l'enfant est adopté (1) ou biologique (0);
-Pour chaque enfant et donc pour chaque IDIND, une variable de scolarisation (SCO) de type dichotomique m'informe sur la scolarisation de l'enfant (1=oui/0=non) ( il s'agit de ma première variable réponse);
-De même pour chaque enfant, je dispose du niveau scolaire de l'enfant (NIV)soit une variable catégorielle m'indiquant le grade de scolarisation (primaire/secondaire/supérieur) (il s'agit de ma seconde variable réponse pour un second modèle);
- Ensuite pour mes variables de contrôle: je voudrais intégrer le rang de naissance de l'enfant (1,2 ou 3 et plus), l'âge (variable numérique).
La question reste de comparer au sein d'un même ménage, la scolarisation (oui/non) puis le niveau scolaire (primaire/secondaire ou supérieur) des enfants adoptés (1) à celui des enfants biologiques (0) en contrôlant les effets de l'âge et du rang de naissance.
J'aimerais obtenir une estimation pour l'ensemble des ménages des différences de scolarisation entre les enfants adoptés et les enfants biologiques d'un même ménage à âge et rang de naissance identique.
Finalement, je ne veux plus estimer les variations inter-individuelles dans l'ensemble de mon échantillon mais les variations inter-individuelles intra-ménage (au sein de mes ménages).
J'espère avoir été un peu plus claire bien que de manière littéraire,
merci...
Luana33- Nombre de messages : 12
Date d'inscription : 24/09/2010
Re: Choix d'un modèle statistique
En gros ta table est sous cette forme: en colonne tes variables explicatives: 'naissance', 'nv scolaire', grade scol.', 'âge', 'rang' (c'est quoi concrêtement le rang au fait?), ainsi que ta variable réponse 'scolarisation'. En ligne tes individus. Donc tu ne souhaites pas faire de la modélisation ou de la classification mais juste de la comparaison si je comprends bien.
Alors je crois que pour celà il faut faire de l'ANOVA, je dis bien que je crois car je ne connais pas cet outil mais je crois avoir lu qu'il permettait celà, à confirmer...
Pour ce qui de "J'aimerais obtenir une estimation pour l'ensemble des ménages des différences de scolarisation entre les enfants adoptés et les enfants biologiques d'un même ménage à âge et rang de naissance identique" : j'ai cru lire en post d'entrée de ton topic que tu avais beaucoup d'individus, en as tu assez pour composer des groupes par âge et rang de taille supérieur à 10-20 individus? si oui alors tu peux régresser ta variable réponse 'scolarisation' sur la variables explicatives 'naissance' et lire les odd-ratios.
Enfin c'est ce que j'ai compris, que toi tu veux faire des groupes et étudier si au sein de chacun des groupes tu as les même effet de ta variables 'naissance' sur la scolarisation?
Si jamais tu veux faire de la modélisation et/ ou de la classification, vue que ta variable réponse est sous forme de classe, tu peux t'orienter vers de la régression logistique (PROC LOGISTIC sous SAS) ou de l'analyse discriminante (PROC DISCRIM sous SAS). Par contre, sur un plan personnel, les variables explicatives et la variable réponse me semble un peu... comment dire... enfin j'aurais pas regardé ces variables explicatives là en fait lol.
S'il y a quoi que ce soit que j'ai compris de travers tiens moi au courant, de même si tu veux des infos sur les procédures SAS dont tu auras besoin.
Alors je crois que pour celà il faut faire de l'ANOVA, je dis bien que je crois car je ne connais pas cet outil mais je crois avoir lu qu'il permettait celà, à confirmer...
Pour ce qui de "J'aimerais obtenir une estimation pour l'ensemble des ménages des différences de scolarisation entre les enfants adoptés et les enfants biologiques d'un même ménage à âge et rang de naissance identique" : j'ai cru lire en post d'entrée de ton topic que tu avais beaucoup d'individus, en as tu assez pour composer des groupes par âge et rang de taille supérieur à 10-20 individus? si oui alors tu peux régresser ta variable réponse 'scolarisation' sur la variables explicatives 'naissance' et lire les odd-ratios.
Enfin c'est ce que j'ai compris, que toi tu veux faire des groupes et étudier si au sein de chacun des groupes tu as les même effet de ta variables 'naissance' sur la scolarisation?
Si jamais tu veux faire de la modélisation et/ ou de la classification, vue que ta variable réponse est sous forme de classe, tu peux t'orienter vers de la régression logistique (PROC LOGISTIC sous SAS) ou de l'analyse discriminante (PROC DISCRIM sous SAS). Par contre, sur un plan personnel, les variables explicatives et la variable réponse me semble un peu... comment dire... enfin j'aurais pas regardé ces variables explicatives là en fait lol.
S'il y a quoi que ce soit que j'ai compris de travers tiens moi au courant, de même si tu veux des infos sur les procédures SAS dont tu auras besoin.
Re: Choix d'un modèle statistique
Encore merci pour ta réponse mais je crois qu'effectivement il y a une incompréhension...
La naissance n'est pas du tout une variable explicative...Je reprend le contexte parce que il faut le comprendre je pense, je vais essayer de faire simple.
Alors, je veux bien comparer la réussite scolaire des enfants adoptés aux enfants biologiques. Pour cela si je limite à la scolarisation, imaginons que j'utilise un modèle logistique avec comme variable de contrôle par exemple le revenu, l'origine sociale mais aussi le rang de naissance et l'âge et que je compare enfants adoptés et biologiques, le problème que cela me pose est que je crains qu'il existe des variables du milieu familial qui influencent la réussite scolaire mais que je ne peux pas mesurer parce que pas les variables (imaginons par exemple le temps consacré par les parents à la scolarité de leurs enfants).
Pour éliminer ce problème, je me dis qu'au sein d'un même ménage ces caractéristiques sont identiques pour tous les enfants du ménage tout comme les caractéristiques d'origine sociale des parents ou leur revenu. Donc en comparant les enfants au sein d'un même ménage, je n'ai plus à contrôler les caractéristiques du milieu familial, simplement celles se rapportant aux enfants et susceptibles d'influencer la scolarisation d'où le contrôle par le rang de naissance (ainé ou cadet qui a été prouvé comme une variable influençant la réussite) et l'âge (le niveau d'étude variant selon l'âge).
Donc ma variable réponse: scolarisation (oui/non) puis niveau scolaire (primaire/secondaire et sup)
Mes variables explicatives: age de l'enfant et rang de naissance de l'enfant
Comparaison: 2 groupes d'enfants (adoptés et biologiques) au sein d'un même ménage
Résultats: Estimation des différences pour l'ensemble des ménages mais à partir des différences au sein des ménages.
En ligne=individu par ménage avec même IDMEN
En colonne: variables...
Mon échantillon est très gros (environ 30 000 individus).
Voilà, en espérant avoir clarifié le problème...
La naissance n'est pas du tout une variable explicative...Je reprend le contexte parce que il faut le comprendre je pense, je vais essayer de faire simple.
Alors, je veux bien comparer la réussite scolaire des enfants adoptés aux enfants biologiques. Pour cela si je limite à la scolarisation, imaginons que j'utilise un modèle logistique avec comme variable de contrôle par exemple le revenu, l'origine sociale mais aussi le rang de naissance et l'âge et que je compare enfants adoptés et biologiques, le problème que cela me pose est que je crains qu'il existe des variables du milieu familial qui influencent la réussite scolaire mais que je ne peux pas mesurer parce que pas les variables (imaginons par exemple le temps consacré par les parents à la scolarité de leurs enfants).
Pour éliminer ce problème, je me dis qu'au sein d'un même ménage ces caractéristiques sont identiques pour tous les enfants du ménage tout comme les caractéristiques d'origine sociale des parents ou leur revenu. Donc en comparant les enfants au sein d'un même ménage, je n'ai plus à contrôler les caractéristiques du milieu familial, simplement celles se rapportant aux enfants et susceptibles d'influencer la scolarisation d'où le contrôle par le rang de naissance (ainé ou cadet qui a été prouvé comme une variable influençant la réussite) et l'âge (le niveau d'étude variant selon l'âge).
Donc ma variable réponse: scolarisation (oui/non) puis niveau scolaire (primaire/secondaire et sup)
Mes variables explicatives: age de l'enfant et rang de naissance de l'enfant
Comparaison: 2 groupes d'enfants (adoptés et biologiques) au sein d'un même ménage
Résultats: Estimation des différences pour l'ensemble des ménages mais à partir des différences au sein des ménages.
En ligne=individu par ménage avec même IDMEN
En colonne: variables...
Mon échantillon est très gros (environ 30 000 individus).
Voilà, en espérant avoir clarifié le problème...
Luana33- Nombre de messages : 12
Date d'inscription : 24/09/2010
Re: Choix d'un modèle statistique
Je pense que tu pars sur une fausse piste. Les caractéristiques ne sont pas identiques pour tous les enfants d'un ménage.
Déjà, il y a énormément de changements qui peuvent survenir dans un ménage entre l'arrivée du premier enfant et du dernier (bouleversements professionnels, sociaux, pathologies et deuils, recomposition...). Ensuite, tous les parents t'expliqueront qu'on ne s'est pas occupés de la même façon du premier et du petit dernier. Mais alors, pas du tout. Et plus la fratrie est importante, plus cet effet a du poids.
Je pense que tu poursuis un but impossible: essayer de contrôler mathématiquement tous les biais. A mon sens, ce qui fait la difficulté de ce type d'analyse et qui les rend très dépendantes de l'expérience de l'interprétateur, c'est justement qu'elles ne reposent pas exclusivement sur une analyse mathématique froide, mais aussi et peut être surtout sur l'interprétation et le commentaire des résultats. En clair, on peut identifier des biais (mathématiquement ou "logiquement"), essayer d'en contrôler certains (mais pas tous) et sortir un résultat. Mais ces résultats doivent être complétés par une analyse critique du recul avec lesquels ils doivent être interprétés qui est assez difficile à réaliser, et fait appel à des connaissances qui vont au delà d'un simple savoir mathématique et de la bonne application de quelques formules. Tu mets le doigt pile sur le point qui fait la difficulté de l'interprétation des études de santé publique....
Déjà, il y a énormément de changements qui peuvent survenir dans un ménage entre l'arrivée du premier enfant et du dernier (bouleversements professionnels, sociaux, pathologies et deuils, recomposition...). Ensuite, tous les parents t'expliqueront qu'on ne s'est pas occupés de la même façon du premier et du petit dernier. Mais alors, pas du tout. Et plus la fratrie est importante, plus cet effet a du poids.
Je pense que tu poursuis un but impossible: essayer de contrôler mathématiquement tous les biais. A mon sens, ce qui fait la difficulté de ce type d'analyse et qui les rend très dépendantes de l'expérience de l'interprétateur, c'est justement qu'elles ne reposent pas exclusivement sur une analyse mathématique froide, mais aussi et peut être surtout sur l'interprétation et le commentaire des résultats. En clair, on peut identifier des biais (mathématiquement ou "logiquement"), essayer d'en contrôler certains (mais pas tous) et sortir un résultat. Mais ces résultats doivent être complétés par une analyse critique du recul avec lesquels ils doivent être interprétés qui est assez difficile à réaliser, et fait appel à des connaissances qui vont au delà d'un simple savoir mathématique et de la bonne application de quelques formules. Tu mets le doigt pile sur le point qui fait la difficulté de l'interprétation des études de santé publique....
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Choix d'un modèle statistique
Je suis d'accord, je sais très bien qu'il persistera des biais simplement je pense que l'on a pas le droit de dire c'est impossible donc je ne tente pas. Je sais très bien qu'il y a des biais et qu'il en existera toujours... Mon idée est de parvenir à dépasser certains des biais qu'un modèle aléatoire ferait subsister notamment en ne prenant pas en compte des caractéristiques inobservables du ménage. Mais je sais très bien que cette analyse n'éliminera pas tout les biais...
En revanche bien que des caractéristiques variables dans le temps subsisteront, un certain nombre de caractéristiques invariantes propres au ménage et non mesurées par enquête pourront être contrôlées.
Par ailleurs, il est fort probable que les 2 groupes d'enfants aient vécu le même événement en cas de bouleversements tels que ceux que tu décrits, la seule différence étant l'âge auquel ils l'auront vécu...
En revanche bien que des caractéristiques variables dans le temps subsisteront, un certain nombre de caractéristiques invariantes propres au ménage et non mesurées par enquête pourront être contrôlées.
Par ailleurs, il est fort probable que les 2 groupes d'enfants aient vécu le même événement en cas de bouleversements tels que ceux que tu décrits, la seule différence étant l'âge auquel ils l'auront vécu...
Luana33- Nombre de messages : 12
Date d'inscription : 24/09/2010
Re: Choix d'un modèle statistique
Bon. Apparemment tu sais ce que tu vas faire. Donc fais.
Je ne comprends plus trop la question, du coup.
Salut, et bon courage....
.
Je ne comprends plus trop la question, du coup.
Salut, et bon courage....
.
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Sujets similaires
» Choix modele d analyse statistique enquete cas/temoins
» Choix de modèle statistique pour calcul de risque relatif
» choix d'un modèle
» choix de modèle
» Choix de modele
» Choix de modèle statistique pour calcul de risque relatif
» choix d'un modèle
» choix de modèle
» Choix de modele
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum