Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Peut-on traiter des données non manquantes => Test du Chi-2
2 participants
Page 1 sur 1
Peut-on traiter des données non manquantes => Test du Chi-2
Bonjour,
on ne demande d'effectuer une analyse sur les diplômes d'une population.
Un individu sur trois n'a pas son diplôme de renseigné.
Je crée une variable bDiplome qui vaut 1 si le diplôme est renseigné, zéro sinon.
Les variables age, sexe, statut et niveau de classification (une variable alphanumérique qui indique le niveau de rémunération) sont structurantes pour la population.
J'effectue un test du chi-2 sur bDiplome x age, bDiplome x sexe, bDiplome x statut, bDiplome x niveau de classification .
A l'issue de ces tests, je m'aperçois que bDiplome n'est indépendant que de l'âge.
Avec un risque de première espèce de 5%, je suis amené à décider que bDiplome n'est ni indépendant du sexe, ni du statut ni du niveau de classification. Il y a par exemple plus de diplômes non renseignés chez les cadres par exemple, de façon significative.
Donc si je traite les données de diplôme renseignées, ces valeurs ne seront pas représentatives de l'ensemble de la population (comme si tous les individus avaient leur diplôme de renseigné).
Je ne peux donc pas, raisonnablement, faire de statistiques sur les valeurs renseignées du diplôme.
Etes-vous d'accord avec ce raisonnement ?
Merci.
on ne demande d'effectuer une analyse sur les diplômes d'une population.
Un individu sur trois n'a pas son diplôme de renseigné.
Je crée une variable bDiplome qui vaut 1 si le diplôme est renseigné, zéro sinon.
Les variables age, sexe, statut et niveau de classification (une variable alphanumérique qui indique le niveau de rémunération) sont structurantes pour la population.
J'effectue un test du chi-2 sur bDiplome x age, bDiplome x sexe, bDiplome x statut, bDiplome x niveau de classification .
A l'issue de ces tests, je m'aperçois que bDiplome n'est indépendant que de l'âge.
Avec un risque de première espèce de 5%, je suis amené à décider que bDiplome n'est ni indépendant du sexe, ni du statut ni du niveau de classification. Il y a par exemple plus de diplômes non renseignés chez les cadres par exemple, de façon significative.
Donc si je traite les données de diplôme renseignées, ces valeurs ne seront pas représentatives de l'ensemble de la population (comme si tous les individus avaient leur diplôme de renseigné).
Je ne peux donc pas, raisonnablement, faire de statistiques sur les valeurs renseignées du diplôme.
Etes-vous d'accord avec ce raisonnement ?
Merci.
ludo27- Nombre de messages : 3
Date d'inscription : 03/08/2011
Re: Peut-on traiter des données non manquantes => Test du Chi-2
Bonsoir.
Ton raisonnement me semble assez sérieux. Plutôt que "ces valeurs ne seront pas représentatives de l'ensemble de la population" (*), j'aurais dit "Il est impossible de rejeter l'hypothèse d'un fort biais dû aux non réponses". Par exemple, le non renseignement chez les cadres peut être motivé par l'absence de diplômes considérés actuellement comme nécessaires à l'embauche d'un cadre (donc ce sont des "cadres maison"). Alors que dans des catégories "moins éduquées", ce sera plutôt l'inverse (comment dire qu'on n'a pas de diplôme ?).
Cordialement.
(*) le mot représentatif est chargé d'un sens qu'il n'a généralement pas. Les données ne sont jamais "représentatives", puisqu'elle ne concernent que les individus de l'échantillon. Et un échantillon "représentatif" ne représente pas la population, mais permet seulement de faire des estimations probabilistes des valeurs réelles dans la population.
Ton raisonnement me semble assez sérieux. Plutôt que "ces valeurs ne seront pas représentatives de l'ensemble de la population" (*), j'aurais dit "Il est impossible de rejeter l'hypothèse d'un fort biais dû aux non réponses". Par exemple, le non renseignement chez les cadres peut être motivé par l'absence de diplômes considérés actuellement comme nécessaires à l'embauche d'un cadre (donc ce sont des "cadres maison"). Alors que dans des catégories "moins éduquées", ce sera plutôt l'inverse (comment dire qu'on n'a pas de diplôme ?).
Cordialement.
(*) le mot représentatif est chargé d'un sens qu'il n'a généralement pas. Les données ne sont jamais "représentatives", puisqu'elle ne concernent que les individus de l'échantillon. Et un échantillon "représentatif" ne représente pas la population, mais permet seulement de faire des estimations probabilistes des valeurs réelles dans la population.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Peut-on traiter des données non manquantes => Test du Chi-2
Merci GG pour ta réponse.
En fait les données proviennent de différents systèmes de paie. Les données nécessaires au calcul de la paie sont correctement renseignées en général, en revanche les données comme le diplôme ne sont pas systématiquement renseignées dans certains systèmes de paie.
Donc ça me conforte dans le fait qu'il n'est pas raisonnable de produire des statistiques sur les données de diplômes renseignées.
Merci pour les précisions.
En fait les données proviennent de différents systèmes de paie. Les données nécessaires au calcul de la paie sont correctement renseignées en général, en revanche les données comme le diplôme ne sont pas systématiquement renseignées dans certains systèmes de paie.
Donc ça me conforte dans le fait qu'il n'est pas raisonnable de produire des statistiques sur les données de diplômes renseignées.
Merci pour les précisions.
ludo27- Nombre de messages : 3
Date d'inscription : 03/08/2011
Sujets similaires
» test sur deux proportions avec des données manquantes
» Recherche aide pour traiter des données
» Données manquantes
» Données manquantes
» Données manquantes MAR vs MNAR
» Recherche aide pour traiter des données
» Données manquantes
» Données manquantes
» Données manquantes MAR vs MNAR
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|