Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Interprétation des résultats d'un test Chi2
4 participants
Page 1 sur 1
Interprétation des résultats d'un test Chi2
Bonjour,
J'aurais besoin d'un peu d'aide pour interpréter les résultats d'un test Chi2.
Pour donner un peu de contexte, je cherche à extraire un échantillon d'une population en respectant la distribution de plusieurs variables discrètes (sexe) ou discrétisées (âge). Je pensais procéder ainsi:
Ma question concerne le point 3. L'hypothèse nulle du test du Chi2 est que les distributions sont égales. Donc en fait, on voudrait conserver cette hypothèse.
Dans l'idéal, il faudrait étudier la puissance du test (probabilité d'erreur de deuxième type) mais je crois qu'on n'a pas de formule dans le cas du Chi2.
Les p-value retournées sont très grandes par exemple 0.99897752863869838 (j'utilise l'implémentation de scipy). Du coup si je comprends bien, on peut conserver H0. N'est-ce pas? Plus généralement, il faudrait fixer un seuil élevé (mettons 95%) et conserver H0 si la p-value est supérieure au seuil.
Juste pour confirmer: le nombre de degrés de liberté dans ce cas est toujours 0 (on a k classes mais l=k-1 sont estimées à partir des données donc dof = k - 1 - (k-1) = 0). Correct?
Au passage, si quelqu'un connaît une meilleure manière de faire, je suis preneur.
J'aurais besoin d'un peu d'aide pour interpréter les résultats d'un test Chi2.
Pour donner un peu de contexte, je cherche à extraire un échantillon d'une population en respectant la distribution de plusieurs variables discrètes (sexe) ou discrétisées (âge). Je pensais procéder ainsi:
- estimer la distribution des variables sur toute la population
- sélectionner des sujets au hasard
- tester avec un Chi2 si les variables ont la même distribution: si oui on a gagné, sinon retourner à 2
Ma question concerne le point 3. L'hypothèse nulle du test du Chi2 est que les distributions sont égales. Donc en fait, on voudrait conserver cette hypothèse.
Dans l'idéal, il faudrait étudier la puissance du test (probabilité d'erreur de deuxième type) mais je crois qu'on n'a pas de formule dans le cas du Chi2.
Les p-value retournées sont très grandes par exemple 0.99897752863869838 (j'utilise l'implémentation de scipy). Du coup si je comprends bien, on peut conserver H0. N'est-ce pas? Plus généralement, il faudrait fixer un seuil élevé (mettons 95%) et conserver H0 si la p-value est supérieure au seuil.
Juste pour confirmer: le nombre de degrés de liberté dans ce cas est toujours 0 (on a k classes mais l=k-1 sont estimées à partir des données donc dof = k - 1 - (k-1) = 0). Correct?
Au passage, si quelqu'un connaît une meilleure manière de faire, je suis preneur.
OrsayMan- Nombre de messages : 7
Date d'inscription : 02/09/2015
Re: Interprétation des résultats d'un test Chi2
Bonjour.
Si tu n'acceptes l'échantillon que si la p-value dépasse 95%, alors tu rejetteras 19 échantillons sur 20.
Je suis très surpris par la p-value que tu annonces, cela voudrait dire que ton échantillon respecte quasiment parfaitement la répartition dans la population. Ce qui est généralement impossible pour des raisons simples : Si sur 100 individus, tu as 35 a et 65 b, alors, dans un échantillon de 10, tu auras au mieux 3 a et 7 b ou 4 a et 6 b, donc une erreur de fréquence de 5% minimum.
Je ne comprends pas non plus ton raisonnement sur les ddl, d'ailleurs 0 ddl veut dire qu'on sait tout.
Cordialement.
Si tu n'acceptes l'échantillon que si la p-value dépasse 95%, alors tu rejetteras 19 échantillons sur 20.
Je suis très surpris par la p-value que tu annonces, cela voudrait dire que ton échantillon respecte quasiment parfaitement la répartition dans la population. Ce qui est généralement impossible pour des raisons simples : Si sur 100 individus, tu as 35 a et 65 b, alors, dans un échantillon de 10, tu auras au mieux 3 a et 7 b ou 4 a et 6 b, donc une erreur de fréquence de 5% minimum.
Je ne comprends pas non plus ton raisonnement sur les ddl, d'ailleurs 0 ddl veut dire qu'on sait tout.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Interprétation des résultats d'un test Chi2
Bonjour,
Pour compléter la réponse de gg.
Nik
Pour compléter la réponse de gg.
Je dirais que tu ne peux pas rejeter H0. Ceci pourrait apparaitre comme un simple problème de rédaction mais peut aussi traduire un problème de compréhension de ce qui est réalisé dans un test d'hypothèse. Donc un test d'hypothèse conduit à rejeter ou non H0 à un risque alpha choisi.Du coup si je comprends bien, on peut conserver H0. N'est-ce pas?
non . Dans le cas d'un test d'adéquation on prend ddl = k-1. Ceci tient au fait que le chi² partiel ne sont pas totalement indépendant étant donné que le dernier est connu par la différence entre la somme totale et la somme des k-1 autres chi² partiels.le nombre de degrés de liberté dans ce cas est toujours 0 (on a k classes mais l=k-1 sont estimées à partir des données donc dof = k - 1 - (k-1) = 0). Correct?
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Interprétation des résultats d'un test Chi2
Mais n'est-il pas plus simple, dans l'étape 2, de tirer au hasard des sujets, non pas avec équiprobabilité, mais avec une probabilité de tirage qui vient de leur distribution (en sexe et âge). Du coup, par construction, l'échantillon sera automatiquement représentatif de la population d'origine. C'est une démarche classique dans des procédures de Monte Carlo.
Sous R, par exemple, la fonction sample() accepte un argument "prob" qui sert justement à ça.
HTH, Eric.
Sous R, par exemple, la fonction sample() accepte un argument "prob" qui sert justement à ça.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Interprétation des résultats d'un test Chi2
Oui, la formulation est abusive: on devrait dire qu'on ne peut pas rejeter H0 mais comme on n'a pas la puissance du test, je ne vois pas d'autre moyen de valider le choix de H0.Nik a écrit:Je dirais que tu ne peux pas rejeter H0. Ceci pourrait apparaitre comme un simple problème de rédaction mais peut aussi traduire un problème de compréhension de ce qui est réalisé dans un test d'hypothèse. Donc un test d'hypothèse conduit à rejeter ou non H0 à un risque alpha choisi.Du coup si je comprends bien, on peut conserver H0. N'est-ce pas?
Certes mais j'ai lu dans le livre de Saporta que si on estime l paramètres de la distribution de référence ddl = k-1-l. Or, j'estime l-1 paramètres de la distribution de référence dans le point 1. Ceci dit, comme le dit gg, un nombre de ddl à 0 n'a pas beaucoup de sens.Nik a écrit:non . Dans le cas d'un test d'adéquation on prend ddl = k-1. Ceci tient au fait que le chi² partiel ne sont pas totalement indépendant étant donné que le dernier est connu par la différence entre la somme totale et la somme des k-1 autres chi² partiels.le nombre de degrés de liberté dans ce cas est toujours 0 (on a k classes mais l=k-1 sont estimées à partir des données donc dof = k - 1 - (k-1) = 0). Correct?
OrsayMan- Nombre de messages : 7
Date d'inscription : 02/09/2015
Re: Interprétation des résultats d'un test Chi2
Il y a peut-être un problème dans mon code: d'après l'aide, la fonction scipy.stats.chisquare utilise les fréquences mais apparemment ils veulent dire le nombre de fois qu'une classe a été observée. Ceci dit, j'ai plus de 800 individus au départ et j'en prends 50.gg a écrit:
Si tu n'acceptes l'échantillon que si la p-value dépasse 95%, alors tu rejetteras 19 échantillons sur 20.
Je suis très surpris par la p-value que tu annonces, cela voudrait dire que ton échantillon respecte quasiment parfaitement la répartition dans la population. Ce qui est généralement impossible pour des raisons simples : Si sur 100 individus, tu as 35 a et 65 b, alors, dans un échantillon de 10, tu auras au mieux 3 a et 7 b ou 4 a et 6 b, donc une erreur de fréquence de 5% minimum.
D'accord avec vous mais voir ma réponse à Nix au-dessus.gg a écrit:
Je ne comprends pas non plus ton raisonnement sur les ddl, d'ailleurs 0 ddl veut dire qu'on sait tout.
OrsayMan- Nombre de messages : 7
Date d'inscription : 02/09/2015
Re: Interprétation des résultats d'un test Chi2
Eric Wajnberg a écrit:Mais n'est-il pas plus simple, dans l'étape 2, de tirer au hasard des sujets, non pas avec équiprobabilité, mais avec une probabilité de tirage qui vient de leur distribution (en sexe et âge). Du coup, par construction, l'échantillon sera automatiquement représentatif de la population d'origine. C'est une démarche classique dans des procédures de Monte Carlo.
Sous R, par exemple, la fonction sample() accepte un argument "prob" qui sert justement à ça.
J'ai cherché des trucs comme ça mais je n'ai trouvé le moyen de le faire que pour une seule variable dont on veut respecter la distribution. Pour plusieurs, je ne vois pas comment attribuer un poids. Une idée?
OrsayMan- Nombre de messages : 7
Date d'inscription : 02/09/2015
Re: Interprétation des résultats d'un test Chi2
Une solution - la plus simple - est de construire la distribution croisée de toutes les combinaisons sexe-âge, et de tirer dans cette loi de distribution croisée chaque sujet d'un sexe et d'un âge donné.OrsayMan a écrit:J'ai cherché des trucs comme ça mais je n'ai trouvé le moyen de le faire que pour une seule variable dont on veut respecter la distribution. Pour plusieurs, je ne vois pas comment attribuer un poids. Une idée?
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Interprétation des résultats d'un test Chi2
Eric Wajnberg a écrit:Une solution - la plus simple - est de construire la distribution croisée de toutes les combinaisons sexe-âge, et de tirer dans cette loi de distribution croisée chaque sujet d'un sexe et d'un âge donné.OrsayMan a écrit:J'ai cherché des trucs comme ça mais je n'ai trouvé le moyen de le faire que pour une seule variable dont on veut respecter la distribution. Pour plusieurs, je ne vois pas comment attribuer un poids. Une idée?
En effet, j'avais pensé à ça mais je m'étais persuadé que c'était trop compliqué... Ceci dit, en y repensant, la probabilité affectée à un individu serait donnée directement par la distribution pour les valeurs de l'âge et du sexe de cet individu, c'est bien ça?
Avec 800 individus, je dois pouvoir faire une estimation assez robuste de la distribution...
OrsayMan- Nombre de messages : 7
Date d'inscription : 02/09/2015
Re: Interprétation des résultats d'un test Chi2
Oui, je pense que vous reformulez ce que je dis correctement.OrsayMan a écrit:En effet, j'avais pensé à ça mais je m'étais persuadé que c'était trop compliqué... Ceci dit, en y repensant, la probabilité affectée à un individu serait donnée directement par la distribution pour les valeurs de l'âge et du sexe de cet individu, c'est bien ça?
Je ne suis pas sûr de bien saisir ce que vous voulez dire par "robuste". Vous avez la distribution que vous avez. Vous proposez une procédure. J'en propose une autre. La robustesse (quoi que veuille dire ce mot) sera la même dans les deux cas de toute façon, il me semble.OrsayMan a écrit:Avec 800 individus, je dois pouvoir faire une estimation assez robuste de la distribution...
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Interprétation des résultats d'un test Chi2
OK, je m’attelle à mettre en œuvre ça.Eric Wajnberg a écrit:Oui, je pense que vous reformulez ce que je dis correctement.OrsayMan a écrit:En effet, j'avais pensé à ça mais je m'étais persuadé que c'était trop compliqué... Ceci dit, en y repensant, la probabilité affectée à un individu serait donnée directement par la distribution pour les valeurs de l'âge et du sexe de cet individu, c'est bien ça?
Par robuste, je voulais dire informellement qu'on peut faire une bonne estimation de la vraie distribution à partir des 800 individus (même si mon sous-échantillon doit juste ressembler aux 800 individus).Eric Wajnberg a écrit:Je ne suis pas sûr de bien saisir ce que vous voulez dire par "robuste". Vous avez la distribution que vous avez. Vous proposez une procédure. J'en propose une autre. La robustesse (quoi que veuille dire ce mot) sera la même dans les deux cas de toute façon, il me semble.OrsayMan a écrit:Avec 800 individus, je dois pouvoir faire une estimation assez robuste de la distribution...
OrsayMan- Nombre de messages : 7
Date d'inscription : 02/09/2015
Re: Interprétation des résultats d'un test Chi2
Bonjour.
Je suis de plus en plus dubitatif sur l'intérêt de la procédure. A priori, l'échantillon de 800 dévie légèrement de la vraie proportion pour chacune des variables. Donc il s'agit de s'approcher d'une répartition fausse.
D'autre part, quel peut être l'intérêt d'un sous-échantillon quand on a l'échantillon global ? Les estimations qu'on en tirera seront toujours moins bonnes.
Cordialement.
Je suis de plus en plus dubitatif sur l'intérêt de la procédure. A priori, l'échantillon de 800 dévie légèrement de la vraie proportion pour chacune des variables. Donc il s'agit de s'approcher d'une répartition fausse.
D'autre part, quel peut être l'intérêt d'un sous-échantillon quand on a l'échantillon global ? Les estimations qu'on en tirera seront toujours moins bonnes.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Interprétation des résultats d'un test Chi2
Bonne question ! Je ne suis pas l'auteur du post d'origine, mais j'utilise pourtant fréquemment cette procédure pour faire des estimations boostrap d'intervalles de confiance sur mes paramètres. C'est peut-être là la raison ?gg a écrit:D'autre part, quel peut être l'intérêt d'un sous-échantillon quand on a l'échantillon global ? Les estimations qu'on en tirera seront toujours moins bonnes.Cordialement.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Interprétation des résultats d'un test Chi2
Eric Wajnberg a écrit:Bonne question ! Je ne suis pas l'auteur du post d'origine, mais j'utilise pourtant fréquemment cette procédure pour faire des estimations boostrap d'intervalles de confiance sur mes paramètres. C'est peut-être là la raison ?gg a écrit:D'autre part, quel peut être l'intérêt d'un sous-échantillon quand on a l'échantillon global ? Les estimations qu'on en tirera seront toujours moins bonnes.Cordialement.
Mon but est de mettre de côté des individus qui seront utilisés pour une certains traitements (en gros calculer une image moyenne qui sera utilisée ensuite pour recaler les images de chaque individu). Ces sujets ne seront pas utilisés dans les expériences suivantes (classification). L'idée est de ne pas biaiser l'évaluation des performances de classification (il faut donc que l'image moyenne soit représentative de la population mais ne contienne pas les individus qu'on classe).
OrsayMan- Nombre de messages : 7
Date d'inscription : 02/09/2015
Sujets similaires
» Interprétation test du Chi2 et test Anova
» interprétation/pertinence de mon test chi2
» (Urgent) Interprétation test de chi2 (à l'aide!!!!!!!!!!!!)
» ACP ACM - interprétation de résultats similaires
» Interprétation du chi2
» interprétation/pertinence de mon test chi2
» (Urgent) Interprétation test de chi2 (à l'aide!!!!!!!!!!!!)
» ACP ACM - interprétation de résultats similaires
» Interprétation du chi2
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum