Interprétation des résultats d'un test Chi2

Voir le sujet précédent Voir le sujet suivant Aller en bas

Interprétation des résultats d'un test Chi2

Message par OrsayMan le Mer 2 Sep 2015 - 15:15

Bonjour,

J'aurais besoin d'un peu d'aide pour interpréter les résultats d'un test Chi2.

Pour donner un peu de contexte, je cherche à extraire un échantillon d'une population en respectant la distribution de plusieurs variables discrètes (sexe) ou discrétisées (âge). Je pensais procéder ainsi:

  1. estimer la distribution des variables sur toute la population
  2. sélectionner des sujets au hasard
  3. tester avec un Chi2 si les variables ont la même distribution: si oui on a gagné, sinon retourner à 2

Ma question concerne le point 3. L'hypothèse nulle du test du Chi2 est que les distributions sont égales. Donc en fait, on voudrait conserver cette hypothèse.
Dans l'idéal, il faudrait étudier la puissance du test (probabilité d'erreur de deuxième type) mais je crois qu'on n'a pas de formule dans le cas du Chi2.
Les p-value retournées sont très grandes par exemple 0.99897752863869838 (j'utilise l'implémentation de scipy). Du coup si je comprends bien, on peut conserver H0. N'est-ce pas? Plus généralement, il faudrait fixer un seuil élevé (mettons 95%) et conserver H0 si la p-value est supérieure au seuil.

Juste pour confirmer: le nombre de degrés de liberté dans ce cas est toujours 0 (on a k classes mais l=k-1 sont estimées à partir des données donc dof = k - 1 - (k-1) = 0). Correct?

Au passage, si quelqu'un connaît une meilleure manière de faire, je suis preneur.

OrsayMan

Nombre de messages : 7
Date d'inscription : 02/09/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par gg le Jeu 3 Sep 2015 - 7:55

Bonjour.

Si tu n'acceptes l'échantillon que si la p-value dépasse 95%, alors tu rejetteras 19 échantillons sur 20.
Je suis très surpris par la p-value que tu annonces, cela voudrait dire que ton échantillon respecte quasiment parfaitement la répartition dans la population. Ce qui est généralement impossible pour des raisons simples : Si sur 100 individus, tu as 35 a et 65 b, alors, dans un échantillon de 10, tu auras au mieux 3 a et 7 b ou 4 a et 6 b, donc une erreur de fréquence de 5% minimum.
Je ne comprends pas non plus ton raisonnement sur les ddl, d'ailleurs 0 ddl veut dire qu'on sait tout.

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par Nik le Jeu 3 Sep 2015 - 8:40

Bonjour,

Pour compléter la réponse de gg.
Du coup si je comprends bien, on peut conserver H0. N'est-ce pas?
Je dirais que tu ne peux pas rejeter H0. Ceci pourrait apparaitre comme un simple problème de rédaction mais peut aussi traduire un problème de compréhension de ce qui est réalisé dans un test d'hypothèse. Donc un test d'hypothèse conduit à rejeter ou non H0 à un risque alpha choisi.

le nombre de degrés de liberté dans ce cas est toujours 0 (on a k classes mais l=k-1 sont estimées à partir des données donc dof = k - 1 - (k-1) = 0). Correct?
non Smile. Dans le cas d'un test d'adéquation on prend ddl = k-1. Ceci tient au fait que le chi² partiel ne sont pas totalement indépendant étant donné que le dernier est connu par la différence entre la somme totale et la somme des k-1 autres chi² partiels.

Nik

Nik

Nombre de messages : 1501
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par Eric Wajnberg le Jeu 3 Sep 2015 - 9:19

Mais n'est-il pas plus simple, dans l'étape 2, de tirer au hasard des sujets, non pas avec équiprobabilité, mais avec une probabilité de tirage qui vient de leur distribution (en sexe et âge). Du coup, par construction, l'échantillon sera automatiquement représentatif de la population d'origine. C'est une démarche classique dans des procédures de Monte Carlo.

Sous R, par exemple, la fonction sample() accepte un argument "prob" qui sert justement à ça.

HTH, Eric.

Eric Wajnberg

Nombre de messages : 307
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par OrsayMan le Jeu 3 Sep 2015 - 9:43

Nik a écrit:
Du coup si je comprends bien, on peut conserver H0. N'est-ce pas?
Je dirais que tu ne peux pas rejeter H0. Ceci pourrait apparaitre comme un simple problème de rédaction mais peut aussi traduire un problème de compréhension de ce qui est réalisé dans un test d'hypothèse. Donc un test d'hypothèse conduit à rejeter ou non H0 à un risque alpha choisi.
Oui, la formulation est abusive: on devrait dire qu'on ne peut pas rejeter H0 mais comme on n'a pas la puissance du test, je ne vois pas d'autre moyen de valider le choix de H0.

Nik a écrit:
le nombre de degrés de liberté dans ce cas est toujours 0 (on a k classes mais l=k-1 sont estimées à partir des données donc dof = k - 1 - (k-1) = 0). Correct?
non Smile. Dans le cas d'un test d'adéquation on prend ddl = k-1. Ceci tient au fait que le chi² partiel ne sont pas totalement indépendant étant donné que le dernier est connu par la différence entre la somme totale et la somme des k-1 autres chi² partiels.
Certes mais j'ai lu dans le livre de Saporta que si on estime l paramètres de la distribution de référence ddl = k-1-l. Or, j'estime l-1 paramètres de la distribution de référence dans le point 1. Ceci dit, comme le dit gg, un nombre de ddl à 0 n'a pas beaucoup de sens.

OrsayMan

Nombre de messages : 7
Date d'inscription : 02/09/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par OrsayMan le Jeu 3 Sep 2015 - 9:48

gg a écrit:

Si tu n'acceptes l'échantillon que si la p-value dépasse 95%, alors tu rejetteras 19 échantillons sur 20.
Je suis très surpris par la p-value que tu annonces, cela voudrait dire que ton échantillon respecte quasiment parfaitement la répartition dans la population. Ce qui est généralement impossible pour des raisons simples : Si sur 100 individus, tu as 35 a et 65 b, alors, dans un échantillon de 10, tu auras au mieux 3 a et 7 b ou 4 a et 6 b, donc une erreur de fréquence de 5% minimum.
Il y a peut-être un problème dans mon code: d'après l'aide, la fonction scipy.stats.chisquare utilise les fréquences mais apparemment ils veulent dire le nombre de fois qu'une classe a été observée. Ceci dit, j'ai plus de 800 individus au départ et j'en prends 50.

gg a écrit:
Je ne comprends pas non plus ton raisonnement sur les ddl, d'ailleurs 0 ddl veut dire qu'on sait tout.
D'accord avec vous mais voir ma réponse à Nix au-dessus.

OrsayMan

Nombre de messages : 7
Date d'inscription : 02/09/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par OrsayMan le Jeu 3 Sep 2015 - 9:50

Eric Wajnberg a écrit:Mais n'est-il pas plus simple, dans l'étape 2, de tirer au hasard des sujets, non pas avec équiprobabilité, mais avec une probabilité de tirage qui vient de leur distribution (en sexe et âge). Du coup, par construction, l'échantillon sera automatiquement représentatif de la population d'origine. C'est une démarche classique dans des procédures de Monte Carlo.

Sous R, par exemple, la fonction sample() accepte un argument "prob" qui sert justement à ça.

J'ai cherché des trucs comme ça mais je n'ai trouvé le moyen de le faire que pour une seule variable dont on veut respecter la distribution. Pour plusieurs, je ne vois pas comment attribuer un poids. Une idée?

OrsayMan

Nombre de messages : 7
Date d'inscription : 02/09/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par Eric Wajnberg le Jeu 3 Sep 2015 - 11:00

OrsayMan a écrit:J'ai cherché des trucs comme ça mais je n'ai trouvé le moyen de le faire que pour une seule variable dont on veut respecter la distribution. Pour plusieurs, je ne vois pas comment attribuer un poids. Une idée?
Une solution - la plus simple - est de construire la distribution croisée de toutes les combinaisons sexe-âge, et de tirer dans cette loi de distribution croisée chaque sujet d'un sexe et d'un âge donné.

Eric.

Eric Wajnberg

Nombre de messages : 307
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par OrsayMan le Jeu 3 Sep 2015 - 21:10

Eric Wajnberg a écrit:
OrsayMan a écrit:J'ai cherché des trucs comme ça mais je n'ai trouvé le moyen de le faire que pour une seule variable dont on veut respecter la distribution. Pour plusieurs, je ne vois pas comment attribuer un poids. Une idée?
Une solution - la plus simple - est de construire la distribution croisée de toutes les combinaisons sexe-âge, et de tirer dans cette loi de distribution croisée chaque sujet d'un sexe et d'un âge donné.

En effet, j'avais pensé à ça mais je m'étais persuadé que c'était trop compliqué... Ceci dit, en y repensant, la probabilité affectée à un individu serait donnée directement par la distribution pour les valeurs de l'âge et du sexe de cet individu, c'est bien ça?

Avec 800 individus, je dois pouvoir faire une estimation assez robuste de la distribution...

OrsayMan

Nombre de messages : 7
Date d'inscription : 02/09/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par Eric Wajnberg le Ven 4 Sep 2015 - 6:27

OrsayMan a écrit:En effet, j'avais pensé à ça mais je m'étais persuadé que c'était trop compliqué... Ceci dit, en y repensant, la probabilité affectée à un individu serait donnée directement par la distribution pour les valeurs de l'âge et du sexe de cet individu, c'est bien ça?
Oui, je pense que vous reformulez ce que je dis correctement.
OrsayMan a écrit:Avec 800 individus, je dois pouvoir faire une estimation assez robuste de la distribution...
Je ne suis pas sûr de bien saisir ce que vous voulez dire par "robuste". Vous avez la distribution que vous avez. Vous proposez une procédure. J'en propose une autre. La robustesse (quoi que veuille dire ce mot) sera la même dans les deux cas de toute façon, il me semble.

HTH, Eric.

Eric Wajnberg

Nombre de messages : 307
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par OrsayMan le Ven 4 Sep 2015 - 7:50

Eric Wajnberg a écrit:
OrsayMan a écrit:En effet, j'avais pensé à ça mais je m'étais persuadé que c'était trop compliqué... Ceci dit, en y repensant, la probabilité affectée à un individu serait donnée directement par la distribution pour les valeurs de l'âge et du sexe de cet individu, c'est bien ça?
Oui, je pense que vous reformulez ce que je dis correctement.
OK, je m’attelle à mettre en œuvre ça.

Eric Wajnberg a écrit:
OrsayMan a écrit:Avec 800 individus, je dois pouvoir faire une estimation assez robuste de la distribution...
Je ne suis pas sûr de bien saisir ce que vous voulez dire par "robuste". Vous avez la distribution que vous avez. Vous proposez une procédure. J'en propose une autre. La robustesse (quoi que veuille dire ce mot) sera la même dans les deux cas de toute façon, il me semble.
Par robuste, je voulais dire informellement qu'on peut faire une bonne estimation de la vraie distribution à partir des 800 individus (même si mon sous-échantillon doit juste ressembler aux 800 individus).

OrsayMan

Nombre de messages : 7
Date d'inscription : 02/09/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par gg le Ven 4 Sep 2015 - 11:09

Bonjour.

Je suis de plus en plus dubitatif sur l'intérêt de la procédure. A priori, l'échantillon de 800 dévie légèrement de la vraie proportion pour chacune des variables. Donc il s'agit de s'approcher d'une répartition fausse.
D'autre part, quel peut être l'intérêt d'un sous-échantillon quand on a l'échantillon global ? Les estimations qu'on en tirera seront toujours moins bonnes.

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par Eric Wajnberg le Ven 4 Sep 2015 - 14:25

gg a écrit:D'autre part, quel peut être l'intérêt d'un sous-échantillon quand on a l'échantillon global ? Les estimations qu'on en tirera seront toujours moins bonnes.Cordialement.
Bonne question ! Je ne suis pas l'auteur du post d'origine, mais j'utilise pourtant fréquemment cette procédure pour faire des estimations boostrap d'intervalles de confiance sur mes paramètres. C'est peut-être là la raison ?

Eric.

Eric Wajnberg

Nombre de messages : 307
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par OrsayMan le Lun 7 Sep 2015 - 15:27

Eric Wajnberg a écrit:
gg a écrit:D'autre part, quel peut être l'intérêt d'un sous-échantillon quand on a l'échantillon global ? Les estimations qu'on en tirera seront toujours moins bonnes.Cordialement.
Bonne question ! Je ne suis pas l'auteur du post d'origine, mais j'utilise pourtant fréquemment cette procédure pour faire des estimations boostrap d'intervalles de confiance sur mes paramètres. C'est peut-être là la raison ?

Mon but est de mettre de côté des individus qui seront utilisés pour une certains traitements (en gros calculer une image moyenne qui sera utilisée ensuite pour recaler les images de chaque individu). Ces sujets ne seront pas utilisés dans les expériences suivantes (classification). L'idée est de ne pas biaiser l'évaluation des performances de classification (il faut donc que l'image moyenne soit représentative de la population mais ne contienne pas les individus qu'on classe).

OrsayMan

Nombre de messages : 7
Date d'inscription : 02/09/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Interprétation des résultats d'un test Chi2

Message par Contenu sponsorisé Aujourd'hui à 18:05


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum