Interprétation des résultats d'un test Chi2

par OrsayMan Mer 2 Sep 2015 - 15:15

Bonjour,

J'aurais besoin d'un peu d'aide pour interpréter les résultats d'un test Chi².

Pour donner un peu de contexte, je cherche à extraire un échantillon d'une population en respectant la distribution de plusieurs variables discrètes (sexe) ou discrétisées (âge). Je pensais procéder ainsi:

estimer la distribution des variables sur toute la population
sélectionner des sujets au hasard
tester avec un Chi² si les variables ont la même distribution: si oui on a gagné, sinon retourner à 2

Ma question concerne le point 3. L'hypothèse nulle du test du Chi² est que les distributions sont égales. Donc en fait, on voudrait conserver cette hypothèse.
Dans l'idéal, il faudrait étudier la puissance du test (probabilité d'erreur de deuxième type) mais je crois qu'on n'a pas de formule dans le cas du Chi².
Les p-value retournées sont très grandes par exemple 0.99897752863869838 (j'utilise l'implémentation de scipy). Du coup si je comprends bien, on peut conserver H₀. N'est-ce pas? Plus généralement, il faudrait fixer un seuil élevé (mettons 95%) et conserver H₀ si la p-value est supérieure au seuil.

Juste pour confirmer: le nombre de degrés de liberté dans ce cas est toujours 0 (on a k classes mais l=k-1 sont estimées à partir des données donc dof = k - 1 - (k-1) = 0). Correct?

Au passage, si quelqu'un connaît une meilleure manière de faire, je suis preneur.

par gg Jeu 3 Sep 2015 - 7:55

Bonjour.

Si tu n'acceptes l'échantillon que si la p-value dépasse 95%, alors tu rejetteras 19 échantillons sur 20.
Je suis très surpris par la p-value que tu annonces, cela voudrait dire que ton échantillon respecte quasiment parfaitement la répartition dans la population. Ce qui est généralement impossible pour des raisons simples : Si sur 100 individus, tu as 35 a et 65 b, alors, dans un échantillon de 10, tu auras au mieux 3 a et 7 b ou 4 a et 6 b, donc une erreur de fréquence de 5% minimum.
Je ne comprends pas non plus ton raisonnement sur les ddl, d'ailleurs 0 ddl veut dire qu'on sait tout.

Cordialement.

par Nik Jeu 3 Sep 2015 - 8:40

Bonjour,

Pour compléter la réponse de gg.

Du coup si je comprends bien, on peut conserver H0. N'est-ce pas?

Je dirais que tu ne peux pas rejeter H0. Ceci pourrait apparaitre comme un simple problème de rédaction mais peut aussi traduire un problème de compréhension de ce qui est réalisé dans un test d'hypothèse. Donc un test d'hypothèse conduit à rejeter ou non H0 à un risque alpha choisi.

le nombre de degrés de liberté dans ce cas est toujours 0 (on a k classes mais l=k-1 sont estimées à partir des données donc dof = k - 1 - (k-1) = 0). Correct?

non

. Dans le cas d'un test d'adéquation on prend ddl = k-1. Ceci tient au fait que le chi² partiel ne sont pas totalement indépendant étant donné que le dernier est connu par la différence entre la somme totale et la somme des k-1 autres chi² partiels.

Nik

par Eric Wajnberg Jeu 3 Sep 2015 - 9:19

Mais n'est-il pas plus simple, dans l'étape 2, de tirer au hasard des sujets, non pas avec équiprobabilité, mais avec une probabilité de tirage qui vient de leur distribution (en sexe et âge). Du coup, par construction, l'échantillon sera automatiquement représentatif de la population d'origine. C'est une démarche classique dans des procédures de Monte Carlo.

Sous R, par exemple, la fonction sample() accepte un argument "prob" qui sert justement à ça.

HTH, Eric.

par OrsayMan Jeu 3 Sep 2015 - 9:43

Nik a écrit:
Du coup si je comprends bien, on peut conserver H0. N'est-ce pas?
Je dirais que tu ne peux pas rejeter H0. Ceci pourrait apparaitre comme un simple problème de rédaction mais peut aussi traduire un problème de compréhension de ce qui est réalisé dans un test d'hypothèse. Donc un test d'hypothèse conduit à rejeter ou non H0 à un risque alpha choisi.

Oui, la formulation est abusive: on devrait dire qu'on ne peut pas rejeter H₀ mais comme on n'a pas la puissance du test, je ne vois pas d'autre moyen de valider le choix de H₀.

Nik a écrit:
le nombre de degrés de liberté dans ce cas est toujours 0 (on a k classes mais l=k-1 sont estimées à partir des données donc dof = k - 1 - (k-1) = 0). Correct?
non . Dans le cas d'un test d'adéquation on prend ddl = k-1. Ceci tient au fait que le chi² partiel ne sont pas totalement indépendant étant donné que le dernier est connu par la différence entre la somme totale et la somme des k-1 autres chi² partiels.

Certes mais j'ai lu dans le livre de Saporta que si on estime l paramètres de la distribution de référence ddl = k-1-l. Or, j'estime l-1 paramètres de la distribution de référence dans le point 1. Ceci dit, comme le dit gg, un nombre de ddl à 0 n'a pas beaucoup de sens.

par OrsayMan Jeu 3 Sep 2015 - 9:48

gg a écrit:

Si tu n'acceptes l'échantillon que si la p-value dépasse 95%, alors tu rejetteras 19 échantillons sur 20.
Je suis très surpris par la p-value que tu annonces, cela voudrait dire que ton échantillon respecte quasiment parfaitement la répartition dans la population. Ce qui est généralement impossible pour des raisons simples : Si sur 100 individus, tu as 35 a et 65 b, alors, dans un échantillon de 10, tu auras au mieux 3 a et 7 b ou 4 a et 6 b, donc une erreur de fréquence de 5% minimum.

Il y a peut-être un problème dans mon code: d'après l'aide, la fonction scipy.stats.chisquare utilise les fréquences mais apparemment ils veulent dire le nombre de fois qu'une classe a été observée. Ceci dit, j'ai plus de 800 individus au départ et j'en prends 50.

gg a écrit:
Je ne comprends pas non plus ton raisonnement sur les ddl, d'ailleurs 0 ddl veut dire qu'on sait tout.

D'accord avec vous mais voir ma réponse à Nix au-dessus.

par OrsayMan Jeu 3 Sep 2015 - 9:50

Eric Wajnberg a écrit:Mais n'est-il pas plus simple, dans l'étape 2, de tirer au hasard des sujets, non pas avec équiprobabilité, mais avec une probabilité de tirage qui vient de leur distribution (en sexe et âge). Du coup, par construction, l'échantillon sera automatiquement représentatif de la population d'origine. C'est une démarche classique dans des procédures de Monte Carlo.

Sous R, par exemple, la fonction sample() accepte un argument "prob" qui sert justement à ça.

J'ai cherché des trucs comme ça mais je n'ai trouvé le moyen de le faire que pour une seule variable dont on veut respecter la distribution. Pour plusieurs, je ne vois pas comment attribuer un poids. Une idée?

par Eric Wajnberg Jeu 3 Sep 2015 - 11:00

OrsayMan a écrit:J'ai cherché des trucs comme ça mais je n'ai trouvé le moyen de le faire que pour une seule variable dont on veut respecter la distribution. Pour plusieurs, je ne vois pas comment attribuer un poids. Une idée?

Une solution - la plus simple - est de construire la distribution croisée de toutes les combinaisons sexe-âge, et de tirer dans cette loi de distribution croisée chaque sujet d'un sexe et d'un âge donné.

Eric.

par OrsayMan Jeu 3 Sep 2015 - 21:10

Eric Wajnberg a écrit:
OrsayMan a écrit:J'ai cherché des trucs comme ça mais je n'ai trouvé le moyen de le faire que pour une seule variable dont on veut respecter la distribution. Pour plusieurs, je ne vois pas comment attribuer un poids. Une idée?
Une solution - la plus simple - est de construire la distribution croisée de toutes les combinaisons sexe-âge, et de tirer dans cette loi de distribution croisée chaque sujet d'un sexe et d'un âge donné.

En effet, j'avais pensé à ça mais je m'étais persuadé que c'était trop compliqué... Ceci dit, en y repensant, la probabilité affectée à un individu serait donnée directement par la distribution pour les valeurs de l'âge et du sexe de cet individu, c'est bien ça?

Avec 800 individus, je dois pouvoir faire une estimation assez robuste de la distribution...

par Eric Wajnberg Ven 4 Sep 2015 - 6:27

OrsayMan a écrit:En effet, j'avais pensé à ça mais je m'étais persuadé que c'était trop compliqué... Ceci dit, en y repensant, la probabilité affectée à un individu serait donnée directement par la distribution pour les valeurs de l'âge et du sexe de cet individu, c'est bien ça?

Oui, je pense que vous reformulez ce que je dis correctement.

OrsayMan a écrit:Avec 800 individus, je dois pouvoir faire une estimation assez robuste de la distribution...

Je ne suis pas sûr de bien saisir ce que vous voulez dire par "robuste". Vous avez la distribution que vous avez. Vous proposez une procédure. J'en propose une autre. La robustesse (quoi que veuille dire ce mot) sera la même dans les deux cas de toute façon, il me semble.

HTH, Eric.

par OrsayMan Ven 4 Sep 2015 - 7:50

Eric Wajnberg a écrit:
OrsayMan a écrit:En effet, j'avais pensé à ça mais je m'étais persuadé que c'était trop compliqué... Ceci dit, en y repensant, la probabilité affectée à un individu serait donnée directement par la distribution pour les valeurs de l'âge et du sexe de cet individu, c'est bien ça?
Oui, je pense que vous reformulez ce que je dis correctement.

OK, je m’attelle à mettre en œuvre ça.

Eric Wajnberg a écrit:
OrsayMan a écrit:Avec 800 individus, je dois pouvoir faire une estimation assez robuste de la distribution...
Je ne suis pas sûr de bien saisir ce que vous voulez dire par "robuste". Vous avez la distribution que vous avez. Vous proposez une procédure. J'en propose une autre. La robustesse (quoi que veuille dire ce mot) sera la même dans les deux cas de toute façon, il me semble.

Par robuste, je voulais dire informellement qu'on peut faire une bonne estimation de la vraie distribution à partir des 800 individus (même si mon sous-échantillon doit juste ressembler aux 800 individus).

par gg Ven 4 Sep 2015 - 11:09

Bonjour.

Je suis de plus en plus dubitatif sur l'intérêt de la procédure. A priori, l'échantillon de 800 dévie légèrement de la vraie proportion pour chacune des variables. Donc il s'agit de s'approcher d'une répartition fausse.
D'autre part, quel peut être l'intérêt d'un sous-échantillon quand on a l'échantillon global ? Les estimations qu'on en tirera seront toujours moins bonnes.

Cordialement.

par Eric Wajnberg Ven 4 Sep 2015 - 14:25

gg a écrit:D'autre part, quel peut être l'intérêt d'un sous-échantillon quand on a l'échantillon global ? Les estimations qu'on en tirera seront toujours moins bonnes.Cordialement.

Bonne question ! Je ne suis pas l'auteur du post d'origine, mais j'utilise pourtant fréquemment cette procédure pour faire des estimations boostrap d'intervalles de confiance sur mes paramètres. C'est peut-être là la raison ?

Eric.

par OrsayMan Lun 7 Sep 2015 - 15:27

Eric Wajnberg a écrit:
gg a écrit:D'autre part, quel peut être l'intérêt d'un sous-échantillon quand on a l'échantillon global ? Les estimations qu'on en tirera seront toujours moins bonnes.Cordialement.
Bonne question ! Je ne suis pas l'auteur du post d'origine, mais j'utilise pourtant fréquemment cette procédure pour faire des estimations boostrap d'intervalles de confiance sur mes paramètres. C'est peut-être là la raison ?

Mon but est de mettre de côté des individus qui seront utilisés pour une certains traitements (en gros calculer une image moyenne qui sera utilisée ensuite pour recaler les images de chaque individu). Ces sujets ne seront pas utilisés dans les expériences suivantes (classification). L'idée est de ne pas biaiser l'évaluation des performances de classification (il faut donc que l'image moyenne soit représentative de la population mais ne contienne pas les individus qu'on classe).

par Contenu sponsorisé

Interprétation des résultats d'un test Chi2

Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2

Re: Interprétation des résultats d'un test Chi2