Additivité des données dans un test

par zezima Mer 27 Avr 2016 - 8:36

Bonjour,

J'aimerais comparer la proportion des modalités d'une variable binaire d'un centre en fonction de tous les centres de mon étude afin de voir si certaines modalités sont sur/sous-exprimées.

J'ai deux choix qui s'offrent à moi :

1- Faire un test en prenant d'un côté les données de mon centre et de l'autre toutes les données de l'étude (tous les centres dont le centre concerné)

2- Faire un test en prenant d'un côté les données de mon centre et de l'autres toutes les données de l'étude sauf celles du centre concerné

Est-ce qu'on est bien d'accord que dans un soucis d'additivité des données, on est obligé de rayer la méthode 1 et de sélectionner la méthode 2 ?

Je vous remercie d'avance.

par niaboc Mer 27 Avr 2016 - 12:50

Bonjour,

je pense que les deux solutions sont possibles. Mais le test derrière ne sera pas le même.

Dans le cas 1, il faut se référer à la théorie des sondages pour savoir si la proportion observée ne diffère pas de la proportion sur l'ensemble des centres.
Dans le cas 2 : c'est un test du khi-deux ou de différence de proportion.

Niaboc

par zezima Mer 27 Avr 2016 - 13:11

D'accord, étant donné l'effectif, je pense que ça ne posera pas de problème de prendre la solution numéro 2 (car les centres regroupés - 1 centre ça ne change pas vraiment l'effectif).
Et il me semble qu'en théorie ça a plus de sens de faire comme cela.

Le seul problème sera au niveau du codage mais bon c'est pas grave.

Merci Niaboc Smile

par Eric Wajnberg Jeu 28 Avr 2016 - 4:35

La solution 1 ne me semble pas valide car les données comparées ne sont par définition plus indépendantes. Je choisirais la seconde, ou mieux d'abord une comparaison globale de tout les centres et - si différent - des comparaisons multiples dans un schéma type ANOVA, mais sur une régression logistique (puisque la variable dépendante est binaire).

HTH, Eric.

par niaboc Jeu 28 Avr 2016 - 8:05

La solution 1 est valide. Cette méthode est d'ailleurs assez répandue, notamment via la méthode DEMOD de Spad.

Niaboc

par zezima Jeu 28 Avr 2016 - 9:36

Je vais fouiller tout ça.

Merci bien messieurs

par Eric Wajnberg Ven 29 Avr 2016 - 14:58

niaboc a écrit:La solution 1 est valide. Cette méthode est d'ailleurs assez répandue, notamment via la méthode DEMOD de Spad.Niaboc

Dans mes lointains souvenirs, la méthode DEMOD de Spad permet de caractériser une variable qualitative. Il n'y a pas de procédure de comparaison et d'inférence.

Il reste que, dans la méthode 1, la comparaison avec l'ensemble des données inclue les mêmes données dans les deux échantillons comparés. Les données ne sont pas indépendantes, et la procédure de comparaison ne peut être valide. Ou en tout cas, l'estimation du risque de première espèce des tests réalisés sera plus forte que sa véritable valeur, ce qui empêche toute interprétation (surtout qu'on est ici de plus dans une procédure de comparaisons multiple).

HTH, Eric.

par zezima Ven 29 Avr 2016 - 15:22

Eric Wajnberg a écrit:[...]l'estimation du risque de première espèce des tests réalisés sera plus forte que sa véritable valeur, ce qui empêche toute interprétation [...].

Oui voilà, au final on va avoir des différences plus faibles entre les deux groupes, tout à fait convaincu.[/quote]

par niaboc Ven 29 Avr 2016 - 15:50

Eric Wajnberg a écrit:
Il reste que, dans la méthode 1, la comparaison avec l'ensemble des données inclue les mêmes données dans les deux échantillons comparés. Les données ne sont pas indépendantes, et la procédure de comparaison ne peut être valide. Ou en tout cas, l'estimation du risque de première espèce des tests réalisés sera plus forte que sa véritable valeur, ce qui empêche toute interprétation (surtout qu'on est ici de plus dans une procédure de comparaisons multiple).
HTH, Eric.

Je crois bien pourtant que ce qui est fait dans la macro %caracParQuali d'O.Decourt.
Ou encore dans la macro DESQUAL de l'INSEE (mais c'est peut-être plutôt un simple test d'homogénéité du khi-deux)

Je ne comprends pas tout ce que tu veux dire peut-être (surement?).
Mais je ne vois pourtant pas la différence de ce genre de test par rapport à un test de khi-deux d'homogénéité ou d'une moyenne observée à une moyenne théorique?
Tu compares bien la moyenne de ton échantillon à une moyenne théorique censée représentée la moyenne de toute ta population? Sauf que là on possède la moyenne de toute la population et on peut même récupérer la variance de l'ensemble de la population!

En gros ça se résume à un test de proportion classique sauf que la variance de l'estimateur va être pondérée par (1-taux de sondage) et on se retrouve avec la variance de l'estimateur qui vaut :
Vp=(N-n)/(N-1)*1/n*Nj/N*(1-Nj/N)

la valeur test est donc:
(nj/n-Nj/N)/racine(Vp)

avec Nj l'effectif dans la modalité j.

Niaboc

par niaboc Ven 29 Avr 2016 - 15:53

Pour la méthode SPAD ce document en parle (la méthode s'appellerait PARTI-DECLA maintenant, que la variable soit qualitative ou quantitative) :

http://www.math.u-bordeaux.fr/~machaven/wordpress/wp-content/uploads/2013/10/cours_classif_SPAD.pdf

par Eric Wajnberg Ven 29 Avr 2016 - 16:43

niaboc a écrit:
Mais je ne vois pourtant pas la différence de ce genre de test par rapport à un test de khi-deux d'homogénéité ou d'une moyenne observée à une moyenne théorique?

Attention, dans le cas d'une comparaison à une valeur théorique (ou un d’homogénéité d'un pourcentage), c'est effectivement une valeur théorique (i.e., sans variance) qui sert de point de référence. Ici, en revanche, on compare deux moyennes, qui ont toutes les deux leur distribution, leur SE, etc. Ca n'est pas du tout la même chose.

Enfin, je ne connais pas la macro %caracParQuali d'O.Decourt, ni la macro DESQUAL de l'INSEE. Mais si ces macros mettent en place une procédure de test correspondant à la méthode 1, je crains alors qu'elles soient erronées.

Eric.

par niaboc Ven 29 Avr 2016 - 22:10

Eric Wajnberg a écrit:
Il reste que, dans la méthode 1, la comparaison avec l'ensemble des données inclue les mêmes données dans les deux échantillons comparés. Les données ne sont pas indépendantes, et la procédure de comparaison ne peut être valide. Ou en tout cas, l'estimation du risque de première espèce des tests réalisés sera plus forte que sa véritable valeur, ce qui empêche toute interprétation (surtout qu'on est ici de plus dans une procédure de comparaisons multiple).

J'en ai parlé avec quelques personne qui m'ont dit que cet effet leur semble pris en compte dans le calcul de la variance :

(N-n)/(N-1)*1/n*Nj/N*(1-Nj/N)

De plus ma réflexion diverge à cet endroit :

Eric Wajnberg a écrit:Ici, en revanche, on compare deux moyennes, qui ont toutes les deux leur distribution, leur SE, etc.

On possède la population entière, et donc la moyenne sur l'ensemble des centres correspond bien à la valeur théorique (sans variance) - dont on possède ici la valeur réelle. On a bien affaire à la population totale et non pas à un deuxième échantillon?

Enfin c'est comme ça que je le comprends...

Sur ce, bon courage Zezima :-)

par Contenu sponsorisé

Additivité des données dans un test

Additivité des données dans un test

Re: Additivité des données dans un test

Re: Additivité des données dans un test

Re: Additivité des données dans un test

Re: Additivité des données dans un test

Re: Additivité des données dans un test

Re: Additivité des données dans un test

Re: Additivité des données dans un test

Re: Additivité des données dans un test

Re: Additivité des données dans un test

Re: Additivité des données dans un test

Re: Additivité des données dans un test

Re: Additivité des données dans un test