test de proportion entre deux pop dont l'une incluse

par papillon0 Lun 1 Mar 2010 - 9:06

Bonjour, je viens vers vous car j'ai un problème que j'ai beau tourner dans tout les sens mais que je n'arrive pas à résoudre de manière satisfaisante :
J'aimerai comparer 2 proportions entre eux population dont l'une est incluse dans l'autre. Du coup mes populations ne sont pas indépendantes mais ne sont pas non plus vraiment appairée (enfin que sur une petite partie).
Et là je ne sais pas trop vraiment quoi faire.
L'idée que j'avais c'était d'utiliser betement la décomposition de la variance :
Soit A la proportion sur mon echantillon, B sur ma population totale :
VAR(A-B) = VAR(A)+ VAR(B) -2Cov(A,B)
= VAR(A) + VAR(B) -2cov(A\\B+B,B)
= VAR(A)+VAR(B) - 2 VAR(B)
= VAR(A)-VAR(B)
et après de faire un truc du genre VAR(A)=A(1-A)/Na et VAR(B)=B(1-B)/Nb mais quand je fais ça ... j'arrive à une estimation de la variance de ma différence négative ... du coup je me dis que j'ai du me louper qqpart test de proportion entre deux pop dont l'une incluse Icon_redface

Donc voilà je soumets mon pb à la communauté car après moult recherche sur le net je n'ai pas trouvé d'élément pour mon pb

Merci par avance

par popotam Sam 6 Mar 2010 - 7:52

D'abord si A et B sont des variables aléatoires non corrélées, on a Var(A-B)=Var(A)+Var(B), et non pas Var(A)-Var(B).

Ensuite tes proportions ne sont pas des variables aléatoires...

Explique plutôt comment se présentent tes données et à quoi tu t'intéresses précisément.

par papillon0 Dim 7 Mar 2010 - 9:07

bonjour,
eh bien je parle du cas où l'une des populations est incluse dans l'autre donc ce qui est sur c'est que VAR(A-B) n'est pas égale à var (A) + var(B) Smile

Bon en fait je pense que j'ai un élément de réponse.
on va prendre un exemple concret :
Je m'intéresse disons aux opérateurs mobile et notamment à la proportion de gens ayant un iphone selon l'opérateur. Et je veux comparer la proportion d'iphone chez orange on va dire à la proportion de personne ayant un iphone tout court.
Pour cela je ne dispose que d'un échantillon représentatif de la population française.
Du coup si Porg est la proportion chez Orange et Ptot au total, je ne les connais pas , je les estime par :
p^org=(nb personne ayant un iphone chez Orange)/ nb personnes etant chez orange
p^tot = nb personne ayant un iphone / nb personne tot

et c'est là qu je fais VAR(p^org-p^tot) = VAR(p^org)+VAR(p^tot)-2*COV(p^org,p^tot).

On a classiquement :
var(p^org)=p^org(1-p^org)/Norg
var(p^tot)=p^tot(1-p^tot)/Ntot

et pour moi COV(p^org,p^tot)=var(p^org)/Ntot (et non Norg, formule que l'on retouve en développant la covariance qui est une forme bilinéraire symétrique).

du coup pour moi VAR(p^org-p^tot) = p^tot(1-p^tot)/Ntot +(1/Norg-2/Ntot)*p^tot(1-p^tot)

De là si on pose Ho : porg=ptot=p la vraie proportion, on peut approximer p par p^=p^tot.
ce qui donne au final VAR(p^org-p^tot) =p^(1-p^)/Ntot+p^(1-p^)*(1/Norg-2/Ntot)*
Soit : VAR(p^org-p^tot)=p^(1-p^)*(1/Norg-1/Ntot)
Ce qui donne in fine : VAR(p^org-p^tot)=p^tot(1-p^tot)(1/Norg-1/Ntot).

Que pensez vous de mon raisonnement ? je dois dire que depuis que je me suis posé cette question, j'en ai parlé avec d'autre gens et je pense que ce que je propose est une bonne estimation de la variance de la différence de deux proportions entre une sous-population et la population totale.

Effectivement je n'avais pas précisé que j'étais sur un echantillon représentatif, mais mes proportions sont bien des variables aléatoires Smile

. Enfin il me semble.

Je suis preneur de toutes les remarques sur ma méthodo Smile

par popotam Dim 7 Mar 2010 - 14:58

Pourquoi p^org = (nb personnes qui ont un iphone orange)/(nb personnes chez orange) et non pas p^org = (nb personnes qui ont un iphone orange)/(nb personnes tot) ?

Note qu'ici "nb personnes chez orange" est aléatoire.

par papillon0 Dim 7 Mar 2010 - 19:20

eh bien p^org étant le taux de client orange ayant un I-phone je ne vois pas bien comment on peut l'estimer. nb personne chez orange n'est pas une variable aléatoire ici, c'est juste que l'on se place sur l'univers des clients Orange. En effet, l'échantillon étant tiré, le nombre de client orange n'est plus aléatoire.
Je dois avouer que pour moi aussi c'était une variable aléatoire au début, ce qui aurait impliqué que je n'étais pas face à une proportion mais face à un ratio. Mais après en avoir parlé avec le responsable du département scientifique de la Sofres et après m'être renseigné auprès de gens qui bossent dans le domaine, il s'avère que c'est bien autre chose qu'une variable aléatoire.

Du coup que penses tu de tout cela ?

par popotam Lun 8 Mar 2010 - 6:23

Je ne comprends pas l'intérêt de comparer la proportion de gens qui ont un iphone en général avec la proportion de gens qui ont un iphone parmi les gens abonnés chez orange.

par papillon0 Lun 8 Mar 2010 - 7:16

eh bien pour savoir si orange a un positionnement comparable à la moyenne ou pas par exemple (car c'est bien la proportion chez ORG VS la proportion globale)
Le mieux est sans doute de comparer par rapport à la population totale sans orange mais fonctionnellement (car il faut bien se rappeler que dans beaucoup de cas les statistiques ne sont qu'un outil destiné à apporter des éléments d'aide à la décision, notamment dans un cadre marketing), il est courant de comparer une caractéristique d'une sous population à la population globale.
Et dans un tableau de bord ou un outil de pilotage, il est plus facile de restituer des comparaison d'une sous population à la population totale. Les gens du marketing deviennent vite frileux quand il faut faire des gymnastiques du genre "ah oui ce chiffre est comparé au taux d'équipement mais sans compter les gens de ma sous-population".
Ceci étant dit on peut discuter de ce point de vue à l'infini je pense Smile

.

Sinon ma méthodo de calcule , pas d'avis ?

par popotam Lun 8 Mar 2010 - 13:40

Jusqu'ici j'ai eu la flemme de décoder tes calculs (dommage qu'on n'a pas des symboles mathématiques sur ce forum).

J'aimerais faire le point avant tout, et proposer des notations pour continuer :

- n : taille de l'échantillon
- m : nb de gens chez Orange (donc m<n)
- y : nb de gens qui ont un iphone (y<n)
- x : nb de gens qui sont chez Orange et ont un iphone (x<y et x<m)
- p = x/m
- p' = y/n
- on cherche Var(p-p')

Est-ce bien ça ?

par papillon0 Lun 8 Mar 2010 - 13:51

oui c'est fort dommage comme tu dis.
niveau notation, c'est cela. et on cherche var(p-p') exactement.

par popotam Lun 8 Mar 2010 - 16:22

Autre question : on suppose qu'un mec qui est chez Orange, et qui a un iphone, a forcément un iphone de chez Orange ?..

par papillon0 Lun 8 Mar 2010 - 16:35

lol disons que je ne vais pas jusqu'a cette distinction mais on va supposer que oui, en fait dans mon exemple (enfin c'était juste un exemple), je veux comparer le taux de pénétration iphone chez orange VS la pénétration sur le marché mobile. donc la seule notion que je considère est le fait d'avoir un iphone selon mon opérateur Smile

par Contenu sponsorisé

test de proportion entre deux pop dont l'une incluse

test de proportion entre deux pop dont l'une incluse

Re: test de proportion entre deux pop dont l'une incluse

Re: test de proportion entre deux pop dont l'une incluse

Re: test de proportion entre deux pop dont l'une incluse

Re: test de proportion entre deux pop dont l'une incluse

Re: test de proportion entre deux pop dont l'une incluse

Re: test de proportion entre deux pop dont l'une incluse

Re: test de proportion entre deux pop dont l'une incluse

Re: test de proportion entre deux pop dont l'une incluse

Re: test de proportion entre deux pop dont l'une incluse

Re: test de proportion entre deux pop dont l'une incluse

Re: test de proportion entre deux pop dont l'une incluse