Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Le Deal du moment : -50%
Friteuse sans huile – PHILIPS – Airfryer ...
Voir le deal
54.99 €
Le Deal du moment : -67%
Carte Fnac+ à 4,99€ au lieu de 14,99€ ...
Voir le deal
4.99 €

Méthodes d'analyse

2 participants

Aller en bas

Méthodes d'analyse Empty Méthodes d'analyse

Message par Msieurduss Ven 2 Mar 2012 - 15:38

Bonjour à tous,

Dans le cadre de travaux en sciences humaines, je suis amené à travailler sur quelques enquêtes.
Je n'ai pas de formation en statistiques, ce qui m'amène ici pour essayer de clarifier certains points...
Côté pratique, j'utilise le logiciel Sphinx.

Mes questions sont les suivantes :
1. Comment lire un chi-2 ? Je m'explique. Je comprends bien le sens du chi-2 qui signifie qu'il y a une dépendance entre deux variables.
Mais j'ai pu voir par exemple ici qu'ils poussaient l'analyse : PAGE 19 - http : // enset-media. ac .ma/cpa/Fixe/Sphinx.pdf (merci d'enlever les espaces, je n'ai pas le droit de poster des liens étant nouveau venu...)
Ils poussent l'analyse est interprétant les "+" et les "-". Est-ce juste ? N'est-ce pas un faire parler les chiffres plus que de raison ?

2. Et justement par rapport à ça, peut-on lire quelque chose d'autre dans un chi-2 que "Variable1 est liée à Variable2" ? Avec notamment cette notion d'effectif théorique (= hasard si j'ai bien compris) inférieur/supérieur à effectif réel ?
Jusqu'à présent, le chi-2 me semblait surtout servir à confirmer/infirmer des hypothèses de liens entre variables.
(exemple au hasard : les femmes cuisinent plus souvent que les hommes > FAUX car indépendance d'après le chi-2 entre variable "temps passé à cuisiner" et variable "genre" par exemple)

3. Au-delà de ça, avec ma maigre culture en statistiques, comment puis-je lire des tableaux à plat ou croisés et en tirer des conclusions de manière scientifique ? Par exemple, lorsque j'observe qu'il y a énormément de personnes de tel âge qui pratique telle ou telle activité, qu'est-ce qui, scientifiquement, me permet d'affirmer ce "énormément" ?
Car je peux bien sûr voir 80% de 15-25 faire une activité, mais comment le dire scientifiquement ?

Merci d'avance pour vos réponses à mes longues questions ! Smile

Msieurduss

Nombre de messages : 4
Date d'inscription : 02/03/2012

Revenir en haut Aller en bas

Méthodes d'analyse Empty Re: Méthodes d'analyse

Message par gg Ven 2 Mar 2012 - 22:30

Bonjour.

"Je n'ai pas de formation en statistiques". Il faut croire que tu es devin, alors, car tes questions sont très pertinentes. J'imagine que tu veux dire que tu n'as jamais eu de cours, mais que tu as appris seul (c'est aussi mon cas).

1) Voir la réponse à 3.
2) Le résultat du test, s'il est significatif est bien seulement qu'il y a dépendance entre les variables. L'exemple que tu prends est justement celui qui ne marche pas : La réussite d'un test d'hypothèse ne prouve rien. J'y reviendrai.
3) On peut toujours lire des données et les interpréter sans calculs. Pour avoir une activité scientifique, il faut raisonner sur le concret. Le calcul n'est qu'une aide. "lorsque j'observe qu'il y a énormément de personnes de tel âge qui pratique telle ou telle activité", je dis la réalité observée. On peut alors traduire cette situation par des codes, mais "énormément" n'est en rien un mot scientifique donc tu ne peux pas "le dire scientifiquement". de la même façon, dans un test du khi-deux, la conclusion du test est "variables significativement dépendantes", mais rien n'empêche d'analyser comment se fait la dépendance dans l'échantillon concerné. A condition de ne pas se faire d'illusion sur la représentativité de certaines analyses sur des effectifs faibles.

Passons à l’interprétation d'un test statistique : Quand le test réussit (valeur dans l'intervalle d'acceptation - ou p-value suffisamment élevée), la valeur test est suffisamment proche de la valeur théorique pour que ce soit normal si l'hypothèse H0 est vraie. Mais comme justement on veut savoir si elle est vraie, ce "si, cette condition n'a aucune validité, et on ne peut rien conclure. par exemple, pour un test du khi-deux, trouver un khi-deux pas très éloigné de 0 peut provenir d'une indépendance entre les variables, ou bien d'une faible dépendance, ou bien d'une dépendance pas si faible, mais qui n'est pas très visible sur l'échantillon traité, ou ...
Par contre, si le test échoue (valeur hors de l'intervalle d'acceptation - ou p-value suffisamment faible), on a une vraie conclusion : Soit H0 est vraie est on est tombé sur un échantillon très rare, soit H0 est fausse. Comme on ne croit pas au très rare (*), on choisit de dire que H0 est significativement fausse. En n'oubliant pas le risque pris.

Cordialement.

(*) et encore ! avec le classique 5% le "rare" apparaît une fois sur 20, ce qui pose problème si on fait souvent des tests à ce seuil.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

Méthodes d'analyse Empty Re: Méthodes d'analyse

Message par Msieurduss Lun 5 Mar 2012 - 15:08

Bonjour et merci pour ta réponse ! Smile

En retour quelques questions pour des précisions supplémentaires si tu veux bien Wink

"Je n'ai pas de formation en statistiques". Il faut croire que tu es devin, alors, car tes questions sont très pertinentes. J'imagine que tu veux dire que tu n'as jamais eu de cours, mais que tu as appris seul (c'est aussi mon cas).
Un BAC S, mais qui a 7-8 ans...
Et quelques révisions en solo, ouaip !

il faut raisonner sur le concret. Le calcul n'est qu'une aide [...] je dis la réalité observée
Donc si j'ai bien compris, le calcul n'est pas obligatoire si la lecture des données est simple ? Par exemple dans les tris à plat, aucun souci pour faire des observations, et pour les tris croisés, j'imagine que ça dépend (le chi-2 permet quand même de vérifier qu'on ne dise pas de bêtise non ?).
Sinon je suis d'accord que "énormément" n'est en rien scientifique, c'était justement pour l'exemple Wink

rien n'empêche d'analyser comment se fait la dépendance dans l'échantillon concerné
Mais justement, comment fait-on ?

A condition de ne pas se faire d'illusion sur la représentativité de certaines analyses sur des effectifs faibles.
Aucun souci : je fais justement TRES attention à ce critère. J'analyse souvent les tableaux avec % et effectifs indiqués.

Quand le test réussit, la valeur test est suffisamment proche de la valeur théorique pour que ce soit normal si l'hypothèse H0 est vraie
Rappelles-moi, H0 c'est bien l'hypothèse qui dit que les deux variables ne sont pas liées ?
Donc par indépendance, on entend que "grosso-modo", les valeurs suivent une loi normale ?

Mais comme justement on veut savoir si elle est vraie, ce "si, cette condition n'a aucune validité, et on ne peut rien conclure. par exemple, pour un test du khi-deux, trouver un khi-deux pas très éloigné de 0 peut provenir d'une indépendance entre les variables, ou bien d'une faible dépendance, ou bien d'une dépendance pas si faible, mais qui n'est pas très visible sur l'échantillon traité, ou ...
Oui donc en gros, si j'ai bien compris, je retire ma question précédente sur la loi normale, et surtout, un chi-2 non significatif ne permet pas de conclure quoi que ce soit ?

Par contre, si le test échoue (valeur hors de l'intervalle d'acceptation - ou p-value suffisamment faible), on a une vraie conclusion : Soit H0 est vraie est on est tombé sur un échantillon très rare, soit H0 est fausse. Comme on ne croit pas au très rare (*), on choisit de dire que H0 est significativement fausse. En n'oubliant pas le risque pris.
Euh... Ah.
Du coup je ne comprends plus très bien en fait.

Si tu es toujours OK pour m'expliquer, peut-on prendre un exemple concret ?
Voici par exemple un des tris croisés que je peux faire sur une enquête, qui concerne une échantillon de 550 individus, représentatifs (à l'aide de plusieurs critères) d'une population dans une région, etc, etc, je passe les détails de contexte.

Je prends pour l'exemple le croisement de deux variables : Genre (homme / femme) & situation familiale (seul sans enfant, seul avec enfant(s), en couple sans enfant, en couple avec enfant(s)).

Si, avec mon petit logiciel Sphinx, je fais un test de Chi-2, voici ce qu'il m'indique :
(lire la légende pour voir ce que signifie le bleu / rose).

Méthodes d'analyse Exempl11

Donc en gros, dans l'ensemble :

1. Peut-on dire que (globalement) il y a une dépendance entre le genre et la situation familiale ?
Ou faut-il préciser ce qu'il en est des "cases" encadrées ?

2. Que peut-on dire justement par rapport à ces cases ?

3. Tant que j'y suis, quelle est la meilleure présentation : % en ligne, en colonne ou au total ?
Je comprends bien qu'il y a un sens de lecture (dans l'exemple donné, on peut dire que 45% des femmes sont en couple avec enfant(s), alors qu'en colonne, j'ai regardé, on dira que 63% des personnes en couple avec enfant(s) sont des femmes, mais dans le cas d'un chi-2, y a-t-il une façon de présenter particulière ?)

4. Sphinx permet d'autres affichages, comme celui des "contributions au chi-2", des "écarts par rapport à la théorie", etc.
Est-ce cela a un intérêt particulier pour montrer ou observer quelque chose lors des analyses ?

Méthodes d'analyse Contri10

Merci BEAUCOUP d'avance pour tes futures réponses, et déjà pour les actuelles !
Merci de prendre le temps pour répondre à des novices en mal de savoir Wink

Cordialement

Msieurduss

Nombre de messages : 4
Date d'inscription : 02/03/2012

Revenir en haut Aller en bas

Méthodes d'analyse Empty Re: Méthodes d'analyse

Message par gg Lun 5 Mar 2012 - 15:48

Ouf !!!

Je ne sais pas si je vais répondre à toutes tes questions, il y en a tant ! je commence :
"Par exemple dans les tris à plat, aucun souci pour faire des observations, et pour les tris croisés, j'imagine que ça dépend (le chi-2 permet quand même de vérifier qu'on ne dise pas de bêtise non ?)."
La première chose est évidemment de regarder les observations, pour commencer à choisir ce qu'on peut dire. Ensuite, que ce soit avec une seule ou plusieurs variables, il est parfois possible d'utiliser des tests statistiques pour valider (statistiquement, donc pas absolument) les observations. Deux remarques :
* Si on a les résultats de toute la population, les conclusions sont parfaites, il suffit de lire.
* Dans la plupart des tableaux à double entrée, le khi-deux n'est pas pertinent car il y a des cases vides, ou quasi vides. Il existe un autre test (test exact de Fischer), mais il est lourd. Et souvent décevant. mais sur un gros échantillon et pas trop de cases, la présence d'une case vide est significative, généralement

"Mais justement, comment fait-on ?" (dépendance)
Justement, en regardant si on peut modéliser ce qui se passe, et en comparant le résultat au modèle. Donc au lieu d'utiliser un modèle d'indépendance (ce qu'on fait quand on applique le khi-deux classique), on utilise un modèle de dépendance (adapté).

"H0 c'est bien l'hypothèse qui dit que les deux variables ne sont pas liées ?"
H0 c'est l'hypothèse du test. Dans le test du khi-deux sur un tableau croisé classique, l'hypothèse H0 est que les deux variables statistiques sont indépendantes.

"par indépendance, on entend que "grosso-modo", les valeurs suivent une loi normale ?"
Rien à voir. Tu devrais lire un peu de probas pour comprendre ce qu'est l'indépendance, mais en gros, si les valeurs d'une variable ne permettent en rien de mieux prévoir celles de l'autre, il y a indépendance. ce qui n'a rien à voir avec la loi sous-jacente, avec la répartition des valeurs d'une variable (loi Normale).

"un chi-2 non significatif ne permet pas de conclure quoi que ce soit ?"
Non ! Mais si on a une quasi certitude que les variables sont indépendantes, il confirme cette certitude. A peu près comme, quand on pense qu'il fait beau, le fait de voir le voisin sortir sans parapluie nous confirme.

Suite au prochain numéro...

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

Méthodes d'analyse Empty Re: Méthodes d'analyse

Message par gg Lun 5 Mar 2012 - 17:59

Maintenant ton exemple.

Tout de suite une remarque : la présentation (de sphinx, si j'ai bien compris) est assez malsaine, car les pourcentages présentés ne sont pas pris sur la même population. Les effectifs, ou des pourcentages de la population totale seraient plus adaptés.

le test est très significatif. Au seuil de risque 1% on peut conclure qu'il y a dépendance entre genre et situation familiale. Cette dépendance se marque surtout par une surreprésentation des femmes seules avec enfants, et des hommes en couple mais sans enfants, et une sous représentation des hommes seuls sans enfants (on voit tous pourquoi !). Cette remarque ne nécessite pas vraiment de justification, elle dit la réalité de l'échantillon. Si on veut la fonder plus solidement, on pourra s'appuyer sur Sphinx, mais il faudrait savoir quel test il utilise ici ("cases significatives" réfère à un test).

"quelle est la meilleure présentation : % en ligne, en colonne ou au total ? " Au total (remarque ci-dessus) sauf volonté d'expliquer une variable par l'autre.

Pour les autres affichages, c'est une question de choix personnel. la contribution au Khi-deux est intéressante quand les effectifs dans les cases sont très différents (cela relativise les écarts); si les effectifs sont à peu près du même ordre, l'écart au modèle donne le même genre d'informations.

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

Méthodes d'analyse Empty Re: Méthodes d'analyse

Message par Msieurduss Mar 6 Mar 2012 - 10:11

Bonjour !

Tout d'abord, merci à nouveau pour toutes ces réponses instructives !
Je pense que je commence à y voir plus clair avec ton aide Smile


Rien à voir. Tu devrais lire un peu de probas pour comprendre ce qu'est l'indépendance, mais en gros, si les valeurs d'une variable ne permettent en rien de mieux prévoir celles de l'autre, il y a indépendance. ce qui n'a rien à voir avec la loi sous-jacente, avec la répartition des valeurs d'une variable (loi Normale).
Effectivement, grossière erreur de ma part.
Je me suis disons, embrouillé l'esprit, mais je comprends mieux. J'ai mélangé répartition et dépendance (sic !).

Je pense avoir compris l'ensemble des remarques de ta première réponse. Je continue avec l'exemple.


Tout de suite une remarque : la présentation (de sphinx, si j'ai bien compris) est assez malsaine, car les pourcentages présentés ne sont pas pris sur la même population. Les effectifs, ou des pourcentages de la population totale seraient plus adaptés.

Oui, voir à ce sujet ma dernière question.
Sphinx était paramétré sur cet affichage, mais je peux le modifier facilement, pour avoir les % totaux :

Méthodes d'analyse Mieuxs10

Je peux bien entendu également afficher les effectifs, soit seuls, soit avec les % associés.


le test est très significatif. Au seuil de risque 1% on peut conclure qu'il y a dépendance entre genre et situation familiale.

Le seul de risque de 1%, d'où le tiens-tu ?
Le "1-p" indique bien la probabilité que le test soit vrai n'est-ce pas ? (ou plutôt p = erreur possible)
Là, 1-p = 99,96%, c'est ce qui te sert à obtenir le 1% ? Car sinon, je crois que par défaut Sphinx utilise un seuil d'erreur de 5% (le plus courant hors sciences dures je crois, où les tests se doivent d'être très précis).


Cette dépendance se marque surtout par une surreprésentation des femmes seules avec enfants, et des hommes en couple mais sans enfants, et une sous représentation des hommes seuls sans enfants (on voit tous pourquoi !). Cette remarque ne nécessite pas vraiment de justification, elle dit la réalité de l'échantillon. Si on veut la fonder plus solidement, on pourra s'appuyer sur Sphinx, mais il faudrait savoir quel test il utilise ici ("cases significatives" réfère à un test).

Ici deux choses :
1. Le test est celui du chi-2.
2. Par "surreprésentation" ou "sous-représentation", et c'est d'ailleurs là le fondement principal de mon message sur ce forum, que peut-on dire ? Car on ne peut pas dire qu'ils soient plus nombreux que les autres populations (il n'y a qu'à lire le tableau avec les % totaux), mais par contre ils seraient "plus nombreux qu'attendu", mais je ne sais comment mieux dire ?
De même, les hommes seuls sans enfants (et oui, on voit bien ici ce qu'est un vrai "cliché", surtout que l'échantillon est tout à fait représentatif de la réalité ;-)), sont les moins nombreux, effectivement, mais qu'indique précisément le test de chi-2 en le mettant "en rose" sur le tableau ?

En gros, comment peut-on traduire "effectif réel inférieur/supérieur à l'effectif théorique" en langage compréhensible par le commun des mortels ?

Une nouvelle fois, merci.
J'en vois la fin ! ;-)

Msieurduss

Nombre de messages : 4
Date d'inscription : 02/03/2012

Revenir en haut Aller en bas

Méthodes d'analyse Empty Re: Méthodes d'analyse

Message par gg Mar 6 Mar 2012 - 13:35

Bonjour.

"Sphinx était paramétré sur cet affichage, mais je peux le modifier facilement, pour avoir les % totaux : "
Moi, je préfère ce tableau : Les pourcentages sont comparables, puisqu'ils sont des pourcentages de la même population. De plus, l'écart au modèle (indépendance) est facile à voir. Par exemple pour la case rose, les marginales sont 10,7 et 40,4, donc l'indépendance donnerait une case rose à 10,7*40,4/100=4,32 au lieu de 2,2. Même un calcul approximatif de tête donne 4% au lieu de 2,2%.
Si tu peux avoir les effectifs en plus, c'est l'idéal.

"
Le seul de risque de 1%, d'où le tiens-tu ?"
De nulle part, je l'ai pris parce qu'il est un des classiques (5%, 2%, 1%, 0,5%) et qu'il marche ici.

"Le "1-p" indique bien la probabilité que le test soit vrai n'est-ce pas ? (ou plutôt p = erreur possible)"
Non ! C'est une faiblesse de cette présentation par sphinx. La valeur utilisée classiquement est p (p-value), qui est déjà difficile à interpréter. Reprenons à la base : Un test statistique ne peut pas être fiable (d'ailleurs aucun test véritable n'est absolument fiable). On choisit de prendre un risque (je le note r) qui est le risque de rejeter H0 "à tort" (très exactement de rejeter H0 dans le cas où H0 est vraie). Donc, suite au test, si on rejette, on est sûr que le risque d'avoir rejeté H0 alors qu'en fait elle était vraie est inférieur à r (il n'est pas sûr que H0 soit vraie, et plus le test est significatif, plus il est peu crédible que H0 soit vraie). Mais les logiciels statistiques ne demandent pas le risque qu'on choisit, ils donnent le risque limite (p-value) pour lequel on tombe exactement à le limite entre l'acceptation et le rejet.
Pour bien saisir, lire un bouquin sur les tests d'hypothèse serait le mieux, mais déjà, l'idée est que si pDans ton exemple, p=0,04%<1%. Donc au seuil 1% on rejette l'hypothèse d'indépendance.

"1. Le test est celui du chi-2." Non, je ne parle pas du test global, mais de celui fait en interne par Sphinx pour affirmer que les cases colorées sont significativement éloignées du modèle d'indépendance. Il y a un test par case.

"Par "surreprésentation" ou "sous-représentation", et c'est d'ailleurs là le fondement principal de mon message sur ce forum, que peut-on dire ? Car on ne peut pas dire qu'ils soient plus nombreux que les autres populations (il n'y a qu'à lire le tableau avec les % totaux), mais par contre ils seraient "plus nombreux qu'attendu", mais je ne sais comment mieux dire ?"
Moi non plus ! mais c'est une idée simple : leur proportion est supérieure à la proportion des deux caractères qui les définissent.
Pour faire comprendre, on peut reprendre par ligne et/ou par colonne. par exemple la case en rose : Il y a 40% d'hommes, mais, parmi les "seuls avec enfants", seulement 20% sont des hommes, et aussi, il y a 11% de "seuls avec enfants", mais parmi les hommes, les "seuls avec enfants" ne représentent qu'environ 5%. Tu remarqueras que dans ce cas, on a toujours une diminution de moitié par rapport à la règle générale, aussi bien sur le pourcentage global que sur le pourcentage des hommes ou sur celui des "seuls avec enfants".

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

Méthodes d'analyse Empty Re: Méthodes d'analyse

Message par Msieurduss Mar 6 Mar 2012 - 15:50

Merci pour tes réponses !!
Cela me semble assez clair, je reprendrai ça à tête reposée plus tard pour tout relire, et je vais effectivement regarder pour un bon bouquin de stats...

Merci encore pour ta patience et ta pédagogie !

Msieurduss

Nombre de messages : 4
Date d'inscription : 02/03/2012

Revenir en haut Aller en bas

Méthodes d'analyse Empty Re: Méthodes d'analyse

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut


 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum