Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Test du Khi-deux (sur les apparitions de mots dans un texte)
2 participants
Page 1 sur 1
Test du Khi-deux (sur les apparitions de mots dans un texte)
Bonjour,
Mon problème est le suivant : j'étudie les occurrences d'apparition de mots et d'ensembles de mots dans un texte. Par exemple, je regarde le nombre de fois où apparaît le mot "petit", le mot "déjeuner", et le couple "petit déjeuner".
Je cherche à savoir si le nombre d'apparition du couple "petit déjeuner" (par exemple) est "significatif", ie. si ces deux mots sont plus "souvent" associés que présents seuls. Je cherche également à quantifier ce "dégré d'association".
Pour cela, j'avais pensé effectuer un test du Khi-deux, mais cela m'a amenée à me poser certaines questions.
Tout d'abord, je me suis demandé comment était "construite" la table du khi-deux (par exemple pour un seuil de 5%)?
Ensuite, comment procéder si l'on veut étudier les occurences de plus de 2 mots à la fois (par exemple "petit déjeuner gratuit")?
Enfin, pensez-vous que mon approche soit correcte?
J'espère que ceci est assez clair, et pardonnez-moi si mes questions semblent stupides, je débute dans mes recherches et je ne m'y connais pas (encore ) bien en tests statistiques.
Je vous remercie par avance pour toute aide
Cordialement,
A.D.
Mon problème est le suivant : j'étudie les occurrences d'apparition de mots et d'ensembles de mots dans un texte. Par exemple, je regarde le nombre de fois où apparaît le mot "petit", le mot "déjeuner", et le couple "petit déjeuner".
Je cherche à savoir si le nombre d'apparition du couple "petit déjeuner" (par exemple) est "significatif", ie. si ces deux mots sont plus "souvent" associés que présents seuls. Je cherche également à quantifier ce "dégré d'association".
Pour cela, j'avais pensé effectuer un test du Khi-deux, mais cela m'a amenée à me poser certaines questions.
Tout d'abord, je me suis demandé comment était "construite" la table du khi-deux (par exemple pour un seuil de 5%)?
Ensuite, comment procéder si l'on veut étudier les occurences de plus de 2 mots à la fois (par exemple "petit déjeuner gratuit")?
Enfin, pensez-vous que mon approche soit correcte?
J'espère que ceci est assez clair, et pardonnez-moi si mes questions semblent stupides, je débute dans mes recherches et je ne m'y connais pas (encore ) bien en tests statistiques.
Je vous remercie par avance pour toute aide
Cordialement,
A.D.
Dernière édition par A.D. le Mer 17 Aoû 2011 - 12:34, édité 1 fois
Re: Test du Khi-deux (sur les apparitions de mots dans un texte)
Bonjour.
A la base, les tests du Khi-deux comparent deux situations dans lesquelles on connait des effectifs de classes : Une situation "modèle" et une situation "réelle" (il arrive que la situation "modèle" soit elle aussi réelle). Dans ton cas, en supposant que tu as trouvé dans ton texte 20 occurrences de "petit" seul, 25 de "déjeuner" seul et 35 de "petit déjeuner", il faut savoir quel modèle tu entends par "si ces deux mots sont plus "souvent" associés que présents seuls". Un des modèles possibles est de considérer que "petit" seul, "déjeuner" seul et "petit déjeuner" apparaissent aussi souvent les uns que les autres. On comparera alors les effectifs "réels" 20, 25,35 (total 80) aux effectifs "modèle" 26.7, 26.7, 26.7 (total 80 aux arrondis près).
L'idée qui est derrière est de se demander si un tirage aléatoire dans une population de "petit" seul, "déjeuner" seul et "petit déjeuner" qui ont la même probabilité d'être tirés pourrait donner raisonnablement le résultat 20, 25, 35. Pour cela on mesure une "distance" entre la valeur théorique (26.7, 26.7, 26.7) et la valeur obtenue (20, 25,35), ce qu'on appelle le Khi-deux : k=(20-26.7)²/26.7+(25-26.7)²/26.7+(35-26.7)²/26.7.
La loi de cette distance est compliquée, mais heureusement, elle a une approximation simple quand les effectifs (théoriques surtout) sont suffisants (classiquement au moins 5) : Sous l'hypothèse H0="les valeurs proviennent d'un tirage d'après le modèle", cette distance suit (à peu près) la loi du Khi-deux à n-1 degrés de liberté où n est le nombre de classes (ici 2). Et on peut en déduire un intervalle de confiance à 95%, de la forme k Si tu n'es pas intéressé par les probas, tu peux te contenter d'admettre ce résultat.
Bien évidemment, tu peux prendre un autre modèle (autant d'apparitions seul au total que couplé, par exemple : 20,20,40) qui te donnera un autre khi-deux, bien évidemment puisque tu ne fais pas le même test.
Cordialement.
NB : Dans mon exemple, le khi-deux fait 4,37. Pour deux degrés de liberté et au risque 5%, la valeur limite est 5,991, donc l'hypothèse H0 ne peut pas être rejetée : les valeurs 20, 25,35 pourraient provenir d'une situation où les trois cas apparaissent à égalité. Le modèle 20, 20, 40 donne le même résultat.
A la base, les tests du Khi-deux comparent deux situations dans lesquelles on connait des effectifs de classes : Une situation "modèle" et une situation "réelle" (il arrive que la situation "modèle" soit elle aussi réelle). Dans ton cas, en supposant que tu as trouvé dans ton texte 20 occurrences de "petit" seul, 25 de "déjeuner" seul et 35 de "petit déjeuner", il faut savoir quel modèle tu entends par "si ces deux mots sont plus "souvent" associés que présents seuls". Un des modèles possibles est de considérer que "petit" seul, "déjeuner" seul et "petit déjeuner" apparaissent aussi souvent les uns que les autres. On comparera alors les effectifs "réels" 20, 25,35 (total 80) aux effectifs "modèle" 26.7, 26.7, 26.7 (total 80 aux arrondis près).
L'idée qui est derrière est de se demander si un tirage aléatoire dans une population de "petit" seul, "déjeuner" seul et "petit déjeuner" qui ont la même probabilité d'être tirés pourrait donner raisonnablement le résultat 20, 25, 35. Pour cela on mesure une "distance" entre la valeur théorique (26.7, 26.7, 26.7) et la valeur obtenue (20, 25,35), ce qu'on appelle le Khi-deux : k=(20-26.7)²/26.7+(25-26.7)²/26.7+(35-26.7)²/26.7.
La loi de cette distance est compliquée, mais heureusement, elle a une approximation simple quand les effectifs (théoriques surtout) sont suffisants (classiquement au moins 5) : Sous l'hypothèse H0="les valeurs proviennent d'un tirage d'après le modèle", cette distance suit (à peu près) la loi du Khi-deux à n-1 degrés de liberté où n est le nombre de classes (ici 2). Et on peut en déduire un intervalle de confiance à 95%, de la forme k
Bien évidemment, tu peux prendre un autre modèle (autant d'apparitions seul au total que couplé, par exemple : 20,20,40) qui te donnera un autre khi-deux, bien évidemment puisque tu ne fais pas le même test.
Cordialement.
NB : Dans mon exemple, le khi-deux fait 4,37. Pour deux degrés de liberté et au risque 5%, la valeur limite est 5,991, donc l'hypothèse H0 ne peut pas être rejetée : les valeurs 20, 25,35 pourraient provenir d'une situation où les trois cas apparaissent à égalité. Le modèle 20, 20, 40 donne le même résultat.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Test du Khi-deux (sur les apparitions de mots dans un texte)
Merci beaucoup pour cette explication gg, cela a mis de l'ordre dans mes idées
En effet, j'avais plus "l'habitude" d'utiliser les khi-deux sur des variables qualitatives à plus de deux modalités et n'était pas bien sûr de comprendre l'utilisation dans le cas des comparaisons d'occurences des mots.
Donc, si j'ai bien compris, je peux par exemple prendre comme hypothèse H0 "le mot "petit", le mot "déjeuner" et le groupe de mots "petit déjeuner"" apparaissent autant de fois", et mettre à l'épreuve cette hypothèse en effectuant un test du khi-deux? Dans cet exemple, le nombre de classe est bien 2, ce qui me fait un modèle à 1 degré de liberté, c'est bien cela?
Encore merci pour ces éclaircissement gg
Juste encore une petite question, si j'effectue ce test pour un ensemble de mots donnés A (par exemple A= { "petit", "déjeuner", "petit déjeuner } ) et également pour un ensemble de mots B (par exemple B = { "après", "midi", "après-midi" } ) et que les résultats de mes deux tests de khi-deux m'amènent à rejeter les hypothèses H0, y a-t-il un moyen de comparer les deux valeurs obtenues pour le khi-deux? Afin de "hierarchiser" en quelque sorte les "groupement de mots"? Je ne sais pas si c'est très clair, je suis encore en phase d'exploration...
Cordialement,
A.D.
En effet, j'avais plus "l'habitude" d'utiliser les khi-deux sur des variables qualitatives à plus de deux modalités et n'était pas bien sûr de comprendre l'utilisation dans le cas des comparaisons d'occurences des mots.
Donc, si j'ai bien compris, je peux par exemple prendre comme hypothèse H0 "le mot "petit", le mot "déjeuner" et le groupe de mots "petit déjeuner"" apparaissent autant de fois", et mettre à l'épreuve cette hypothèse en effectuant un test du khi-deux? Dans cet exemple, le nombre de classe est bien 2, ce qui me fait un modèle à 1 degré de liberté, c'est bien cela?
Encore merci pour ces éclaircissement gg
Juste encore une petite question, si j'effectue ce test pour un ensemble de mots donnés A (par exemple A= { "petit", "déjeuner", "petit déjeuner } ) et également pour un ensemble de mots B (par exemple B = { "après", "midi", "après-midi" } ) et que les résultats de mes deux tests de khi-deux m'amènent à rejeter les hypothèses H0, y a-t-il un moyen de comparer les deux valeurs obtenues pour le khi-deux? Afin de "hierarchiser" en quelque sorte les "groupement de mots"? Je ne sais pas si c'est très clair, je suis encore en phase d'exploration...
Cordialement,
A.D.
Re: Test du Khi-deux (sur les apparitions de mots dans un texte)
Attention,
Tu as trois mots, donc trois classes (Chaque mot est une modalité de ta série statistique). C'est clair dans l'exemple que je t'ai donné (3 effectifs à chaque fois, donc trois classes). Il y aura donc 2 ddl.
On peut effectivement comparer les valeurs obtenues pour les Khi-deux, mais cette comparaison sera-t-elle significative ? Car tu travailles probablement sur des échantillons de textes (et comment savoir s'ils ne sont pas biaisés ?). Par contre, si tu travailles sur un texte complet, relativement à ce texte, il n'y a plus besoin de statistiques de test, puisque tu as les vrais résultats.
En tout cas, si tu peux trouver une meilleure idée que comparer les Khi-deux pour le même modèle, une idée plus facilement explicable, ce serait mieux.
Cordialement.
Tu as trois mots, donc trois classes (Chaque mot est une modalité de ta série statistique). C'est clair dans l'exemple que je t'ai donné (3 effectifs à chaque fois, donc trois classes). Il y aura donc 2 ddl.
On peut effectivement comparer les valeurs obtenues pour les Khi-deux, mais cette comparaison sera-t-elle significative ? Car tu travailles probablement sur des échantillons de textes (et comment savoir s'ils ne sont pas biaisés ?). Par contre, si tu travailles sur un texte complet, relativement à ce texte, il n'y a plus besoin de statistiques de test, puisque tu as les vrais résultats.
En tout cas, si tu peux trouver une meilleure idée que comparer les Khi-deux pour le même modèle, une idée plus facilement explicable, ce serait mieux.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Test du Khi-deux (sur les apparitions de mots dans un texte)
Merci beaucoup pour toutes ces explications gg
Je vais continuer à réfléchir à ce sujet.
Auriez-vous une idée de comment procéder si l'on veut étudier des combinaisons de plus de 2 mots (par exemple "petit", "déjeuner", "gratuit" et "petit déjeuner gratuit")? Peut-on procéder sur le même principe mais avec 4 classes cette fois?
Cordialement,
A.D.
Je vais continuer à réfléchir à ce sujet.
Auriez-vous une idée de comment procéder si l'on veut étudier des combinaisons de plus de 2 mots (par exemple "petit", "déjeuner", "gratuit" et "petit déjeuner gratuit")? Peut-on procéder sur le même principe mais avec 4 classes cette fois?
Cordialement,
A.D.
Re: Test du Khi-deux (sur les apparitions de mots dans un texte)
Bonjour A.D.
J'ai fait un peu de stats textuelles il y a qq années, sous SPAD (qui a l'inconvénient d'être une boite noire, pas comme R...)
Je pense que l'étude de segments (type "petit + déjeuner) se faisait bien via le khi², étant donné que dans nos analyses, nous supprimions d'emblée les mots ou segments dont la fréquence était inférieure à 5...
Je sais que Monica Bécue Bertaud bosse bcp là dessus, peut être trouveras-tu qq articles intéressants...
Cordialement
J'ai fait un peu de stats textuelles il y a qq années, sous SPAD (qui a l'inconvénient d'être une boite noire, pas comme R...)
Je pense que l'étude de segments (type "petit + déjeuner) se faisait bien via le khi², étant donné que dans nos analyses, nous supprimions d'emblée les mots ou segments dont la fréquence était inférieure à 5...
Je sais que Monica Bécue Bertaud bosse bcp là dessus, peut être trouveras-tu qq articles intéressants...
Cordialement
Invité- Invité
Re: Test du Khi-deux (sur les apparitions de mots dans un texte)
Merci Hadrien pour votre contribution
Je vais me renseigner sur les publications de la personne que vous me citez.
Cordialement,
A.D.
Je vais me renseigner sur les publications de la personne que vous me citez.
Cordialement,
A.D.
Re: Test du Khi-deux (sur les apparitions de mots dans un texte)
A D,
Je ne vois pas pourquoi ce qui marche avec 3 classes ne marcherait pas avec 4. Mais il serait intéressant de commencer par regarder des données concrètes (sans a-priori, juste voir les fréquences) et comparer divers échantillons pour voir la dispersion possible des fréquences.
Comment constitues-tu des échantillons représentatifs ?
Cordialement.
Je ne vois pas pourquoi ce qui marche avec 3 classes ne marcherait pas avec 4. Mais il serait intéressant de commencer par regarder des données concrètes (sans a-priori, juste voir les fréquences) et comparer divers échantillons pour voir la dispersion possible des fréquences.
Comment constitues-tu des échantillons représentatifs ?
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Sujets similaires
» comparaison de deux moyennes dans le cas d'un test-retest
» Comparaison deux échantillons dans le temps
» Comparer deux évolutions dans deux groupes différents ?
» Test statistique: test coeff correlation deux sous popu
» Comparaison de deux variables dans un même échantillon
» Comparaison deux échantillons dans le temps
» Comparer deux évolutions dans deux groupes différents ?
» Test statistique: test coeff correlation deux sous popu
» Comparaison de deux variables dans un même échantillon
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum