Test du Khi-deux (sur les apparitions de mots dans un texte)

par A.D. Mer 17 Aoû 2011 - 10:46

Bonjour,

Mon problème est le suivant : j'étudie les occurrences d'apparition de mots et d'ensembles de mots dans un texte. Par exemple, je regarde le nombre de fois où apparaît le mot "petit", le mot "déjeuner", et le couple "petit déjeuner".
Je cherche à savoir si le nombre d'apparition du couple "petit déjeuner" (par exemple) est "significatif", ie. si ces deux mots sont plus "souvent" associés que présents seuls. Je cherche également à quantifier ce "dégré d'association".

Pour cela, j'avais pensé effectuer un test du Khi-deux, mais cela m'a amenée à me poser certaines questions.
Tout d'abord, je me suis demandé comment était "construite" la table du khi-deux (par exemple pour un seuil de 5%)?
Ensuite, comment procéder si l'on veut étudier les occurences de plus de 2 mots à la fois (par exemple "petit déjeuner gratuit")?
Enfin, pensez-vous que mon approche soit correcte?

J'espère que ceci est assez clair, et pardonnez-moi si mes questions semblent stupides, je débute dans mes recherches et je ne m'y connais pas (encore Wink

) bien en tests statistiques.
Je vous remercie par avance pour toute aide Smile

Cordialement,

A.D.

par gg Mer 17 Aoû 2011 - 12:03

Bonjour.

A la base, les tests du Khi-deux comparent deux situations dans lesquelles on connait des effectifs de classes : Une situation "modèle" et une situation "réelle" (il arrive que la situation "modèle" soit elle aussi réelle). Dans ton cas, en supposant que tu as trouvé dans ton texte 20 occurrences de "petit" seul, 25 de "déjeuner" seul et 35 de "petit déjeuner", il faut savoir quel modèle tu entends par "si ces deux mots sont plus "souvent" associés que présents seuls". Un des modèles possibles est de considérer que "petit" seul, "déjeuner" seul et "petit déjeuner" apparaissent aussi souvent les uns que les autres. On comparera alors les effectifs "réels" 20, 25,35 (total 80) aux effectifs "modèle" 26.7, 26.7, 26.7 (total 80 aux arrondis près).
L'idée qui est derrière est de se demander si un tirage aléatoire dans une population de "petit" seul, "déjeuner" seul et "petit déjeuner" qui ont la même probabilité d'être tirés pourrait donner raisonnablement le résultat 20, 25, 35. Pour cela on mesure une "distance" entre la valeur théorique (26.7, 26.7, 26.7) et la valeur obtenue (20, 25,35), ce qu'on appelle le Khi-deux : k=(20-26.7)²/26.7+(25-26.7)²/26.7+(35-26.7)²/26.7.
La loi de cette distance est compliquée, mais heureusement, elle a une approximation simple quand les effectifs (théoriques surtout) sont suffisants (classiquement au moins 5) : Sous l'hypothèse H0="les valeurs proviennent d'un tirage d'après le modèle", cette distance suit (à peu près) la loi du Khi-deux à n-1 degrés de liberté où n est le nombre de classes (ici 2). Et on peut en déduire un intervalle de confiance à 95%, de la forme kSi tu n'es pas intéressé par les probas, tu peux te contenter d'admettre ce résultat.
Bien évidemment, tu peux prendre un autre modèle (autant d'apparitions seul au total que couplé, par exemple : 20,20,40) qui te donnera un autre khi-deux, bien évidemment puisque tu ne fais pas le même test.

Cordialement.

NB : Dans mon exemple, le khi-deux fait 4,37. Pour deux degrés de liberté et au risque 5%, la valeur limite est 5,991, donc l'hypothèse H0 ne peut pas être rejetée : les valeurs 20, 25,35 pourraient provenir d'une situation où les trois cas apparaissent à égalité. Le modèle 20, 20, 40 donne le même résultat.

par A.D. Mer 17 Aoû 2011 - 12:27

Merci beaucoup pour cette explication gg, cela a mis de l'ordre dans mes idées Smile

En effet, j'avais plus "l'habitude" d'utiliser les khi-deux sur des variables qualitatives à plus de deux modalités et n'était pas bien sûr de comprendre l'utilisation dans le cas des comparaisons d'occurences des mots.
Donc, si j'ai bien compris, je peux par exemple prendre comme hypothèse H0 "le mot "petit", le mot "déjeuner" et le groupe de mots "petit déjeuner"" apparaissent autant de fois", et mettre à l'épreuve cette hypothèse en effectuant un test du khi-deux? Dans cet exemple, le nombre de classe est bien 2, ce qui me fait un modèle à 1 degré de liberté, c'est bien cela?

Encore merci pour ces éclaircissement gg Smile

Juste encore une petite question, si j'effectue ce test pour un ensemble de mots donnés A (par exemple A= { "petit", "déjeuner", "petit déjeuner } ) et également pour un ensemble de mots B (par exemple B = { "après", "midi", "après-midi" } ) et que les résultats de mes deux tests de khi-deux m'amènent à rejeter les hypothèses H0, y a-t-il un moyen de comparer les deux valeurs obtenues pour le khi-deux? Afin de "hierarchiser" en quelque sorte les "groupement de mots"? Je ne sais pas si c'est très clair, je suis encore en phase d'exploration...

Cordialement,

A.D.

par gg Mer 17 Aoû 2011 - 13:12

Attention,

Tu as trois mots, donc trois classes (Chaque mot est une modalité de ta série statistique). C'est clair dans l'exemple que je t'ai donné (3 effectifs à chaque fois, donc trois classes). Il y aura donc 2 ddl.

On peut effectivement comparer les valeurs obtenues pour les Khi-deux, mais cette comparaison sera-t-elle significative ? Car tu travailles probablement sur des échantillons de textes (et comment savoir s'ils ne sont pas biaisés ?). Par contre, si tu travailles sur un texte complet, relativement à ce texte, il n'y a plus besoin de statistiques de test, puisque tu as les vrais résultats.

En tout cas, si tu peux trouver une meilleure idée que comparer les Khi-deux pour le même modèle, une idée plus facilement explicable, ce serait mieux.

Cordialement.

par A.D. Mer 17 Aoû 2011 - 13:17

Merci beaucoup pour toutes ces explications gg Smile

Je vais continuer à réfléchir à ce sujet.

Auriez-vous une idée de comment procéder si l'on veut étudier des combinaisons de plus de 2 mots (par exemple "petit", "déjeuner", "gratuit" et "petit déjeuner gratuit")? Peut-on procéder sur le même principe mais avec 4 classes cette fois?

Cordialement,

A.D.

par Invité Mer 17 Aoû 2011 - 13:52

Bonjour A.D.

J'ai fait un peu de stats textuelles il y a qq années, sous SPAD (qui a l'inconvénient d'être une boite noire, pas comme R...)

Je pense que l'étude de segments (type "petit + déjeuner) se faisait bien via le khi², étant donné que dans nos analyses, nous supprimions d'emblée les mots ou segments dont la fréquence était inférieure à 5...

Je sais que Monica Bécue Bertaud bosse bcp là dessus, peut être trouveras-tu qq articles intéressants...

Cordialement

par A.D. Mer 17 Aoû 2011 - 13:57

Merci Hadrien pour votre contribution Smile

Je vais me renseigner sur les publications de la personne que vous me citez.

Cordialement,

A.D.

par gg Mer 17 Aoû 2011 - 15:07

A D,

Je ne vois pas pourquoi ce qui marche avec 3 classes ne marcherait pas avec 4. Mais il serait intéressant de commencer par regarder des données concrètes (sans a-priori, juste voir les fréquences) et comparer divers échantillons pour voir la dispersion possible des fréquences.
Comment constitues-tu des échantillons représentatifs ?

Cordialement.

par Contenu sponsorisé

Test du Khi-deux (sur les apparitions de mots dans un texte)

Test du Khi-deux (sur les apparitions de mots dans un texte)

Re: Test du Khi-deux (sur les apparitions de mots dans un texte)

Re: Test du Khi-deux (sur les apparitions de mots dans un texte)

Re: Test du Khi-deux (sur les apparitions de mots dans un texte)

Re: Test du Khi-deux (sur les apparitions de mots dans un texte)

Re: Test du Khi-deux (sur les apparitions de mots dans un texte)

Re: Test du Khi-deux (sur les apparitions de mots dans un texte)

Re: Test du Khi-deux (sur les apparitions de mots dans un texte)

Re: Test du Khi-deux (sur les apparitions de mots dans un texte)