ANOVA et ddl...

par distefano51 Mar 4 Nov 2008 - 9:22

Bonjour! Alors mon ptit probleme: lors d'une anova; pour le carré moyen, inter ou intra, il faut retirer 1 au ddl, je ne comprend pas pourquoi... Le prof me parle que si une somme est egale a tant, et ke sur 5 chiffres additionnés la composant,, 4 sont determinés, le cinquieme ne peut avoir q'u'une seule valeur... Oui ok, mais je vois pas le rapport?? Puisque le ddl sert à normer la comparaison, et pour prendre un exemple, si je veux comparer 10 kg de langoustes avec 100 individus à 18 kg avec 200 individus, je divise le poids par le nombre de bestioles, alors pourqui ce -1 svp? Merci de me lire, bonne journée à toutes et tous!

par Invité Mar 4 Nov 2008 - 13:23

Bonjour,

je comprends bien le sens de ta question mais beaucoup moins bien le sens de ton exemple.

Pour essayer de te faire comprendre les choses je vais prendre un autre exemple. Admettons que tu testes l'effet de concentration en engrais sur la production et que tu as donc des données de production et quatre type de concentration :
pas engrais, faible, moyenne et forte.

Lorsque tu vas faire ton anova pour tester le facteur concentration tu vas effectivement avoir 3 degré de liberté associée à la variable engrais. Cela vient de la construction matricielle du modèle linéaire. Comme tu l'as dit lorsque tu as n modalité tu as besoin de ne représenter que n-1 modalités dans ton modèle. Soit tu as observé la première concentration, soit tu as observé la deuxième concentration, soit tu as observé la troisième concentration ou alors tu n'as observé aucune de ces trois concentrations alors tu es forcément dans la quatrième concentration.

D'un point de vue des modèles ça se traduit comme ceci :
Soit i la ième observation et les coefficients b[j] associé aux concentrations (ici j va de 1 à 4) :

Le modèle globale :
Production[i] = alpha (l'intercept) + (concentration[i]=pas engrais)*b1 + (concentration[i]=faible)*b2 + (concentration[i]=moyenne)*b3

Donc si je suis dans la situation ou je n'ai pas d'engrais :
concentration[i]=pas engrais est vrai, concentration[i]=faible est faux et concentration[i]=moyenne est faux donc j'ai :
Production[i] = alpha (l'intercept) + (concentration[i]=pas engrais)*b1

Pour une concentration faible :
Production[i] = alpha (l'intercept) + (concentration[i]=faible)*b2

Pour une concentration moyenne :
Production[i] = alpha (l'intercept) + (concentration[i]=moyenne)*b3

Et dans le cas d'une concentration forte :
Production[i] = alpha (l'intercept)

On aurait pu rajouter une variable pour la concentration forte mais ce n'est pas nécessaire puisqu'avec 3 indicatrices (variable ne contenant que des 0 et des 1) on peut représenter toutes les situations des concentrations, ce qui se traduit d'un point de vue matriciel de la façon suivante :

Code:: Intercept Champ1 Champ2 Champ3 Obs 1 1 1 0 0 Obs 2 1 0 1 0 Obs 3 1 0 0 1 Obs 4 1 0 0 0

La première observation a été faite dans le champ1, la deuxième dans le champ2, la troisième dans le champ3 et la quatrième dans le champ4 (elle a des 0 pour toutes les modalités de champ). Donc pour ta variable champ tu n'as besoin que de trois indicatrices pour le calcul d'où le n-1 dans le calcul des Carrés moyens.
C'est ce que ton prof te disait que quand tu connais une somme et si tu connais les n-1 autres valeurs alors il est facile de connaître la nième valeur : 4 + 3 + 2 + ... = 10 tu peux avoir facilement la valeur manquante.

Ici c'était un exemple, en pratique le plus souvent la première modalité est celle qui n'est pas représentée dans les indicatrices.

En espérant que ça soit plus clair pour toi maintenant.

micros

par distefano51 Mar 11 Nov 2008 - 15:25

Ben à vrai dire, non c'est du tout plus clair, voire pire... Pour reprendre ton exemple, en quoi le fait d'avoir 3 modeles de concentration et un où il n'y à rien fait qu'on doit faire N-1? Moi on me dit qu'il s'agit de normer, c'est à dire (a priori) de mettre sous la meme echelle, des populations de nombre different à fin de comparaison "juste". Enfin bref je suis meme plus sur de ce que je dis là...

par Invité Mar 11 Nov 2008 - 16:32

Bon je vois que t'as rien compris à ce que j'essayais de t'expliquer alors je vais essayer d'être plus clair.

Si on reprend l'exemple du dessus, il y a une variable réponse qui est la production et une variable explicative la concentration en engrais. La concentration en engrais à 4 modalités.

Donc on a un modèle linéaire du genre :
la production en fonction de la concentration : Production ~ concentration.

Si tu t'intéresses aux coefficients générer par un tel modèle tu verras que tu obtiendras 4 coefficients, l'intercept (ordonnée à l'origine) et trois autres coefficients rataché à la variable concentration.

un exemple concret avec le logiciel R (mais ça serait tout aussi valable avec n'importe quel logiciel de stats) :

Code:: > concentration <- gl(4,25,labels=c("pas","faible","moyen","fort")) > production <- rnorm(100) > modele <- lm(production ~ concentration) > summary(modele) Call: lm(formula = production ~ concentration) Residuals: Min 1Q Median 3Q Max -2.30160 -0.60065 -0.08069 0.64485 2.03643 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.3900 0.1925 2.026 0.04555 * concentrationfaible -0.3288 0.2722 -1.208 0.23001 concentrationmoyen -0.7082 0.2722 -2.602 0.01074 * concentrationfort -0.7704 0.2722 -2.830 0.00566 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.9624 on 96 degrees of freedom Multiple R-Squared: 0.09802, Adjusted R-squared: 0.06984 F-statistic: 3.478 on 3 and 96 DF, p-value: 0.01895

Bien que la variable concentration a quatre modalité : pas, faible, moyen et fort, il a calculé que les coefficients pour les modalités faible, moyen et fort donc pour N-1 modalités.

Si maintenant j'essaie d'écrire la formule du modèle j'obtiens :
production = Intercept + concentrationfaible + concentrationmoyen + concentrationfort

Pour calculer les données prédites par ce modèle il faut que je sache si la concentration est faible, moyenne ou forte.

Si la concentration est faible alors les valeurs prédites seront :
production = Intercept + concentrationfaible, 0.39+(-0.3288)

Si la concentration est moyenne je calcule les valeurs prédites comme ceci :
production = Intercept + concentrationmoyen, 0.39+(-0.7082)

Si la concentration est forte :
production = Intercept + concentrationforte, 0.39+(-0.7704)

Mais que se passe t'il si la concentration est pas d'engrais ? Le modèle a bien caculé des paramètres pour les autres concentrations mais pas pour la concentration pas d'engrais !

Si la concentration est pas d'engrais alors la production vaut :
production = 0.39.

En calculant 3 coefficients : concentrationfaible, concentrationmoyen et concentrationfort pour une variable qui contient 4 modalités : pas, faible, moyen cela suffit pour pouvoir prédire des valeurs de productions pour chacune des valeurs de concentrations. C'est de la que vient le N-1 !

Code:: anova(modele) Analysis of Variance Table Response: production Df Sum Sq Mean Sq F value Pr(>F) concentration 3 9.663 3.221 3.4777 0.01895 * Residuals 96 88.917 0.926

en espérant avoir été plus claire.

micros

par Nik Mar 11 Nov 2008 - 16:48

Je ne sais pas ce que tu entends par normer avec les ddl, mais si tu pars là dessus c'est sûr que tu ne vas rien comprendre Very Happy

Je suppose que ton prof a dû vous donner une définition pour les ddl. Pour ma part je dirais que les ddl représentent le nombre d'unités indépendantes qui permettent d'estimer un paramètre quel qu'il soit.
Donc pour une variable à m modalités, on connait la modalité m dès lors qu'on connait les m-1 autres. Donc une des modalités n'est pas indépendante de la connaissance des autres : elle n'est pas "libre".
Pour comprendre le nombre de ddl de départ (sans considération sur l'indépendance, les paramètres estimés et autre), il faut avoir une vision géométrique. Dans le cas d'une variable qualitative (modèle de l'ANOVA), chaque modalité représente un axe sur lequel la variable que l'on observe (la production dans l'exemple de micros) est "libre de se promener" (langage volontairement imagé). Sans autre considération, la variable observée se promène donc dans un espace à m (nb de modalités) dimension. Mais pour une valeur donnée de la variable observée, une fois qu'on connait les m-1 première modalités, la dernière est forcément déterminée (l'histoire de la somme de ton prof).
Donc en fait, les valeurs de la variables observées sont réellement libre de se promener que dans un espace à m-1 dimensions.

Si on donne tant d'importance à ces ddl c'est parce que les lois de distribution qui déterminent les tests (Fisher dans le cas de l'ANOVA) ne prennent pas les même valeurs suivant le nombre de ddl considérés : la valeur de leurs paramètres change.

Bon voilà, l'explication est très conceptuelle je l'accorde volontier mais bon c'est ça l'origine de l'expression degré de liberté.

Pour un complément/précision/clarification voici un lien vers une page wikipedia assez claire je trouve (en anglais) : http://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)

par Invité Mar 11 Nov 2008 - 18:17

re,

Nik je ne suis pas sur que ta définition des ddl soient exactes. Si tu veux rester dans le conceptuel (ce qui ne semblera pas clair a mon avis a un néophyte) les ddl sont les dimensions des sous espaces vectoriels de projections (engendrés par les indicatrices de la variable).

Peut-être cela sera t'il plus clair ici :
http://pbil.univ-lyon1.fr/R/pdf/bs7.pdf

micros

par Nik Mar 11 Nov 2008 - 20:49

Oui exact...les indicatrices Embarassed

et également Embarassed

pour ne pas avoir pensé à cette fiche Very Happy

En tout cas cela se voulait en complément de ta réponse micros...En tant que néophyte les exemples concrets pris seul ne m'ont jamais aidé à bien saisir la notion de ddl Smile

.

Avec théorie et qqs exemples bien sentis ça aide Smile

Mais bon c'est pas encore parfait c'est sûr Laughing

par distefano51 Mer 12 Nov 2008 - 8:23

Ben merci pour vos efforts, mais désolé je comprends tjs rien, enfin je comprends pas à quoi servent les ddl, on pourrait aussi bien me dire que "si on met un main dans la poche, combien en reste t il dehors" et me dire qu'on met le résultat en dénominateur que le lien entre le dit resultat et la somme des carrés ne me semblera pas plus flou... C'est ce lien que je perçoit pas... Tout ceci est beaucoup trop abstrait (comme aussi par exemple "l'intercept, c'est l'ordonnée à l'origine" moi pas comprendre...), et je suis en psycho, on utilise pas encore de logiciels de stats, pourriez vous me doner un exemple chiffré, étape par étape, ou avec dessin je sais pas moi, parce que les grnades phrases typiques des statisticiens, je ne comprends rien, j'ai besoin de visuel avant de conceptuel... Merci de me lire et bonne journée!!

par Nik Mer 12 Nov 2008 - 10:06

l'intercept, c'est l'ordonnée à l'origine

ça veut juste dire que c'est synonyme Wink

Ceci dit, j'espère que tu as compris que quand on fait une ANOVA, cela revient à faire une regression linéaire mais dont la variable explicative est catégorielle. C'est pour cela que l'on parle d'ordonnée à l'origine, de paramètres etc...

Par contre je ne vois pas de mon côté à quoi tu fais allusion quand tu dis :

qu'on met le résultat en dénominateur

On ne se sert pas des ddl pour diviser quoique ce soit... scratch

En fait, tu devrais nous détailler selon toi quelles sont les étapes de l'ANOVA pour que l'on voit où se situe le flou artisitique;) car l'ex de micros est déjà assez détaillé et bien commenté. Donc si tu ne comprends pas c'est que tu bloques sur quelque chose qui doit nous paraitre évident.

par Invité Mer 12 Nov 2008 - 10:37

Nik,

Dans l'anova les ddl servent a calculer les carrés moyens a partir des somme des carrés des écarts.

distefano51, je pense qu'il va falloir que tu lises des pds sur les modèles linéaires. Regarde le lien de Nik sur les dlls il est très bien fait mais il est en anglais. Il explique bien la notion des dlls.

micros

par Nik Mer 12 Nov 2008 - 11:01

Dans l'anova les ddl servent a calculer les carrés moyens a partir des somme des carrés des écarts.

d'accord j'étais pas sur les carrés moyens...oki Wink

Alors, les carrés moyens sont calculés car sinon on ne peut pas comparer les variances entres elles car on ne se trouve pas dans des espaces de même dimension. C'est comme quand on fait des comparaison de nombre d'habitant par exemple pour se rendre compte du degré de surpopulation, on ne regarde pas directement le nombre d'habitants mais on rapporte à la surface car sinon on ne se trouve pas dans les mêmes conditions.

en espérant arriver à clarifier un peu les choses Smile

par distefano51 Mer 12 Nov 2008 - 13:18

Ben que je vous explique ma "vision" du truc...Je l'ai déja fait. Le truc en anglais, j'ai commencé à lire, l'autre lien aussi mais trés vite ttes ces formules etc... C'est abstrait, je comprends rien, et pourtant j'essaye! Dnc, je sais bien que, pour reprendre le dernier exemple du dernier intervenant, que pour comparer un nombre d'habitants il faille tenir compte de la surface, mais je vois pas pourquoi ce n-1, cette idée "d'addition" qui veux que si une somme =10, que si les composantes sont de 1,2,3 et 4, que le dernier sera 1. Je sais ce qu'est une addition mais la pertinence du truc, non pas moyen...

par Invité Mer 12 Nov 2008 - 13:33

Un truc tout simple : admettons que la somme de 4 variables fait 10 : X1+ X2 + X3 + X4 = 10. Du moment que tu connais la somme de X1 + X2 + X3 alors tu connais X4 puisque X4 sera égale à 10 - (X1+X2+X3) autrement dit X1, X2 et X3 sont libre de variés mais pas X4 puisqu'il est dépendant de la somme des trois autres. Donc ici le degré de liberté est 4-1 puisqu'une des valeurs ne peut pas varier du moment que les 3 autres sont connues.

micros

par distefano51 Mer 12 Nov 2008 - 14:37

Oui oui ca c'est bien le truc que je comprends, le seul truc que je.. "lol", mais pourquoi cette remarquable evidence? Pourquoi divise on la SC par cela? Bon je sais, pour mettre "sur un pied d'egalité" les differentes populations comparées (enfin je crois?), mais pourquoi ne divise t on pas tt simplement par le nombre de sujets point barre? Essayez peut etre un raisonnement par l'absurde (me montrer que le contraire est faux), ca me causera peut etre plus? Z'etes sympas de persister à m'aider!

par Invité Mer 12 Nov 2008 - 14:47

Le problème vient du fait que tu ne sembles pas avoir les bases suffisantes sur le modèle linéaire et qu'on ne peut pas t'expliquer le pourquoi du comment si tu n'as pas un minimum de connaissances sur le sujet. Je te conseille donc vivement de lire des docs ou des bouquins sur le sujet comme biostatistique une approche intuitive et voir la très grande littérature dispo sur internet.

Pourquoi les Carrés moyens se calculent de cette manière et ben j'ai envie de te dire : parce que c'est comme ça (sans aller plus dans le détail stats). Si tu cherches vraiment a savoir le pourquoi du comment tu vas tout de suite tomber dans des choses beaucoup plus compliqué qui font appel à des notions de stats que tu ne sembles pas avoir et que je n'ai pas non plus. Alors un conseil, applique les choses telles qu'elles t'ont été enseignées et si tu veux en savoir plus et ben ouvre des livres de stats.

micros

par Contenu sponsorisé

ANOVA et ddl...

ANOVA et ddl...

Re: ANOVA et ddl...

a

Re: ANOVA et ddl...

les ddl ce n'est pas de la normalisation

Re: ANOVA et ddl...

Re: ANOVA et ddl...

Re: ANOVA et ddl...

Re: ANOVA et ddl...

Re: ANOVA et ddl...

Re: ANOVA et ddl...

Re: ANOVA et ddl...

Re: ANOVA et ddl...

Re: ANOVA et ddl...

Re: ANOVA et ddl...

Re: ANOVA et ddl...