Les posteurs les plus actifs de la semaine
joyeux_lapin13
 
zeu
 
gg
 
schlebe
 
zezima
 
Yacouba_KONE
 
rayanes159
 
noviceST
 
Eric Wajnberg
 
Nik
 


Questions d'un débutant

Voir le sujet précédent Voir le sujet suivant Aller en bas

Questions d'un débutant

Message par elloumim le Lun 15 Fév 2016 - 19:10

Bonjour,

Je suis nouveau dans le domaine de statistiques, du coup, je trouve beaucoup de difficultés pour comprendre même les notions de base car je fesais de la biologie avant de choisir de continuer en biostatistique.

Pouvez vous me répondre aux questions suivants (avec des réponses simple et facile si vous pouvez) :

*Qu'est ce qu'une loi statistique ?
*Pourquoi on ne peut pas appliquer une régression linéaire, analyse de la variance, t-test que pour des distributions normales ?
*Quand peut-on utiliser la loi de Khi-2 et comment peut-on l'interpréter ?
*Qu'est ce qu'une vraisemblance ?
*Comment peut-on interpréter les valeurs qui sont dehors la boite à moustaches ?

Vos réponses m'interéssent beaucoup et vont m'aider à éclaircir la statistique dans ma tête.

elloumim

Nombre de messages : 6
Date d'inscription : 15/02/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Questions d'un débutant

Message par gg le Lun 15 Fév 2016 - 19:54

Bonjour.

Certaines de tes questions sont typiquement du cours de statistique. Je vais essayer de répondre aux autres.

*Qu'est ce qu'une loi statistique ? Je comprends généralement cette expression comme parlant d'un modèle probabiliste traduisant une situation statistique sans trop de déformation. Par exemple la distribution des tailles des hommes de 20 à 40 ans en France a pour loi statistique une loi Normale; Ce qui signifie que l'on ne trahit pas trop la réalité en considérant que la taille d'un homme de 20 à 40 ans pris au hasard en France est une réalisation d'une variable aléatoire gaussienne, arrondie au cm le plus proche. Bien évidemment, la répartition des tailles n'est pas continue, contrairement à la loi de Gauss, ne serait-ce que parce qu'il y a un nombre fini d'hommes de 20 à 40 ans en France.

*Pourquoi on ne peut pas appliquer une régression linéaire, analyse de la variance, t-test que pour des distributions normales ? On peut très bien utiliser la régression linéaire pour des variables non gaussiennes. heureusement. Le cas 2 variables gaussiennes a des particularités, mais est totalement rare. Par contre, on suppose dans la modélisation que les résidus (différences entre vraies valeurs et valeurs du modèle) sont statistiquement gaussiens ( au sens ci-dessus). Pour les deux autres, le modèle de base est construit sur l'hypothèse de variables gaussiennes, hypothèse qu'on ne peut généralement pas assurer. mais heureusement, les tests correspondants sont robustes, c'est à dire que dès que la variable est approximativement gaussienne, ou que les tailles d'échantillons sont assez grandes (*), on peut les utiliser.
*Quand peut-on utiliser la loi de Khi-2 et comment peut-on l'interpréter ? Cours

*Qu'est ce qu'une vraisemblance ? Cours. Ou dictionnaire.

*Comment peut-on interpréter les valeurs qui sont dehors la boite à moustaches ? Là, on retombe dans des stats descriptives de bas niveau. Ce sont des valeurs éloignées de la moyenne, ou de la médiane, suivant la façon dont tu fais la boite à moustache.

Cordialement

(*) ce qui assure que les moyennes, sur lesquelles les tests sont basés, sont approximativement gaussiennes

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Questions d'un débutant

Message par droopy le Mar 16 Fév 2016 - 9:34

Bonjour,

Bien évidemment, la répartition des tailles n'est pas continue, contrairement à la loi de Gauss, ne serait-ce que parce qu'il y a un nombre fini d'hommes de 20 à 40 ans en France.
Je ne suis pas d'accord avec cette affirmation. La taille des individus est effectivement une variable continue. C'est une variable qui peut prendre une infinité de valeurs dans un intervalle donné. Il y a une différence entre la nature de la variable et les réalisations possibles de cette variable.

Par contre, on suppose dans la modélisation que les résidus (différences entre vraies valeurs et valeurs du modèle) sont statistiquement gaussiens ( au sens ci-dessus).
Oui et non. Dans un modèle linéaire (anova, régression, etc) on suppose la multinormalité, à savoir que chaque observation que l'on a de la variable y est issue d'une loi normale dont le paramètre de position dépend des valeurs de x. Comme on ne peut pas appréhender cette multi-normalité parce que très souvent on a qu'une seule observation pour une même valeur de x, on se sert des résidus.

Une vraisemblance c'est une probabilité. La vraisemblance d'une hypothèse est la probabilité d'obtenir tes observations en considérant que ton hypothèse est vraie, par exemple que la distribution de tes données est une loi normale de paramètres mu = 2 et sigma = 3 (et bien souvent que tes données sont indépendantes).

Cordialement

droopy

Nombre de messages : 985
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Questions d'un débutant

Message par gg le Mar 16 Fév 2016 - 12:46

Bonjour Droopy,

Pour le premier point, je ne peux pas être d'accord avec toi. les tailles sont données en cm, entiers, faute d'une précision plus forte. Donc il y a moins de 300 valeurs possibles, la variable n'est pas continue. Plus généralement, une enquête statistique donne un nombre fini de valeurs, donc toute enquête donne une répartition discrète. Ce qui n'interdit pas de donner des modèles continus, ou de traiter les valeurs en les classant par intervalle (séries statistiques continues).


Pour les modèles linéaires, tu dis en gros la même chose que moi, en précisant le modèle, mais la question n'était pas sur le modèle, mais sur les variables du modèle. Il y a trop souvent la confusion : " ma variable X n'est pas gaussienne, je ne peux dont pas faire une régression de Y en X ?".
De plus, on peut faire des analyses par ajustement linéaire sans se poser la question de la nature des variables, on obtient les mêmes modèles, sans possibilité de tests. Mais quand la corrélation est très forte, les tests ne disent rien de plus.

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Questions d'un débutant

Message par droopy le Mar 16 Fév 2016 - 13:10

Pour le premier point, je ne peux pas être d'accord avec toi. les tailles sont données en cm, entiers, faute d'une précision plus forte.
A mon sens il y a une confusion entre la nature de la variable d'une part qui est réellement continue (deux individus mesurant 1,80m ne font pas exactement la même taille) et la mesure. Ce n'est pas parce que la mesure renvoie des valeurs discrètes que la variable n'est pas continue. Pour s'en convaincre il suffirait d'augmenter la précision de la mesure pour augmenter le nombre de possibilités. C'est la mesure qui discrétise la variable, mais la variable n'est pas par nature discrète. Sinon aucune variable ne serait continue ! Il faut distinguer la nature de la variable, si en théorie elle peut prendre n'importe quelle valeur dans un intervalle, de ce qu'on est capable de faire en pratique. Si une variable est réellement discrète, comme un comptage par exemple, tu auras beau augmenter la précision de la mesure, le nombre de possibilités lui n'augmente pas.
Ce n'est pas moi qui le dit. Dans "Biometry" de Sokal & Rohlf par exemple on trouve la définition suivante
Continuous variable at least theoretically can assume infinite number of values between two fixed points. For example, between the two lengths mesurement 1.5 cm and 1.6 cm an infinite number of lengths could be mesured if one were so inclined and had a measuring instrument with sufficiently precised calibration. Any given reading of a continuous variable, such as length of 1.57 cm, is an approximation to the exact reading, which in practice could not be known ... Many of the variables studied in biology are continuous. Examples are length, area, ...
De même dans le bouquin "International encyclopedia of statistical science" tu trouves cette définition :
Continuous variables take an infinite number of real values arising from a measuring process. In practice the number of values that continuous variables can take depends on the precision of the measuring instruments. For instance, the height or the weight is expressed in decimal points when they are measured.

Pour la deuxième chose, le "en gros" à son importance. Trop souvent les gens croient que l'hypothèse de normalité porte sur les variables ou sur les résidus. Alors que l'hypothèse de normalité sur les résidus n'est qu'une approximation ou une conséquence de l'hypothèse de multi-normalité. Après je partage ton avis sur la confusion qui est trop souvent faite. Pour leur montrer que l'hypothèse ne porte pas sur les variables explicatives je leur donne l'exemple d'une variable catégorielle.

Cordialement

droopy

Nombre de messages : 985
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Questions d'un débutant

Message par gg le Mar 16 Fév 2016 - 16:25

Droopy,

tu rentres dans un débat qui n'a rien à voir avec la phrase dont je parlais au départ qui concerne une série, celle "des tailles des hommes de 20 à 40 ans en France", basée sur quelques millions d'individus, mais dont les valeurs sont données au cm près. Comme toute série statistique réelle, elle est au départ discrète, même si on la modélisera et traitera éventuellement comme continue.
La passage de Biometry est d'ailleurs clair : Une variable continue est une variable pour laquelle on peut augmenter la précision de mesure. Avec un instrument plus précis. ici, on n'en a pas.

Et pour ce qui concerne la possibilité d'augmenter la précision, tu tombes mal : On ne sait pas faire. Ne serait-ce que parce que la taille d'un homme de 20 à 40 ans en France peut varier de près d'un cm dans la même journée. Donc une précision supérieure est illusoire.

Quant à la nature d'une variable, c'est une notion que j'ai moi aussi utilisée à une époque, jusqu'à me rendre compte que ça n'avait aucun intérêt, il est évident qu'on va traiter une variable discrète prenant de nombreuses valeurs dont l'exactitude n'a pas tellement d'importance comme une variable continue (style le revenu imposable des ménages en France en 2015) et qu'il sera difficile de modéliser par du continu une variable "par nature" continue quand on a très peu de valeurs.

Pour moi, ce type de débat est sans utilité pratique, seule comptait la différence entre "série statistique" et "modèle statistique".

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Questions d'un débutant

Message par droopy le Mar 16 Fév 2016 - 17:03

C'est marrant de voir comment deux personnes peuvent avoir une lecture différente de la même affirmation. Dans les passages que je t’ai cité il est quand même clairement indiqué que les variables de tailles sont continues. Je pense que la différence de nos deux points de vues est que j'envisage les choses d'un point de vue théorique et ensuite je perçois la réalité pratique, alors que toi tu pars d'abord de la pratique, des observations qu'il est possible de faire. Pour moi c’est de partir de la série qui n’a pas sens. Pour moi la variable est continue, mais sa réalisation peut-être discrète selon la manière dont a été mesurée la variable. Même si dans ta série tu as qu’un nombre fini d’observations ça n’empêche qu’au départ tu as une infinité de possibilités qui font la nature continue de la variable. Ce n’est que ton expérience qui te contraint, par le matériel utilisé et par le nombre d’individus mesurés. C’est bien par rapport à la nature de la variable que tu choisiras une loi normale, une loi uniforme continue et non par exemple une loi de poisson ou une loi uniforme discrète.
"Une variable continue est une variable pour laquelle on peut augmenter la précision de mesure. Avec un instrument plus précis. ici, on n'en a pas.". On en a peut-être pas en pratique mais en théorie rien n'empêche d'envisager une toise par exemple graduée au dixième de centimètre plutôt qu'au centimètre. Je ne pense pas que ce soit inenvisageable en théorie, comme il n'est pas inenvisageable non plus d'utiliser une balance avec une précision au gramme plutôt qu'au kilo.

Peut-être que pour toi ce type de débat sur la nature des variables est sans utilité, parce que ce n’est pas ça qui guidera tes choix ou ta réflexion. Je peux t’assurer que ce débat à de l’importance pour un étudiant. Je peux te garantir qu’ils vont d’abord se demander qu’elle est la nature de la variable avant par exemple de choisir quelle représentation graphiques utiliser pour représenter la distribution observée. S’ils pensent qu’elle est discrète alors ils feront un diagramme en bâtons, mais s’ils pensent qu’elle est continue alors ils iront vers un histogramme. Ce ne sont pas les unités qui vont les orienter vers l’un ou l’autre. Pareil pour le choix d’une loi statistique. S’ils sont convaincus de la nature discrète d’une variable ils partiront plutôt vers du poisson ou du binomial alors que s’ils penchent pour une variable continue ils pencheront peut-être pour une loi normale. Les questions possibles ne sont pas non plus les mêmes. Dans un cas la probabilité d’observer une valeur donnée à un sens mais pas dans l’autre.
C’est aussi pour cette raison que je suis d'accord avec toi quand tu dis qu'il est important de faire la distinction entre série et modèle statistique. Le revenu imposable n’est-il pas continu par nature :-)

Si ce débat est inutile alors je n’ajouterais rien d’autre.

Cordialement

droopy

Nombre de messages : 985
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Questions d'un débutant

Message par gg le Mar 16 Fév 2016 - 17:16

Là, Droopy, tu me déçois.

D'une part, tu donnes des interprétations personnelles d'une phrase qui n'est pas de toi, en refusant la signification par l'auteur, d'autre part tu confonds statistiques théoriques et statistiques : " j'envisage les choses d'un point de vue théorique" Donc tu ne parles pas de la série statistique qui était le sujet de la phrase.

Ce n'est pas la première fois que je rencontre cette façon de voir de la part de gens des statistiques, qui se réfugient dans la théorie. J'espère que ce n'est pas ton cas Smile

Car on peut toujours faire des calculs ... j'ai même vu un collègue faire la moyenne entre des numéros de classes qualitatives, 1 pour "très défavorable", 2 pour "défavorable", etc.
C'est l'illusion numérique. Si on ne part pas de la réalité des données, seulement d'une "nature" imprécise, on risque de calculer, d'être content ... et à côté de la plaque.

Et pour un étudiant, c'est essentiel dans la formation. Ce n'est pas parce que c'est une variable discrète "par nature" qu'on ne va pas utiliser un modèle continu. Et inversement : J'ai connu des étudiants qui rangeaient leurs 40 tailles dans 5 classes par intervalle avant de calculer la moyenne. Bien évidemment, la moyenne dépendait plus du choix des classes que des 40 valeurs.

Bon, pour moi, je crois avoir tout dit.

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Questions d'un débutant

Message par droopy le Mar 16 Fév 2016 - 19:22

Désolé de te décevoir mais je peux te certifier que la phrase :
Many of the variables studied in biology are continuous. Examples are length, area, ...
est écrite telle quelle dans le livre. Je ne vois pas quelle interprétation tu me prêtes ici. Ca me semble assez clair quand au fait que la variable "taille" est continue.

J'avoue que c'est ta mauvaise fois qui me déçoit en plus du procès d'intention que tu me fais. Ce n'est pas parce que tu as de mauvais exemple autour de toi que tout le monde fait n'importe quoi. D'ailleurs si ton collègue avait un peu plus réfléchit à la nature de ces données il n'aurait surement pas fait ce genre de calcul hasardeux. Il te faut être un peu plus optimiste et accorder un plus de confiance aux gens.

En statistiques tout est question de théorie, ne pas connaître la théorie engendre des conneries en pratique ou des mauvaises interprétations. Comme dans bien des domaines il est nécessaire de connaître les tenants et les aboutissants pour pouvoir juger de la pertinence de ce que l'on fait. Je ne vois pas la distinction que tu fais entre statistiques théoriques et statistiques. C'est bien en connaissant la théorie que tu vas pouvoir mener tes analyses.

Ce que je trouve gênant ce sont les raccourcis que tu prends. On parle de la nature des données et tu donnes des exemples numériques ... je ne vois pas le lien entre les deux. Il est à priori normal que quand tu dégrades l'information de base en rangeant en intervalle j'imagine des valeurs numériques tu ais une estimation différente de la moyenne. Pour autant, l'utilisation d'intervalle peut avoir un sens parce les données sont justement issues d'une variable continue ... Pareil pour l'utilisation de modèle continu pour des données discrètes. Si dans certains cas c'est possible parce qu'en théorie quand certaines conditions sont remplies alors la loi discrète va converger vers une loi continue. Ca ne modifie en rien la nature discrète de la variable.

Je pense qu'on a perdu la personne qui a posé la question de départ. Comme on a donné deux définitions différentes, je ne peux que conseiller à la personne qui a posté de se faire sa propre opinion en lisant des bouquins. Dans toute bonne bu ou sur le net tu trouveras les réponses à tes questions.

Cordialement

droopy

Nombre de messages : 985
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Questions d'un débutant

Message par niaboc le Mar 16 Fév 2016 - 23:05

Bonjoir,

loin de moi l'idée d'envenimer le débat, mais je rejoints Pluto la façon de voir les choses de
ATTENTION SPOIL:
Droopy
.

La taille est évidemment une variable continue.

Et comme n'importe quelle variable continue, et contrairement à une variable discrète, on ne pourra jamais mesurer une continuité dans la réalité... ou alors ça prendrait du temps car ça revient à mesurer l'infini, et c'est très long, surtout vers la fin (c'est par rapport à ce que disait gg :"Bien évidemment, la répartition des tailles n'est pas continue, contrairement à la loi de Gauss, ne serait-ce que parce qu'il y a un nombre fini d'hommes de 20 à 40 ans en France."). Mais la variable étant continue nous pouvons utiliser les méthodes statistiques propres à l'utilisation de  variables aléatoires continues (sous certains conditions, d'effectif notamment). Et c'est justement parce que nous n'avons qu'un échantillon des différentes valeurs de la variable que les statistiques existent...

Et je suis donc d'accord avec Droopy quand il dit : "Pareil pour l'utilisation de modèle continu pour des données discrètes. Si dans certains cas c'est possible parce qu'en théorie quand certaines conditions sont remplies alors la loi discrète va converger vers une loi continue. Ca ne modifie en rien la nature discrète de la variable."

Niaboc

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Questions d'un débutant

Message par Contenu sponsorisé Aujourd'hui à 11:32


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum