Les posteurs les plus actifs de la semaine
Aytan
Débutant en statistique Vote_lcapDébutant en statistique Voting_barDébutant en statistique Vote_rcap 
c@ssoulet
Débutant en statistique Vote_lcapDébutant en statistique Voting_barDébutant en statistique Vote_rcap 
Adddd
Débutant en statistique Vote_lcapDébutant en statistique Voting_barDébutant en statistique Vote_rcap 
Eric Wajnberg
Débutant en statistique Vote_lcapDébutant en statistique Voting_barDébutant en statistique Vote_rcap 
gg
Débutant en statistique Vote_lcapDébutant en statistique Voting_barDébutant en statistique Vote_rcap 


Débutant en statistique

Aller en bas

Débutant en statistique Empty Débutant en statistique

Message par vorace54 le Ven 26 Nov 2010 - 18:10

Bonjour,
Je suis étudiant en licence pro statistique et informatique decisionnelle et j'ai un peu, baucoup même, de mal avec les statistiques.
J'ai un titre professionnel niveau 3 developpeur logiciel et le niveau bac + 3 et le data mining de cette licence pro m'ont séduit.
Le problème est que la remise à niveau faite en début d'année était un peu courte à mon gout, à un point que quand on me demande de rendre quatre pages sur le jeu de données "airquality" sur R, je ne sais même pas par quoi commencer...Je ne vous demande pas de faire le travail pour moi mais de me donner des pistes, une méthodologie...
merci

vorace54

Nombre de messages : 6
Date d'inscription : 26/11/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Débutant en statistique Empty Re: Débutant en statistique

Message par A.D. le Lun 29 Nov 2010 - 11:49

Bonjour,

Je pense qu'il est difficile de donner la méthodologie "type" fonctionnant pour toute étude statistique quelle qu'elle soit, cela dit il y a un certain nombre de choses "basiques" à faire (ma liste est bien sur non ordonnée et non exhaustive Very Happy )

1) De quel type de données s'agit-il? Les variables sont-elles quantitatives, qualitatives, catégorielles? Y a-t-il une dépendance temporelle entre certaines variables?
2) Quel est le but de l'étude? Y a-t-il une variable particulière à expliquer? S'agit-il de classer/comparer des individus? etc...
3) Etudier les caractéristiques particulières, les lois etc, des variables...

Je pense que déjà cela permet un bon déblayage, mais ce ne sont que quelques pistes parmis d'autres.

Tu peux peut-être nous fournir un extrait de ton jeu de données et les pistes auxquelles tu arrives afin que nous t'en disions plus.

Bonne continuation.

A.D.

A.D.

Nombre de messages : 305
Age : 31
Localisation : Nantes
Date d'inscription : 02/12/2009

Voir le profil de l'utilisateur http://www.dacta.fr

Revenir en haut Aller en bas

Débutant en statistique Empty Re: Débutant en statistique

Message par vorace54 le Lun 29 Nov 2010 - 13:16

bonjour,
je te remercie pour ta réponse, bien que un peu en retard mais toujours utile.
Effectivement, ce qui nous était demandé par le prof était exactement ce que tu as énuméré plus haut, le jeu de données consiste en la mesure de 5 variables : ozone, vent, température, rayonnement lumineux (longueur d'ondes) mesuré pour chaque jour des mois de mai au mois de septembre.
La finalité était de déterminer le lien entre l'ozone et une (ou les ) autre variables : régression multiple.
Par contre j'ai remis un compte rendu de mon travail à mon prof ce week-end mais j'aimerai bien avoir ton avis si ca ne te dérange pas ?!
Voici le lien si tu as le temps : http://www.logitec-service.com/document/LOGICIEL%201_TP4.pdf, et le lien pour les données : http://www.logitec-service.com/document/donn%C3%A9es.txt.
Merci.

vorace54

Nombre de messages : 6
Date d'inscription : 26/11/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Débutant en statistique Empty Re: Débutant en statistique

Message par droopy le Lun 29 Nov 2010 - 13:47

Manque les dates min et max de l'étude (pour qu'on situe dans l'année)

Manque un truc qui montre le lien entre tes variables environnementales (matrice de corrélation par exemple)

J'aurai pris les mois non pas comme une variable continue mais en facteur.
Regarde le 1er graph de plot(lm(Temp~Month)) il est criant que les résidus ne sont pas indépendants

Les variations en fonction des jours de la semaine n'a pas d'intérêt, pas d'hypothèse derrière ça

Faire des graphs montront l'évolution de la teneur en ozone en fonction du temps et ajouter sur le même graph les variations de températures, vent, radiation, etc


les modèles sur l'ozone n'ont pas de sens, regarde les distributions de tes résidus --> une structure très marquée dedans --> les conclusions de ces modèles sont tout simplement a jetées

C'est un peu moins merdique quand tu prends le log mais ya encore des problèmes

La conclusion devrait être qu'il faut travailler sur des séries temporelles et que la régression linéaire n'est pas adaptée
droopy
droopy

Nombre de messages : 1126
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Débutant en statistique Empty Re: Débutant en statistique

Message par A.D. le Lun 29 Nov 2010 - 13:50

Re bonjour,

J'ai jeté un bref coup d'oeil et voici quelques remarques pêle-mêle (ton professeur te fournira probablement une meilleure correction) :

> Lorsque tu présentes tes "summary", cela n'a pas un grand intérêt si tu ne les commentes pas !!! Il aurait peut-être été plus intéressant de mettre un boxplot de chacune des variables (sauf "Month" et "Day"), et de comparer les dispersions entre les variables (par exemple, dispersion de "Solar.R" beaucoup plus grande que celle de "Wind").

> Attention à la manière de formuler tes conclusions. Par exemple, au 2) b), tu écris quelquechose du genre "p-value << 0.05 donc "Solar.R" n'est pas normale". Ceci n'est pas correcte, il faut plutôt mettre sous la forme "donc nous rejetons l'hypothèse H0 blablabla..."

> Pour la normalité, tu peux aussi avoir recours aux qqnorm/qqline qui donnent une autre idée visuelle de la normalité (ou non normalité) que les boxplot.

> Enfin, je ne suis pas une pro des ANOVA mais il me semble qu'une des hypothèses fondamentales est la NORMALITE des distributions. Cela n'a donc aucun sens d'effectuer des ANOVA sur des variables que tu as toi-même classées comme non-normale et d'en étudier les résultats. Par contre, tu aurais pu étudier la normalité de la variable "log(Ozone)" et lui appliquer une ANOVA si cela convenait.

> Dernière remarque, je sais bien que ce n'est pas toujours facile, mais il faudrait essayer d'étoffer un peu la conclusion.

Bon courage pour la suite !

Cordialement,

A.D.

A.D.

Nombre de messages : 305
Age : 31
Localisation : Nantes
Date d'inscription : 02/12/2009

Voir le profil de l'utilisateur http://www.dacta.fr

Revenir en haut Aller en bas

Débutant en statistique Empty Re: Débutant en statistique

Message par vorace54 le Lun 29 Nov 2010 - 15:17

Merci à vous deux...
Effectivement l'anova se fait bien sur "des distribution normales indépendantes", ma faute...
une chose est sure : le chemin est long et plus les jours passent et plus j'ai envi de renoncer...je prend plus de plaisir à développer et programmer que d'analyser des données...
à suivre...

vorace54

Nombre de messages : 6
Date d'inscription : 26/11/2010

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Débutant en statistique Empty Re: Débutant en statistique

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum