Extraction base de données pour analyse Hill & Smith

par stagiaire69 Ven 27 Aoû 2010 - 7:55

Bonjour,

Pour mon stage, je bloque sur la façon de constituer mon jeu de données pour effectuer une analyse de Hill&Smith. Dois je l'extraire en créant plusieurs jeux de données suivant les composants du moteur, exemple je prend le starter et j'extrais les données concernées? ou dois je extraire un seul avec répertorié tous les composants défectueux, exemple starter,boite de vitesse, frein ect....? Quel est le choix le plus pertinent? Le nombre de données minimum pour une analyse de Hill & Smith?

Mon but est montrer les corrélations qui pourraient exister entre diverses variables ( températures, altitude, kilométrage, qualité du gasoil ect....).

Merci

par droopy Ven 27 Aoû 2010 - 8:06

Difficile de répondre à ta question. SI tu travailles sous R, ton jeu de données doit-être contenu dans un data.frame. Assures toi que les variables catégorielles soient bien sous forme de facteur dans ton data.frame et que tes variables quantitatives soient sous forme numérique. Ensuite tu utilises directement la fonction dudi.hillsmith sur ton data.frame de départ. Après si tu ne travailles pas sur ce logiciel alors ça va être un peu plus difficile à mettre en place, parce que je ne pense pas que cette analyse soit facilement disponible autre part. Après il faut bien voir que c'est une analyse multivariée comme les autres, il est donc recommandé d'avoir plus d'individus que de variables.

par stagiaire69 Ven 27 Aoû 2010 - 8:18

Merci, peux tu juste m'éclaircir sur quelques points:
Peux tu expliciter la notion de facteur pour les variables catégorielles? Ensuite je ne travaille pas avec R mais ce sera avec SAS surement?
Simple précision, si j'ai un jeu de données avec pour individus les différents composants du moteur sachant que pour chaque composant il existe plusieurs variantes, ex starter il existe 5 types et ainsi de suite, est ce le bon choix pour les individus?

par droopy Ven 27 Aoû 2010 - 8:24

la notion de facteur est un notion propre au logiciel R (et à S+ aussi), c'est un format de données qui permet justement de spécifier que telle ou telle variable est une variable catégorielle. Je ne connais pas SAS, mais je pense que ça ne va pas être aussi simple que ça de programmer cette analyse, il va surement falloir que tu programmes ta propre macro. A moins qu'une macro toute faite tourne sur le web, je te laisse chercher. Les individus doivent être comparables entre eux et être issu d'une même population. A toi de voir si ça à un sens de les comparer entre eux ou non.

par stagiaire69 Ven 27 Aoû 2010 - 8:29

ok, merci pour les conseils, je vais y réfléchir en tenant compte de tes remarques. Je te tiendrai au courant dès que j'ai du nouveau.

Merci droopy

par stagiaire69 Mer 1 Sep 2010 - 8:27

Sous SAS, il n'existe pas de fonction Hill&Smith comme sous R mais il existe une procédure format qui permet de modifier les variables qualitatives en quantitatives et vice versa.
En ce qui concerne les individus, le choix du numéro de chassis est plus judicieux.
Cependant j'ai une nouvelle petite question, j'ai un jeu de données représentatifs avec à peu près 58 000 lignes. Est ce bon pour mon analyse le fait d'avoir beaucoup de données ou dois je restreindre mon échantillon?

par droopy Mer 1 Sep 2010 - 9:32

si tu n'as pas de raison de restreindre ton jeu de données alors ne le fait pas. Les relations que tu observeras seront alors réellement représentative de ton jeu de données. La seule chose qui peut potentiellement posée problème c'est la taille de la matrice à décomposée. Et encore cela dépend de l'algo utilisé.

par stagiaire69 Mer 1 Sep 2010 - 9:35

C'est noté.

merci droopy de ton aide

par stagiaire69 Jeu 9 Sep 2010 - 10:42

slt Droopy,

Je dois faire une analyse exploratoire de mes données et je ne sais plus quoi faire, je ne comprend le code sur R qui est le suivant:

datavolvo <- read.table("C:/Users/MD/Downloads/volvo.csv",sep = "\t", header = TRUE, na.string = "", dec = ",")
summary(datavolvo)
require(ade4)
dd1 <- dudi.mix(datavolvo,scann=F)
scatter.dudi(dd1,clab.r=1,clab.c=1.5)
dd2 <- dudi.mix(datavolvo,scann=F,add=T)
scatter.dudi(dd2, clab.r = 1, clab.c = 1.5)

Peux tu m'éclaircir un peu sachant que je dois finir pour vendredi?

Voici les erreurs affichées

> dd1 <- dudi.mix(datavolvo,scann=F)
Erreur dans do.call("cbind", lapply(x, "is.na")) :
les noms de variables sont limités à 256 octets
> scatter.dudi(dd1,clab.r=1,clab.c=1.27)
Erreur dans inherits(x, "dudi") : objet 'dd1' introuvable
> dd2 <- dudi.mix(datavolvo,scann=F,add=T)
Erreur dans do.call("cbind", lapply(x, "is.na")) :
les noms de variables sont limités à 256 octets
> scatter.dudi(dd2, clab.r = 1, clab.c = 1.27)
Erreur dans inherits(x, "dudi") : objet 'dd2' introuvable

Merci

par joyeux_lapin13 Jeu 9 Sep 2010 - 16:32

De mémoire, le coup des erreurs d'octets ça vient du fait que ta table n'est pas chargé correctement sous R.

Aprés concernant les autres erreurs, ben vue que ta table n'est pas bonne alors il arrive pas à s'en servir (bonne dans le sens qu'elle n'est pas chargée).

Je te recommande d'enregistrer ta table en csv (enfin moi je travail comme ça aprés je sais qu'on peut le faire autrement) en format csv et de faire table <- read.csv2('nomtable.csv',header = TRUE), le header c'est pour qu'il comprenne que tes colonnes ont des noms écrit dans ta table sous format csv.

par jigouen Ven 10 Sep 2010 - 10:21

Si tu ecris comme code read.table, je pense qu'il attend un fichier .txt, essaye donc effectivement en read.csv2 ou sinon refait ce que tu as fait avant en copiant ton fichier excel dans le bloc note et en sauvant sous forme .txt. Puis meme formule avec volvo.txt aulieu de .csv.

par stagiaire69 Lun 13 Sep 2010 - 7:32

Merci beaucoup, je vais essayer et je vous tiendrai au courant.

par Contenu sponsorisé

Extraction base de données pour analyse Hill & Smith

Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith

Re: Extraction base de données pour analyse Hill & Smith