Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

Le Deal du moment : -39%
Ordinateur portable ASUS Chromebook Vibe CX34 Flip
Voir le deal
399 €

Clustering de variables avec effets aléatoires

3 participants

Aller en bas

Clustering de variables avec effets aléatoires Empty Clustering de variables avec effets aléatoires

Message par AdrienC Ven 17 Avr 2020 - 13:10

Bonjour,

Je dois aider un de mes collègues biologiste qui m'a posé une vraie colle en matière de statistique.

On possède un tableau de données avec :
- 50 variables quantitatives où chacune d'entre elle représente une quantification de la présence d'une protéine (il y a donc 50 protéines différentes).
- Une variable "drogue" : on a injecté une drogue ou non à la plante : effet fixe. (variable qualitative)
- Une variable temporelle : les mesures ont été faites à 0 jour, 15 jours et 1 mois : effet fixe. (variable qualitative)

J'ai noté bon aussi de prendre "l'identifiant de la plante" qui serait mon effet aléatoire : bien entendu ce n'est que ma piste pour traiter la chose.

L'objectif est d'effectuer un clustering des variables qui mesure la présence des protéines : c'est à dire regrouper les protéines qui se ressemblent (les 50 premières variables du début) tout en prenant en compte qu'on les mesure sur des plantes qui ont une drogue ou non et que ce sont des mesures temporelles.


Le package ClustOfVar de R propose déjà des solutions pour faire du clustering de variables. C'est assez simple d'habitude mais là on doit prendre en compte aussi les différents effets fixes (ou aléatoires) dans l'étude.

Je sais que ce n'est pas facile et ma thèse ne porte pas sur ce domaine de la statistique !

Je vous remercie si vous avez déjà lu un papier sur une situation similaire ou non Very Happy


Bonne journée

Adrien
AdrienC
AdrienC

Nombre de messages : 93
Date d'inscription : 15/03/2018

Revenir en haut Aller en bas

Clustering de variables avec effets aléatoires Empty Re: Clustering de variables avec effets aléatoires

Message par Ayana Ven 17 Avr 2020 - 14:13

Bonjour,

Le package kmlShape dans R permet de faire du clustering sur des donnees repetees (mais il existe d'autres packages). Le probleme avec tes donnees c'est la drogue, qui va completement dicter le resultat de ton clustering si la drogue a un effet. Il vaudrait mieux commencer par effectuer le clustering separement dans chaque groupe defini par la drogue?

Ayana
Ayana
Ayana

Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009

Revenir en haut Aller en bas

Clustering de variables avec effets aléatoires Empty Re: Clustering de variables avec effets aléatoires

Message par AdrienC Ven 17 Avr 2020 - 15:03

Bonjour,

Je vous remercie, est-ce que ce package fait du clustering sur les variables ou seulement sur les individus ?

Car les protéines sont sous forme de variables quantitatives. Leurs valeurs changent selon que ce soit une drogue ou pas et aussi l'aspect temporel.

Ce n'est pas évident mais je vous remercie beaucoup
AdrienC
AdrienC

Nombre de messages : 93
Date d'inscription : 15/03/2018

Revenir en haut Aller en bas

Clustering de variables avec effets aléatoires Empty Re: Clustering de variables avec effets aléatoires

Message par AdrienC Lun 20 Avr 2020 - 11:42

Bonjour, je suis désolé de reposter sur mon post mais je vais essayer de proposer quelque chose voir ce que vous en penser Smile


Chaque donnée / ligne est régie par deux conditions : présence de la drogue et le temps.

La seule chose que l'on sait faire c’est :
- Faire un clustering brut sur des variables quantitatives (cela se base sur la matrice des corrélations et après CAH).


On commence par se créer une matrice de similarité entre toutes les variables "protéines" qui est vide (remplie de 0).

Donc l’idée c’est de faire des strates comme dans les sondages.

On prend le sous tableau de données : drogue + jour 1. Donc on obtient un sous tableau de données où il n'y a plus de conditions drogue/temps. Ensuite, on applique un clustering de variables dessus (avec le package ClustOfVar de R par exemple).

A chaque fois que 2 variables ont été mises ensemble, on ajoute +1 dans la matrice de similarité des variables ou 0 sinon.

Ensuite on fait la même chose avec le sous tableau : sans drogue / jour1 ...

L'objectif est de balayé l'ensemble des couples (combinaisons) : drogue / temps.

Enfin, cela permet d'obtenir une matrice de similarité qui aura pris en compte la drogue et le temps. Pour terminer, on applique un clustering hiérarchique sur cette matrice pour obtenir un partitionnement des protéines.

La stratégie d'utiliser ce genre de matrice de similarité qui fait "consensus" entre plusieurs clustering est très utilisées dans les méthodes "d'ensemble clustering". En effet, on souhaite avoir un clustering qui ferait une synthèse de tous ceux que l'on a.

Je voudrais savoir si cela vous a convaincu ou pas du tout !

Merci bien et très bonne journée à vous Smile
AdrienC
AdrienC

Nombre de messages : 93
Date d'inscription : 15/03/2018

Revenir en haut Aller en bas

Clustering de variables avec effets aléatoires Empty Re: Clustering de variables avec effets aléatoires

Message par Eric Wajnberg Ven 24 Avr 2020 - 6:02

Je ne sais pas si mon avis sera pertinent, mais je le donne quand même :

Dans la mesure où un regroupement de variables est une procédure qui est en fait construite sur leurs corrélations, je partirais plutôt sur un traitement "à la française" en faisant une Analyse Factorielle Discriminante (AFD), et en regardant la structure de regroupement des variables sur des cercles de corrélations, par exemple sur les deux premiers axes. Une AFD n'est en fait juste qu'une ACP à laquelle on ajoute des facteurs (comme dans une ANOVA). On retombe sur une généralisation multivariée des tests F, et vous pouvez donc y rajouter - au moins - votre facteur fixe. Pour les facteurs aléatoires, je n'ai pas trop d'idée, mais je les rajouterais dans un premier temps comme des facteurs fixes également. Ceci risque juste de biaiser (un peu) la matrice de variance-covariance intra, mais ça devrait tout de même vous donner l'information recherchée..

HTH, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1237
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Clustering de variables avec effets aléatoires Empty Re: Clustering de variables avec effets aléatoires

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum