Clustering de variables avec effets aléatoires

par AdrienC Ven 17 Avr 2020 - 13:10

Bonjour,

Je dois aider un de mes collègues biologiste qui m'a posé une vraie colle en matière de statistique.

On possède un tableau de données avec :
- 50 variables quantitatives où chacune d'entre elle représente une quantification de la présence d'une protéine (il y a donc 50 protéines différentes).
- Une variable "drogue" : on a injecté une drogue ou non à la plante : effet fixe. (variable qualitative)
- Une variable temporelle : les mesures ont été faites à 0 jour, 15 jours et 1 mois : effet fixe. (variable qualitative)

J'ai noté bon aussi de prendre "l'identifiant de la plante" qui serait mon effet aléatoire : bien entendu ce n'est que ma piste pour traiter la chose.

L'objectif est d'effectuer un clustering des variables qui mesure la présence des protéines : c'est à dire regrouper les protéines qui se ressemblent (les 50 premières variables du début) tout en prenant en compte qu'on les mesure sur des plantes qui ont une drogue ou non et que ce sont des mesures temporelles.

Le package ClustOfVar de R propose déjà des solutions pour faire du clustering de variables. C'est assez simple d'habitude mais là on doit prendre en compte aussi les différents effets fixes (ou aléatoires) dans l'étude.

Je sais que ce n'est pas facile et ma thèse ne porte pas sur ce domaine de la statistique !

Je vous remercie si vous avez déjà lu un papier sur une situation similaire ou non Very Happy

Bonne journée

Adrien

par Ayana Ven 17 Avr 2020 - 14:13

Bonjour,

Le package kmlShape dans R permet de faire du clustering sur des donnees repetees (mais il existe d'autres packages). Le probleme avec tes donnees c'est la drogue, qui va completement dicter le resultat de ton clustering si la drogue a un effet. Il vaudrait mieux commencer par effectuer le clustering separement dans chaque groupe defini par la drogue?

Ayana

par AdrienC Ven 17 Avr 2020 - 15:03

Bonjour,

Je vous remercie, est-ce que ce package fait du clustering sur les variables ou seulement sur les individus ?

Car les protéines sont sous forme de variables quantitatives. Leurs valeurs changent selon que ce soit une drogue ou pas et aussi l'aspect temporel.

Ce n'est pas évident mais je vous remercie beaucoup

par AdrienC Lun 20 Avr 2020 - 11:42

Bonjour, je suis désolé de reposter sur mon post mais je vais essayer de proposer quelque chose voir ce que vous en penser Smile

Chaque donnée / ligne est régie par deux conditions : présence de la drogue et le temps.

La seule chose que l'on sait faire c’est :
- Faire un clustering brut sur des variables quantitatives (cela se base sur la matrice des corrélations et après CAH).

On commence par se créer une matrice de similarité entre toutes les variables "protéines" qui est vide (remplie de 0).

Donc l’idée c’est de faire des strates comme dans les sondages.

On prend le sous tableau de données : drogue + jour 1. Donc on obtient un sous tableau de données où il n'y a plus de conditions drogue/temps. Ensuite, on applique un clustering de variables dessus (avec le package ClustOfVar de R par exemple).

A chaque fois que 2 variables ont été mises ensemble, on ajoute +1 dans la matrice de similarité des variables ou 0 sinon.

Ensuite on fait la même chose avec le sous tableau : sans drogue / jour1 ...

L'objectif est de balayé l'ensemble des couples (combinaisons) : drogue / temps.

Enfin, cela permet d'obtenir une matrice de similarité qui aura pris en compte la drogue et le temps. Pour terminer, on applique un clustering hiérarchique sur cette matrice pour obtenir un partitionnement des protéines.

La stratégie d'utiliser ce genre de matrice de similarité qui fait "consensus" entre plusieurs clustering est très utilisées dans les méthodes "d'ensemble clustering". En effet, on souhaite avoir un clustering qui ferait une synthèse de tous ceux que l'on a.

Je voudrais savoir si cela vous a convaincu ou pas du tout !

Merci bien et très bonne journée à vous Smile

par Eric Wajnberg Ven 24 Avr 2020 - 6:02

Je ne sais pas si mon avis sera pertinent, mais je le donne quand même :

Dans la mesure où un regroupement de variables est une procédure qui est en fait construite sur leurs corrélations, je partirais plutôt sur un traitement "à la française" en faisant une Analyse Factorielle Discriminante (AFD), et en regardant la structure de regroupement des variables sur des cercles de corrélations, par exemple sur les deux premiers axes. Une AFD n'est en fait juste qu'une ACP à laquelle on ajoute des facteurs (comme dans une ANOVA). On retombe sur une généralisation multivariée des tests F, et vous pouvez donc y rajouter - au moins - votre facteur fixe. Pour les facteurs aléatoires, je n'ai pas trop d'idée, mais je les rajouterais dans un premier temps comme des facteurs fixes également. Ceci risque juste de biaiser (un peu) la matrice de variance-covariance intra, mais ça devrait tout de même vous donner l'information recherchée..

HTH, Eric.

par Contenu sponsorisé

Clustering de variables avec effets aléatoires

Clustering de variables avec effets aléatoires

Re: Clustering de variables avec effets aléatoires

Re: Clustering de variables avec effets aléatoires

Re: Clustering de variables avec effets aléatoires

Re: Clustering de variables avec effets aléatoires

Re: Clustering de variables avec effets aléatoires