Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

-50%
Le deal à ne pas rater :
-50% sur les sacs à dos pour ordinateur portable Urban Factory ...
19.99 € 39.99 €
Voir le deal

Prédiction d'un facteur "Plainte / Ø Plainte"

2 participants

Aller en bas

Prédiction d'un facteur "Plainte / Ø Plainte" Empty Prédiction d'un facteur "Plainte / Ø Plainte"

Message par Mr. Shidokaz Mer 14 Juin 2017 - 14:11

Bonjour à toutes et à tous ! Very Happy

Après avoir écumé internet à la recherche d'une solution à mon problème (et surtout après n'avoir trouvé que de nouveaux problèmes à mon problème d'origine ^^"), je souhaiterais demander de l'aide à des personnes qui sauront sans aucun doute m'éclairer !

Je dispose de deux groupes de sujets, un groupe présentant une plainte de sommeil (Groupe Plainte) et un groupe ne présentant pas de plainte de sommeil (Groupe Ø Plainte). Pour ces deux groupes, j'ai plusieurs données :
- l'âge
- le genre (h/f)
- l'IMC
- des scores à différents questionnaires et tests
- des valeurs de sommeil (latence d'endormissement en minutes, durée réelle de sommeil en minutes, etc.)
- etc.

Avec tout ça entre les mains, il y a une question majeure à laquelle je dois répondre. Parmi les valeurs dont je dispose, quelles sont celles qui vont prédire la présence ou l'absence d'une plainte de sommeil ? En gros, est-ce que la plainte de sommeil s'explique par l'une (ou par plusieurs) variables quantitatives de ma base de données ?

Cette question en soulève d'ailleurs une autre : parmi mes différentes variables, y a-t-il un moyen de déterminer lesquelles sont pertinentes et lesquelles peuvent être retirées (exemple / caricature : est-ce qu'il y a un moyen de dire si la taille du gros orteil du pied gauche est un facteur à intégrer au modèle de prédiction) ?


Voilà grosso modo ma situation : j'ai une multitude de données pour deux groupes, et l'objectif serait de déterminer parmi ces données lesquelles vont permettre de prédire la plainte de sommeil... tout en retirant bien sûr les variables qui ne sont pas pertinentes.

J'ai eu plusieurs idées : régression logistique, classification par forêts aléatoires... mais comme je le disais, à force de me renseigner, je me perdais dans le monde (sans doute merveilleux ^^') des statistiques... C'est pourquoi je viens vous demander votre aide !

Si mon problème n'est pas clair, n'hésitez pas à me le dire : je tâcherai d'expliquer en détail ce qui na va pas ! Wink

Merci d'avance pour vos retours et bonne journée à vous !

Mr. Shidokaz

Mr. Shidokaz

Nombre de messages : 6
Date d'inscription : 14/06/2017

Revenir en haut Aller en bas

Prédiction d'un facteur "Plainte / Ø Plainte" Empty Re: Prédiction d'un facteur "Plainte / Ø Plainte"

Message par c@ssoulet Jeu 15 Juin 2017 - 7:54

D'abord il faut avoir les idées claires sur ce qui est faisable. Lorsque tu fouilles un tableau de données construit sans structure (sans méthodo, critères d'inclusion, critères d'évaluation définis et priorisés à l'avance... etc) tu dégages des pistes mais tu ne prouves jamais rien stricto senso. C'est par exemple la difficulté des études rétrospectives sur dossiers. En clair, tu peux trouver des associations statistiquement significatives mais tu ne peux pas strictement démontrer un lien de cause à effet à cause de l'absence de méthodo. La seule chose que tu puisse faire est, face à un résultat significatif, donner un faisceau d'arguments cliniques soutenant l'hypothèse d'un lien de causalité mais tu ne pourras pas strictement le prouver

Croire que plus on a de données plus les conclusions sont solides est un a priori faux. Plus on a de données, plus on se prend la tête mais le problème méthodo reste strictement le même.

Tu auras autant d'avis que de réponses face à ce type de problème. Mon approche est qu'il faut rester le plus simple possible, analyser avec les outils les plus simples possibles et garder en tête que ce que l'on fait est très critiquable, ne serais-ce qu'à cause du risque de première espèce qui va exploser sur l'ensemble des tests réalisés.

La première chose à respecter strictement est d'émettre ses hypothèses AVANT DE LES TESTER. Aller à la pêche au p significatif et en déduire une hypothèse à postériori est l'erreur la plus crasse qu'on puisse commettre dans ta situation.

Ensuite, l'erreur à ne pas commettre est de se reposer uniquement sur les maths. Il faut tester des hypothèses simples, et face au résultat il faut se poser et réfléchir vraiment à l'argumentation clinique. Le gros du travail est là, pas dans les stats.

Ensuite, à première vue et à la louche, je partirais sur un modèle de régression logistique. D'abord en regardant l'effet de chaque variable d'interet séparément, puis en faisant une régression multiple, incluant tes variables d'interêt qui semblent "peser" et faire un tri descendant.

Tu isoleras quelques variables qui expliqueront une partie de la variation de ton critère "plainte", éventuellement même une grande partie, mais encore une fois tu ne pourras pas aller beaucoup plus loin (démonstration du lien de causalité impossible). La suite, c'est une discussion clinique.

c@ssoulet

Nombre de messages : 925
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Prédiction d'un facteur "Plainte / Ø Plainte" Empty Re: Prédiction d'un facteur "Plainte / Ø Plainte"

Message par Mr. Shidokaz Jeu 15 Juin 2017 - 12:57

Salut à toi, c@ssoulet !
Merci pour ta réponse, je vais à mon tour étayer tout ça.

Je suis conscient de ne pas être en mesure de montrer de lien de cause à effet, en tout cas dans ma situation. Je peux en revanche donner des arguments qui tendent à expliquer notre résultats, et c'est ce que je compte faire ! ^^

Je suis de ton avis : avoir plein de données est une bonne chose, on peut traiter plus de choses MAIS on se prend davantage la tête... Cela nous oblige à prendre en compte toutes ces petites informations !

J'ai plusieurs hypothèses concernant mes résultats, je pars du principe que l'anxiété et la dépression auront un impact sur la présence ou l'absence de plainte, de même que le score à l'un des questionnaires de sommeil. Toutefois, je fais ça dans un but plutôt exploratoire, c'est pourquoi je n'avais pas jugé "utile" de donner mes hypothèses...

Du coup, j'ai attaqué le problème selon ton point de vue : commencer par faire des régressions logistiques simples, en mettant en variable à prédire (dépendante) "Plainte / Ø Plainte" et en sélectionnant tour à tour chacune de mes variables prédictives (indépendantes). En creusant dans cette direction, je suis tombé sur un article expliquant la marche à suivre pour sélectionner les variables, avec un graphiques récapitulatif très bien construit (pour ceux que ça intérèsse : Comprendre la régression logistique, M. El Sanharawi et F. Naudet, 2013 ; figure 6). Smile

J'ai pu donc passer au stade suivant en intégrant toutes les variables "qui semblent peser" dans un modèle multivarié. Toutefois, une question me vient à l'esprit : comment s'interprète une telle analyse ?
Certes, la valeur du p m'indique quel facteur semble le plus intervenir, mais mes connaissances s'arrêtent malheureusement là...

Comment puis-je interpréter au mieux une régression logistique multiple s'il vous plaît ?

Merci d'avance ! Smile

Mr. Shidokaz

Mr. Shidokaz

Nombre de messages : 6
Date d'inscription : 14/06/2017

Revenir en haut Aller en bas

Prédiction d'un facteur "Plainte / Ø Plainte" Empty Re: Prédiction d'un facteur "Plainte / Ø Plainte"

Message par c@ssoulet Jeu 15 Juin 2017 - 14:25

"la valeur du p m'indique quel facteur semble le plus intervenir" c'est pas exactement ca.

Il faut distinguer intensité moyenne de l'effet et significativité de cette intensité.

Lorsque tu fais ta régressions logistique, l'intensité est reflétée par le coefficient. Ce coeff n'est pas vraiment interprétable de façon directe, puisque c'est le logarithme de l'odd-ratio. La première chose à faire est de demander a ton programme de stats d'afficher directement l'odd-ratio. Ca doit être faisable dans les options.

Pour interpréter un odd-ratio, c'est un peu obscur mais ca peut etre dit de façon simple et pas trop fausse comme ca: pour chaque augmentation de 1 unité de mon prédicteur (de X), la probabilité que la variable dépendante (Y) soit "1" est multipliée par l'odd-ratio

Avec ca en tête, tu vas avoir une idée de l'intensité de l'effet, en fonction de l'odd-ratio et de l'unité dans laquelle ton prédicteur est estimé.

La significativité représente la probabilité que l'odd-ratio soit différent de 1 (effet nul). Donc elle n'a pas un rapport direct avec l'intensité de l'effet, mais doit être quand même prise en compte. Par exemple, odd-ratio élevé mais non significatif veut dire intensité moyenne de l'effet importante mais extremement variable. donc probablement présence d'outliers qui "tirent" la moyenne vers le haut... etc etc... et donc il est probablement justifié de ne pas garder ce prédicteur dans le modèle.

Avec tout ca sous le bras, tu fais une belle tambouille, tu mouilles ton doigt, tu le tends en l'air et tu vires ton prédicteur qui semble avoir le moins d'effet et/ou dont l'effet n'est pas significatif

et tu recommences

et tu recommences... jusqu'à avoir isolé les quelques prédicteurs qui expliquent le mieux la variation de y.

quand tu fais de la régression multiple, par définition chaque coeff représente l'intensité du prédicteur concerné ajustée sur l'ensemble des autres prédicteurs introduits dans le modèle.

Donc par définition à chaque étape du tri, les coeffs changent (tu as un prédicteur de moins, et donc tu n'ajustes pas sur le même set de variables). C'est normal.

c@ssoulet

Nombre de messages : 925
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Prédiction d'un facteur "Plainte / Ø Plainte" Empty Re: Prédiction d'un facteur "Plainte / Ø Plainte"

Message par Mr. Shidokaz Lun 19 Juin 2017 - 13:30

Salut c@ssoulet !
Merci beaucoup pour ta réponse, elle me permet d'y voir plus clair !

J'ai trouvé le moyen d'afficher les odds-ratio via mon logiciel de statistiques (pour info, j'utilise Statistica), et j'ai donc passé chacune de mes variables une à une afin de sélectionner les plus "intéressantes". Mais du coup, est-ce qu'il est possible de réaliser cette opération de tri et de sélection via une régression de type "pas-à-pas" (genre descendante) ?

A moins qu'il y ait justement 2 étapes : la sélection des variables pertinentes et l'évaluation de l'impact de ces dernières dans le modèle (pour prédire ma variable y)...

Quoi qu'il en soit, je continue de creuser et de tester mes hypothèses !

Mr. Shidokaz

Mr. Shidokaz

Nombre de messages : 6
Date d'inscription : 14/06/2017

Revenir en haut Aller en bas

Prédiction d'un facteur "Plainte / Ø Plainte" Empty Re: Prédiction d'un facteur "Plainte / Ø Plainte"

Message par c@ssoulet Lun 19 Juin 2017 - 13:40

La sélection descendante pas à pas, c'est exactement ce que je t'ai décrit. C'est pas une formule mathématique magique qui décide quelles variables doivent être introduites dans le modèle, laquelle est éliminée à chaque étape, et quand on arrête la sélection. C'est toi.

c@ssoulet

Nombre de messages : 925
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Prédiction d'un facteur "Plainte / Ø Plainte" Empty Re: Prédiction d'un facteur "Plainte / Ø Plainte"

Message par Mr. Shidokaz Jeu 22 Juin 2017 - 13:05

Hellow' c@ssoulet !

J'ai pu creuser de mon côté pour déterminer les variables qui doivent être intégrées à mon modèle (en fonction de la littérature scientifique sur le sujet, etc.), ce qui m'a nettement aidé !

Toutefois, j'aurais une autre question, cette fois-ci concernant le résultat obtenu via la régression, notamment les odds ratio.
De façon générale, en cherchant un peu sur internet un moyen d'interpréter ces odds-ratio, je tombe sur des exemples très "simples", sous forme de tableaux avec une variable à prédire qualitative et une variable qui prédit quantitative, comme par exemple :
- Présence / Absence d'une maladie
- Exposition / Non-exposition au facteur de risque

Du coup, l'interprétation des odds ratio est très cadrée sur ce type de problème...

Toutefois, je ne parviens pas à transposer tout ça dans ma situation : j'ai ma variable à prédire binaire "Plainte / Ø Plainte" et, par exemple, des valeurs de latence d'endormissement (Sleep Onset Latency, SOL) qui varient de 0 à 60 minutes (voire plus).

Du coup, ma question est la suivante : si j'obtiens une valeur de p inférieure à 0,5 ainsi qu'un odd ratio inférieur (ou supérieur) à 1, comment serait tournée l'interprétation ? Et à quelle réponse de ma variable binaire serait associé ce résultat ? A la présence de la plainte, à son absence ?

Je ne sais pas si je suis très clair dans mes explications (à force de chercher, je dois très certainement m'emmêler les pinceaux)... :/

Merci beaucoup par avance pour ta réponse !

Mr. Shidokaz

Mr. Shidokaz

Nombre de messages : 6
Date d'inscription : 14/06/2017

Revenir en haut Aller en bas

Prédiction d'un facteur "Plainte / Ø Plainte" Empty Re: Prédiction d'un facteur "Plainte / Ø Plainte"

Message par c@ssoulet Jeu 22 Juin 2017 - 13:45

je te l'ai expliqué dans mon 2e message

c@ssoulet

Nombre de messages : 925
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Prédiction d'un facteur "Plainte / Ø Plainte" Empty Re: Prédiction d'un facteur "Plainte / Ø Plainte"

Message par Mr. Shidokaz Lun 26 Juin 2017 - 7:11

Salut ! Very Happy

En effet, j'ai relu ton deuxième message et il y avait bien l'explication... Désolé ! ^^"

Du coup, j'ai pris un peu de temps pour lancer la régression logistique sous R (car Statistica ne me convenait pas...), et j'ai fait un premier essai avec une seule variable x pour expliquer ma variable binaire y (Plainte / Ø Plainte).

J'ai donc obtenu les résultats suivants :

Code:
Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -2.2053     0.6254  -3.526 0.000422 ***
madrs         0.9818     0.3700   2.654 0.007956 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Code:
                 OR    2.5 % 97.5 %         p    
(Intercept) 0.110222 0.026782 0.3286 0.0004216 ***
madrs       2.669370 1.369914 6.0270 0.0079558 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Le score obtenu à la MADRS est un score de dépression : plus ce score est élevé, plus la personne est dépressive (grosso modo). Donc, si je reprends les informations de ton deuxième message, voici la conclusion : une augmentation du score de dépression accroît le risque de se plaindre de son sommeil.

Cette interprétation te paraît-elle bonne ?

De plus, autre petite question (en lien avec l'interprétation) : quelles sont les valeurs à placer dans un texte pour présenter correctement les résultats ? En effet, en lisant certains articles, je n'ai pas la même réponse. Dois-je noter la valeur de p, l'intervalle de confiance, l'odds ratio, les trois ? ^^

Merci beaucoup par avance pour ton retour ! Very Happy

Mr. Shidokaz

Mr. Shidokaz

Nombre de messages : 6
Date d'inscription : 14/06/2017

Revenir en haut Aller en bas

Prédiction d'un facteur "Plainte / Ø Plainte" Empty Re: Prédiction d'un facteur "Plainte / Ø Plainte"

Message par Mr. Shidokaz Jeu 29 Juin 2017 - 13:27

Bien le bonjour !

Désolé pour le up, mais j'aimerais en profiter pour poser une question supplémentaire...
A la suite de ces analyses univariées, je souhaiterais intégrer plusieurs variables explicatives dans mon modèle, afin de déterminer quelles variables permettent de prédire au mieux ma réponse "Plainte / Ø Plainte".

Du coup, voici ma question : j'ai, parmi mes variables, des valeurs qui sont liées entre elles. En effet, pour mesurer la durée de latence d'endormissement par exemple, j'ai utilisé deux méthodes : une méthode subjective (estimation du sujet du temps qu'il met à s'endormir) et une méthode objective (évaluation objective de la latence d'endormissement grâce à un appareil et des algorithmes)

Est-ce qu'il m'est possible de les intégrer toutes les deux dans mon modèle, sachant que ces deux variables ont été obtenues par des mesures évaluant la même chose mais différemment ?

Il s'agit d'une question sans doute bête, surtout que mon bon sens me dit que "non, je ne dois sélectionner que la plus pertinente ou celle directement liée à la question scientifique que je me pose", mais je préférais toutefois vous demander...

Voilà, merci d'avance pour vos éclaircissements !

Mr. Shidokaz

Mr. Shidokaz

Nombre de messages : 6
Date d'inscription : 14/06/2017

Revenir en haut Aller en bas

Prédiction d'un facteur "Plainte / Ø Plainte" Empty Re: Prédiction d'un facteur "Plainte / Ø Plainte"

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum