Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Jeu de données sans hypothèse
3 participants
Page 1 sur 1
Jeu de données sans hypothèse
Bonjour à tous,
Je consulte le site et je constate qu'il y a souvent un problème récurrent : les personnes viennent avec un jeu de données sans hypothèses.
Et souvent la réponse est la même sans hypothèse il est difficile de faire des statistiques.
Ma question est de savoir/comprendre s'il était impossible ou absurde de faire de l'analyse sur un jeu de données sans problématique.
D'expérience j'ai souvent vu des gens collectés des données mais qui n'avaient pas de questions précises et qu'ils souhaitaient faire ressortir des conclusions ou des corrélations. Est-ce absurde ?
Merci d'avance pour vos réponses
Je consulte le site et je constate qu'il y a souvent un problème récurrent : les personnes viennent avec un jeu de données sans hypothèses.
Et souvent la réponse est la même sans hypothèse il est difficile de faire des statistiques.
Ma question est de savoir/comprendre s'il était impossible ou absurde de faire de l'analyse sur un jeu de données sans problématique.
D'expérience j'ai souvent vu des gens collectés des données mais qui n'avaient pas de questions précises et qu'ils souhaitaient faire ressortir des conclusions ou des corrélations. Est-ce absurde ?
Merci d'avance pour vos réponses
Coco- Nombre de messages : 57
Date d'inscription : 23/03/2017
Re: Jeu de données sans hypothèse
Les tests statistiques classiques s'appellent des "tests d'hypothèse". C'est à dire que, pour les appliquer correctement, il faut d'abord formuler une hypothèse, puis collecter des données avec la méthodologie appropriée pour évaluer correctement cette hypothèse et maitriser au mieux les biais, et finalement tester.
Donc dans l'approche classique des tests stats il est très risqué de collecter une masse de données sans structure et sans objectif précis, puis de l'explorer un peu au pif. En 2 mots, cette facon de faire entraine de gros risques de conclusions erronnées, ou de conclusions ne reposant sur rien, ou de l'impossibilité d'établir un lien de causalité.
Il existe de nouvelles approches qui rentrent dans ce qu'on appelle "l'exploration sans a priori". C'est assez récent, très pointu, et beaucoup de ces modèles en sont toujours au stade de la recherche. Ils travaillent obligatoirement sur des jeux de données énormes (ce qu'on appelle le big data), et grosso modo ca consiste à identifier des sortes de corrélations étranges dans cette masse de données, sans émettre d'hypothèse à priori.
L'industrie pharma utilise ca pour exploiter ses "entrepots de données", certaines immenses études de cohorte sont basées sur ce type d'exploration, et beaucoup de travaux en génétique utilisent aussi ces modèles.
C'est extrêmement pointu, très difficile à manier, et très très très loin de ce qui peut êre fait dans le cadre d'un mémoire d'étudiant
Donc dans l'approche classique des tests stats il est très risqué de collecter une masse de données sans structure et sans objectif précis, puis de l'explorer un peu au pif. En 2 mots, cette facon de faire entraine de gros risques de conclusions erronnées, ou de conclusions ne reposant sur rien, ou de l'impossibilité d'établir un lien de causalité.
Il existe de nouvelles approches qui rentrent dans ce qu'on appelle "l'exploration sans a priori". C'est assez récent, très pointu, et beaucoup de ces modèles en sont toujours au stade de la recherche. Ils travaillent obligatoirement sur des jeux de données énormes (ce qu'on appelle le big data), et grosso modo ca consiste à identifier des sortes de corrélations étranges dans cette masse de données, sans émettre d'hypothèse à priori.
L'industrie pharma utilise ca pour exploiter ses "entrepots de données", certaines immenses études de cohorte sont basées sur ce type d'exploration, et beaucoup de travaux en génétique utilisent aussi ces modèles.
C'est extrêmement pointu, très difficile à manier, et très très très loin de ce qui peut êre fait dans le cadre d'un mémoire d'étudiant
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Jeu de données sans hypothèse
Bonjour,
Le sujet m'intéresse.
Est-ce que certaines méthodes de data-mining font partie de ce type de problématique (jeu de données sans vraie hypothèse) ?
Je me rappelle, en stage, avoir utilisé des petites méthodes (ACM, FAMD) pour trouver des groupes d'individus ou de modalités qui seraient plus ou moins liées.
Au final on obtient une sorte de résultat exploratoire pour lequel on "débroussaille" les données afin de pouvoir faire des hypothèses en aval.
Le sujet m'intéresse.
Est-ce que certaines méthodes de data-mining font partie de ce type de problématique (jeu de données sans vraie hypothèse) ?
Je me rappelle, en stage, avoir utilisé des petites méthodes (ACM, FAMD) pour trouver des groupes d'individus ou de modalités qui seraient plus ou moins liées.
Au final on obtient une sorte de résultat exploratoire pour lequel on "débroussaille" les données afin de pouvoir faire des hypothèses en aval.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum