Les posteurs les plus actifs de la semaine
joyeux_lapin13
 
zeu
 
gg
 
schlebe
 
zezima
 
Antoin123
 
Eric Wajnberg
 
Yacouba_KONE
 
rayanes159
 
noviceST
 


régression sur très grands échantillons

Voir le sujet précédent Voir le sujet suivant Aller en bas

régression sur très grands échantillons

Message par niaboc le Mer 3 Juin 2015 - 15:35

Bonjour,

réalisant des régressions sur de très grands échantillons (plusieurs dizaines de milliers de données), toutes mes variables testées sont significatives, alors que leur impact n'est peut-être pas réel.

Je soupçonne la taille de l'échantillon d'être responsable de la trop grande facilité à rejeter l'hypothèse de nullité des coefficients des différents régresseurs (p-value<0.001 quasiment à chaque fois).

Existe-t-il des solutions pour palier à ce problème??

Merci

Niaboc

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: régression sur très grands échantillons

Message par Nik le Mer 3 Juin 2015 - 16:00

Ne pas passer par les tests d'hypothèse Smile.
Sélectionne tes variables/modèles via un critère d'information et tu devrais éviter ces problèmes. En plus avec n, grand tu tombes dans le cas où les propriétés stat de ces outils sont au top (ces fameuses propriétés "asymptotiques")

Nik

Nombre de messages : 1500
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: régression sur très grands échantillons

Message par niaboc le Mer 3 Juin 2015 - 18:05

J'utilise le critère AIC... mais il est toujours de plus en plus bas avec le nombre de variables que je rajoutes. Et j'ai l'impression que je peux rajouter autant de variables que je veux, il sera toujours de plus en plus bas.

Généralement mon AIC baisse d'au moins 10 ou 15 "points" par variables rajoutées. Je ne sais pas trop si c'est intéressant ou pas (sachant que l'ordre de grandeur de l'AIC des différents modèles se situe aux alentours de 450 000...).

Peut-être existe-t-il des règles empiriques disant qu'une baisse de l'AIC d'au moins x% est intéressante?

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: régression sur très grands échantillons

Message par joyeux_lapin13 le Jeu 4 Juin 2015 - 5:31

C'est quoi la taille de ton échantillon?

Pour avoir tester pas mal de tests en faisant évoluer la taille d'échantillon, quasiment tous deviennent caduques sur des échantillons supérieurs à 1 000, les plus résistants tiennent le coup jusqu'à 10 000 unités statistiques.

On ne peut pas vraiment y pallier, c'est soit Tufféry soit Saporta qui rappel dans leur ouvrage que la théorie des tests a été mise en place à l'époque où il n'y avait pas de super calculateur et donc les lois de référence sur lesquelles se basent les p-valeurs ne sont pas adaptées sur de gros échantillon.

Après les coefficients de corrélation ou encore le V de Cramer peuvent t'aider à fournir tout de même des indicateurs statistiques qui ne sont pas touchés par l'effet taille d'échantillon. Certains te diront de diminuer le plus fortement possible le seuil de significativité, mais c'est tellement subjectif que je trouve ça casse gueule.

joyeux_lapin13

Nombre de messages : 1670
Age : 33
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: régression sur très grands échantillons

Message par niaboc le Jeu 4 Juin 2015 - 6:08

joyeux_lapin13 a écrit:C'est quoi la taille de ton échantillon?

J'ai souvent plus de 100 000 lignes...

joyeux_lapin13 a écrit:
On ne peut pas vraiment y pallier, c'est soit Tufféry soit Saporta qui rappel dans leur ouvrage que la théorie des tests a été mise en place à l'époque où il n'y avait pas de super calculateur et donc les lois de référence sur lesquelles se basent les p-valeurs ne sont pas adaptées sur de gros échantillon.

Il n'existe pas d'autres lois utilisées de nos jours? :-)

joyeux_lapin13 a écrit:
Après les coefficients de corrélation ou encore le V de Cramer peuvent t'aider à fournir tout de même des indicateurs statistiques qui ne sont pas touchés par l'effet taille d'échantillon. Certains te diront de diminuer le plus fortement possible le seuil de significativité, mais c'est tellement subjectif que je trouve ça casse gueule.

Oui mais en régression multiple, je ne suis pas certain que le V de Cramer peut m'être utile... Et pour le seuil de significativité ça ne change pas beaucoup le problème non plus (surtout qu'en plus je suis quasiment à "<0.0001" à chaque fois.

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: régression sur très grands échantillons

Message par Nik le Jeu 4 Juin 2015 - 7:41

Le BIC est plus "méchant" avec l'ajout de variable que l'AIC. Tu peux l'utiliser et voir ce que ça donne.

il n'y a pas d'histoire de % en critère d'information. Sur l'AIC Burnham & Anderson parlent d'une différence de 2 unité est suffisante pour dire qu'un modèle est meilleur qu'un autre.

Pour la sélection des variables, regarde également les poids d'Akaike. C'est assez peu utilisé mais ça peut être pas mal. cela fait intervenir le nombre de modèle candidat donc il faut faire attention à ce choix.

Nik

Nik

Nombre de messages : 1500
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: régression sur très grands échantillons

Message par niaboc le Jeu 4 Juin 2015 - 8:14

Ok, je vais essayer avec le BIC pour voir ce que ça donne, quitte à faire un mix des deux si le BIC devient trop restrictif.

Merci

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: régression sur très grands échantillons

Message par niaboc le Jeu 4 Juin 2015 - 8:20

Ah une dernière chose, le BIC et le SC : c'est bien la même chose appelé différemment?

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: régression sur très grands échantillons

Message par Nik le Jeu 4 Juin 2015 - 8:44

oui. BIC = Schwarz criterion.

Nik

Nombre de messages : 1500
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: régression sur très grands échantillons

Message par Contenu sponsorisé Aujourd'hui à 20:21


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum