poids/importance (en %) de chaque observation dans un modèle

par jeff6868 Mer 7 Nov 2012 - 9:41

Bonjour à tous,

Je suis nouveau sur ce forum, et j'aurais besoin d'un aiguillage méthodologique en stats pour mon travail.

Je suis chargé d'analyser sous R des données de température sur un réseau de stations météo. J'ai environ 70 stations météo réparties sur mon secteur d'étude, et je dois créer de la donnée de température en des points très précis entre ces stations (pour ça c'est bon, j'ai fait un script d'interpolation).

En revanche, je dois également déterminer parmi ces 70 stations, lesquelles sont les "moins utiles", dans le but de les supprimer (dans certaines zones leur densité est forte), et éventuellement par la suite les réimplanter dans des zones où elles seraient davantage utiles.

J'aimerais donc savoir quelle est la meilleure méthode afin de connaître l'importance ou le poids de l'information de chaque station dans mon modèle d'interpolation?
J'aimerais à la fin de mon script obtenir quelque chose du genre: la station 1 apporte 2% d'infos, la station 2 0.5%, etc... Si par exemple on retire la station 1 et qu'on refait les calculs, si les résultats de l'interpolation son très différents, alors on peut penser que sa présence est nécessaire vu qu'elle influe beaucoup sur l'interpolation. Au contraire si on en retire une et que ça ne change rien aux résultats de l'interpolation à son voisinage, elle ne doit pas être nécessaire.
J'ai déjà testé les distances de cook, mais c'est pas très parlant (les plus influentes sont souvent au bord de ma zone). Il y a la validation croisée "leave one out" aussi, mais ça j'ai l'impression que c'est plus pour valider le modèle en général (même si dans l'idée c'est un peu ça: retirer une station après l'autre et refaire les calculs).

Voilà! Avez vous des idées de méthodos efficaces et pas trop compliquées à mettre en oeuvre pour obtenir ça?
Merci pour vos réponses et vos conseils!