Influence de variables statistiques sur la sinistralité

par Jack777 Mer 13 Avr 2011 - 8:20

Bonjour à tous,

Dans le cadre d'un travail scolaire, je dois évaluer l'impact que certaines variables statistiques peuvent avoir sur la sinistralité. Pour être plus précis, je travaille sur les sinistres liés à la responsabilité civile des villes et communes.

Dans un premier temps, je me suis procuré pour chaque commune 24 variables statistiques différentes (nombre d'habitants, superficie, taux de chomage, nombre d'employés, etc.) et j'ai procédé à une analyse en composantes principales, dont le but était de concentrer l'information sur un nombre plus réduit de variables nouvelles, et enfin à une classification ascendante hiérarchique à partir des scores factoriels obtenus, ce qui a permis de dégager des catégories homogènes de communes (que j'appelle "clusters" plus loin). Les communes présentant la plus petite « distance », et donc des contextes socio-économiques semblables, sont classées ensemble.

Ensuite, j'ai sélectionné quelques "clusters" présentant des statistiques assez opposées (donc par exemple un cluster avec des communes assez riches et un autre avec des communes assez pauvre, un avec un grand nombre d'habitant et un autre avec peu d'habitants, etc), et j'ai regardé le nombre de sinistres qu'il y a eu dans chaque "cluster", par année depuis 2001. Il y a différents types de sinistres, ils sont rangés dans différentes classes (liés au personnel, liés à la voirie, etc.).

Et maintenant j'aimerais savoir si telle ou telle variable statistique a une influence sur telle ou telle classe de sinistres (donc si par exemple le fait que la commune soit globalement plus pauvre influence le nombre de sinistres liés à la voirie). Mais je suis un peu bloqué, que dois-je faire ? Quelles analyses, tests, etc appliquer ?

Je vous remercie d'avance grandement pour votre aide.

par Invité Mer 13 Avr 2011 - 8:42

Bonjour Jack 777.
Tu as donc créé des classes de communes en fonction de variables démographiques, et tu veux voir si ces classes sont aussi caractérisées par les sinistres, en clair est ce que le taux de sinistre dépend de ta catégorisation.
Tu as donc quelques variables, qui décrivent les sinistres.

Sous quel logiciel travailles-tu?
Tu peux faire par exemple des ANOVA pour voir s'il y a une différence significative du nombre de sinistre par cluster,
ou bien si tu travailles sous R je te conseille la fonction decat() du package sensomineR qui te décrit tes différentes classes en fonction de l'ensemble des variables.

Cordialement.

par Jack777 Jeu 14 Avr 2011 - 11:55

Merci pour ta réponse rapide Hadrien35.

Mais peux-tu être plus explicite ?

Je vais essayer d'être plus clair moi aussi Smile

En fait, j'ai commencé par sélectionner 24 variables relatives aux villes et communes de la région wallonne (ex : population résidente, taux de chômeurs, superficie de la commune, revenu moyen par habitant, indice de richesse, % de terrains résidentiels, etc.). Chaque variable avait donc des valeurs différentes pour chaque commune (ex : le revenu moyen par habitant pour Liège est de 15000, pour Saint-Nicolas il est de 12000, pour Neupré 14000, etc.).

Ensuite, sur base de ces variables j'ai fait une ACP, pour extraire des nouvelles variables (en nombre bcp plus réduit). Ces nouvelles variables sont appelées "facteurs". J'ai obtenu 4 facteurs pour la région wallonne.

Sur base des scores factoriels (valeurs prises par chaque variable de chaque facteur), j ai fait une classification ascendante hiérarchique, qui m'a permis d'obtenir plusieurs groupes de communes pour lesquels les variables sont (à l intérieur de chaque groupe). Ces différents groupes sont appelés "clusters".

Pour chaque cluster (chaque cluster étant composé de communes homogènes), les valeurs prises par les différentes variables sont différentes.

Je veux maintenant savoir si le fait que ces valeurs (pour les mêmes variables statistiques au départ) changent de cluster en cluster peut avoir une influence sur le nombre de sinistres qu'il y a eu dans chaque cluster. En effet, je dispose du nombre de sinistres qu'il y a eu dans chaque cluster par année depuis 2001. Donc en gros je veux savoir si le nombre de sinistres qu il y a eu des totalement le fruit du hazard, ou si il a pu être influencé par les valeurs différentes des variables statistiques (par exemple si le fait que le revenu moyen par habitant pour Liège est de 15000 et qu'il soit de 14000 à Neupré va avoir une influence sur le nombre de sinistres qu'il y a eu à Liège ou à Neupré, et même chose pour toutes les autres variables).

Pfiou j'espère que je ne t'ai pas totalement embrouillé Very Happy

Merci en tout cas !

par Invité Jeu 14 Avr 2011 - 12:43

Bonjour Jack777,
j'avais bien compris ta problématique, pas de soucis. A partir de ton jeu de données initial tu as donc fait une ACP en retenant 4 axes, puis en faisant une CAH de tes communes sur la base de leurs coordonnées sur ces axes. Tu obtient donc des clusters de communes ayant des caractéristiques socio-démographiques similaires (+ ou -).

Seulement dans ta réponse :

par exemple si le fait que le revenu moyen par habitant pour Liège est de 15000 et qu'il soit de 14000 à Neupré va avoir une influence sur le nombre de sinistres qu'il y a eu à Liège ou à Neupré, et même chose pour toutes les autres variables

Du coup tu veux seulement voir si le taux de sinistres dépend de tes variables prises une à une, et ton clustering de communes ne te sert à rien. Pour cela, des régression linéaires (simples ou multiples) et suffisent, étant donné que tu dispose de variables quantitatives (je suppose, vu que tu as fait une ACP).

Si tu veux voir si les sinistres évoluent d'un cluster à l'autre, et j'ai l'impression que c'est plus ça que tu cherches à faire, mais peut être que je me trompe, je te propose 2 solutions, que j'expliquais rapidement un peu plus haut:

Soit tu rajoute une nouvelle variable à ton jeu de données, qui correspond à ta variable cluster. Pour chaque commune, la variable prend la modalité correspondant au nom ou au numéro de classe à laquelle elle appartient. Ensuite tu peux faire une ANOVA pour déterminer si les sinistres évoluent d'un cluster à l'autre (par exemple, si une de tes cluster peut être définie comme grandes villes riches, et une autre petite ville rurale, est ce que le nombre de sinistres est équivalent ou non, la réponse est donnée par l'ANOVA).
Soit, si tu travailles sous R, tu ajoute ici encore ta variable cluster à ton jeu de données et tu va essayer d'expliquer au mieux les différences entre les classes en fonction de l'ensemble de tes variables, à la fois socio-démographiques et sinistres (sachant que seules les variables socio-démographiques ont participé à la création des clusters). Du coup, la fonction decat() du package SensoMineR te donne pour chaque cluster la valeur moyenne de chaque variable, ainsi que la proba critique pour déterminer si la valeur de la variable est significativement différente de la moyenne de l'ensemble des communes. Elle te donne aussi la V-test par exemple, qui est une "traduction" de la proba critique, mais qui t'informe sur le fait que la valeur soit significativement inférieure ou supérieure à la moyenne. Cette démarche peut surement être faite avec un autre logiciel, mais je n'en sais rien je t'avoue, car je travaille essentiellement sous R.

Par contre, par rapport à tes données, est-ce que tu t'es posé la question de la forme de ta variable sinistre?
En effet, si tu garde la valeur brute, il y aura évidemment une différence du nombre de sinistres entre un cluster de grandes villes et un cluster de petites villes. Du coup, pourquoi pas ramener ça en nombre de sinistres par habitant par exemple?

J'espère que tu as compris,
peut être qu'un autre peut valider cette démarche (ou pas) si tu doutes.

Cordialement.

par Jack777 Ven 15 Avr 2011 - 16:20

Encore merci pour ces informations.. Malheureusement je n'ai jamais utilisé R, nous travaillons essentiellement avec Statistica.

Je vais peut-être voir du côté des régressions linéaires alors. Mais en fait, j'ai sélectionné 3 clusters (le W1 comprend 9 communes, le W8 comprend 5 communes, et le W9 comprend 12 communes).

Pour chaque cluster j'ai le nombre de sinistres qu'il y a eu PAR CLASSE depuis 2001 (et donc en additionnant tous les sinistres de toutes les classes j'ai le nombre total, mais ce n'est pas ce qui m'intéresse). J'aimerais juste savoir si une variable influence particulièrement le nombre de sinistres d'une certaine classe. Est-ce que telle ou telle variable influence telle ou telle classe de sinistres ?

Pour ça, est-ce qu'il vaut mieux travailler par commune, ou prendre les chiffres propores aux clusters (donc en faisait une moyenne de toutes les communes d'un cluster par exemple) ?

Pour la forme de ma variable "sinistres", si je la mets par rapport au nombre d'habitants, je ne saurais pas si la variable "nombre d'habitants" influence le nombre de sinistres.. Ou alors je fais d'abord une régression linéaire pour savoir si ça influence ou non et puis je refais mes analyses en mettant ma variable sinistres en nombre de sinistres par habitants.

Peut-être que si je te joins mon fichier excel, tu sauras me dire ce que tu en penses et si les régressions linéaires sont effectivement la bonne solution ? Pour ne pas que je me perde dans de fausses analyses inutiles..

Tu verras, le fichier reprend l'ensemble des communes des trois clusters (W1, W8 et W9 = ceux qui m'intéressent). Pour chaque commune, les 24 variables sont en vert, la colonne bleue indique à quel cluster la commune appartient, les colonnes jaunes reprennent le nombre de sinistres par classe qu'il y a eu dans chaque commune, et les rouges le nombre de sinistres par habitant (qu'il y a eu dans chaque commune, par classe).

J'aimerais juste avoir ton avis, et voir si je pars effectivement sur des régressions !

Un tout grand merci.

Je te le mets en lien ici : http://cjoint.com/?ADpss9flXrU

par Invité Lun 18 Avr 2011 - 7:37

Re!

Pour ce qui est des régressions, je te disais ça en première approche, voir si indépendemment du cluster, une variable sinistre augmente en fonction d'une de tes variables socio-démographique.
Mais de ton coté, tu veux plus prendre en compte la cluster, donc ce n'est pas forcément judicieux.

Je ne peux pas lire ton tableau (de mon coté, pas de lecteur xlsx sur mon poste...), mais je comprend comment il est construit.
A ta place je garderai le nombre de sinistre par commune, et je ne ferai pas de moyenne sur les cluster, tu perdrai de l'information en faisant cela.
Pour ce qui est de ramener le nombre de sinistre par habitant, je pense qu'au contraire tu va pouvoir mettre en évidence le fait que ta variable "nombre d'habitants" influe ou non sur les sinistres. Si tu prouves que le nombre de sinistre est élevé pour des grandes villes, est ce que c'est logique (plus d'habitants donc plus de sinistres?). Si tu ne réduis pas au nombre d'habitants, la conclusion est bancale...

Pour ce qui est du traitement, tu peux déjà voir par classe si le nombre de sinistre évolue d'une cluster à l'autre via une ANOVA. De même, au cours de ta classif, tu as normalement mis en évidence le fait que certaines variables prennent des valeurs différentes d'une classe à l'autre (si ce n'est pas le cas, fait une ANOVA ici encore).
Si tu veux voir que le nombre de sinistre par classe évolue en fonction d'une variable, d'un cluster à l'autre, je te conseilerai de faire une ANCOVA (analyse de la covariance), étant donné que tu veux voir l'influence d'une variable qualitative (le cluster) et quantitative (ta variable socio émographique) sur le nombre de sinistres.

Voila, qqun pourrait peut être valider mon approche.

par Contenu sponsorisé

Influence de variables statistiques sur la sinistralité

Influence de variables statistiques sur la sinistralité

Re: Influence de variables statistiques sur la sinistralité

Re: Influence de variables statistiques sur la sinistralité

Re: Influence de variables statistiques sur la sinistralité

Re: Influence de variables statistiques sur la sinistralité

Re: Influence de variables statistiques sur la sinistralité

Re: Influence de variables statistiques sur la sinistralité