Besoin de conseils pour analyse de données

par Artra Mar 13 Aoû 2019 - 13:29

Bonjour à tous,

Je suis étudiant en Psychologie Sociale et je termine mon stage sur les incivilités en entreprise.
N'arrivant pas à trouver de conseil pour les questions que je me pose, je me tourne vers vous.
Pour résumer, je test la fréquence des incivilités (Freq) sur :
- l'excusabilité des incivilités (Excu).
- la satisfaction au travail (ST).
- l'engagement organisationnel (EO).

Toutes ces variables sont des échelles de Likert.

Premier souci :
communément (et je pense à tort mais cela reste un point de vu), on moyenne les réponses aux items/questions pour obtenir un score (par exemple d'excusabilité). Pour la fréquence des incivilités par exemple qui se compose d'une échelle comme suit :
1 - Jamais
2 - Rarement
3 - Quelques fois
4 - Souvent
5 - Tout le temps

si je réponds à la première question "1", à la deuxième "3" et la troisième "5". J'obtiendrais un score de "3". Car chaque modalité de réponse est associée arbitrairement à un chiffre (et c'est valable pour les autres échelles). Sauf que pour un souci de rigueur, on ne peut pas concevoir (du moins imposer) que l'écart entre "Jamais" et "Rarement" est égale à "1" et qu'entre "Rarement" et "Quelques fois" également à "1"... Peut-être que les écarts divergent d'une modalité à l'autre. Peut-être qu'entre "Tout le temps" et "Souvent" cela vaut en réalité "2" ? Bref, la moyenne dans ce genre de questionnaire n'est qu'une façon facile de vouloir rendre quantifiable quelques choses d'abstrait et subjectif.

Je désirais alors faire des clusters. Regrouper des individus par typologies de fréquences. Et ainsi obtenir non plus une moyenne mais un indice d’appartenance. Et de classer les participants par groupe. Malheureusement gros souci, ma distribution est clairement asymétrique. Les participants ont, dans une graaaaaande majorité, connu aucune incivilité. Je me retrouve ainsi avec une distribution type Loi Gamma qui ne permet pas de créer des clusters ou des regroupements intéressants. Je suis donc bloqué...

Première question donc, auriez-vous des idées de regroupement, statistiquement applicable sur RStudio ?
(J'ai évidemment pensé à faire des régressions linéaires logistiques ordinales, mais chaque échelle possède plusieurs questions/items, je dois donc résumer l'information de chacune d'elle en un indice. Ce qui empêche l'utilisation de ce type de régression).

Deuxième souci :
Dans le doute et ne pouvant attendre j'ai tenté d'avancer en prenant les moyennes de chaque échelle... et de passer à des régressions linéaires. Mes hypothèses étant que la Freq (Variable Indépendante) prédit l'Excu (Variable Dépendante), la ST (VD) et l'EO (VD). Problème : ayant une distribution type Gamma avec la Freq, je n'ai pas de distribution normale non plus sur les résidus... Et là du coup, je suis bloqué. J'ai lu des tonnes de forums en anglais sur ce sujet, disant que la régression linéaire était assez robuste pour palier ce souci de normalité, mais également bien d'autres qui la considéraient comme importante ! Donc je vous pose la question, que faire quand la VI est une distribution de type Gamma ? Toutes les informations que je trouve à ce sujet parlent de cas où la régression est appliquée sur une VD Gamma, jamais de VI...

Je vous remercie par avance et espère être assez clair...