Biostatistique

Voir le sujet précédent Voir le sujet suivant Aller en bas

Biostatistique

Message par J0rdane le Jeu 15 Aoû 2013 - 15:56

Bonjour, je suis face à un problème probablement trivial que mes connaissances limitées en probabilité m'empêche de résoudre. Votre aide est la bienvenue!

Voici une brève introduction pour vous situer le contexte. L'adn est composée de 4 types de nucléotides (A, C, G et T). Ils sont arrangés en une longue séquence qui contient l'information nécessaire au développement et au fonctionnement des cellules. J'étudie une molécule qui reconnait et coupe toutes les séquences GATC de l'adn. La mise en commun de cette molécule avec l'adn résulte donc en une fragmentation de celui-ci entre deux sites GATC. La taille de chacun des fragment correspond donc au nombre de nucleotides entre deux sites GATC.

Et voici ma question. Quelle est la probabilité de trouver une séquence spécifique de 4 nucleotides (ici GATC) dans une séquence random de 2 millions de nucléotides? A priori, corrigez moi si je me trompe, mais la probabilité est de 1/4exp4 donc 1/256. Est ce que cela implique que la taille moyenne entre deux sites GATC sera de 256?

Qu'en est il de la distribution de la longueur des fragments? Intuitivement je pensais obtenir une distribution normale autour de 256, mais des tests in silico effectués dans mon laboratoire montrent que les fragments (malgré une taille moyenne de 256) se distribuent selon une exponentielle décroissante. Je n'arrive pas à m'expliquer pourquoi les fragments de petite taille sont plus fréquents que les grands.

Merci d'avance!

J0rdane

Nombre de messages : 1
Date d'inscription : 15/08/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Biostatistique

Message par gg le Jeu 15 Aoû 2013 - 17:04

Bonjour.

Ton raisonnement probabiliste est assez bizarre. ar " la probabilité de trouver une séquence spécifique de 4 nucleotides (ici GATC) dans une séquence random de 2 millions de nucléotides" est quasiment de 1, car il serait surprenant qu'elle n'arrive pas alors qu'il n'y a que 256 séquences possibles et avec recouvrement.
De même, il n'y a aucune raison pour que la distribution soit Normale. la loi Normale n'est pas une obligation.

Ce type de calculs m'ennuie, mais tu trouveras facilement des réponses sur un forum de probabilités, comme celui du site "Les mathématiques.net"

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum