Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

Le deal à ne pas rater :
Xiaomi Mi Smart Camera 2K Standard Edition (design compact / support ...
11.39 €
Voir le deal

Biostatistique

2 participants

Aller en bas

Biostatistique Empty Biostatistique

Message par J0rdane Jeu 15 Aoû 2013 - 15:56

Bonjour, je suis face à un problème probablement trivial que mes connaissances limitées en probabilité m'empêche de résoudre. Votre aide est la bienvenue!

Voici une brève introduction pour vous situer le contexte. L'adn est composée de 4 types de nucléotides (A, C, G et T). Ils sont arrangés en une longue séquence qui contient l'information nécessaire au développement et au fonctionnement des cellules. J'étudie une molécule qui reconnait et coupe toutes les séquences GATC de l'adn. La mise en commun de cette molécule avec l'adn résulte donc en une fragmentation de celui-ci entre deux sites GATC. La taille de chacun des fragment correspond donc au nombre de nucleotides entre deux sites GATC.

Et voici ma question. Quelle est la probabilité de trouver une séquence spécifique de 4 nucleotides (ici GATC) dans une séquence random de 2 millions de nucléotides? A priori, corrigez moi si je me trompe, mais la probabilité est de 1/4exp4 donc 1/256. Est ce que cela implique que la taille moyenne entre deux sites GATC sera de 256?

Qu'en est il de la distribution de la longueur des fragments? Intuitivement je pensais obtenir une distribution normale autour de 256, mais des tests in silico effectués dans mon laboratoire montrent que les fragments (malgré une taille moyenne de 256) se distribuent selon une exponentielle décroissante. Je n'arrive pas à m'expliquer pourquoi les fragments de petite taille sont plus fréquents que les grands.

Merci d'avance!

J0rdane

Nombre de messages : 1
Date d'inscription : 15/08/2013

Revenir en haut Aller en bas

Biostatistique Empty Re: Biostatistique

Message par gg Jeu 15 Aoû 2013 - 17:04

Bonjour.

Ton raisonnement probabiliste est assez bizarre. ar " la probabilité de trouver une séquence spécifique de 4 nucleotides (ici GATC) dans une séquence random de 2 millions de nucléotides" est quasiment de 1, car il serait surprenant qu'elle n'arrive pas alors qu'il n'y a que 256 séquences possibles et avec recouvrement.
De même, il n'y a aucune raison pour que la distribution soit Normale. la loi Normale n'est pas une obligation.

Ce type de calculs m'ennuie, mais tu trouveras facilement des réponses sur un forum de probabilités, comme celui du site "Les mathématiques.net"

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum