Couverture (génétique)

De testwiki
Aller à la navigation Aller à la recherche
Un chevauchement du produit de trois analyses de séquençage, avec la profondeur de lecture à chaque point indiquée.

La couverture (ou la profondeur), en séquençage de l'ADN ou de l'ARN, est le nombre de lectures uniques qui incluent un nucléotide donné dans la séquence reconstruite. Elle est exprimée en X, représentant le nombre de lectures uniques pour une base nucléique. Le séquençage profond fait référence au concept général consistant à viser un nombre élevé de lectures uniques de chaque région d'une séquence.

Raisonnement

Malgré les améliorations de précision des nouvelles techniques de séquençage à haut débit et que le pourcentage de fiabilité d'une séquence est de plus en plus élevé, il est toujours possible que des erreurs techniques de séquençage se produisent. Le très grand nombre de nucléotides dans le génome (Modèle:Nombre de paires de bases pour Homo sapiens) signifie que si un génome individuel n'est séquencé qu'une seule fois, il y aura tout de même un nombre important d'erreurs de séquençage. De plus, de nombreuses positions dans un génome contiennent de rares polymorphismes mononucléotidiques (SNP). Par conséquent, pour faire la distinction entre les erreurs de séquençage et les vrais SNP, il est nécessaire d'augmenter encore plus la précision du séquençage en séquençant des génomes individuels un grand nombre de fois de manière que chaque base soit lue le nombre de fois nécessaire pour que son identité soit fiable.

Ce nombre de lecture s'appelle donc la couverture (ou la profondeur) et représente le nombre de lectures uniques concernant un nucléotide donné dans la séquence reconstruite[1]Modèle:,[2]. Si une base est couverte par 30 séquences, elle aura donc une couverture (ou profondeur) de 30X.

Le séquençage profond (Deep Sequencing en anglais) fait référence au concept consistant à viser une couverture élevée pour obtenir une réponse fiable sur l'exactitude d'une séquence, d'une mutation ou d'un polymorphisme par exemple[3].

Séquençage ultra-profond

Le terme « ultra-profond » peut parfois également désigner une couverture plus élevée (> 100 fois), ce qui permet la détection de variants de séquence dans des populations mixtes[4]Modèle:,[5]Modèle:,[6] ou d'identifier des variants somatiques et les distinguer des variants germinaux[7]. À l'extrême, les approches de séquençage à erreur corrigée telles que le séquençage à profondeur maximale peuvent faire en sorte que la couverture d'une région donnée se rapproche du débit d'une machine de séquençage, permettant des couvertures de >10^8[8].

Séquençage du transcriptome

Le séquençage en profondeur des transcriptomes, également connu sous le nom de RNA-Seq, fournit à la fois la séquence et la fréquence des molécules d'ARN présentes à un moment donné dans un type de cellule, un tissu ou un organe spécifique[9]. Le comptage du nombre d'ARNm codés par des gènes individuels fournit une indication sur le niveau d'expression du gène donné. Ce niveau d'expression des transcrits est un indicateur du potentiel de codage des protéines, un contributeur majeur au phénotype[10]. L'amélioration des méthodes de séquençage de l'ARN est un domaine de recherche actif à la fois en termes de méthodes expérimentales et informatiques[11].

Calcul

La couverture moyenne (C) pour un génome entier peut être calculée à partir de l'équation de Lander/Waterman. Cette équation prend en compte la longueur du génome d'origine (G), le nombre de lectures (N) et la longueur moyenne des lectures (L) comme C=N×L/G [1].

Par exemple, un génome hypothétique (G) avec 2000 paires de bases reconstruit à partir de 8 lectures (N) avec une longueur moyenne de 500 nucléotides (L) par lecture aura une redondance de 2x car C=8×500/2000 et donc C=2. Ce qui signifie dans ce cas que chaque base des 2000 composant le génome étudié sera couverture en moyenne par 2 séquences.

Ce calcul permet donc d'évaluer la fiabilité d'une séquence reconstruite. Ce paramètre permet également d'estimer d'autres quantités, telles que le pourcentage du génome couvert par les lectures (parfois aussi appelé largeur de couverture). Une couverture élevée dans le séquençage de type Shotgun est souhaitée car elle peut surmonter les erreurs d'appel de base et d'assemblage. Le sujet de la théorie du séquençage de l'ADN aborde les relations entre ces quantités[2].

Couverture physique

Parfois, une distinction est faite entre la couverture de séquence et la couverture physique .On peut distinguer la couverture de séquence qui est le nombre moyen de fois qu'une base est lue c'est-à-dire la profondeur, de la couverture physique qui est le nombre moyen de fois qu'une base est lue ou couverte par des lectures (séquences) appariées et peut souvent plus concerner un loci ou une séquence donnée[2]Modèle:,[12]Modèle:,[13].

Références

Modèle:Traduction/Référence Modèle:Références

Articles connexes

Liens externes

Modèle:Portail