Séquence biologique — Wikipédia

Une séquence biologique est la description de l'enchaînement des éléments (ou monomères) qui constituent une macromolécule biologique, acide nucléique ou protéine. Ces macromolécules sont en effet des polymères linéaires, constitués de nucléotides pour les premiers ou d'acides aminés pour les secondes. La séquence est généralement représentée sous forme d'une chaîne de caractères qui est stockée dans un fichier informatique au format texte.

Dans le cas de l'ADN, cela correspond à la séquence des bases, telle qu'on peut l'obtenir à la sortie d'un séquenceur de gène. Ceci correspond à l'information génétique brute. Dans le cas des protéines, cela correspond à la séquence des acides aminés qui peut être obtenue soit par séquençage chimique soit par la traduction de la séquence du gène correspondant sur l'ADN.

Séquences nucléotidiques

[modifier | modifier le code]

Séquences génétiques

[modifier | modifier le code]
Séquence d'ADN associée à son électrophorègramme.

Dans le cas d'une séquence d'ADN, le "texte" est une suite formée uniquement de 4 lettres correspondant aux quatre nucléotides formant l'enchainement d'un des brins de l'ADN : A pour adénine, G pour guanine, T pour thymine, C pour cytosine. Il faut faire attention si le sens de lecture peut être 3' vers 5' ou inverse.

Exemple d'une séquence biologique d'ADN pour le gène Antennapedia CG1028-RH de Drosophila melanogaster :


       1 ttcagttgtg aatgaatgga cgtgccaaat agacgtgccg ccgccgctcg attcgcactt       61 tgctttcggt tttgccgtcg tttcacgcgt ttagttccgt tcggttcatt cccagttctt      121 aaataccgga cgtaaaaata cactctaacg gtcccgcgaa gaaaaagata aagacatctc      181 gtagaaatat taaaataaat tcctaaagtc gttggtttct cgttcacttt cgctgcctgc      241 tcaggacgag ggccacacca agaggcaaga gaaacaaaaa gagggaacat aggaacagga      301 accagataat agtgacataa gcgacccttt cgcaaatatt ttggcgcaaa atgagcgggc      361 gccaagtgcc gcgtggtgga gccgcctgaa aatgacatgg aaaattcgcc gaaaatcgcg      421 cgttttggca gcatcaatcc caaagcacaa aattaatttc tatcataatt tctgggtgca      481 acacggaccc ataattgaat cgaatatagg gcttatctga tagcccggca gcaacattga      541 actttccggc tgcaaaggag acgacaccga gatcgccaat tttcgttggg ctcgttctct      601 gggctccggc gataagaaat ccatgctgat aaggacagga ggacggtctg cggcaaattg      661 aattcgattc tgacctgtat gaaagccagc ggagatacgg atacctctgg gtttatgggt      721 agaaaacgca gagcgtcgcg ccaacatcga aattatttgc gtttgcatct tctcgtcctt      781 tcgtttatcg ttctgattgc catcgtggtg gcgcggtttc tattaatttt gcttctgtat      841 cgtttgcaaa atctcaaaag attcaaaaag ttcgtcatca gcagccgcaa cacaaaaacc      901 aacgagtgta aagccgagca tacaaatatc aataaaaaca taaacattta cccaatctca      961 atctcaaaac attcgcatcg tttccacaca aatatgctta gttcgcccaa attgtgattg     1021 tatatatata tttaacggca ttaaatacaa aagattaagc cctaaattaa gtgtaaatct     1081 tacaaaacgt ctacgttttt aaacaagaaa ttgtgatatt atatattaat cgggaaattc     1141 gaagtatgag aacaaaacgg tgtatatatg taagtgggcg atgaacatca atgaatattt     1201 tagctgagca aagtacacac gaatgaatat aaatatacat gaaaatatat tttgggcacc     1261 gacttttaca ccacaattat atatcgatag aaaagacacg aaaacaatca cagaaaacta     1321 agagtttcaa aatcaaaatt gaggaatacc aactagagga taaggctact taaggatcaa     1381 aaaacaccaa ggagacgaga ttttctacca aatcgagaga cgaggggcag gttaatttcg     1441 tcatttttgg ccaagacagc aaatagagga acagcaaagc gaaaatcatt ttatacctca     1501 cacaacaact acacactaac taagattagg ctacgcaact gtacattgta cttaagtgtt     1561 caaagtatat ttagtttact ttgtatataa gaaaagtagc taaaagcacg cggacaggga     1621 ggcaggagca ccacagtcac tagccactaa gcagagtcac agtcacgatc acgttcactc     1681 caggatcagg actcggggcg ggatcagcag acgctgagga agctgccacg atgacgatga     1741 gtacaaacaa ctgcgagagc atgacctcgt acttcaccaa ctcgtacatg ggggcggaca     1801 tgcatcatgg gcactacccg ggcaacgggg tcaccgacct ggacgcccag cagatgcacc     1861 actacagcca gaacgcgaat caccagggca acatgcccta cccgcgcttt ccaccctacg     1921 accgcatgcc ctactacaac ggccagggga tggaccagca gcagcagcac caggtctact     1981 cccgcccgga cagcccctcc agccaggtgg gcggggtcat gccccaggcg cagaccaacg     2041 gtcagttggg tgttccccag cagcaacagc agcagcagca acagccctcg cagaaccagc     2101 agcaacagca ggcgcagcag gccccacagc aactgcagca gcagctgccg caggtgacgc     2161 aacaggtgac acatccgcag cagcaacaac agcagcccgt cgtctacgcc agctgcaagt     2221 tgcaagcggc cgttggtgga ctgggtatgg ttcccgaggg cggatcgcct ccgctggtgg     2281 atcaaatgtc cggtcaccac atgaacgccc agatgacgct gccccatcac atgggacatc     2341 cgcaggcgca gttgggctat acggacgttg gagttcccga cgtgacagag gtccatcaga     2401 accatcacaa catgggcatg taccagcagc agtcgggagt tccgccggtg ggtgccccac     2461 ctcagggcat gatgcaccag ggccagggtc ctccacagat gcaccaggga catcctggcc     2521 aacacacgcc tccttcccaa aacccgaact cgcagtcctc ggggatgccg tctccactgt     2581 atccctggat gcgaagtcag tttggtaagt gtcaaggaaa gtgatcgaca attccacgaa     2641 acgtattaag tggaattttt cttcttctta tcgtagtggg ttgaagtagt tagttccccg     2701 tttagaattg gtcgtagttc ccattagaat cgtaactgtg catacaacag ctagagctgt     2761 attatcttaa attgtataat accataacta ttacagcgaa cctcgtgcag cgaagcaaag     2821 cagtaaaaag cagtctagat gtactgcttt atattgtgtt tcctgcttga tattagatca     2881 ctaagcaagc agacgcgcaa gcagttcacg cagatcacgc agacgttaaa aatttaaaaa     2941 tgtttttgtt tgcagaaaga agtaccctct tcgcttttca attttgtagt taaaattcga     3001 gcaaatatat ttaaattaaa aaggctcaaa cttaaagtac tatgtatgtc ttgtattttt     3061 gaaaaaattc taaagtttat tataaaatgc attttaaata cattttttaa cctaccttgt     3121 cgcttgaaat atataaaatt taagttttag atatggaata gataaacaaa atatttccct     3181 ctgtcttaac taatttcttt aattaaatgt taagccccaa agcgactaca gcttcatgtc     3241 aaactcttac cttaaatatt tagagtttgt ttgcatttga actgagaacg ttttgtcgac     3301 gaccttgaca cgtccgggta atttcacttt attgccttgg ccaattgctt gacatcatcc     3361 gtaatccatc tgcaaagaca tcccgatacc tgacatttgt tcaaatttgc gaatttccca     3421 aatccgagca aatcgatgaa tgcaggcaga tgaaagacga aagaggtggc ggaagaggtg     3481 ctccttgggt tccgcttgcc cagaagatcg cagcacagga ggcggtcctg ccagctaatg     3541 caaattgaca atagctcgaa atcgtgcaag aaaaaggttt gccaaaaccc taggcgtaac     3601 taatgagggc tggaaaatag agcacactga ctgcatgtgg tactgcttta ggcttagagg     3661 atgttgcata agtggggata gggctcggcc gcctttcgag cgaaaaaggt gtaaggtcta     3721 ggaggcgagt ccttttcaaa tatagaattc caatggcatg tcactttcct cggagaaagt     3781 gaaagtaggc ctcaagtggt cggtgccttt gccttgccct ccagctgacc tgctccctgg     3841 tcattacgca gtccaaggag ctctagctct ccccataccc agctctcaat gttgttgtgg     3901 ttttttgttt gtagccggct gaattttttc gccaaagcca gattgagatg taaagcacaa     3961 ttgatgagcg ccattagtta cacgttatgt gcaatggatg ccatcaattt attaatctcc     4021 agaacacgcc gaggctccat tcatagcacc acttcgtcgt cttaatcccc tccctcatcc     4081 gccatggcgg tgcaaaaaat aaaaagaact c 

Séquences d'ARN

[modifier | modifier le code]

Dans le cas d'une séquence d'ARN, la lettre U est utilisée pour désigner l'uracile remplaçant la thymine pour ces molécules.

Séquences protéiques (peptidiques)

[modifier | modifier le code]

Cette séquence correspond à ce qu'on appelle la structure primaire de la protéine en biochimie. On appelle traduction, l'étape de synthèse protéique à partir d'une séquence nucléotidique, cette étape peut être facilement prédite par des logiciels informatiques pour l'identification de gènes jusqu'alors inconnus. Le code génétique donne une lettre de l'alphabet pour chacun des 20 acides aminés existants, en correspondance aux différents codons. Comme un codon est formé de trois bases, la séquence protéique est trois fois plus courte que la séquence nucléique correspondante.

Voici un exemple en protéique du gène Antennipedia de Drosophile :

       1 mtmstnnces mtsyftnsym gadmhhghyp gngvtdldaq qmhhysqnan hqgnmpyprf       61 ppydrmpyyn gqgmdqqqqh qvysrpdsps sqvggvmpqa qtngqlgvpq qqqqqqqqps      121 qnqqqqqaqq apqqlqqqlp qvtqqvthpq qqqqqpvvya scklqaavgg lgmvpeggsp      181 plvdqmsghh mnaqmtlphh mghpqaqlgy tdvgvpdvte vhqnhhnmgm yqqqsgvppv      241 gappqgmmhq gqgppqmhqg hpgqhtppsq npnsqssgmp splypwmrsq fgkcqgk 

Autres séquences

[modifier | modifier le code]
  • Séquence glucidique,

Traitements informatiques

[modifier | modifier le code]

Analyse de séquences

[modifier | modifier le code]

Des séquences comme celles-ci peuvent être utilisées en entrée (copiées/collées avec toutes leurs annotations) pour faire des analyses de séquences comme avec le programme BLAST.
D'autres programmes permettent d'effectuer des recherches de structures palindromiques.
Bluejay est un programme écrit en Java[1] permettant de transformer des données de séquences d'ADN en XML.

Annotations génomiques

[modifier | modifier le code]

Ensembl est un logiciel servant à annoter les séquences génomiques.

Types de séquences biologiques particulières

[modifier | modifier le code]

Notes et références

[modifier | modifier le code]
  1. (en) Jung Soh, Paul M.K. Gordon et Christoph W. Sensen, « UNIT 10.9 The Bluejay Genome Browser », Current Protocols in Bioinformatics,‎ (PMID 22389011, DOI 10.1002/0471250953.bi1009s37, lire en ligne)

Articles connexes

[modifier | modifier le code]