Notação de ácido nucléico - Nucleic acid notation

A notação de ácido nucleico atualmente em uso foi formalizada pela primeira vez pela União Internacional de Química Pura e Aplicada (IUPAC) em 1970. Esta notação universalmente aceita usa os caracteres romanos G, C, A e T, para representar os quatro nucleotídeos comumente encontrados em ácidos desoxirribonucléicos (DNA). Dado o papel em rápida expansão do sequenciamento genético, síntese e análise em biologia, os pesquisadores foram compelidos a desenvolver notações alternativas para apoiar ainda mais a análise e manipulação de dados genéticos. Essas notações geralmente exploram tamanho, forma e simetria para atingir esses objetivos.

Notação IUPAC

Símbolos de base degenerados IUPAC
Descrição Símbolo Bases representadas
Bases complementares
Não. UMA C G T
Adenina UMA 1 UMA T
Citosina C C G
Guanina G G C
Timina T T UMA
Uracil você você UMA
Fraco C 2 UMA T C
Forte S C G S
A m ino M UMA C K
Keto K G T M
Pu r ine R UMA G Y
P y rimidine Y C T R
Não um B 3 C G T V
Não c D UMA G T H
Não G H UMA C T D
Não T V UMA C G B
Um n base de uma y N 4 UMA C G T N
Zero Z 0 Z

Os símbolos de base da BBC em bioquímica são uma representação IUPAC para uma posição em uma sequência de DNA que pode ter várias alternativas possíveis. Elas não devem ser confundidas com bases não canônicas porque cada sequência particular terá de fato uma das bases regulares. Estes são usados ​​para codificar a sequência de consenso de uma população de sequências alinhadas e são usados, por exemplo, em análise filogenética para resumir em uma sequência múltipla ou para pesquisas BLAST , embora os símbolos degenerados IUPAC sejam mascarados (porque não são codificados).

No sistema IUPAC comumente usado, as nucleobases são representadas pelas primeiras letras de seus nomes químicos: guanina, citosina, adenina e timina. Essa abreviatura também inclui onze caracteres de "ambigüidade" associados a todas as combinações possíveis das quatro bases do DNA. Os caracteres de ambigüidade foram projetados para codificar variações posicionais, a fim de relatar erros de sequenciamento de DNA , sequências de consenso ou polimorfismos de nucleotídeo único . A notação IUPAC, incluindo caracteres de ambigüidade e mnemônicos sugeridos, é mostrada na Tabela 1.

Apesar de sua aceitação ampla e quase universal, o sistema IUPAC tem uma série de limitações, que derivam de sua confiança no alfabeto romano. A pouca legibilidade dos caracteres romanos maiúsculos, geralmente usados ​​na exibição de dados genéticos, pode ser a principal dessas limitações. O valor das projeções externas nas letras distintivas foi bem documentado. No entanto, essas projeções estão ausentes nas letras maiúsculas, que em alguns casos só são distinguíveis por pistas internas sutis. Tomemos, por exemplo, as maiúsculas C e G usados ​​para representar a citosina e a guanina. Esses caracteres geralmente compreendem metade dos caracteres em uma sequência genética, mas são diferenciados por uma pequena marca interna (dependendo da fonte). No entanto, esses caracteres romanos estão disponíveis no conjunto de caracteres ASCII mais comumente usado em comunicações textuais, o que reforça a onipresença desse sistema.

Outra deficiência da notação IUPAC surge do fato de que seus onze caracteres de ambigüidade foram selecionados a partir dos caracteres restantes do alfabeto romano. Os autores da notação se esforçaram para selecionar caracteres de ambigüidade com mnemônicos lógicos. Por exemplo, S é usado para representar a possibilidade de encontrar citosina ou guanina em loci genéticos, os quais formam fortes interações de ligação de fita cruzada. Por outro lado, as interações BBC de timina e adenina são representadas por um W. No entanto, mnemônicos convenientes não estão tão prontamente disponíveis para os outros caracteres de ambigüidade exibidos na Tabela 1. Isso tornou os caracteres de ambigüidade difíceis de usar e pode ser responsável por sua aplicação limitada.

Notações alternativas aprimoradas visualmente

Problemas de legibilidade associados a dados genéticos codificados por IUPAC levaram biólogos a considerar estratégias alternativas para exibir dados genéticos. Essas abordagens criativas para visualizar sequências de DNA geralmente se baseiam no uso de símbolos espacialmente distribuídos e / ou formas visualmente distintas para codificar sequências de ácido nucleico longas. Têm sido tentadas notações alternativas para sequências de nucleótidos, no entanto a absorção geral tem sido baixa. Várias dessas abordagens são resumidas a seguir.

Projeção de Stave

A projeção Stave usa pontos distribuídos espacialmente para aumentar a legibilidade das sequências de DNA .

Em 1986, Cowin et al. descreveu um novo método para visualizar a sequência de DNA conhecido como Stave Projection. A estratégia deles era codificar os nucleotídeos como círculos em uma série de barras horizontais semelhantes às notas da pauta musical. Conforme ilustrado na Figura 1, cada lacuna na equipe de cinco linhas correspondia a uma das quatro bases de DNA. A distribuição espacial dos círculos tornou muito mais fácil distinguir bases individuais e comparar sequências genéticas do que dados codificados por IUPAC.

A ordem das bases (de cima para baixo, G, A, T, C) é escolhida de forma que a fita complementar possa ser lida virando a projeção de cabeça para baixo.

Símbolos geométricos

Zimmerman et al. adotou uma abordagem diferente para visualizar dados genéticos. Em vez de confiar em círculos distribuídos espacialmente para destacar características genéticas, eles exploraram quatro símbolos geometricamente diversos encontrados em uma fonte de computador padrão para distinguir as quatro bases. Os autores desenvolveram uma macro WordPerfect simples para traduzir caracteres IUPAC em símbolos mais visualmente distintos.

DNA Skyline

Com a crescente disponibilidade de editores de fontes, Jarvius e Landegren desenvolveram um novo conjunto de símbolos genéticos, conhecido como a fonte DNA Skyline, que usa blocos cada vez mais altos para representar as diferentes bases do DNA. Embora seja uma reminiscência da Stave Projection de Cowin et al ., A fonte DNA Skyline é fácil de baixar e permite a tradução de e para a notação IUPAC simplesmente alterando a fonte na maioria dos aplicativos de processamento de texto padrão.

Notações ambigráficas

AmbiScript usa ambigramas para refletir simetrias de DNA e apoiar a manipulação e análise de dados genéticos.

Ambigramas (símbolos que transmitem significados diferentes quando vistos em uma orientação diferente) foram projetados para espelhar simetrias estruturais encontradas na dupla hélice do DNA. Ao atribuir caracteres ambigráficos a bases complementares (isto é, guanina: b, citosina: q, adenina: ne timina: u), é possível complementar as sequências de DNA simplesmente girando o texto 180 graus. Uma notação ambigráfica de ácido nucleico também facilita a identificação de palíndromos genéticos, como locais de restrição de endonuclease, como seções de texto que podem ser giradas 180 graus sem alterar a sequência.

Um exemplo de notação de ácido nucléico ambigráfico é AmbiScript, uma notação de ácido nucléico racionalmente projetada que combinava muitos dos recursos visuais e funcionais de seus predecessores. Sua notação também usa caracteres espacialmente deslocados para facilitar a revisão visual e a análise de dados genéticos. AmbiScript também foi projetado para indicar posições de nucleotídeos ambíguas por meio de símbolos compostos. Esta estratégia teve como objetivo oferecer uma solução mais intuitiva para o uso de caracteres de ambigüidade inicialmente proposto pela IUPAC. Assim como acontece com as fontes DNA Skyline de Jarvius e Landegren, as fontes AmbiScript podem ser baixadas e aplicadas aos dados de sequência codificados pela IUPAC.

Veja também

Referências

  1. ^ a b Comissão de IUPAC-IUB na nomenclatura bioquímica (1970). "Abreviações e símbolos para ácidos nucléicos, polinucleotídeos e seus constituintes". Bioquímica . 9 (20): 4022–4027. doi : 10.1021 / bi00822a023 .
  2. ^ a b Comitê da nomenclatura da união internacional da bioquímica (NC-IUB) (1984). "Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences" . Nucleic Acids Research . 13 (9): 3021–3030. doi : 10.1093 / nar / 13.9.3021 . PMC  341218 . PMID  2582368 .
  3. ^ a b Comitê da nomenclatura da união internacional da bioquímica (NC-IUB) (1986). "Nomenclatura para bases incompletamente especificadas em sequências de ácido nucléico. Recomendações 1984" . Proc. Natl. Acad. Sci. EUA . 83 (1): 4–8. Bibcode : 1986PNAS ... 83 .... 4O . doi : 10.1073 / pnas.83.1.4 . PMC  322779 . PMID  2417239 .
  4. ^ Tinker, MA 1963. Legibility of Print. Iowa State University Press, Ames IA.
  5. ^ Cowin, JE; Jellis, CH; Rickwood, D. (1986). "Um novo método de representação de sequências de DNA que combina facilidade de análise visual com legibilidade por máquina" . Nucleic Acids Research . 14 (1): 509–15. doi : 10.1093 / nar / 14.1.509 . PMC  339435 . PMID  3003680 .
  6. ^ Zimmerman, PA; Feitiço, ML; Rawls, J .; Unnasch, TR (1991). "Transformação de dados de sequência de DNA em símbolos geométricos". BioTechniques . 11 (1): 50–52. PMID  1954017 .
  7. ^ Jarvius, J .; Landegren, U. (2006). "DNA Skyline: fontes para facilitar a inspeção visual de sequências de ácido nucléico" . BioTechniques . 40 (6): 740. doi : 10,2144 / 000112180 . PMID  16774117 .
  8. ^ Hofstadter, Douglas R. (1985). Temas Metamagicos: Questionando a Essência da Mente e do Padrão . Nova York: Basic Books. ISBN 978-0465045662.
  9. ^ Rozak, DA (2006). “As vantagens práticas e pedagógicas de uma notação ambigráfica de ácidos nucleicos”. Nucleosides, Nucleotides & Nucleic Acids . 25 (7): 807–813. doi : 10.1080 / 15257770600726109 . PMID  16898419 . S2CID  23600737 .
  10. ^ Rozak, David A .; Rozak, Anthony J. (2008). "Simplicidade, função e legibilidade em uma notação de ácido nucleico ambigráfica aprimorada" . BioTechniques . 44 (6): 811–813. doi : 10.2144 / 000112727 . PMID  18476835 .