Sequência de ácido nucleico -Nucleic acid sequence

Nucleic acid primary structure Nucleic acid secondary structure Nucleic acid tertiary structure Nucleic acid quaternary structure
A imagem acima contém links clicáveis
Imagem interativa da estrutura do ácido nucleico (primário, secundário, terciário e quaternário) usando hélices de DNA e exemplos da ribozima VS , telomerase e nucleossomo . ( PDB : ADNA , 1BNA , 4OCB , 4R4V , 1YMO , 1EQZ )

Uma sequência de ácido nucléico é uma sucessão de bases representadas por uma série de um conjunto de cinco letras diferentes que indicam a ordem dos nucleotídeos formando alelos dentro de uma molécula de DNA (usando GACT) ou RNA (GACU). Por convenção, as sequências geralmente são apresentadas da extremidade 5' para a extremidade 3' . Para o DNA, a fita sentido é usada. Como os ácidos nucleicos são normalmente polímeros lineares (não ramificados) , especificar a sequência é equivalente a definir a estrutura covalente de toda a molécula. Por esta razão, a sequência de ácidos nucléicos também é chamada de estrutura primária .

A seqüência tem capacidade de representar informações . O ácido desoxirribonucléico biológico representa a informação que dirige as funções de um organismo .

Os ácidos nucleicos também têm uma estrutura secundária e uma estrutura terciária . Às vezes, a estrutura primária é erroneamente referida como sequência primária . Por outro lado, não há nenhum conceito paralelo de sequência secundária ou terciária.

Nucleotídeos

Estrutura química do RNA
Uma série de códons em parte de uma molécula de mRNA . Cada códon consiste em três nucleotídeos , geralmente representando um único aminoácido .

Os ácidos nucleicos consistem em uma cadeia de unidades ligadas chamadas nucleotídeos. Cada nucleotídeo consiste em três subunidades: um grupo fosfato e um açúcar ( ribose no caso do RNA , desoxirribose no DNA ) formam a espinha dorsal da fita de ácido nucléico, e anexado ao açúcar está uma de um conjunto de nucleobases . As nucleobases são importantes no pareamento de bases dos filamentos para formar estruturas secundárias e terciárias de alto nível, como a famosa dupla hélice .

As letras possíveis são A , C , G e T , representando as quatro bases nucleotídicas de uma fita de DNA – adenina , citosina , guanina , timina – ligadas covalentemente a um esqueleto fosfodiéster . No caso típico, as sequências são impressas adjacentes umas às outras sem lacunas, como na sequência AAAGTCTGAC, lida da esquerda para a direita na direção 5' para 3' . Com relação à transcrição , uma sequência está na fita codificadora se tiver a mesma ordem do RNA transcrito.

Uma sequência pode ser complementar a outra sequência, o que significa que elas têm a base em cada posição na complementar (ou seja, A para T, C para G) e na ordem inversa. Por exemplo, a sequência complementar ao TTAC é GTAA. Se uma fita do DNA de fita dupla for considerada a fita sense, então a outra fita, considerada a fita antisense, terá a sequência complementar à fita sense.

Notação

Comparando e determinando % de diferença entre duas sequências de nucleotídeos.

  • AA T CC GC ETIQUETA
  • AA A CC CT TAG
  • Dadas as duas sequências de 10 nucleotídeos, alinhe-as e compare as diferenças entre elas. Calcule a similaridade percentual dividindo o número de bases de DNA diferentes pelo número total de nucleotídeos. No caso acima, existem três diferenças na sequência de 10 nucleotídeos. Portanto, divida 7/10 para obter a semelhança de 70% e subtraia isso de 100% para obter uma diferença de 30%.

Embora A, T, C e G representem um nucleotídeo específico em uma posição, também existem letras que representam ambiguidade que são usadas quando mais de um tipo de nucleotídeo pode ocorrer nessa posição. As regras da União Internacional de Química Pura e Aplicada ( IUPAC ) são as seguintes:

Símbolo Descrição Bases representadas Complemento
A A denine A 1 T
C Citosina _ C G
G guanina _ G C
T timina _ T A
você vc racil você A
C fraco _ A T 2 C
S forte _ C G S
M um mino _ A C k
k ceto _ G T M
R purina _ _ A G Y
Y p Y rimidina C T R
B não A ( B vem depois de A) C G T 3 V
D não C ( D vem depois de C) A G T H
H não G ( H vem depois de G) A C T D
V não T ( V vem depois de T e U) A C G B
N qualquer nucleotídeo (não uma lacuna) A C G T 4 N
Z zero _ 0 Z

Esses símbolos também são válidos para o RNA, exceto com U (uracil) substituindo T (timina).

Além da adenina (A), citosina (C), guanina (G), timina (T) e uracila (U), o DNA e o RNA também contêm bases que foram modificadas após a formação da cadeia de ácido nucléico. No DNA, a base modificada mais comum é a 5-metilcitidina (m5C). No RNA, existem muitas bases modificadas, incluindo pseudouridina (Ψ), dihidrouridina (D), inosina (I), ribotimidina (rT) e 7-metilguanosina (m7G). A hipoxantina e a xantina são duas das muitas bases criadas pela presença de mutagênicos , ambas por desaminação (substituição do grupo amina por um grupo carbonila). A hipoxantina é produzida a partir da adenina e a xantina é produzida a partir da guanina . Da mesma forma, a desaminação da citosina resulta em uracilo .

Significado biológico

Uma representação do código genético , pelo qual as informações contidas nos ácidos nucléicos são traduzidas em seqüências de aminoácidos nas proteínas .

Em sistemas biológicos, os ácidos nucléicos contêm informações que são usadas por uma célula viva para construir proteínas específicas . A sequência de nucleobases em uma fita de ácido nucléico é traduzida pela maquinaria celular em uma sequência de aminoácidos formando uma fita de proteína. Cada grupo de três bases, chamado códon , corresponde a um único aminoácido, e existe um código genético específico pelo qual cada combinação possível de três bases corresponde a um aminoácido específico.

O dogma central da biologia molecular descreve o mecanismo pelo qual as proteínas são construídas usando as informações contidas nos ácidos nucléicos. O DNA é transcrito em moléculas de mRNA , que viajam para o ribossomo , onde o mRNA é usado como modelo para a construção da fita de proteína. Uma vez que os ácidos nucleicos podem se ligar a moléculas com sequências complementares , há uma distinção entre as sequências " sense " que codificam proteínas e a sequência "antisense" complementar, que por si só não é funcional, mas pode se ligar à cadeia sense.

Determinação de sequência

Impressão de eletroferograma de sequenciador automático para determinar parte de uma sequência de DNA

O sequenciamento de DNA é o processo de determinação da sequência de nucleotídeos de um determinado fragmento de DNA . A sequência do DNA de um ser vivo codifica as informações necessárias para que esse ser vivo sobreviva e se reproduza. Portanto, determinar a sequência é útil na pesquisa fundamental sobre por que e como os organismos vivem, bem como em assuntos aplicados. Devido à importância do DNA para os seres vivos, o conhecimento de uma sequência de DNA pode ser útil em praticamente qualquer pesquisa biológica . Por exemplo, na medicina pode ser usado para identificar, diagnosticar e potencialmente desenvolver tratamentos para doenças genéticas . Da mesma forma, a pesquisa de patógenos pode levar a tratamentos para doenças contagiosas. A biotecnologia é uma disciplina florescente, com potencial para muitos produtos e serviços úteis.

O RNA não é sequenciado diretamente. Em vez disso, ele é copiado para um DNA pela transcriptase reversa , e esse DNA é então sequenciado.

Os métodos atuais de sequenciamento dependem da capacidade discriminatória das polimerases de DNA e, portanto, só podem distinguir quatro bases. Uma inosina (criada a partir da adenosina durante a edição do RNA ) é lida como um G, e a 5-metil-citosina (criada a partir da citosina pela metilação do DNA ) é lida como um C. Com a tecnologia atual, é difícil sequenciar pequenas quantidades de DNA, pois o sinal é muito fraco para medir. Isso é superado pela amplificação da reação em cadeia da polimerase (PCR).

representação digital

Sequência genética em formato digital.

Uma vez que uma sequência de ácido nucléico é obtida de um organismo, ela é armazenada in silico em formato digital. As sequências genéticas digitais podem ser armazenadas em bancos de dados de sequências , analisadas (consulte Análise de sequências abaixo), alteradas digitalmente e usadas como modelos para a criação de um novo DNA real usando síntese artificial de genes .

análise de sequência

As sequências genéticas digitais podem ser analisadas usando as ferramentas da bioinformática para tentar determinar sua função.

Teste genético

O DNA no genoma de um organismo pode ser analisado para diagnosticar vulnerabilidades a doenças hereditárias e também pode ser usado para determinar a paternidade de uma criança (pai genético) ou a ascendência de uma pessoa . Normalmente, cada pessoa carrega duas variações de cada gene , uma herdada de sua mãe, a outra herdada de seu pai. Acredita-se que o genoma humano contenha cerca de 20.000 a 25.000 genes. Além de estudar os cromossomos no nível de genes individuais, o teste genético em um sentido mais amplo inclui testes bioquímicos para a possível presença de doenças genéticas ou formas mutantes de genes associados a um risco aumentado de desenvolver distúrbios genéticos.

O teste genético identifica alterações nos cromossomos, genes ou proteínas. Normalmente, o teste é usado para encontrar alterações associadas a distúrbios hereditários. Os resultados de um teste genético podem confirmar ou descartar uma condição genética suspeita ou ajudar a determinar a chance de uma pessoa desenvolver ou transmitir um distúrbio genético. Várias centenas de testes genéticos estão atualmente em uso, e mais estão sendo desenvolvidos.

Alinhamento de sequência

Em bioinformática, um alinhamento de sequência é uma maneira de organizar as sequências de DNA , RNA ou proteína para identificar regiões de similaridade que podem ser devidas a relações funcionais, estruturais ou evolutivas entre as sequências. Se duas sequências em um alinhamento compartilham um ancestral comum, incompatibilidades podem ser interpretadas como mutações pontuais e lacunas como mutações de inserção ou deleção ( indels ) introduzidas em uma ou ambas as linhagens desde que divergiram uma da outra. Em alinhamentos de sequência de proteínas, o grau de similaridade entre os aminoácidos que ocupam uma determinada posição na sequência pode ser interpretado como uma medida aproximada de quão conservada uma determinada região ou motivo de sequência está entre as linhagens. A ausência de substituições, ou a presença apenas de substituições muito conservativas (isto é, a substituição de aminoácidos cujas cadeias laterais possuem propriedades bioquímicas semelhantes) em uma determinada região da sequência, sugere que esta região tem importância estrutural ou funcional. Embora as bases de nucleotídeos de DNA e RNA sejam mais semelhantes entre si do que os aminoácidos, a conservação dos pares de bases pode indicar um papel funcional ou estrutural semelhante.

A filogenética computacional faz uso extensivo de alinhamentos de sequências na construção e interpretação de árvores filogenéticas , que são usadas para classificar as relações evolutivas entre genes homólogos representados nos genomas de espécies divergentes. O grau em que as sequências em um conjunto de consulta diferem está qualitativamente relacionado à distância evolutiva das sequências umas das outras. Grosso modo, a alta identidade de sequência sugere que as sequências em questão têm um ancestral comum comparativamente mais jovem , enquanto a baixa identidade sugere que a divergência é mais antiga. Essa aproximação, que reflete a hipótese do " relógio molecular " de que uma taxa aproximadamente constante de mudança evolutiva pode ser usada para extrapolar o tempo decorrido desde que dois genes divergiram pela primeira vez (isto é, o tempo de coalescência ), assume que os efeitos da mutação e da seleção são constante em linhagens de sequência. Portanto, não leva em conta possíveis diferenças entre organismos ou espécies nas taxas de reparo do DNA ou a possível conservação funcional de regiões específicas em uma sequência. (No caso de sequências de nucleotídeos, a hipótese do relógio molecular em sua forma mais básica também desconsidera a diferença nas taxas de aceitação entre mutações silenciosas que não alteram o significado de um determinado códon e outras mutações que resultam na incorporação de um aminoácido diferente a proteína.) Métodos estatisticamente mais precisos permitem que a taxa evolutiva em cada ramo da árvore filogenética varie, produzindo assim melhores estimativas dos tempos de coalescência dos genes.

motivos de sequência

Freqüentemente, a estrutura primária codifica motivos que são de importância funcional. Alguns exemplos de motivos de sequência são: as caixas C/D e H/ACA de snoRNAs , sítio de ligação Sm encontrado em RNAs spliceossomais como U1 , U2 , U4 , U5 , U6 , U12 e U3 , a sequência Shine-Dalgarno , o Kozak seqüência de consenso e o terminador da RNA polimerase III .

entropia de sequência

Em bioinformática , uma entropia de sequência, também conhecida como complexidade de sequência ou perfil de informação, é uma sequência numérica que fornece uma medida quantitativa da complexidade local de uma sequência de DNA, independentemente da direção do processamento. As manipulações dos perfis de informação permitem a análise das sequências utilizando técnicas livres de alinhamento, como por exemplo na detecção de motivos e rearranjos.

Veja também

Referências

links externos