Montagem da sequência - Sequence assembly

Em bioinformática , montagem de sequência refere-se ao alinhamento e fusão de fragmentos de uma sequência de DNA mais longa para reconstruir a sequência original. Isso é necessário porque a tecnologia de sequenciamento de DNA não consegue ler genomas inteiros de uma vez, mas sim pequenos pedaços entre 20 e 30.000 bases, dependendo da tecnologia usada. Normalmente, os fragmentos curtos, chamados de leituras, resultam do sequenciamento shotgun de DNA genômico ou transcrição de gene ( ESTs ).

O problema da montagem da sequência pode ser comparado a pegar muitas cópias de um livro, passando cada uma delas por um triturador com um cortador diferente e remendando o texto do livro apenas olhando para as peças fragmentadas. Além da dificuldade óbvia dessa tarefa, existem alguns problemas práticos extras: o original pode ter muitos parágrafos repetidos e alguns fragmentos podem ser modificados durante a fragmentação para conter erros de digitação. Trechos de outro livro também podem ser adicionados e alguns fragmentos podem ficar completamente irreconhecíveis.

Montadores de genoma

Os primeiros montadores de sequência começaram a aparecer no final dos anos 1980 e no início dos anos 1990 como variantes de programas mais simples de alinhamento de sequências para juntar grandes quantidades de fragmentos gerados por instrumentos de sequenciamento automatizados chamados sequenciadores de DNA . À medida que os organismos sequenciados cresciam em tamanho e complexidade (de pequenos vírus sobre plasmídeos a bactérias e, finalmente, eucariotos ), os programas de montagem usados ​​nesses projetos de genoma precisavam de estratégias cada vez mais sofisticadas para lidar com:

  • terabytes de dados de sequenciamento que precisam de processamento em clusters de computação ;
  • sequências idênticas e quase idênticas (conhecidas como repetições ) que podem, no pior caso, aumentar a complexidade do tempo e do espaço dos algoritmos de forma quadrática;
  • Erros de leitura de DNA nos fragmentos dos instrumentos de sequenciamento, que podem confundir a montagem.

Diante do desafio de montar os primeiros genomas eucarióticos maiores - a mosca da fruta Drosophila melanogaster em 2000 e o genoma humano apenas um ano depois - os cientistas desenvolveram montadores como Celera Assembler e Arachne, capazes de lidar com genomas de 130 milhões (por exemplo, a mosca da fruta D. melanogaster ) a 3 bilhões (por exemplo, o genoma humano) de pares de bases. Após esses esforços, vários outros grupos, principalmente nos principais centros de sequenciamento do genoma, construíram montadores em grande escala e um esforço de código aberto conhecido como AMOS foi lançado para reunir todas as inovações na tecnologia de montagem do genoma sob a estrutura de código aberto .

Estratégia de como um montador de sequência pegaria fragmentos (mostrados abaixo da barra preta) e combinaria as sobreposições entre eles para montar a sequência final (em preto). Repetições potencialmente problemáticas são mostradas acima da sequência (em rosa acima). Sem fragmentos sobrepostos, pode ser impossível atribuir esses segmentos a qualquer região específica.

Montadores EST

Tag de sequência expressa ou montagem EST foi uma estratégia inicial, datando de meados dos anos 1990 a meados dos anos 2000, para montar genes individuais em vez de genomas inteiros. O problema difere da montagem do genoma de várias maneiras. As sequências de entrada para montagem de EST são fragmentos do mRNA transcrito de uma célula e representam apenas um subconjunto de todo o genoma. Uma série de problemas algorítmicos diferem entre o genoma e a montagem de EST. Por exemplo, os genomas costumam ter grandes quantidades de sequências repetitivas, concentradas nas regiões intergênicas. Os genes transcritos contêm muito menos repetições, tornando a montagem um pouco mais fácil. Por outro lado, alguns genes são expressos (transcritos) em números muito altos (por exemplo, genes de manutenção ), o que significa que, ao contrário do sequenciamento shotgun do genoma inteiro, as leituras não são amostradas de maneira uniforme em todo o genoma.

A montagem do EST é muito mais complicada por recursos como splicing alternativo (cis-) , splicing trans , polimorfismo de nucleotídeo único e modificação pós-transcricional . Começando em 2008, quando o RNA-Seq foi inventado, o sequenciamento de EST foi substituído por esta tecnologia muito mais eficiente, descrita como montagem de novo do transcriptoma .

Conjunto de novo vs. mapeamento

Na montagem sequencial, dois tipos diferentes podem ser distinguidos:

  1. de-novo: montagem curto lê para criar de comprimento completo (por vezes novos) sequências, sem o uso de um modelo (ver de novo de sequência de montagem , de novo conjunto transcriptoma )
  2. mapeamento: montagem de leituras em uma sequência de backbone existente, construindo uma sequência que é semelhante, mas não necessariamente idêntica à sequência de backbone

Em termos de complexidade e requisitos de tempo, assemblies de-novo são ordens de magnitude mais lentos e consomem mais memória do que assemblies de mapeamento. Isso se deve principalmente ao fato de que o algoritmo de montagem precisa comparar cada leitura com todas as outras leituras (uma operação que tem uma complexidade de tempo ingênua de O ( n 2 ). Referindo-se à comparação desenhada para livros fragmentados na introdução: while for assemblies de mapeamento seria possível ter um livro muito semelhante como modelo (talvez com os nomes dos personagens principais e alguns locais alterados), assemblies de-novo apresentam um desafio mais assustador, pois não se saberia de antemão se isso se tornaria uma ciência livro, um romance, um catálogo ou mesmo vários livros.Além disso, cada fragmento seria comparado com todos os outros fragmentos.

O tratamento de repetições em uma montagem de novo requer a construção de um gráfico que representa as repetições vizinhas. Essas informações podem ser derivadas da leitura de um fragmento longo cobrindo as repetições por completo ou apenas suas duas extremidades . Por outro lado, em uma montagem de mapeamento, as peças com várias ou nenhuma correspondência geralmente são deixadas para outra técnica de montagem examinar.

Influência das mudanças tecnológicas

A complexidade da montagem da sequência é determinada por dois fatores principais: o número de fragmentos e seus comprimentos. Embora mais e mais fragmentos permitam uma melhor identificação de sobreposições de sequência, eles também apresentam problemas, pois os algoritmos subjacentes mostram um comportamento de complexidade quadrática ou mesmo exponencial para o número de fragmentos e seu comprimento. E embora as sequências mais curtas sejam mais rápidas de alinhar, elas também complicam a fase de layout de uma montagem, pois as leituras mais curtas são mais difíceis de usar com repetições ou quase idênticas.

Nos primeiros dias do sequenciamento de DNA, os cientistas só conseguiam obter algumas sequências de curta duração (algumas dezenas de bases) após semanas de trabalho em laboratórios. Portanto, essas sequências podem ser alinhadas manualmente em alguns minutos.

Em 1975, o método de terminação didesoxi ( sequenciamento AKA Sanger ) foi inventado e, até pouco depois de 2000, a tecnologia foi aprimorada até um ponto em que máquinas totalmente automatizadas podiam produzir sequências em um modo altamente paralelizado 24 horas por dia. Grandes centros de genoma ao redor do mundo abrigavam fazendas completas dessas máquinas de sequenciamento, o que, por sua vez, levou à necessidade de os montadores serem otimizados para sequências de projetos de sequenciamento shotgun de genoma completo onde as leituras

  • têm cerca de 800-900 bases de comprimento
  • contêm artefatos de sequenciamento como vetores de sequenciamento e clonagem
  • têm taxas de erro entre 0,5 e 10%

Com a tecnologia Sanger, projetos bacterianos com 20.000 a 200.000 leituras podem ser facilmente montados em um computador. Projetos maiores, como o genoma humano com aproximadamente 35 milhões de leituras, precisavam de grandes fazendas de computação e computação distribuída.

Em 2004/2005 , o pirosequenciamento foi comercializado pela 454 Life Sciences . Este novo método de sequenciamento gerou leituras muito mais curtas do que as do sequenciamento Sanger: inicialmente cerca de 100 bases, agora 400-500 bases. Seu rendimento muito mais alto e custo mais baixo (em comparação com o sequenciamento Sanger) impulsionou a adoção dessa tecnologia pelos centros de genoma, o que, por sua vez, impulsionou o desenvolvimento de montadores de sequência que poderiam lidar com os conjuntos de leitura de maneira eficiente. A grande quantidade de dados associada a padrões de erro específicos de tecnologia nas leituras atrasou o desenvolvimento dos montadores; no início de 2004, apenas o montador Newbler de 454 estava disponível. Lançada em meados de 2007, a versão híbrida do montador MIRA de Chevreux et al. foi o primeiro montador disponível gratuitamente que pode montar 454 leituras, bem como misturas de 454 leituras e leituras Sanger. A montagem de sequências de diferentes tecnologias de sequenciamento foi posteriormente cunhada como montagem híbrida .

Desde 2006, a tecnologia Illumina (anteriormente Solexa) está disponível e pode gerar cerca de 100 milhões de leituras por execução em uma única máquina de sequenciamento. Compare isso com os 35 milhões de leituras do projeto do genoma humano, que precisou de vários anos para ser produzido em centenas de máquinas de sequenciamento. Illumina foi inicialmente limitada a um comprimento de apenas 36 bases, tornando-a menos adequada para montagem de novo (como montagem de transcriptoma de novo ), mas as iterações mais recentes da tecnologia atingem comprimentos de leitura acima de 100 bases de ambas as extremidades de um clone de 3-400 bp . Anunciada no final de 2007, a montadora SHARCGS por Dohm et al. foi o primeiro assembler publicado que foi usado para uma montagem com leituras Solexa. Ele foi rapidamente seguido por vários outros.

Mais tarde, novas tecnologias como SOLiD da Applied Biosystems , Ion Torrent e SMRT foram lançadas e novas tecnologias (por exemplo, sequenciamento Nanopore ) continuam a surgir. Apesar das taxas de erro mais altas dessas tecnologias, elas são importantes para a montagem porque seu comprimento de leitura mais longo ajuda a resolver o problema de repetição. É impossível montar por meio de uma repetição perfeita maior que o comprimento máximo de leitura; no entanto, conforme as leituras se tornam mais longas, a chance de uma repetição perfeita desse tamanho torna-se pequena. Isso oferece uma vantagem de leituras de sequenciamento mais longas na montagem de repetições, mesmo que tenham baixa precisão (~ 85%).

Algoritmo ganancioso

Dado um conjunto de fragmentos de sequência, o objetivo é encontrar uma sequência mais longa que contenha todos os fragmentos.

  1. Calcule alinhamentos em pares de todos os fragmentos.
  2. Escolha dois fragmentos com a maior sobreposição.
  3. Mescle os fragmentos escolhidos.
  4. Repita as etapas 2 e 3 até que apenas um fragmento seja deixado.

O resultado não precisa ser uma solução ótima para o problema.

Programas

Para obter uma lista de montadores de novo , consulte Montadores de sequência de novo . Para obter uma lista de alinhadores de mapeamento, consulte Lista de software de alinhamento de sequência § Alinhamento de sequência de leitura curta .

Veja também

Referências