Armazenamento de dados digitais de DNA - DNA digital data storage

O armazenamento de dados digitais de DNA é o processo de codificação e decodificação de dados binários de e para fitas sintetizadas de DNA .

Embora o DNA como meio de armazenamento tenha um potencial enorme por causa de sua alta densidade de armazenamento, seu uso prático atualmente é severamente limitado por causa de seu alto custo e tempos de leitura e gravação muito lentos.

Em junho de 2019, os cientistas relataram que todos os 16 GB de texto da versão em inglês da Wikipedia foram codificados em DNA sintético .

Celular grátis

Atualmente, a tecnologia de sequenciamento de DNA mais difundida em uso é desenvolvida pela Illumina, que envolve a imobilização de DNA de fita simples em um suporte sólido, amplificação das sequências por reação em cadeia da polimerase (PCR) e marcação das bases individuais de DNA com bases complementares marcadas com marcadores fluorescentes (consulte o sequenciamento do corante Illumina ). O padrão de fluorescência (uma cor diferente para cada uma das quatro bases do DNA) pode então ser capturado em uma imagem e processado para determinar a sequência do DNA. Uma alternativa desenvolvida recentemente é a tecnologia de nanoporos , na qual moléculas de DNA são passadas por um poro em escala nanométrica sob o controle de uma enzima de catraca. A passagem das moléculas de DNA causa pequena mudança na corrente elétrica que pode ser medida. A principal vantagem da tecnologia nanopore é que ele pode ser lido em tempo real. No entanto, a precisão de leitura desta tecnologia é atualmente insuficiente para armazenamento de dados.

Na Vivo

O código genético dentro dos organismos vivos pode ser potencialmente cooptado para armazenar informações. Além disso, a biologia sintética pode ser usada para projetar células com "gravadores moleculares" para permitir o armazenamento e a recuperação de informações armazenadas no material genético da célula. A edição do gene CRISPR também pode ser usada para inserir sequências de DNA artificial no genoma da célula.

História

A ideia do armazenamento digital de dados de DNA remonta a 1959, quando o físico Richard P. Feynman, em "Há muito espaço no fundo: um convite para entrar em um novo campo da física", delineou as perspectivas gerais para a criação de objetos artificiais semelhantes a objetos do microcosmo (incluindo biológicos) e com capacidades semelhantes ou até mais extensas. Em 1964-65 Mikhail Samoilovich Neiman , o físico soviético, publicou 3 artigos sobre microminiaturização em eletrônica no nível atômico-molecular, que apresentavam de forma independente considerações gerais e alguns cálculos sobre a possibilidade de registro, armazenamento e recuperação de informações no DNA sintetizado e Moléculas de RNA. Após a publicação do primeiro artigo de MS Neiman e depois de receber pelo Editor o manuscrito de seu segundo artigo (8 de janeiro de 1964, conforme indicado naquele artigo), foi publicada a entrevista com o cibernético Norbert Wiener. N. Wiener expressou ideias sobre a miniaturização da memória do computador, próximas às ideias propostas por MS Neiman de forma independente. Essas idéias de Wiener, MS Neiman mencionou no terceiro de seus artigos. Esta história é descrita em detalhes.

Um dos primeiros usos do armazenamento de DNA ocorreu em uma colaboração de 1988 entre o artista Joe Davis e pesquisadores de Harvard. A imagem, armazenada em uma sequência de DNA em E.coli , foi organizada em uma matriz 5 x 7 que, uma vez decodificada, formou a imagem de uma antiga runa germânica representando a vida e a fêmea da Terra. Na matriz, uns correspondiam a pixels escuros enquanto zeros correspondiam a pixels claros.

Em 2007, um dispositivo foi criado na Universidade do Arizona usando moléculas de endereçamento para codificar locais incompatíveis dentro de uma fita de DNA. Essas incompatibilidades puderam ser lidas por meio de um resumo de restrição, recuperando assim os dados.

Em 2011, George Church, Sri Kosuri e Yuan Gao realizaram um experimento que codificaria um livro de 659 kb de coautoria Church. Para fazer isso, a equipe de pesquisa fez uma correspondência dois para um, em que um zero binário era representado por uma adenina ou citosina e um binário era representado por uma guanina ou timina. Após o exame, foram encontrados 22 erros no DNA.

Em 2012, George Church e colegas da Universidade de Harvard publicaram um artigo em que o DNA era codificado com informações digitais que incluíam um rascunho em HTML de um livro de 53.400 palavras escrito pelo pesquisador principal, onze imagens JPG e um programa JavaScript. Várias cópias para redundância foram adicionadas e 5,5 petabits podem ser armazenados em cada milímetro cúbico de DNA. Os pesquisadores usaram um código simples em que os bits eram mapeados um a um com bases, que tinha a desvantagem de levar a longas execuções da mesma base, cujo sequenciamento é sujeito a erros. Esse resultado mostrou que, além de suas outras funções, o DNA também pode ser outro tipo de meio de armazenamento, como discos rígidos e fitas magnéticas.

Em 2013, um artigo liderado por pesquisadores do Instituto Europeu de Bioinformática (EBI) e apresentado na mesma época que o artigo de Church e colegas detalhou o armazenamento, recuperação e reprodução de mais de cinco milhões de bits de dados. Todos os arquivos de DNA reproduzem as informações entre 99,99% e 100% de precisão. As principais inovações nesta pesquisa foram o uso de um esquema de codificação de correção de erros para garantir a taxa de perda de dados extremamente baixa, bem como a ideia de codificar os dados em uma série de oligonucleotídeos curtos sobrepostos identificáveis ​​por meio de um esquema de indexação baseado em sequência. . Além disso, as sequências das fitas individuais de DNA se sobrepuseram de tal forma que cada região de dados foi repetida quatro vezes para evitar erros. Duas dessas quatro vertentes foram construídas ao contrário, também com o objetivo de eliminar erros. Os custos por megabyte foram estimados em US $ 12.400 para codificar dados e US $ 220 para recuperação. No entanto, observou-se que a diminuição exponencial nos custos de síntese e sequenciamento de DNA, se continuar no futuro, deve tornar a tecnologia econômica para armazenamento de dados de longo prazo até 2023.

Em 2013, um software chamado DNACloud foi desenvolvido por Manish K. Gupta e colegas de trabalho para codificar arquivos de computador para sua representação de DNA. Ele implementa uma versão de eficiência de memória do algoritmo proposto por Goldman et al. para codificar (e decodificar) dados para DNA (arquivos .dnac).

A estabilidade de longo prazo dos dados codificados no DNA foi relatada em fevereiro de 2015, em um artigo de pesquisadores da ETH Zurich . A equipe adicionou redundância por meio da codificação de correção de erros Reed-Solomon e do encapsulamento do DNA dentro de esferas de vidro de sílica por meio da química Sol-gel .

Em 2016 foi publicada uma pesquisa da Church and Technicolor Research and Innovation em que 22 MB de uma sequência de filme compactada em MPEG foram armazenados e recuperados do DNA. A recuperação da sequência apresentou zero erros.

Em março de 2017, Yaniv Erlich e Dina Zielinski, da Columbia University e do New York Genome Center, publicaram um método conhecido como DNA Fountain, que armazenava dados a uma densidade de 215 petabytes por grama de DNA. A técnica se aproxima da capacidade de Shannon de armazenamento de DNA, atingindo 85% do limite teórico. O método não estava pronto para uso em larga escala, pois custa $ 7000 para sintetizar 2 megabytes de dados e outros $ 2000 para lê-los.

Em março de 2018, a University of Washington e a Microsoft publicaram resultados demonstrando o armazenamento e a recuperação de aproximadamente 200 MB de dados. A pesquisa também propôs e avaliou um método de acesso aleatório a itens de dados armazenados no DNA. Em março de 2019, a mesma equipe anunciou que demonstrou um sistema totalmente automatizado para codificar e decodificar dados em DNA.

Pesquisa publicada pela Eurecom e Imperial College em janeiro de 2019, demonstrou a capacidade de armazenar dados estruturados em DNA sintético. A pesquisa mostrou como codificar dados estruturados ou, mais especificamente, relacionais em DNA sintético e também demonstrou como realizar operações de processamento de dados (semelhantes ao SQL ) diretamente no DNA como processos químicos.

Em junho de 2019, os cientistas relataram que todos os 16 GB da Wikipedia foram codificados em DNA sintético .

O primeiro artigo descrevendo o armazenamento de dados em sequências de DNA nativas via corte enzimático foi publicado em abril de 2020. No artigo, os cientistas demonstram um novo método de registro de informações no backbone do DNA que permite acesso aleatório bit a bit e computação na memória.

Desafio Davos Bitcoin

Em 21 de janeiro de 2015, Nick Goldman do European Bioinformatics Institute (EBI), um dos autores originais do artigo da Nature de 2013 , anunciou o Davos Bitcoin Challenge na reunião anual do Fórum Econômico Mundial em Davos. Durante sua apresentação, tubos de DNA foram entregues ao público, com a mensagem de que cada tubo continha a chave privada de exatamente um bitcoin , todos codificados em DNA. O primeiro a sequenciar e decodificar o DNA pode reivindicar o bitcoin e vencer o desafio. O desafio estava definido para três anos e seria encerrado se ninguém reivindicasse o prêmio antes de 21 de janeiro de 2018.

Quase três anos depois, em 19 de janeiro de 2018, a EBI anunciou que um estudante belga de doutorado, Sander Wuyts, da Universidade de Antuérpia e da Vrije Universiteit Brussel , foi o primeiro a concluir o desafio. Ao lado das instruções sobre como reivindicar o bitcoin (armazenado como texto simples e arquivo PDF ), o logotipo da EBI, o logotipo da empresa que imprimiu o DNA (CustomArray) e um esboço de James Joyce foram recuperados do DNA.

DNA das coisas

O conceito de DNA das Coisas (DoT) foi introduzido em 2019 por uma equipe de pesquisadores de Israel e da Suíça, incluindo Yaniv Erlich e Robert Grass. O DoT codifica dados digitais em moléculas de DNA, que são incorporadas a objetos. Isso dá a capacidade de criar objetos que carregam seu próprio projeto, semelhante a organismos biológicos. Em contraste com a Internet das coisas , que é um sistema de dispositivos de computação inter-relacionados, o DoT cria objetos que são objetos de armazenamento independentes, completamente fora da rede .

Como prova de conceito para DoT, o pesquisador imprimiu em 3D um coelho de Stanford que contém sua planta no filamento de plástico usado para impressão. Cortando um pedacinho da orelha do coelho, eles foram capazes de ler a planta, multiplicá-la e produzir a próxima geração de coelhos. Além disso, a capacidade do DoT de servir para fins esteganográficos foi demonstrada pela produção de lentes não distinguíveis que contêm um vídeo do YouTube integrado ao material.

Veja também

Referências

Leitura adicional