Bioinformática - Bioinformatics

Bioinformática inicial - alinhamento computacional de sequências determinadas experimentalmente de uma classe de proteínas relacionadas; consulte § Análise de sequência para obter mais informações.
Mapa do cromossomo X humano (do site do National Center for Biotechnology Information )

Bioinformatics ( / ˌ b . ˌ ɪ n f ər m Æ t ɪ k s / ( escutar )Sobre este som ) é um interdisciplinar campo que se desenvolve métodos e ferramentas de software para a compreensão biológicos dados, em particular quando os conjuntos de dados são grandes e complexos . Como um campo interdisciplinar da ciência, a bioinformática combina biologia , ciência da computação , engenharia da informação , matemática e estatística para analisar e interpretar os dados biológicos . A bioinformática tem sido usada para análises in silico de pesquisas biológicas usando técnicas matemáticas e estatísticas.

A bioinformática inclui estudos biológicos que utilizam a programação de computadores como parte de sua metodologia, bem como uma análise específica "pipelines" de uso repetido, principalmente no campo da genômica . Os usos comuns da bioinformática incluem a identificação de genes candidatos e polimorfismos de nucleotídeo único ( SNPs ). Freqüentemente, essa identificação é feita com o objetivo de compreender melhor a base genética da doença, adaptações únicas, propriedades desejáveis ​​(especialmente em espécies agrícolas) ou diferenças entre populações. De uma forma menos formal, a bioinformática também tenta entender os princípios organizacionais dentro das sequências de ácidos nucléicos e proteínas , chamados de proteômica .

Visão geral

A bioinformática se tornou uma parte importante de muitas áreas da biologia. Na biologia molecular experimental , as técnicas de bioinformática, como processamento de imagem e sinal, permitem a extração de resultados úteis de grandes quantidades de dados brutos. No campo da genética, auxilia no sequenciamento e anotação de genomas e suas mutações observadas . Ele desempenha um papel na mineração de texto da literatura biológica e no desenvolvimento de ontologias biológicas e genéticas para organizar e consultar dados biológicos. Ele também desempenha um papel na análise da expressão e regulação de genes e proteínas. As ferramentas de bioinformática auxiliam na comparação, análise e interpretação de dados genéticos e genômicos e, de maneira mais geral, na compreensão dos aspectos evolutivos da biologia molecular. Em um nível mais integrador, ele ajuda a analisar e catalogar as redes e caminhos biológicos que são uma parte importante da biologia de sistemas . Em biologia estrutural , auxilia na simulação e modelagem de DNA, RNA, proteínas e também nas interações biomoleculares.

História

Historicamente, o termo bioinformática não significava o que significa hoje. Paulien Hogeweg e Ben Hesper o cunharam em 1970 para se referir ao estudo dos processos de informação em sistemas bióticos. Essa definição colocava a bioinformática como um campo paralelo à bioquímica (o estudo dos processos químicos em sistemas biológicos).

Seqüências

Seqüências de material genético são freqüentemente usadas em bioinformática e são mais fáceis de gerenciar usando computadores do que manualmente.

Os computadores tornaram-se essenciais na biologia molecular quando as sequências de proteínas se tornaram disponíveis depois que Frederick Sanger determinou a sequência da insulina no início dos anos 1950. Comparar várias sequências manualmente acabou sendo impraticável. Uma pioneira nesse campo foi Margaret Oakley Dayhoff . Ela compilou um dos primeiros bancos de dados de seqüência de proteínas, inicialmente publicado como livros e métodos pioneiros de alinhamento de seqüência e evolução molecular. Outro contribuidor da bioinformática foi Elvin A. Kabat , que foi o pioneiro na análise de sequências biológicas em 1970 com seus amplos volumes de sequências de anticorpos lançadas com Tai Te Wu entre 1980 e 1991. Na década de 1970, novas técnicas de sequenciamento de DNA foram aplicadas ao bacteriófago MS2 e øX174, e as sequências de nucleotídeos estendidas foram então analisadas com algoritmos informativos e estatísticos. Esses estudos ilustraram que recursos bem conhecidos, como os segmentos de codificação e o código tripleto, são revelados em análises estatísticas diretas e foram, portanto, a prova do conceito de que a bioinformática seria criteriosa.

Metas

Para estudar como as atividades celulares normais são alteradas em diferentes estados de doença, os dados biológicos devem ser combinados para formar um quadro abrangente dessas atividades. Portanto, o campo da bioinformática evoluiu tanto que a tarefa mais urgente agora envolve a análise e interpretação de vários tipos de dados. Isso também inclui sequências de nucleotídeos e aminoácidos , domínios de proteínas e estruturas de proteínas . O processo real de análise e interpretação de dados é conhecido como biologia computacional . Subdisciplinas importantes dentro da bioinformática e biologia computacional incluem:

  • Desenvolvimento e implementação de programas informáticos que permitam o acesso, gestão e utilização eficientes de diversos tipos de informação.
  • Desenvolvimento de novos algoritmos (fórmulas matemáticas) e medidas estatísticas que avaliam as relações entre os membros de grandes conjuntos de dados. Por exemplo, existem métodos para localizar um gene dentro de uma sequência, para prever a estrutura e / ou função da proteína e para agrupar as sequências de proteínas em famílias de sequências relacionadas.

O objetivo principal da bioinformática é aumentar a compreensão dos processos biológicos. O que o diferencia de outras abordagens, no entanto, é seu foco no desenvolvimento e na aplicação de técnicas intensivas de computação para atingir esse objetivo. Os exemplos incluem: reconhecimento de padrões , mineração de dados , algoritmos de aprendizado de máquina e visualização . Importantes esforços de pesquisa no campo incluem alinhamento de sequências , descoberta do gene , genoma de montagem , a concepção de fármacos , a descoberta de medicamentos , o alinhamento da estrutura de proteínas , a previsão da estrutura de proteínas , a previsão de expressão do gene e interacções proteína-proteína , os estudos de associação em todo o genoma , a modelação de evolução e divisão celular / mitose.

A bioinformática agora envolve a criação e o avanço de bancos de dados, algoritmos, técnicas computacionais e estatísticas e teoria para resolver problemas formais e práticos decorrentes do gerenciamento e análise de dados biológicos.

Nas últimas décadas, os rápidos desenvolvimentos em genômica e outras tecnologias de pesquisa molecular e desenvolvimentos em tecnologias da informação se combinaram para produzir uma enorme quantidade de informações relacionadas à biologia molecular. Bioinformática é o nome dado a essas abordagens matemáticas e computacionais usadas para colher a compreensão dos processos biológicos.

As atividades comuns em bioinformática incluem mapear e analisar sequências de DNA e proteínas, alinhar sequências de DNA e proteínas para compará-las e criar e visualizar modelos 3-D de estruturas de proteínas.

Relação com outros campos

Bioinformática é um campo da ciência semelhante, mas distinto da computação biológica , embora seja frequentemente considerada sinônimo de biologia computacional . A computação biológica usa bioengenharia e biologia para construir computadores biológicos , enquanto a bioinformática usa computação para entender melhor a biologia. A bioinformática e a biologia computacional envolvem a análise de dados biológicos, particularmente DNA, RNA e sequências de proteínas. O campo da bioinformática experimentou um crescimento explosivo a partir de meados da década de 1990, impulsionado em grande parte pelo Projeto Genoma Humano e pelos rápidos avanços na tecnologia de sequenciamento de DNA.

Analisar dados biológicos para produzir informações significativas envolve escrever e executar programas de software que usam algoritmos da teoria dos grafos , inteligência artificial , computação suave , mineração de dados , processamento de imagens e simulação de computador . Os algoritmos, por sua vez, dependem de fundamentos teóricos, como matemática discreta , teoria de controle , teoria de sistema , teoria da informação e estatística .

Análise de sequência

Desde que o Phage Φ-X174 foi sequenciado em 1977, as sequências de DNA de milhares de organismos foram decodificadas e armazenadas em bancos de dados. Essas informações de sequência são analisadas para determinar genes que codificam proteínas , genes de RNA, sequências regulatórias, motivos estruturais e sequências repetitivas. Uma comparação de genes dentro de uma espécie ou entre espécies diferentes pode mostrar semelhanças entre funções de proteínas ou relações entre espécies (o uso de sistemática molecular para construir árvores filogenéticas ). Com a crescente quantidade de dados, há muito tempo tornou-se impraticável analisar manualmente as sequências de DNA. Programas de computador como o BLAST são usados ​​rotineiramente para pesquisar sequências - a partir de 2008, em mais de 260.000 organismos, contendo mais de 190 bilhões de nucleotídeos .

Sequenciamento de DNA

Antes que as sequências possam ser analisadas, elas devem ser obtidas no banco de armazenamento de dados, como o Genbank. O sequenciamento de DNA ainda é um problema não trivial, pois os dados brutos podem ser ruidosos ou afetados por sinais fracos. Algoritmos foram desenvolvidos para chamadas de base para as várias abordagens experimentais de sequenciamento de DNA.

Montagem de sequência

A maioria das técnicas de sequenciamento de DNA produz pequenos fragmentos de sequência que precisam ser montados para obter sequências completas do gene ou do genoma. A chamada técnica de sequenciamento shotgun (que foi usada, por exemplo, pelo The Institute for Genomic Research (TIGR) para sequenciar o primeiro genoma bacteriano, Haemophilus influenzae ) gera as sequências de muitos milhares de pequenos fragmentos de DNA (variando de 35 a 900 nucleotídeos de comprimento, dependendo da tecnologia de sequenciamento). As extremidades desses fragmentos se sobrepõem e, quando alinhadas corretamente por um programa de montagem do genoma, podem ser usadas para reconstruir o genoma completo. O sequenciamento Shotgun produz dados de sequência rapidamente, mas a tarefa de montar os fragmentos pode ser bastante complicada para genomas maiores. Para um genoma tão grande quanto o humano , pode levar muitos dias de tempo de CPU em computadores com grande memória e multiprocessadores para montar os fragmentos, e a montagem resultante geralmente contém várias lacunas que devem ser preenchidas posteriormente. O sequenciamento Shotgun é o método de escolha para praticamente todos os genomas sequenciados atualmente, e os algoritmos de montagem de genomas são uma área crítica da pesquisa de bioinformática.

Anotação de genoma

No contexto da genômica , a anotação é o processo de marcar os genes e outras características biológicas em uma sequência de DNA. Esse processo precisa ser automatizado porque a maioria dos genomas são muito grandes para serem anotados à mão, sem mencionar o desejo de anotar o maior número possível de genomas, já que a taxa de sequenciamento deixou de ser um gargalo. A anotação é possível pelo fato de que os genes têm regiões de início e parada reconhecíveis, embora a sequência exata encontrada nessas regiões possa variar entre os genes.

A primeira descrição de um sistema de anotação do genoma abrangente foi publicada em 1995 pela equipe do The Institute for Genomic Research, que realizou o primeiro sequenciamento e análise completos do genoma de um organismo de vida livre, a bactéria Haemophilus influenzae . Owen White projetou e construiu um sistema de software para identificar os genes que codificam todas as proteínas, RNAs de transferência, RNAs ribossômicos (e outros locais) e para fazer atribuições funcionais iniciais. A maioria dos sistemas de anotação de genoma atuais funcionam de forma semelhante, mas os programas disponíveis para análise de DNA genômico, como o programa GeneMark treinado e usado para encontrar genes codificadores de proteínas em Haemophilus influenzae , estão em constante mudança e melhoria.

Seguindo os objetivos que o Projeto Genoma Humano deixava de atingir após seu fechamento em 2003, surgiu um novo projeto desenvolvido pelo Instituto Nacional de Pesquisa do Genoma Humano dos Estados Unidos. O chamado projeto ENCODE é uma coleta colaborativa de dados dos elementos funcionais do genoma humano que usa tecnologias de sequenciamento de DNA de última geração e matrizes genômicas, tecnologias capazes de gerar automaticamente grandes quantidades de dados a um custo por base drasticamente reduzido mas com a mesma precisão (erro de chamada de base) e fidelidade (erro de montagem).

Predição de função gênica

Embora a anotação do genoma seja baseada principalmente na similaridade da sequência (e, portanto, na homologia ), outras propriedades das sequências podem ser usadas para prever a função dos genes. Na verdade, a maioria dos métodos de predição da função do gene se concentra nas sequências de proteínas , pois são mais informativas e mais ricas em recursos. Por exemplo, a distribuição de aminoácidos hidrofóbicos prediz segmentos transmembrana em proteínas. No entanto, a previsão da função da proteína também pode usar informações externas, como dados de expressão de genes (ou proteínas) , estrutura de proteínas ou interações proteína-proteína .

Biologia evolutiva computacional

Biologia evolutiva é o estudo da origem e descendência das espécies , bem como sua mudança ao longo do tempo. A informática tem ajudado os biólogos evolucionistas, permitindo aos pesquisadores:

  • rastrear a evolução de um grande número de organismos medindo as mudanças em seu DNA , em vez de apenas por meio de taxonomia física ou observações fisiológicas,
  • compare todo genomas , que permite o estudo dos acontecimentos evolutivas mais complexas, tais como a duplicação do gene , a transferência de genes horizontal , e a previsão de factores importantes na bacteriana especiação ,
  • construir modelos computacionais de genética populacional complexos para prever o resultado do sistema ao longo do tempo
  • rastrear e compartilhar informações sobre um número cada vez maior de espécies e organismos

O trabalho futuro se empenha em reconstruir a agora mais complexa árvore da vida .

A área de pesquisa em ciência da computação que usa algoritmos genéticos às vezes é confundida com biologia evolutiva computacional, mas as duas áreas não estão necessariamente relacionadas.

Genômica comparativa

O núcleo da análise comparativa do genoma é o estabelecimento da correspondência entre genes ( análise ortológica ) ou outras características genômicas em diferentes organismos. São esses mapas intergenômicos que permitem rastrear os processos evolutivos responsáveis ​​pela divergência de dois genomas. Uma multidão de eventos evolutivos atuando em vários níveis organizacionais moldam a evolução do genoma. No nível mais baixo, as mutações pontuais afetam os nucleotídeos individuais. Em um nível superior, grandes segmentos cromossômicos sofrem duplicação, transferência lateral, inversão, transposição, deleção e inserção. Em última análise, genomas inteiros estão envolvidos em processos de hibridização, poliploidização e endossimbiose , muitas vezes levando a uma rápida especiação. A complexidade da evolução do genoma apresenta muitos desafios emocionantes para desenvolvedores de modelos e algoritmos matemáticos, que recorrem a um espectro de técnicas algorítmicas, estatísticas e matemáticas, que vão desde algoritmos exatos, heurísticos , parâmetros fixos e algoritmos de aproximação para problemas baseados em modelos de parcimônia até Markov algoritmos de Monte Carlo em cadeia para análise bayesiana de problemas com base em modelos probabilísticos.

Muitos desses estudos são baseados na detecção de homologia de sequência para atribuir sequências a famílias de proteínas .

Pan genômica

Pan genomics é um conceito introduzido em 2005 por Tettelin e Medini que eventualmente se enraizou na bioinformática. Pan genoma é o repertório de genes completo de um grupo taxonômico específico: embora inicialmente aplicado a cepas intimamente relacionadas de uma espécie, pode ser aplicado a um contexto maior como gênero, filo etc. É dividido em duas partes- O genoma central: Conjunto de genes comuns a todos os genomas em estudo (esses geralmente são genes domésticos vitais para a sobrevivência) e O Genoma Dispensável / Flexível: Conjunto de genes não presentes em todos, exceto em um ou alguns genomas em estudo. Uma ferramenta de bioinformática BPGA pode ser usada para caracterizar o Pan Genoma de espécies bacterianas.

Genética da doença

Com o advento do sequenciamento de última geração, estamos obtendo dados de sequência suficientes para mapear os genes de doenças complexas, infertilidade , câncer de mama ou doença de Alzheimer . Os estudos de associação do genoma são uma abordagem útil para identificar as mutações responsáveis ​​por essas doenças complexas. Por meio desses estudos, foram identificadas milhares de variantes de DNA associadas a doenças e características semelhantes. Além disso, a possibilidade de os genes serem usados ​​no prognóstico, diagnóstico ou tratamento é uma das aplicações mais essenciais. Muitos estudos estão discutindo as maneiras promissoras de escolher os genes a serem usados ​​e os problemas e armadilhas do uso de genes para prever a presença ou o prognóstico de doenças.

Análise de mutações no câncer

No câncer , os genomas das células afetadas são reorganizados de maneiras complexas ou mesmo imprevisíveis. Esforços massivos de sequenciamento são usados ​​para identificar mutações pontuais anteriormente desconhecidas em uma variedade de genes no câncer. Os bioinformáticos continuam a produzir sistemas automatizados especializados para gerenciar o grande volume de dados de sequência produzidos e criam novos algoritmos e software para comparar os resultados do sequenciamento à coleção crescente de sequências do genoma humano e polimorfismos da linha germinativa . Novas tecnologias de detecção física são empregadas, como microarranjos de oligonucleotídeos para identificar ganhos e perdas cromossômicas (chamados de hibridização genômica comparativa ) e matrizes de polimorfismo de nucleotídeo único para detectar mutações pontuais conhecidas . Esses métodos de detecção medem simultaneamente várias centenas de milhares de locais em todo o genoma e, quando usados ​​em alto rendimento para medir milhares de amostras, geram terabytes de dados por experimento. Mais uma vez, as enormes quantidades e novos tipos de dados geram novas oportunidades para os bioinformáticos. Os dados costumam conter considerável variabilidade, ou ruído , e, portanto, o modelo de Markov Oculto e os métodos de análise de ponto de mudança estão sendo desenvolvidos para inferir mudanças no número de cópias reais .

Dois princípios importantes podem ser usados ​​na análise de genomas de câncer bioinformaticamente relativos à identificação de mutações no exoma . Primeiro, o câncer é uma doença de mutações somáticas acumuladas nos genes. O segundo câncer contém mutações de driver que precisam ser diferenciadas dos passageiros.

Com os avanços que esta tecnologia de sequenciamento de última geração está proporcionando ao campo da bioinformática, a genômica do câncer pode mudar drasticamente. Esses novos métodos e software permitem que os bioinformáticos sequenciem muitos genomas de câncer de forma rápida e acessível. Isso poderia criar um processo mais flexível para classificar os tipos de câncer por meio da análise de mutações causadas pelo câncer no genoma. Além disso, o rastreamento de pacientes enquanto a doença progride pode ser possível no futuro com a sequência de amostras de câncer.

Outro tipo de dado que requer novo desenvolvimento de informática é a análise de lesões consideradas recorrentes em muitos tumores.

Expressão de genes e proteínas

Análise da expressão gênica

A expressão de muitos genes pode ser determinada medindo os níveis de mRNA com várias técnicas, incluindo microarrays , sequenciamento de tag de sequência de cDNA expresso (EST), sequenciamento de tag de análise em série de expressão gênica (SAGE), sequenciamento de assinatura massivamente paralela (MPSS), RNA-Seq , também conhecido como "Whole Transcriptome Shotgun Sequencing" (WTSS) ou várias aplicações de hibridização in-situ multiplexada. Todas essas técnicas são extremamente suscetíveis a ruído e / ou sujeitas a vieses na medição biológica, e uma importante área de pesquisa em biologia computacional envolve o desenvolvimento de ferramentas estatísticas para separar o sinal do ruído em estudos de expressão gênica de alto rendimento. Esses estudos são frequentemente usados ​​para determinar os genes implicados em um distúrbio: pode-se comparar dados de microarranjos de células epiteliais cancerosas com dados de células não cancerosas para determinar os transcritos que são regulados para cima e para baixo em uma determinada população de células cancerosas .

Análise de expressão de proteína

Microarrays de proteínas e espectrometria de massa (MS) de alto rendimento (HT) podem fornecer um instantâneo das proteínas presentes em uma amostra biológica. A bioinformática está muito envolvida na compreensão dos dados de microarray de proteínas e HT MS; a primeira abordagem enfrenta problemas semelhantes aos de microarrays direcionados ao mRNA, a última envolve o problema de combinar grandes quantidades de dados de massa com massas previstas de bancos de dados de sequência de proteínas e a complicada análise estatística de amostras em que múltiplos, mas incompletos, peptídeos de cada proteína são detectou. A localização de proteínas celulares em um contexto de tecido pode ser alcançada por meio de proteômica de afinidade exibida como dados espaciais baseados em imunohistoquímica e microarranjos de tecido .

Análise do regulamento

A regulação gênica é a orquestração complexa de eventos pela qual um sinal, potencialmente um sinal extracelular como um hormônio , acaba levando a um aumento ou diminuição na atividade de uma ou mais proteínas . Técnicas de bioinformática têm sido aplicadas para explorar as várias etapas desse processo.

Por exemplo, a expressão do gene pode ser regulada por elementos próximos no genoma. A análise do promotor envolve a identificação e o estudo de motivos de sequência no DNA em torno da região codificadora de um gene. Esses motivos influenciam a extensão em que essa região é transcrita em mRNA. Enhancer elementos longe do promotor também pode regular a expressão do gene, através de interacções de looping tridimensionais. Essas interações podem ser determinadas por análise bioinformática de experimentos de captura de conformação cromossômica .

Os dados de expressão podem ser usados ​​para inferir a regulação gênica: pode-se comparar os dados de microarranjos de uma ampla variedade de estados de um organismo para formar hipóteses sobre os genes envolvidos em cada estado. Em um organismo unicelular, pode-se comparar estágios do ciclo celular , juntamente com várias condições de estresse (choque térmico, fome, etc.). Pode-se então aplicar algoritmos de agrupamento aos dados de expressão para determinar quais genes são coexpressos. Por exemplo, as regiões a montante (promotores) de genes co-expressos podem ser pesquisados ​​por elementos reguladores sobre-representados . Exemplos de algoritmos de agrupamento aplicados no agrupamento de genes são agrupamento k-means , mapas auto-organizáveis (SOMs), agrupamento hierárquico e métodos de agrupamento de consenso .

Análise da organização celular

Várias abordagens foram desenvolvidas para analisar a localização de organelas, genes, proteínas e outros componentes dentro das células. Isso é relevante porque a localização desses componentes afeta os eventos dentro de uma célula e, portanto, nos ajuda a prever o comportamento dos sistemas biológicos. Uma categoria de ontologia genética , componente celular , foi desenvolvida para capturar a localização subcelular em muitos bancos de dados biológicos .

Microscopia e análise de imagem

Imagens microscópicas nos permitem localizar tanto organelas quanto moléculas. Também pode nos ajudar a distinguir entre células normais e anormais, por exemplo, no câncer .

Localização de proteína

A localização de proteínas nos ajuda a avaliar o papel de uma proteína. Por exemplo, se uma proteína for encontrada no núcleo, ela pode estar envolvida na regulação do gene ou no splicing . Por outro lado, se uma proteína for encontrada na mitocôndria , ela pode estar envolvida na respiração ou em outros processos metabólicos . A localização da proteína é, portanto, um componente importante da previsão da função da proteína . Existem recursos de previsão de localização subcelular de proteínas bem desenvolvidos disponíveis, incluindo bancos de dados de localização subcelular de proteínas e ferramentas de previsão.

Organização nuclear da cromatina

Dados de experimentos de captura de conformação cromossômica de alto rendimento , como Hi-C (experimento) e ChIA-PET , podem fornecer informações sobre a proximidade espacial de loci de DNA. A análise desses experimentos pode determinar a estrutura tridimensional e a organização nuclear da cromatina. Os desafios da bioinformática neste campo incluem a partição do genoma em domínios, como domínios de associação topológica (TADs), que são organizados em um espaço tridimensional.

Bioinformática estrutural

Estruturas de proteínas tridimensionais como esta são assuntos comuns em análises bioinformáticas.

A previsão da estrutura da proteína é outra aplicação importante da bioinformática. A sequência de aminoácidos de uma proteína, a chamada estrutura primária , pode ser facilmente determinada a partir da sequência do gene que a codifica. Na grande maioria dos casos, essa estrutura primária determina exclusivamente uma estrutura em seu ambiente nativo. (Claro, existem exceções, como o príon da encefalopatia espongiforme bovina (doença da vaca louca) .) O conhecimento dessa estrutura é vital para a compreensão da função da proteína. A informação estrutural é geralmente classificada como de estrutura secundária , terciária e quaternária . Uma solução geral viável para tais previsões permanece um problema aberto. A maioria dos esforços até agora foram direcionados para heurísticas que funcionam na maior parte do tempo.

Uma das idéias-chave da bioinformática é a noção de homologia . No ramo genômico da bioinformática, a homologia é usada para prever a função de um gene: se a sequência do gene A , cuja função é conhecida, é homóloga à sequência do gene B, cuja função é desconhecida, pode-se inferir que B pode compartilhar a função de A. No ramo estrutural da bioinformática, a homologia é usada para determinar quais partes de uma proteína são importantes na formação da estrutura e na interação com outras proteínas. Em uma técnica chamada modelagem de homologia , essa informação é usada para prever a estrutura de uma proteína, uma vez que a estrutura de uma proteína homóloga é conhecida. Atualmente, essa é a única maneira de prever estruturas de proteínas de maneira confiável.

Um exemplo disso é a hemoglobina em humanos e a hemoglobina em leguminosas ( leghemoglobina ), que são parentes distantes da mesma superfamília de proteínas . Ambos têm o mesmo propósito de transportar oxigênio no organismo. Embora ambas as proteínas tenham sequências de aminoácidos completamente diferentes, suas estruturas de proteínas são virtualmente idênticas, o que reflete seus propósitos quase idênticos e ancestrais compartilhados.

Outras técnicas para prever a estrutura da proteína incluem encadeamento de proteínas e modelagem baseada na física de novo (do zero).

Outro aspecto da bioinformática estrutural inclui o uso de estruturas de proteínas para modelos de triagem virtual , como modelos de relação estrutura-atividade quantitativa e modelos proteoquimétricos (PCM). Além disso, a estrutura de cristal de uma proteína pode ser usada em simulação de, por exemplo, estudos de ligação de ligante e em estudos de mutagênese de silico .

Biologia de rede e sistemas

A análise de rede busca entender as relações dentro das redes biológicas , como redes metabólicas ou de interação proteína-proteína . Embora as redes biológicas possam ser construídas a partir de um único tipo de molécula ou entidade (como genes), a biologia da rede muitas vezes tenta integrar muitos tipos de dados diferentes, como proteínas, pequenas moléculas, dados de expressão gênica e outros, que estão todos conectados fisicamente , funcionalmente ou ambos.

A biologia de sistemas envolve o uso de simulações de computador de subsistemas celulares (como as redes de metabólitos e enzimas que compõem o metabolismo , vias de transdução de sinal e redes regulatórias de genes ) para analisar e visualizar as conexões complexas desses processos celulares. A vida artificial ou evolução virtual tenta entender os processos evolutivos por meio da simulação de computador de formas de vida simples (artificiais).

Redes de interação molecular

As interações entre as proteínas são frequentemente visualizadas e analisadas por meio de redes. Essa rede é composta de interações proteína-proteína do Treponema pallidum , o agente causador da sífilis e de outras doenças.

Dezenas de milhares de estruturas tridimensionais de proteínas foram determinadas por cristalografia de raios-X e espectroscopia de ressonância magnética nuclear de proteínas (NMR de proteína) e uma questão central em bioinformática estrutural é se é prático prever possíveis interações proteína-proteína apenas com base nestes Formas 3D, sem realizar experimentos de interação proteína-proteína . Uma variedade de métodos foram desenvolvidos para lidar com o problema de docking proteína-proteína , embora pareça que ainda há muito trabalho a ser feito neste campo.

Outras interações encontradas no campo incluem proteína-ligante (incluindo drogas) e proteína-peptídeo . A simulação dinâmica molecular do movimento dos átomos sobre ligações rotativas é o princípio fundamental por trás dos algoritmos computacionais , denominados algoritmos de encaixe, para estudar as interações moleculares .

Outros

Análise de literatura

O crescimento no número de literatura publicada torna virtualmente impossível a leitura de todos os artigos, resultando em subcampos de pesquisa desarticulados. A análise da literatura visa empregar linguística computacional e estatística para explorar essa biblioteca crescente de recursos de texto. Por exemplo:

  • Reconhecimento de abreviatura - identifica a forma longa e a abreviatura dos termos biológicos
  • Reconhecimento de entidade nomeada - reconhecer termos biológicos, como nomes de genes
  • Interação proteína-proteína - identifica quais proteínas interagem com quais proteínas do texto

A área de pesquisa baseia-se na estatística e na linguística computacional .

Análise de imagem de alto rendimento

As tecnologias computacionais são usadas para acelerar ou automatizar totalmente o processamento, quantificação e análise de grandes quantidades de imagens biomédicas com alto conteúdo de informação . Os sistemas modernos de análise de imagens aumentam a capacidade do observador de fazer medições a partir de um conjunto grande ou complexo de imagens, melhorando a precisão , objetividade ou velocidade. Um sistema de análise totalmente desenvolvido pode substituir completamente o observador. Embora esses sistemas não sejam exclusivos das imagens biomédicas, as imagens biomédicas estão se tornando mais importantes para diagnósticos e pesquisas. Alguns exemplos são:

  • quantificação de alto rendimento e alta fidelidade e localização subcelular ( triagem de alto conteúdo , cito- histopatologia , informática de bioimagem )
  • morfometria
  • análise e visualização de imagens clínicas
  • determinar os padrões de fluxo de ar em tempo real nos pulmões de respiração de animais vivos
  • quantificar o tamanho da oclusão em imagens em tempo real a partir do desenvolvimento e da recuperação durante a lesão arterial
  • fazer observações comportamentais a partir de gravações de vídeo extensas de animais de laboratório
  • medições infravermelhas para determinação da atividade metabólica
  • inferir sobreposições de clones no mapeamento de DNA , por exemplo, a pontuação Sulston

Análise de dados de célula única de alto rendimento

Técnicas computacionais são usadas para analisar dados de célula única de alto rendimento e baixa medição, como os obtidos por citometria de fluxo . Esses métodos geralmente envolvem a localização de populações de células que são relevantes para um determinado estado de doença ou condição experimental.

Informática de biodiversidade

A informática sobre biodiversidade lida com a coleta e análise de dados de biodiversidade , como bancos de dados taxonômicos ou dados de microbiomas . Exemplos de tais análises incluem filogenética , modelagem de nicho , mapeamento de riqueza de espécies , código de barras de DNA ou ferramentas de identificação de espécies .

Ontologias e integração de dados

Ontologias biológicas são gráficos acíclicos direcionados de vocabulários controlados . Eles são projetados para capturar conceitos e descrições biológicas de uma forma que possam ser facilmente categorizados e analisados ​​por computadores. Quando categorizado desta forma, é possível obter valor agregado de uma análise holística e integrada.

A OBO Foundry foi um esforço para padronizar certas ontologias. Uma das mais difundidas é a ontologia Gene, que descreve a função do gene. Existem também ontologias que descrevem fenótipos.

Bancos de dados

Os bancos de dados são essenciais para pesquisas e aplicações de bioinformática. Existem muitas bases de dados, abrangendo vários tipos de informação: por exemplo, sequências de DNA e proteínas, estruturas moleculares, fenótipos e biodiversidade. Os bancos de dados podem conter dados empíricos (obtidos diretamente de experimentos), dados previstos (obtidos de análises) ou, mais comumente, ambos. Eles podem ser específicos para um determinado organismo, via ou molécula de interesse. Como alternativa, eles podem incorporar dados compilados de vários outros bancos de dados. Esses bancos de dados variam em seu formato, mecanismo de acesso e se são públicos ou não.

Alguns dos bancos de dados mais comumente usados ​​estão listados abaixo. Para uma lista mais abrangente, verifique o link no início da subseção.

Software e ferramentas

As ferramentas de software para bioinformática variam de ferramentas de linha de comando simples a programas gráficos mais complexos e serviços da Web autônomos disponíveis em várias empresas de bioinformática ou instituições públicas.

Software de bioinformática de código aberto

Muitas ferramentas de software livre e de código aberto existem e continuam a crescer desde a década de 1980. A combinação de uma necessidade contínua de novos algoritmos para a análise de tipos emergentes de leituras biológicas, o potencial para experimentos inovadores in silico e as bases de código aberto disponíveis gratuitamente ajudaram a criar oportunidades para todos os grupos de pesquisa contribuírem para a bioinformática e o intervalo de software de código aberto disponível, independentemente de seus arranjos de financiamento. As ferramentas de código aberto geralmente atuam como incubadoras de ideias ou plug-ins com suporte da comunidade em aplicativos comerciais. Eles também podem fornecer padrões de fato e modelos de objetos compartilhados para auxiliar no desafio da integração da bioinformação.

A gama de pacotes de software de código aberto inclui títulos como Bioconductor , BioPerl , Biopython , BioJava , BioJS , BioRuby , Bioclipse , EMBOSS , .NET Bio , Orange com seu complemento de bioinformática, Apache Taverna , UGENE e GenoCAD . Para manter essa tradição e criar mais oportunidades, a Open Bioinformatics Foundation sem fins lucrativos tem apoiado a Bioinformatics Open Source Conference (BOSC) anual desde 2000.

Um método alternativo para construir bancos de dados públicos de bioinformática é usar o mecanismo MediaWiki com a extensão WikiOpener . Este sistema permite que o banco de dados seja acessado e atualizado por todos os especialistas da área.

Serviços da web em bioinformática

As interfaces baseadas em SOAP e REST foram desenvolvidas para uma ampla variedade de aplicativos de bioinformática, permitindo que um aplicativo em execução em um computador em uma parte do mundo use algoritmos, dados e recursos de computação em servidores em outras partes do mundo. As principais vantagens derivam do fato de que os usuários finais não precisam lidar com sobrecargas de manutenção de software e banco de dados.

Os serviços básicos de bioinformática são classificados pelo EBI em três categorias: SSS (Sequence Search Services), MSA (Multiple Sequence Alignment) e BSA (Biological Sequence Analysis). A disponibilidade desses recursos de bioinformática orientada a serviços demonstra a aplicabilidade de soluções de bioinformática baseadas na web e variam de uma coleção de ferramentas autônomas com um formato de dados comum em uma interface única, autônoma ou baseada na web, até bioinformática integrativa, distribuída e extensível sistemas de gerenciamento de fluxo de trabalho .

Sistemas de gerenciamento de fluxo de trabalho de bioinformática

Um sistema de gerenciamento de fluxo de trabalho de bioinformática é uma forma especializada de um sistema de gerenciamento de fluxo de trabalho projetado especificamente para compor e executar uma série de etapas computacionais ou de manipulação de dados, ou um fluxo de trabalho, em um aplicativo de Bioinformática. Esses sistemas são projetados para

  • fornecem um ambiente fácil de usar para os próprios cientistas de aplicativos criarem seus próprios fluxos de trabalho,
  • fornecem ferramentas interativas para os cientistas, permitindo-lhes executar seus fluxos de trabalho e visualizar seus resultados em tempo real,
  • simplificar o processo de compartilhamento e reutilização de fluxos de trabalho entre os cientistas e
  • permitem que os cientistas rastreiem a proveniência dos resultados da execução do fluxo de trabalho e as etapas de criação do fluxo de trabalho.

Algumas das plataformas que dão este serviço: Galaxy , Kepler , Taverna , UGENE , Anduril , COLMEIA .

BioCompute e Objetos BioCompute

Em 2014, a US Food and Drug Administration patrocinou uma conferência realizada no National Institutes of Health Bethesda Campus para discutir a reprodutibilidade em bioinformática. Nos três anos seguintes, um consórcio de partes interessadas se reuniu regularmente para discutir o que se tornaria o paradigma BioCompute. Essas partes interessadas incluíam representantes do governo, indústria e entidades acadêmicas. Os líderes da sessão representaram vários ramos dos Institutos e Centros do FDA e do NIH, entidades sem fins lucrativos, incluindo o Projeto Variome Humano e a Federação Europeia de Informática Médica , e instituições de pesquisa como Stanford , o Centro Genoma de Nova York e a Universidade George Washington .

Foi decidido que o paradigma BioCompute seria na forma de 'cadernos de laboratório' digitais que permitem a reprodutibilidade, replicação, revisão e reutilização de protocolos de bioinformática. Isso foi proposto para permitir uma maior continuidade dentro de um grupo de pesquisa ao longo do fluxo normal de pessoal, ao mesmo tempo em que promove a troca de ideias entre os grupos. O FDA dos EUA financiou esse trabalho para que as informações sobre dutos fossem mais transparentes e acessíveis para sua equipe reguladora.

Em 2016, o grupo se reuniu novamente no NIH em Bethesda e discutiu o potencial de um objeto BioCompute , uma instância do paradigma BioCompute. Este trabalho foi copiado como um documento de "uso de teste padrão" e um papel pré-impresso carregado no bioRxiv. O objeto BioCompute permite que o registro JSON seja compartilhado entre funcionários, colaboradores e reguladores.

Plataformas de educação

As plataformas de software projetadas para ensinar conceitos e métodos de bioinformática incluem Rosalind e cursos online oferecidos pelo Portal de Treinamento do Instituto Suíço de Bioinformática . Os workshops canadenses de bioinformática fornecem vídeos e slides de workshops de treinamento em seu site sob uma licença Creative Commons . O projeto 4273π ou o projeto 4273pi também oferece materiais educacionais de código aberto gratuitamente. O curso funciona em computadores Raspberry Pi de baixo custo e tem sido usado para ensinar adultos e alunos em escolas. 4273π é ativamente desenvolvido por um consórcio de acadêmicos e equipes de pesquisa que executaram bioinformática de nível de pesquisa usando computadores Raspberry Pi e o sistema operacional 4273π.

Mooc plataformas também oferecem certificações online em bioinformática e disciplinas relacionadas, incluindo Coursera de Bioinformática Especialização ( UC San Diego ) e genômica dados Ciência Especialização ( Johns Hopkins ), bem como EDX 'Análise de Dados s das ciências da vida XSeries ( Harvard ). A University of Southern California oferece um mestrado em bioinformática translacional com foco em aplicações biomédicas.

Conferências

Existem várias grandes conferências que se preocupam com a bioinformática. Alguns dos exemplos mais notáveis ​​são Sistemas Inteligentes para Biologia Molecular (ISMB), Conferência Europeia sobre Biologia Computacional (ECCB) e Pesquisa em Biologia Molecular Computacional (RECOMB).

Veja também

Referências

Leitura adicional

links externos

Ouça este artigo ( 37 minutos )
Ícone falado da Wikipedia
Este arquivo de áudio foi criado a partir de uma revisão deste artigo datada de 20 de setembro de 2013 e não reflete as edições subsequentes. ( 20/09/2013 )