Sequenciamento de proteínas - Protein sequencing

Using a Beckman-Spinco Protein-Peptide Sequencer, 1970

O sequenciamento de proteínas é o processo prático de determinar a sequência de aminoácidos de toda ou parte de uma proteína ou peptídeo . Isso pode servir para identificar a proteína ou caracterizar suas modificações pós-tradução . Normalmente, o sequenciamento parcial de uma proteína fornece informações suficientes (uma ou mais marcas de sequência) para identificá-la com referência a bancos de dados de sequências de proteínas derivadas da tradução conceitual de genes .

Os dois principais métodos diretos de sequenciamento de proteínas são espectrometria de massa e degradação de Edman usando um sequenador de proteínas (sequenciador). Os métodos de espectrometria de massa são agora os mais amplamente usados ​​para sequenciamento e identificação de proteínas, mas a degradação de Edman continua sendo uma ferramenta valiosa para caracterizar o terminal N de uma proteína .

Determinando a composição de aminoácidos

Freqüentemente, é desejável saber a composição não ordenada de aminoácidos de uma proteína antes de tentar encontrar a sequência ordenada, pois esse conhecimento pode ser usado para facilitar a descoberta de erros no processo de sequenciação ou para distinguir entre resultados ambíguos. O conhecimento da frequência de certos aminoácidos também pode ser usado para escolher qual protease usar para a digestão da proteína. A incorporação incorreta de baixos níveis de aminoácidos não padronizados (por exemplo, norleucina) em proteínas também pode ser determinada. Um método generalizado frequentemente referido como análise de aminoácidos para determinar a frequência de aminoácidos é o seguinte:

  1. Hidrolisar uma quantidade conhecida de proteína em seus aminoácidos constituintes.
  2. Separe e quantifique os aminoácidos de alguma forma.

Hidrólise

A hidrólise é feita aquecendo uma amostra da proteína em ácido clorídrico 6 M a 100-110 ° C por 24 horas ou mais. Proteínas com muitos grupos hidrofóbicos volumosos podem exigir períodos de aquecimento mais longos. No entanto, essas condições são tão vigorosas que alguns aminoácidos ( serina , treonina , tirosina , triptofano , glutamina e cisteína ) são degradados. Para contornar esse problema, a Bioquímica Online sugere aquecer amostras separadas por tempos diferentes, analisando cada solução resultante e extrapolando de volta para o tempo de hidrólise zero. Rastall sugere uma variedade de reagentes para prevenir ou reduzir a degradação, como reagentes tiol ou fenol para proteger o triptofano e a tirosina do ataque do cloro e da cisteína pré-oxidante. Ele também sugere medir a quantidade de amônia evoluída para determinar a extensão da hidrólise da amida .

Separação e quantificação

Os aminoácidos podem ser separados por cromatografia de troca iônica e então derivatizados para facilitar sua detecção. Mais comumente, os aminoácidos são derivatizados e depois resolvidos por HPLC de fase reversa .

Um exemplo de cromatografia de troca iônica é dado pelo NTRC usando poliestireno sulfonado como matriz, adicionando os aminoácidos em solução ácida e passando um tampão de pH continuamente crescente através da coluna. Os aminoácidos são eluídos quando o pH atinge seus respectivos pontos isoelétricos . Uma vez separados os aminoácidos, suas respectivas quantidades são determinadas pela adição de um reagente que formará um derivado colorido. Se as quantidades de aminoácidos forem superiores a 10 nmol, a ninidrina pode ser usada para isso; dá uma cor amarela quando reage com a prolina e um roxo vivo com outros aminoácidos. A concentração de aminoácidos é proporcional à absorbância da solução resultante. Com quantidades muito pequenas, até 10 pmol, derivados fluorescentes podem ser formados usando reagentes como orto-ftaldeído (OPA) ou fluorescamina .

A derivatização pré-coluna pode usar o reagente de Edman para produzir um derivado que é detectado por luz ultravioleta. Maior sensibilidade é alcançada usando um reagente que gera um derivado fluorescente. Os aminoácidos derivados são submetidos a cromatografia de fase reversa, normalmente usando uma coluna de sílica C8 ou C18 e um gradiente de eluição otimizado . Os aminoácidos eluentes são detectados usando um detector de UV ou fluorescência e as áreas de pico comparadas com aquelas para padrões derivatizados, a fim de quantificar cada aminoácido na amostra.

Análise de aminoácidos N- terminal

Método de análise de grupo final de peptídeo de Sanger: uma derivatização da extremidade N- terminal com reagente de Sanger (DNFB), hidrólise ácida total B do peptídeo dinitrofenil

Determinar qual aminoácido forma o N- terminal de uma cadeia de peptídeo é útil por duas razões: para auxiliar a ordenação de sequências de fragmentos de peptídeos individuais em uma cadeia inteira, e porque a primeira rodada de degradação de Edman é frequentemente contaminada por impurezas e, portanto, não fornece uma determinação precisa do aminoácido N- terminal. Um método generalizado para a análise de aminoácidos N- terminal segue:

  1. Reaja o peptídeo com um reagente que rotulará seletivamente o aminoácido terminal.
  2. Hidrolisar a proteína.
  3. Determine o aminoácido por cromatografia e comparação com padrões.

Existem muitos reagentes diferentes que podem ser usados ​​para marcar aminoácidos terminais. Todos eles reagem com grupos amina e, portanto, também se ligam a grupos amina nas cadeias laterais de aminoácidos como a lisina - por isso é necessário ter cuidado ao interpretar os cromatogramas para garantir que o local certo seja escolhido. Dois dos reagentes mais comuns são o reagente de Sanger ( 1-fluoro-2,4-dinitrobenzeno ) e derivados dansil, como cloreto de dansil . O fenilisotiocianato , o reagente para a degradação de Edman, também pode ser utilizado. As mesmas questões se aplicam aqui como na determinação da composição de aminoácidos, com a exceção de que nenhuma coloração é necessária, pois os reagentes produzem derivados coloridos e apenas uma análise qualitativa é necessária. Portanto, o aminoácido não precisa ser eluído da coluna de cromatografia, apenas comparado com um padrão. Outra consideração a levar em consideração é que, uma vez que qualquer grupo amina terá reagido com o reagente de marcação, a cromatografia de troca iônica não pode ser usada e, em seu lugar, a cromatografia em camada fina ou a cromatografia líquida de alta pressão deve ser usada.

Análise de aminoácidos C-terminal

O número de métodos disponíveis para análise de aminoácidos C-terminal é muito menor do que o número de métodos disponíveis de análise N-terminal. O método mais comum é adicionar carboxipeptidases a uma solução da proteína, coletar amostras em intervalos regulares e determinar o aminoácido terminal analisando um gráfico das concentrações de aminoácidos ao longo do tempo. Este método será muito útil no caso de polipeptídeos e terminais N bloqueados com proteína. O sequenciamento C-terminal ajudaria muito na verificação das estruturas primárias de proteínas previstas a partir de sequências de DNA e na detecção de qualquer processamento pós-tradução de produtos gênicos de sequências de códons conhecidas.

Degradação de Edman

A degradação de Edman é uma reação muito importante para o sequenciamento de proteínas, pois permite a descoberta da composição ordenada de aminoácidos de uma proteína. Os sequenciadores Edman automatizados são agora amplamente utilizados e são capazes de sequenciar peptídeos com até aproximadamente 50 aminoácidos de comprimento. Segue-se um esquema de reação para sequenciar uma proteína pela degradação de Edman; algumas das etapas são elaboradas posteriormente.

  1. Quebre quaisquer pontes dissulfeto na proteína com um agente redutor como 2-mercaptoetanol . Um grupo de proteção , como o ácido iodoacético, pode ser necessário para prevenir a formação das ligações.
  2. Separe e purifique as cadeias individuais do complexo de proteínas, se houver mais de uma.
  3. Determine a composição de aminoácidos de cada cadeia.
  4. Determine os aminoácidos terminais de cada cadeia.
  5. Quebre cada cadeia em fragmentos com menos de 50 aminoácidos de comprimento.
  6. Separe e purifique os fragmentos.
  7. Determine a sequência de cada fragmento.
  8. Repita com um padrão diferente de clivagem.
  9. Construa a sequência da proteína global.

Digestão em fragmentos de peptídeo

Os peptídeos com mais de cerca de 50-70 aminoácidos de comprimento não podem ser sequenciados de forma confiável pela degradação de Edman. Por causa disso, longas cadeias de proteínas precisam ser quebradas em pequenos fragmentos que podem ser sequenciados individualmente. A digestão é feita por endopeptidases , como tripsina ou pepsina, ou por reagentes químicos, como brometo de cianogênio . Diferentes enzimas dão diferentes padrões de clivagem, e a sobreposição entre os fragmentos pode ser usada para construir uma sequência geral.

Reação

O peptídeo a ser sequenciado é adsorvido em uma superfície sólida. Um substrato comum é a fibra de vidro revestida com polibreno , um polímero catiônico . O reagente de Edman, fenilisotiocianato (PITC), é adicionado ao peptídeo adsorvido, juntamente com uma solução tampão levemente básica de 12% de trimetilamina . Este reage com o grupo amina do aminoácido N-terminal.

O aminoácido terminal pode então ser separado seletivamente pela adição de ácido anidro . O derivado então isomeriza para dar uma feniltio-hidantoína substituída , que pode ser lavada e identificada por cromatografia, e o ciclo pode ser repetido. A eficiência de cada etapa é de cerca de 98%, o que permite que cerca de 50 aminoácidos sejam determinados com segurança.

Uma máquina de sequenciamento de proteínas Beckman-Coulter Porton LF3000G

Sequenciador de proteínas

Um sequenador de proteína é uma máquina que realiza a degradação de Edman de maneira automatizada. Uma amostra da proteína ou peptídeo é imobilizada no vaso de reação do sequenador de proteína e a degradação de Edman é realizada. Cada ciclo libera e derivatiza um aminoácido da proteína ou do peptídeo N- terminal e o derivado de aminoácido liberado é então identificado por HPLC. O processo de sequenciação é feito repetidamente para todo o polipeptídeo até que toda a sequência mensurável seja estabelecida ou para um número predeterminado de ciclos.

Identificação por espectrometria de massa

A identificação de proteínas é o processo de atribuir um nome a uma proteína de interesse (POI), com base em sua sequência de aminoácidos. Normalmente, apenas parte da sequência da proteína precisa ser determinada experimentalmente para identificar a proteína com referência a bancos de dados de sequências de proteínas deduzidas das sequências de DNA de seus genes. A caracterização adicional da proteína pode incluir a confirmação dos terminais N e C reais do POI, a determinação de variantes de sequência e a identificação de quaisquer modificações pós-tradução presentes.

Digestões proteolíticas

Um esquema geral para identificação de proteínas é descrito.

  1. O POI é isolado, tipicamente por SDS-PAGE ou cromatografia .
  2. O POI isolado pode ser modificado quimicamente para estabilizar resíduos de cisteína (por exemplo, S-amidometilação ou S-carboximetilação).
  3. O POI é digerido com uma protease específica para gerar peptídeos. A tripsina , que cliva seletivamente no lado C-terminal dos resíduos de lisina ou arginina, é a protease mais comumente usada. Suas vantagens incluem i) a frequência de resíduos Lys e Arg nas proteínas, ii) a alta especificidade da enzima, iii) a estabilidade da enzima e iv) a adequação dos peptídeos trípticos para espectrometria de massa.
  4. Os peptídeos podem ser dessalinizados para remover contaminantes ionizáveis ​​e submetidos a espectrometria de massa MALDI-TOF . A medição direta das massas dos peptídeos pode fornecer informações suficientes para identificar a proteína (consulte Impressão digital de massa do peptídeo ), mas a fragmentação adicional dos peptídeos dentro do espectrômetro de massa é freqüentemente usada para obter informações sobre as sequências dos peptídeos. Alternativamente, os peptídeos podem ser dessalinizados e separados por HPLC de fase reversa e introduzidos em um espectrômetro de massa através de uma fonte ESI . LC-ESI-MS pode fornecer mais informações do que MALDI-MS para identificação de proteínas, mas usa mais tempo do instrumento.
  5. Dependendo do tipo de espectrômetro de massa, a fragmentação de íons de peptídeo pode ocorrer por meio de uma variedade de mecanismos, como dissociação induzida por colisão (CID) ou decomposição pós-fonte (PSD). Em cada caso, o padrão de íons de fragmento de um peptídeo fornece informações sobre sua sequência.
  6. As informações, incluindo a massa medida dos íons de peptídeo putativos e os de seus íons de fragmento, são então comparadas com os valores de massa calculados da proteólise conceitual (in-silico) e fragmentação de bancos de dados de sequências de proteínas. Uma correspondência bem-sucedida será encontrada se sua pontuação exceder um limite com base nos parâmetros de análise. Mesmo se a proteína real não estiver representada no banco de dados, a correspondência tolerante a erros permite a identificação putativa de uma proteína com base na semelhança com proteínas homólogas . Uma variedade de pacotes de software estão disponíveis para realizar essa análise.
  7. Os pacotes de software geralmente geram um relatório mostrando a identidade (código de acesso) de cada proteína identificada, sua pontuação de correspondência e fornecem uma medida da força relativa da correspondência onde várias proteínas são identificadas.
  8. Um diagrama dos peptídeos correspondentes na sequência da proteína identificada é freqüentemente usado para mostrar a cobertura da sequência (% da proteína detectada como peptídeos). Onde o POI é pensado para ser significativamente menor do que a proteína combinada, o diagrama pode sugerir se o POI é um fragmento N ou C-terminal da proteína identificada.

Sequenciamento de novo

O padrão de fragmentação de um péptido permite a determinação directa da sua sequência por de novo sequenciamento . Esta sequência pode ser usada para combinar bases de dados de sequências de proteínas ou para investigar modificações pós-tradução ou químicas. Pode fornecer evidências adicionais para as identificações de proteínas realizadas como acima.

Terminais N e C

Os peptídeos combinados durante a identificação da proteína não incluem necessariamente os terminais N ou C previstos para a proteína combinada. Isso pode resultar de os peptídeos N- ou C-terminais serem difíceis de identificar por MS (por exemplo, sendo muito curtos ou muito longos), sendo modificados pós-tradução (por exemplo, acetilação N-terminal) ou genuinamente diferentes da previsão. Modificações pós-tradução ou terminais truncados podem ser identificados por um exame mais detalhado dos dados (ou seja, sequenciamento de novo ). Uma digestão repetida usando uma protease de especificidade diferente também pode ser útil.

Modificações pós-traducionais

Embora a comparação detalhada dos dados de MS com previsões baseadas na sequência de proteína conhecida possa ser usada para definir modificações pós-tradução, abordagens direcionadas para aquisição de dados também podem ser usadas. Por exemplo, o enriquecimento específico de fosfopeptídeos pode auxiliar na identificação de locais de fosforilação em uma proteína. Métodos alternativos de fragmentação de peptídeo no espectrômetro de massa, como ETD ou ECD , podem fornecer informações de sequência complementar.

Determinação de massa total

A massa total da proteína é a soma das massas de seus resíduos de aminoácidos mais a massa de uma molécula de água e ajustada para quaisquer modificações pós-tradução. Embora as proteínas ionizem menos do que os peptídeos derivados delas, uma proteína em solução pode ser submetida a ESI-MS e sua massa medida com uma precisão de 1 parte em 20.000 ou melhor. Muitas vezes, isso é suficiente para confirmar os terminais (portanto, que a massa medida da proteína corresponde ao previsto de sua sequência) e inferir a presença ou ausência de muitas modificações pós-tradução.

Limitações

A proteólise nem sempre produz um conjunto de peptídeos prontamente analisáveis ​​cobrindo toda a sequência de POI. A fragmentação de peptídeos no espectrômetro de massa muitas vezes não produz íons correspondentes à clivagem em cada ligação peptídica. Assim, a sequência deduzida para cada peptídeo não é necessariamente completa. Os métodos padrão de fragmentação não distinguem entre resíduos de leucina e isoleucina, uma vez que são isoméricos.

Como a degradação de Edman procede do terminal N da proteína, ela não funcionará se o terminal N tiver sido modificado quimicamente (por exemplo, por acetilação ou formação de ácido piroglutâmico). A degradação de Edman geralmente não é útil para determinar as posições das pontes dissulfeto. Também requer quantidades de peptídeo de 1 picomole ou acima para resultados discerníveis, tornando-o menos sensível do que a espectrometria de massa .

Previsão de sequências de DNA / RNA

Em biologia, as proteínas são produzidas pela tradução do RNA mensageiro (mRNA) com a sequência da proteína derivando da sequência de códons no mRNA. O próprio mRNA é formado pela transcrição de genes e pode ser modificado posteriormente. Esses processos são suficientemente compreendidos para usar algoritmos de computador para automatizar previsões de sequências de proteínas de sequências de DNA, como de projetos de sequenciamento de DNA de genoma completo, e levaram à geração de grandes bancos de dados de sequências de proteínas, como UniProt . As sequências de proteínas previstas são um recurso importante para a identificação de proteínas por espectrometria de massa.

Historicamente, sequências proteicas curtas (10 a 15 resíduos) determinadas por degradação de Edman foram retrotraduzidas em sequências de DNA que poderiam ser usadas como sondas ou iniciadores para isolar clones moleculares do gene correspondente ou DNA complementar. A sequência do DNA clonado foi então determinada e usada para deduzir a sequência completa de aminoácidos da proteína.

Ferramentas de bioinformática

Existem ferramentas de bioinformática para auxiliar na interpretação de espectros de massa (consulte Sequenciamento de peptídeo de novo ), para comparar ou analisar sequências de proteínas (consulte Análise de sequência ) ou pesquisar bancos de dados usando sequências de peptídeos ou proteínas (consulte BLAST ).

Veja também

Referências

Leitura adicional

  • Steen H, Mann M (setembro de 2004). "O ABC (e XYZ) do sequenciamento de peptídeos". Nature Reviews Molecular Cell Biology . 5 (9): 699–711. doi : 10.1038 / nrm1468 . PMID  15340378 .