Alinhamento estrutural

Alinhamento estrutural de tiorredoxinas humanas e da mosca Drosophila melanogaster. As proteínas são mostradas como fitas, com a proteína humana em vermelho e a mosca em amarelo. Gerado com PDB 3TRX e 1XWC.

Um alinhamento estrutural é um tipo de alinhamento de sequências baseado na comparação da forma das moléculas. Estes alinhamentos tentam estabelecer equivalências entre duas ou mais estruturas de polímeros baseando-se na sua forma e conformação tridimensional. O processo normalmente aplica-se às estruturas terciárias das proteínas, mas também pode ser usado para longas moléculas de RNA. Ao contrário da sobreposição estrutural simples, onde se conhecem alguns resíduos equivalentes das duas estruturas, o alinhamento estrutural não requer um conhecimento prévio de posições equivalentes. É uma valiosa ferramenta para a comparação de proteínas que têm poucas semelhanças entre as suas sequências, onde as relações evolutivas entre proteínas não podem ser facilmente detectadas por técnicas padrão de alinhamento de seqüências. Portanto, o alinhamento estrutural pode ser utilizado para sugerir relações evolutivas entre proteínas que compartilham uma sequência comum muito curta. Porém, o uso dos resultados como evidência dum antepassado evolutivo comum deve ser feito com cautela, dado os possíveis efeitos da confusão com a evolução convergente, segundo a qual múltiplas sequências de aminoácidos sem relação filogenética entre eles convergem originando uma mesma estrutura terciária.

Os alinhamentos estruturais podem comparar duas ou múltiplas sequências. Como estes alinhamentos dependem da informação sobre todas as conformações tridimensionais das sequências do problema, o método só pode ser usado para seqüências onde essas estruturas sejam conhecidas. Estes encontram-se normalmente por cristalografia de raios X ou espectroscopia de ressonância magnética nuclear. É possível realizar um alinhamento estrutural de estruturas produzidas por métodos de predição de estrutura. Para a avaliação destas previsões, muitas vezes é necessário fazer um alinhamento estrutural entre o modelo e a estrutura real conhecida para avaliar a qualidade do modelo. Os alinhamentos estruturais são especialmente úteis para analisar dados surgidos dos campos da genómica estrutural e da proteómica, e podem ser utilizados como pontos de comparação para avaliar alinhamentos gerados por métodos bioinformáticos baseados exclusivamente em sequências.[1]

O resultado dum alinhamento estrutural é uma superposição dos conjuntos de coordenadas atómicas, e uma distância média quádrica mínima (ou RMSD, acrónimo de Root Mean Square Deviation, ou desvio da média quadrática) entre as estruturas básicas das proteínas sobrepostas. A RMSD de estruturas alinhadas indica as divergências entre elas. O alinhamento estrutural pode complicar-se pela existência de múltiplos domínios protéicos no interior duma ou mais estruturas de entrada (input), uma vez que alterações na orientação relativa dos domínios entre duas estruturas a alinhar podem exagerar para RMSD artificialmente.

Dados produzidos pelo alinhamento estrutural

A informação mínima produzida por um alinhamento estrutural correto é um conjunto de coordenadas tridimensionais sobrepostas a cada estrutura inicial. Note-se que um dos elementos de entrada pode estar fixado como referência e, portanto, suas coordenadas sobrepostas não serão alteradas. As estruturas encaixadas podem ser usadas para calcular valores de RMSD mútuos e outras medidas estruturais estruturalmente similares mais sofisticadas como o teste de distância global (GDT,[2] nas suas siglas em inglês, e que é a métrica utilizada em CASP, Critical Assessment of Techniques for Protein Structure Prediction). Um alinhamento estrutural também implica um alinhamento de sequências unidimensional a partir do qual pode calcular-se uma sequência, identidade, ou a porcentagem de resíduos que são idênticos entre as estruturas de entrada, como uma medida da proximidade à qual se encontra ambas as sequências.

Tipos de comparações

Uma vez que as estruturas das proteínas são compostas por aminoácidos cujas cadeias laterais estão ligadas por um esqueleto proteico comum de ligações peptídicas, pode ser usado uma macromolécula de proteína para produzir um alinhamento estrutural e calcular os valores RMSD correspondentes. Quando se alinham estruturas com sequências muito diferentes, os átomos da cadeia lateral, geralmente, não são tidos em conta, uma vez que suas identidades diferem em muitos dos resíduos alinhados. Por esta razão, nos métodos de alinhamento estrutural é comum usar por padrão apenas os átomos do esqueleto incluídos na ligação peptídica. Para efeitos de simplicidade e eficiência, muitas vezes só se consideram as posições do carbono alfa, uma vez que a ligação peptídica tem uma conformação planar minimamente diferente. Só quando as estruturas que se vão alinhar são muito semelhantes, e até mesmo idênticas, é que é importante alinhar posições de átomos da cadeia lateral, e nesse caso a RMSD reflete não só a conformação do esqueleto da proteína, como também os estados das rotações angulares nas cadeias laterais. Outros critérios de comparação para reduzir o ruído e favorecer as coincidências são: ter em consideração a estrutura secundária das proteínas, os mapas de contactos nativos ou padrões de interação entre resíduos, medidas de empacotamento da cadeia lateral, e medidas de manutenção das ligações de hidrogénio.[3]

Super-posição estrutural

A comparação mais simples possível entre as estruturas proteicas não passa pela tentativa de alinhar as estruturas de entrada e requer um alinhamento pré-calculado como input para determinar quais os resíduos da sequência devem ser considerados para o cálculo da RMSD. A superposição estrutural é normalmente utilizada para comparar conformações múltiplas da mesma proteína (neste caso não é necessário o alinhamento, uma vez que a sequência é a mesma) e para avaliar a qualidade dos alinhamentos produzidos usando apenas informações das sequências entre duas ou mais sequências de estruturas conhecidas. Este método utiliza tradicionalmente um algoritmo simples de ajuste por mínimos quadrados, no qual as rotações e translações óptimas são encontradas minimizando a soma dos quadrados das distâncias entre todas as estruturas da superposição.[4] Mais recentemente, métodos bayesianos e de máxima verossimilhança aumentaram muito a precisão das rotações, traduções e matrizes de convariânça estimadas para a superposição.[5][6]

Desenvolveram-se algoritmos baseados em rotações multi-dimensionais e quaterniões modificados para identificar relações topológicas entre estruturas proteicas sem a necessidade de um alinhamento pré-determinado. Tais algoritmos identificaram com sucesso as dobras canónicas, tais como o feixe de quatro hélices alfa.[7] O método SuperPose é suficientemente extensível de ajustar para rotações de domínios relativos e outros problemas estruturais.[8]


Referências

  1. Zhang Y, Skolnick J. (2005). The protein structure prediction problem could be solved using the current PDB library. Proc Natl Acad Sci USA 102(4):1029-34.
  2. Zemla A. (2003). LGA - A Method for Finding 3-D Similarities in Protein Structures. Nucleic Acids Research, 31(13):3370-3374.
  3. Godzik A. (1996). The structural alignment of proteins: is there a unique answer? Protein Sci 5:1325-8.
  4. Martin ACR. http://www.bioinf.org.uk/software/profit/doc/ The software package ProFit (implements McLachlan, AD (1982). Rapid Comparison of Protein Structures. Acta Cryst A38, 871-873.)
  5. Theobald DL, Wuttke DS (2006). Empirical Bayes hierarchical models for regularizing maximum likelihood estimation in the matrix Gaussian Procrustes problem. Proceedings of the National Academy of Sciences 103(49):18521-18527. Open Access
  6. Theobald DL, Wuttke DS (2006). THESEUS: Maximum likelihood superpositioning and analysis of macromolecular structures. Bioinformatics 22(17):2171-2172. Open Access Arquivado em 3 de setembro de 2009, no Wayback Machine. http://www.theseus3d.org/
  7. Diederichs K. (1995). Structural superposition of proteins with unknown alignment and detection of topological similarity using a six-dimensional search algorithm. Proteins 23(2):187-95.
  8. Maiti R, Van Domselaar GH, Zhang H, Wishart DS. (2004). SuperPose: a simple server for sophisticated structural superposition. Nucleic Acids Res 32(Web Server issue):W590-4.

Bibliografia

  • Bourne PE, Shindyalov IN. (2003): Structure Comparison and Alignment. In: Bourne, P.E., Weissig, H. (Eds): Structural Bioinformatics. Hoboken NJ: Wiley-Liss. ISBN 0-471-20200-2
  • Yuan X, Bystroff C.(2004) "Non-sequential Structure-based Alignments Reveal Topology-independent Core Packing Arrangements in Proteins", Bioinformatics. Nov 5, 2004
  • Jung J, Lee B. (2000). Protein structure alignment using environmental profiles. Protein Eng 13:535-543.
  • Ye Y, Godzik A. (2005). Multiple flexible structure alignment using partial order graphs Bioinformatics 21(10): 2362-2369 Abstract
  • Sippl M, Wiederstein M (2008). A note on difficult structure alignment problems. Bioinformatics 24(3): 426-427 Full Text