"Modelagem do sinal coevolutivo para a predição de parceiros proteicos: dos algoritmos genético e de metrópolis à inferência estatística"
interação proteína-proteína. coevolução molecular. modelos de markov. otimização.
As interações físicas em proteínas são mantidas ao longo da evolução por meio de mutações compensatórias. Conforme extensivamente investigado nos últimos anos, esse sinal coevolutivo é de grande relevância para a resolução ab initio de parceiros proteicos específicos com base em alinhamentos múltiplos de sequências (MSAs). Neste trabalho, examinamos as condições estatísticas dos sinais de coevolução que permitem previsões algorítmicas de parceiros proteicos com base em sequências de aminoácidos. Apresentamos aqui um modelo estocástico do algoritmo genético que prevê o número de parceiros proteicos corretos com base em informações de coevolução. O modelo define as probabilidades de estado usando uma mistura de distribuições normais e de Poisson, com parâmetros de entrada que incluem o número total de sequências proteicas do sistema (M), a diferença de informação coevolutiva (α) e a variância da informação coevolutiva em sistemas com parceiros completamente embaralhados (σ 2 0 ). A análise do modelo aponta que estratégias algorítmicas baseadas na maximização da informação coevolutiva não são eficientes para encontrar os parceiros nativos em sistemas de proteínas com muitas sequências (M ≥ 100), mas as taxas de verdadeiros positivos (T Ps) podem ser consideravelmente maiores ao desconsiderar erros cometidos entre sequências semelhantes. Essa abordagem nos permite realizar uma classificação prévia de famílias de proteínas em que os parceiros podem ser previstos de forma confiável ao ignorar erros triviais de similaridade entre sequências.