segunda-feira, 1 de abril de 2013

Roteiro para ClustalW e Treeview


Roteiro para uso do ClustalW e visualização no Treeview
Exemplo com sequências de proteínas de primatas

Nosso objetivo é selecionar sequências de proteínas de primatas que são similares à HSP70 humana (presumivelmente têm a mesma função) e, empregando estas sequências, procurar avaliar se a árvore de distâncias genéticas entre as sequências agrupa de forma relevante (isto é, da forma como aceitamos pela taxonomia clássica) os primatas.

Para tal vamos começar com a sequência de HSP70 humana selecionada a partir de uma busca no banco de proteínas do NCBI com o string HSP70 Homo sapinens. O resultado traz muitas sequências, mas escolheremos a que está mostrada abaixo:

heat shock protein 70 [Homo sapiens]
701 aa protein
Accession: AAA02807.1 GI: 292160


A partir da página da proteína clickamos à direita na opção RUN BLAST. Assim que a página do Blastp abrir, escolheremos para Organism a opção primates (inicie a digitação e aguarde para que a definição do táxon apareça) e, quando o serviço estiver concluído, escolheremos sequências de HSP70 de primatas que estejam aparentemente completas (com query coverage maior ou igual a 99%). Para isso basta clicar nos quadradinhos à esquerda de cada sequência escolhida, uma para cada primata, sem repetições. Uma vez feito isso podemos baixar todas as sequências no formato FASTA num arquivo único (clique em download, na linha acima da tabela e escolhafasta).  O arquivo vem no formato .txt e vai se chamar seqdump. Você vai encontrá-lo baixado em sues Downloads.

Você deve separar as sequências do arquivo com um espaço em branco entre elas. Para isso procure o sinal de > e manualmente separe as sequências. Também retire toda a informação depois do sinal de >, exceto no nome da espécie, que deve não ter espaços (sugerimos colocar um underline entre os dois nomes da espécie)

No final o aspecto ficará mais ou menos assim:

>Homo_sapiens
MSVVGIDLGFQSCYVAVARAGGIETIANEYSDRCTPACISFGPKNRSIGAAAKSQVISNAKNTVQGFKRFHGRAFSDPFV
EAEKSNLAYDIVQWPTGLTGIKVTYMEEERNFTTEQVTAMLLSKLKETAESVLKKPVVDCVVSVPCFYTDAERRSVMDAT
QIAGLNCLRLMNETTAVALAYGIYKQDLPRLEEKPRNVVFVDMGHSAYQVSVCAFNRGKLKVLATAFDTTLGGRKFDEVL
VNHFCEEFGKKYKLDIKSKIRALLRLSQECEKLKKLMSANASDLPLSIECFMNDVDVSGTMNRGKFLEMCNDLLARVEPP
LRSVLEQTKLKKEDIYAVEIVGGATRIPAVKEKISKFFGKELSTTLNADEAVTRGCALQCAILSPAFKVREFSITDVVPY
PISLRWNSPAEEGSSDCEVFSKNHAAPFSKVLTFYRKEPFTLEAYYSSPQDLPYPDPAIAQFSVQKVTPQSDGSSSKVKV
KVRVNVHGIFSVSSASLVEVHKSEENEEPMETDQNAKEEEKMQVDQEEPHVEEQQQQTPAENKAESEEMETSQAGSKDKK
MDQPPQCQEGKSEDQYCGPANRESAIWQIDREMLNLYIENEGKMIMQDKLEKERNDAKNAVEEYVYEMRDKLSGEYEKFV
SEDDRNSFTLKLEDTENWLYEDGEDQPKQVYVDKLAELKNLGQPIKIRFQESEERPNYLKN

>Pan_paniscus
MSVVGIDLGFQSCYVAVARAGGIETIANEYSDRCTPACISFGPKNRSIGAAAKSQVISNAKNTVQGFKRFHGRAFSDPFV
EAEKSNLAYDIVQLPTGLTGIKVTYMEEERNFTTEQVTAMLLSKLKETAESVLKKPVVDCVVSVPCFYTDAERRSVMDAT
QIAGLNCLRLMNETTAVALAYGIYKQDLPALEEKPRNVVFVDMGHSAYQVSVCAFNRGKLKVLATAFDTTLGGRKFDEVL
VNHFCEEFGKKYKLDIKSKIRALLRLSQECEKLKKLMSANASDLPLSIECFMNDVDVSGTMNRGKFLEMCNDLLARVEPP
LRSVLEQTKLKKEDIYAVEIVGGATRIPAVKEKISKFFGKELSTTLNADEAVTRGCALQCAILSPAFKVREFSITDVVPY
PISLRWNSPAEEGSSDCEVFSKNHAAPFSKVLTFYRKEPFTLEAYYSSPQDLPYPDPAIAQFSVQKVTPQSDGSSSKVKV
KVRVNVHGIFSVSSASLVEVHKSEENEEPMETDQNAKEEEKMQVDQEEPHVEEQQQQTPAENKAESEEMETSQAGSKDKK
MDQPPQAKKAKVKTSTVDLPIENQLLWQIDREMLNLYIENEGKMIMQDKLEKERNDAKNAVEEYVYEMRDKLSGEYEKFV
SEDDRNSFTLKLEDTENWLYEDGEDQPKQVYVDKLAELKNLGQPIKIRFQESEERPKLFEELGKQIQQYMKIISSFKNKE
DQYDHLDAADMTKVEKSTNEAMEWMNNKLNLQNKQSLTMDPVVKSKEIEAKIKELTSICSPVISKPKPKVEPPKEEQKNA
EQNGPVDGQGDNPGPQAAEQGTDTAVPSDSDKKLPEMDID
 Etc...

Teremos que baixar também uma sequência de HSP70 de um organismo não relacionado aos primatas e acrescentar no nosso arquivo de sequências. Escolheremos a HSP70 do sapo africano Xenopus laevis.

Hsp70 protein [Xenopus laevis]
647 aa protein
Accession: AAH78115.1 GI: 50415517


Com todas as sequências editadas e copiadas para o clipboard, podemos ir ao programa ClustalW2( http://www.ebi.ac.uk/Tools/msa/clustalw2/) e colar na caixa de diálogo. Basta agora pressionar o Submit.

O resultado apresenta quatro abas, sendo a da tela aquela que mostra o alinhamento. Para ver a árvore clique em Guide tree. Role a tela e abaixo das primeiras informações vai aparecer Phylogram. Aí, se o Java estiver habilitado no seu computador, você poderá ver vários tipos de árvores. Nenhuma delas é realmente bonita...

Para ver árvores mais elegantes, é precisosalvar o arquvi que gera as árvores. Clique na aba Guide tree e depois em Download guide tree (com o botão direito) e salve o arquivo (a extensão será .dnd)onde possa recuperar depois. Este arquivo será lido pelo Treeview.

Finalmente, para ver a árvore (dendrograma indicando as distâncias genéticas entre as sequências),é preciso instalar o programa Treeview. Ele pode ser baixado para Eindows Vista ou posterior do link http://taxonomy.zoology.gla.ac.uk/rod/treeview/1.6.6/setup.exe

Instale o programa no seu computador. Não sabemos se funcionará num tablet.

Ao abrir o programa, é preciso escolhe File --- Open e procurar onde o arquivo . dnd gerado pelo ClustalW foi gravado. Quando abrir, várias opções de árvores estarão disponíveis. Experimente todas elas.

Procure identificar cada espécie (use o Google) e veja se a árvore faz sentido. Depois inspecione as sequências escolhidas e veja se alguma parece estranha: muito curta ou muito longa em relação às demais. Retire as sequências discrepantes e repita o ensaio.

Nenhum comentário:

Postar um comentário