terça-feira, 13 de agosto de 2013

Novo caminho pelas páginas do NCBI: genes, pseudogenes e contexto genômico

Na aula de segunda feira, dia 11 de agosto de 2013, mais uma vez visitamos a página de Nucleotídeos do NCBI, mas acrescentamos algumas informações novas. Depois observamos pela primeira vez neste bloco de aulas o banco de genes (a página do gene já foi vista várias vezes nas aulas de “Genes nos Genomas”, o bloco II da disciplina) e também extraímos vários bons exemplos que consolidam nosso conhecimento de genética molecular.

Parte I desta aula: Banco de nucleotídeos, ORF Finder e um pouco de blastp

Primeiro, no banco Nucleotide, buscamos o string HSP70 AND Pongo.  A proteína HSP70 é uma proteína de choque térmico, envolvida não apenas na resposta ao stress, mas em muitas outras funções, inclusive o dobramento e desdobramento de outras proteínas. Ela é, por isso, reconhecida como uma chaperonina, uma proteína que acompanha outras por dentro da célula. Pongo abelii é um primata hominídeo (o orangotango de Sumatra). Como vamos empregar a HSP70 para criar dendrogramas mais tarde, inclusive para hominídeos, já vamos introduzindo ao menos os nomes para familiarizar a turma com eles.
A busca retornou muitas sequências, sendo as primeiras mostradas na figura abaixo (http://www.ncbi.nlm.nih.gov/nuccore/?term=HSP70+AND+Pongo):


Figura 1: busca inicial

Nenhuma das 3 entradas é, de fato, uma sequência de HSP70, e sim de uma proteína supressora de tumor que se liga à HSP70. Mas aproveitamos os resultados porque a primeira sequência é um mRNA bastante longo e corresponde ao mRNA transcrito do gene para a proteína ST13, enquanto a 2ª. e a 3ª. entradas são de mRNA preditos para pseudogenes derivados do gene anterior. Assim, temos uma oportunidade de ver como um pseudogene é identificado e como aparece no banco de dados de nucleotídeos.

A primeira sequência foi visitada e a página de nucleotídeos mostra que o mRNA é bem mais longo que o gene porque a CDs (ou região codificante) começa na base 193e termina na1302. Portanto, há uma pequena região 5´ não traduzida e uma longa região 3´ não traduzida. A página da sequência é análoga a que estudamos na primeira aula (o mRNA da amilase de Lutzomyia).

Quando observamos a página do pseudogene várias novas informações chamam a atenção. Primeiro, o mRNA é predito. O que quer dizer isso? Que, na verdade, ninguém obteve este mRNA, seja na forma de um cDNA numa biblioteca de expressão ou por sequenciamento direto, ou por outra técnica qualquer. O que foi feito então? Uma predição de uma região semelhante ao gene para ST13 no genoma de Pongo abelii, baseada em um programa de previsão de genes e peseudogenes. Neste caso, o programa foi o GNOMON. Isso tudo pode ser visto na página da sequência no banco Nucleotide, que está mostrada abaixo:

Figura 2: Página de nucleotídeo para o gene da proteína ST13

Um pouco mais abaixo na página do gene (figura a seguir) está a informação do tamanho da sequência do gene e se pode de imediato observar que ela é menor que o mRNA do gene ST13 e também menor que o cds do gene ST13. Mas a sequência começa com um ATG e não está dito claramente qual é a CDs, como é normal nos mRNAs funcionais. Então, porque será que identificaram a sequência como de um pseudogene derivado do gene original ST13? Uma “dica” já aparece na página: as evidências que apoiam a hipótese (supporting evidence) incluem a existência de um mRNA similar (justamente o do gene ST13) e 13 proteínas semelhantes (que, como se verá mais abaixo, são as proteínas homólogas à ST13 de outros primatas). 

Figura 3: Página de nucleotídeo para o pseudogene ST13

Entretanto, fica faltando um olhar mais cuidadoso na sequência do mRNA predita. Pode-se, como fizemos na primeira aula, olhar os possíveis quadros abertos de leitura (ORF). Para isso podemos usar o programa ORF Finder, do próprio NCBI (http://www.ncbi.nlm.nih.gov/gorf/gorf.html). Colando na caixa a sequência de 1086 pares de base e procurando as ORFs, obteremos a figura abaixo:

Figura 4: Resultado do ORF Finder para a sequência do pseudogene ST13

Como comentando em aula, só nos interessam os 3 primeiros quadros de leitura(ou frames), uma vez que a sequência é de mRNA e só pode ter o sentido 5´-3- da esquerda para a direita, na convenção que se usa em genética molecular. E mais: neste caso, só interessa o frame +1, uma vez que o códon ATG aparece na primeira posição da sequência. O que vemos aqui? AO invés de uma longa ORF, temos duas! O que significa isso? Que o quadro aberto de leitura (ORF ou CDs) do gene foi interrompido por um sinal de terminação da tradução na posição 393: se olharmos na sequência, encontraremos um TAG, que determina o códon de terminação da tradução UAG. Este códon surgiu provavelmente por mutação pontual da base T no genoma, quebrando a cds do gene e tornando a proteína (se produzido, pois como comentamos, nada sabemos de um mRNA observado experimentalmente para esta sequência predita).

Se, por curiosidade, avançarmos um pouco mais usando o ORF Finder, podemos aceitar a primeira cds como predita (basta clicar em cima e ela será mostrada cor-de-rosa). Esta ação habilita a possibilidade de fazermos um blastp (isto é, compararmos nossa sequência deduzida de aminoácidos com outras semelhantes), neste caso usando o banco de dados nr, o banco maior de sequências do NCBI.  Mais adiante estudaremos com mais atenção a família de programas Blast, por enquanto basta ver que sequências são semelhantes à nossa primeira CDS, que codifica 130 aminoácidos. A opção de aceitar a primeira CDS está mostrada na figura logo abaixo e as sequências retornadas pelo blastp estão mostradas na figura que a segue.

Figura 5: Escolhendo uma opção de cds. A figura mostra como o ORF Finder habilita a opção de  blastar a sequência de aminoácidos deduzida da cds escolhida).

Figura 6: Sequências semelhantes à blastada pelo ORF Finder, que tem 130 aa e foi deduzida a partir da tradução da primeira cds no frame +1

Então, este trecho truncado do gene original ST13 ainda conserva os códons que codificam a mesma proteína, mas só os primeiros 130 aa. Como não há sítios ligadores de ribossoma internos nos mRNA dos eucariotos (salvo raras exceções), só o primeiro polipeptídeo de 130aa seria produzido (se o promotor for funcional) e nunca a proteína completa. Assim, fica caracterizado o caráter de pseudogene desta sequência genômica.
Não avançaremos mais neste exemplo, mas já vimos, na prática, um conjunto de conceitos importantes dados em sala de aula na primeira parte da disciplina: ORFs, códons de iniciação e parada, quadros de leitura, pseudogenes, mecanismo de tradução e RBS, e muitas outras coisas. É reler e reler, refazendo o caminho, para fixar os conceitos.

Parte II desta aula: Banco de genes, página do gene
Procuremos agora no banco de genes a HSP70 outra vez, desta vez a de Homo sapiens, e adicionemos ainda a palavra chave intron (HSP70 + Homo sapiens + intron). A figura abaixo mostra que a busca retorna vários genes, sendo o primeiro de uma HSP70 de Homo sapiens, denominada A4 (as várias designações do gene e da proteína já aparecem na chamada da sequência mostrada a seguir e são fruto de bastante confusão...). Algumas novas informações já aparecem: em que cromossoma o gene está (no crom. 5) , em que segmento do cromossoma (5q31.1). Curiosamente, pode-se até comprar o mRNA deste gene! (em baixo da figura, order mRNA).


Figura 7: Página do gene para HSP70 A4.

Se entrarmos na página do gene (http://www.ncbi.nlm.nih.gov/gene/3308) uma riqueza de informações estará disponível. Nesta aula concentramos nossa atenção em poucos pontos. Primeiro, como mostrado na figura abaixo, o gene codifica proteína. Sim! Recordemos que há genes para os RNAs transportadores, ribossomais, etc, incluindo genes para miRNA. Estes genes não codificam proteínas, como geralmente imaginamos. Logo a seguir há um pequeno esquema que mostra o contexto genômico onde está este gene e se pode ver que há genes à esquerda e à direita, relativamente “próximos”, nas duas fitas, o que confirma o que vimos na parte II da disciplina (genes nos genomas).  Mas esta proximidade é ilusória... quando olharmos com cuidado mais adiante veremos que pode haver um milhão de pares de bases entre os genes!


Figura 8: Contexto genômico da página do gene de HSP70 A4

Observemos a informação seguinte na página, que mostra o gene, com seu tamanho, éxons e íntrons. Agora salta à vista o enorme tamanho do gene, embora a proteína tenha apenas 700 aminoácidos. Uma estimativa pela figura nos indica que o gene tem mais de 50.000 pb!

Figura 9: Detalhamento da região genômica onde está p gene, que tem longos introns e cerca de 53.000 pb.

Na verdade, isso é o que esperamos dos genes eucariotos, sobretudo nos vertebrados: grandes introns. Neste caso, os introns toma quase 20 X mais espaço que os exons. Observemos também que o número de introns é sempre menor que o de exons! É o tamanho dos introns que aumenta o tamanho dos genes, não o seu número.
Com os cursores da figura mostrada nesta parte da página (Genomic regions, transcripts and products), podemos reduzir o zoom e ver um trecho maior do cromossomo 5. A figura abaixo mostra como o gene da HSP70-4A e seus vizinhos se organizam, mas agora temos uma escala para podermos avaliar os espaços entre os genes...


Figura 10: Zoom out da região do cromossomo 5 onde está o gene HSP7- A4. Os genes são grandes e as regiões intergênicas (espaço entre os genes) também.

Sala à vista a enorme distância entre alguns genes, mas mesmo as regiões intergênicas que parecem pequenas têm em geral milhares de pares de base (observe a escala com cuidado). Esta imagem corrobora o que enfatizamos ma parte II da disciplina.

Também nesta página da página do gene há um atalho que permite mudar da página do gene para a de nucleotídeo. Basta clicar em GenBank e chegaremos outra vez a uma página de nucleotídeos, desta vez para uma região genômica onde está o gene da HSP70-4A. A figura abaixo mostra a parte inicial da página, no formato que já estamos ficando familiares...


Figura 11: Página do nucleotídeo com a região genômica onde está o gene HSP70 A4. O que está mostrado e um longo trecho de DNA obtido pela montagem de sequências sobrepostas parcialmente e que cobrem toda a região de interesse.

Observem que a definição aqui não é um gene, mas uma montagem genômica (assembly) para o cromossoma 5. A sequência mostrada é, seguramente, a união de dezenas de pequenas sequências obtidas de clones genômicas desta região do DNA, e foi feita pelo Consórcio Internacional do Genoma Humano. Assim, também aqui consolidamos o conceito de que as longas sequências podem ser obtidas, mas por enquanto a partir da união de pequenas sequências geradas pelos sequenciadores modernos. Elas precisam ter uma sobreposição entre elas para permitir a montagem, como falamos em sala de aula. Claro está que nada disso está mostrado nesta figura acima, é apenas uma chamada para como as longas sequências são obtidas.

E onde está o gene nesta sequência? Mais adiante estas informações são fornecidas e estão mostradas na figura abaixo:


Figura 12: Segunda parte da página mostrada na figura 11

O gene da HSP70-4A vai da base 7959 à base 61006, tem portanto 53047 pares de bases! E onde estão os introns e exons? Na parte dedicada ao mRNA a página informa: junte (join)7959..8346 com 20969..21026 com etc... e terá o mRNA. Cada pedaço destes é um exon ou uma parte dele (no caso do primeiro, que começa evidentemente da base 1).


Com este exemplo consolidamos outros conceitos passados nas aulas dos blocos I e II da disciplina. Esperamos que a leitura desta página auxilie na compreensão dos exemplos, mas é essencial repeti-los e escolher outros genes para investigar online.

Nenhum comentário:

Postar um comentário