Na aula de segunda feira, dia 11
de agosto de 2013, mais uma vez visitamos a página de Nucleotídeos do NCBI, mas
acrescentamos algumas informações novas. Depois observamos pela primeira vez
neste bloco de aulas o banco de genes (a página do gene já foi vista várias
vezes nas aulas de “Genes nos Genomas”, o bloco II da disciplina) e também
extraímos vários bons exemplos que consolidam nosso conhecimento de genética
molecular.
Parte I desta aula: Banco de nucleotídeos, ORF Finder e um pouco de
blastp
Primeiro, no banco Nucleotide,
buscamos o string HSP70 AND Pongo. A proteína HSP70 é uma proteína de choque
térmico, envolvida não apenas na resposta ao stress, mas em muitas outras
funções, inclusive o dobramento e desdobramento de outras proteínas. Ela é, por
isso, reconhecida como uma chaperonina, uma proteína que acompanha outras por
dentro da célula. Pongo abelii é um
primata hominídeo (o orangotango de Sumatra). Como vamos empregar a HSP70 para
criar dendrogramas mais tarde, inclusive para hominídeos, já vamos introduzindo
ao menos os nomes para familiarizar a turma com eles.
A busca retornou muitas
sequências, sendo as primeiras mostradas na figura abaixo (http://www.ncbi.nlm.nih.gov/nuccore/?term=HSP70+AND+Pongo):
Figura 1: busca inicial
Nenhuma das 3 entradas é, de
fato, uma sequência de HSP70, e sim de uma proteína supressora de tumor que se
liga à HSP70. Mas aproveitamos os resultados porque a primeira sequência é um
mRNA bastante longo e corresponde ao mRNA transcrito do gene para a proteína
ST13, enquanto a 2ª. e a 3ª. entradas são de mRNA preditos para pseudogenes
derivados do gene anterior. Assim, temos uma oportunidade de ver como um
pseudogene é identificado e como aparece no banco de dados de nucleotídeos.
A primeira sequência foi visitada
e a página de nucleotídeos mostra que o mRNA é bem mais longo que o gene porque
a CDs (ou região codificante) começa na base 193e termina na1302. Portanto, há
uma pequena região 5´ não traduzida e uma longa região 3´ não traduzida. A
página da sequência é análoga a que estudamos na primeira aula (o mRNA da
amilase de Lutzomyia).
Quando observamos a página do pseudogene
várias novas informações chamam a atenção. Primeiro, o mRNA é predito. O que
quer dizer isso? Que, na verdade, ninguém obteve este mRNA, seja na forma de um
cDNA numa biblioteca de expressão ou por sequenciamento direto, ou por outra
técnica qualquer. O que foi feito então? Uma predição de uma região semelhante
ao gene para ST13 no genoma de Pongo abelii, baseada em um programa de previsão
de genes e peseudogenes. Neste caso, o programa foi o GNOMON. Isso tudo pode
ser visto na página da sequência no banco Nucleotide, que está mostrada abaixo:
Figura 2: Página de nucleotídeo para o gene da proteína ST13
Um pouco mais abaixo na página do
gene (figura a seguir) está a informação do tamanho da sequência do gene e se
pode de imediato observar que ela é menor que o mRNA do gene ST13 e também
menor que o cds do gene ST13. Mas a
sequência começa com um ATG e não está dito claramente qual é a CDs, como é normal nos mRNAs funcionais.
Então, porque será que identificaram a sequência como de um pseudogene derivado
do gene original ST13? Uma “dica” já aparece na página: as evidências que
apoiam a hipótese (supporting evidence)
incluem a existência de um mRNA similar (justamente o do gene ST13) e 13
proteínas semelhantes (que, como se verá mais abaixo, são as proteínas
homólogas à ST13 de outros primatas).
Figura 3: Página de nucleotídeo para o pseudogene ST13
Entretanto, fica faltando um
olhar mais cuidadoso na sequência do mRNA predita. Pode-se, como fizemos na
primeira aula, olhar os possíveis quadros abertos de leitura (ORF). Para isso
podemos usar o programa ORF Finder, do próprio NCBI (http://www.ncbi.nlm.nih.gov/gorf/gorf.html).
Colando na caixa a sequência de 1086 pares de base e procurando as ORFs,
obteremos a figura abaixo:
Figura 4: Resultado do ORF Finder para a sequência do pseudogene
ST13
Como comentando em aula, só nos
interessam os 3 primeiros quadros de leitura(ou frames), uma vez que a sequência é de mRNA e só pode ter o sentido
5´-3- da esquerda para a direita, na convenção que se usa em genética
molecular. E mais: neste caso, só interessa o frame +1, uma vez que o códon ATG
aparece na primeira posição da sequência. O que vemos aqui? AO invés de uma
longa ORF, temos duas! O que significa isso? Que o quadro aberto de leitura
(ORF ou CDs) do gene foi interrompido por um sinal de terminação da tradução na
posição 393: se olharmos na sequência, encontraremos um TAG, que determina o
códon de terminação da tradução UAG. Este códon surgiu provavelmente por
mutação pontual da base T no genoma, quebrando a cds do gene e tornando a
proteína (se produzido, pois como comentamos, nada sabemos de um mRNA observado
experimentalmente para esta sequência predita).
Se, por curiosidade, avançarmos
um pouco mais usando o ORF Finder, podemos aceitar a primeira cds como predita
(basta clicar em cima e ela será mostrada cor-de-rosa). Esta ação habilita a
possibilidade de fazermos um blastp (isto é, compararmos nossa
sequência deduzida de aminoácidos com outras semelhantes), neste caso usando o
banco de dados nr, o banco maior de sequências do NCBI. Mais adiante estudaremos com mais atenção a
família de programas Blast, por enquanto basta ver que sequências são
semelhantes à nossa primeira CDS, que codifica 130 aminoácidos. A opção de
aceitar a primeira CDS está mostrada na figura logo abaixo e as sequências
retornadas pelo blastp estão mostradas na figura que a segue.
Figura 5: Escolhendo uma opção de cds. A figura mostra como o ORF
Finder habilita a opção de blastar a
sequência de aminoácidos deduzida da cds escolhida).
Figura 6: Sequências semelhantes à blastada pelo ORF Finder, que
tem 130 aa e foi deduzida a partir da tradução da primeira cds no frame +1
Então, este trecho truncado do
gene original ST13 ainda conserva os códons que codificam a mesma proteína, mas
só os primeiros 130 aa. Como não há sítios ligadores de ribossoma internos nos
mRNA dos eucariotos (salvo raras exceções), só o primeiro polipeptídeo de 130aa
seria produzido (se o promotor for funcional) e nunca a proteína completa.
Assim, fica caracterizado o caráter de pseudogene desta sequência genômica.
Não avançaremos mais neste
exemplo, mas já vimos, na prática, um conjunto de conceitos importantes dados
em sala de aula na primeira parte da disciplina: ORFs, códons de iniciação e
parada, quadros de leitura, pseudogenes, mecanismo de tradução e RBS, e muitas
outras coisas. É reler e reler, refazendo o caminho, para fixar os conceitos.
Parte II desta aula: Banco de genes, página do gene
Procuremos agora no banco de genes
a HSP70 outra vez, desta vez a de Homo
sapiens, e adicionemos ainda a palavra chave intron (HSP70 + Homo sapiens + intron).
A figura abaixo mostra que a busca retorna vários genes, sendo o primeiro de
uma HSP70 de Homo sapiens, denominada A4 (as várias designações do gene e da
proteína já aparecem na chamada da sequência mostrada a seguir e são fruto de
bastante confusão...). Algumas novas informações já aparecem: em que cromossoma
o gene está (no crom. 5) , em que segmento do cromossoma (5q31.1).
Curiosamente, pode-se até comprar o mRNA deste gene! (em baixo da figura, order mRNA).
Figura 7: Página do gene para HSP70 A4.
Se entrarmos na página do gene (http://www.ncbi.nlm.nih.gov/gene/3308)
uma riqueza de informações estará disponível. Nesta aula concentramos nossa
atenção em poucos pontos. Primeiro, como mostrado na figura abaixo, o gene
codifica proteína. Sim! Recordemos que há genes para os RNAs transportadores,
ribossomais, etc, incluindo genes para miRNA. Estes genes não codificam
proteínas, como geralmente imaginamos. Logo a seguir há um pequeno esquema que
mostra o contexto genômico onde está este gene e se pode ver que há genes à
esquerda e à direita, relativamente “próximos”, nas duas fitas, o que confirma
o que vimos na parte II da disciplina (genes nos genomas). Mas esta proximidade é ilusória... quando
olharmos com cuidado mais adiante veremos que pode haver um milhão de pares de
bases entre os genes!
Figura 8: Contexto genômico da página do gene de HSP70 A4
Observemos a informação seguinte
na página, que mostra o gene, com seu tamanho, éxons e íntrons. Agora salta à
vista o enorme tamanho do gene, embora a proteína tenha apenas 700 aminoácidos.
Uma estimativa pela figura nos indica que o gene tem mais de 50.000 pb!
Figura 9: Detalhamento da região genômica onde está p gene, que
tem longos introns e cerca de 53.000 pb.
Na verdade, isso é o que
esperamos dos genes eucariotos, sobretudo nos vertebrados: grandes introns.
Neste caso, os introns toma quase 20 X mais espaço que os exons. Observemos
também que o número de introns é sempre menor que o de exons! É o tamanho dos
introns que aumenta o tamanho dos genes, não o seu número.
Com os cursores da figura
mostrada nesta parte da página (Genomic regions, transcripts and products),
podemos reduzir o zoom e ver um trecho maior do cromossomo 5. A figura abaixo
mostra como o gene da HSP70-4A e seus vizinhos se organizam, mas agora temos
uma escala para podermos avaliar os espaços entre os genes...
Figura 10: Zoom out da região do cromossomo 5 onde está o gene
HSP7- A4. Os genes são grandes e as regiões intergênicas (espaço entre os
genes) também.
Sala à vista a enorme distância
entre alguns genes, mas mesmo as regiões intergênicas que parecem pequenas têm
em geral milhares de pares de base (observe a escala com cuidado). Esta imagem
corrobora o que enfatizamos ma parte II da disciplina.
Também nesta página da página do
gene há um atalho que permite mudar da página do gene para a de nucleotídeo.
Basta clicar em GenBank e chegaremos outra vez a uma página de nucleotídeos,
desta vez para uma região genômica onde está o gene da HSP70-4A. A figura
abaixo mostra a parte inicial da página, no formato que já estamos ficando
familiares...
Figura 11: Página do nucleotídeo com a região genômica onde está o
gene HSP70 A4. O que está mostrado e um longo trecho de DNA obtido pela
montagem de sequências sobrepostas parcialmente e que cobrem toda a região de
interesse.
Observem que a definição aqui não
é um gene, mas uma montagem genômica (assembly)
para o cromossoma 5. A sequência mostrada é, seguramente, a união de dezenas de
pequenas sequências obtidas de clones genômicas desta região do DNA, e foi
feita pelo Consórcio Internacional do Genoma Humano. Assim, também aqui
consolidamos o conceito de que as longas sequências podem ser obtidas, mas por
enquanto a partir da união de pequenas sequências geradas pelos sequenciadores
modernos. Elas precisam ter uma sobreposição entre elas para permitir a
montagem, como falamos em sala de aula. Claro está que nada disso está mostrado
nesta figura acima, é apenas uma chamada para como as longas sequências são
obtidas.
E onde está o gene nesta
sequência? Mais adiante estas informações são fornecidas e estão mostradas na
figura abaixo:
Figura 12: Segunda parte da página mostrada na figura 11
O gene da HSP70-4A vai da base
7959 à base 61006, tem portanto 53047 pares de bases! E onde estão os introns e
exons? Na parte dedicada ao mRNA a página informa: junte (join)7959..8346 com 20969..21026 com etc... e terá o mRNA. Cada
pedaço destes é um exon ou uma parte dele (no caso do primeiro, que começa
evidentemente da base 1).
Com este exemplo consolidamos
outros conceitos passados nas aulas dos blocos I e II da disciplina. Esperamos
que a leitura desta página auxilie na compreensão dos exemplos, mas é essencial
repeti-los e escolher outros genes para investigar online.
Nenhum comentário:
Postar um comentário