Robots.txt – controlando o que os mecanismos de busca NÃO devem indexar

O arquivo robots.txt já é um padrão utilizado no mundo inteiro para declarar para os mecanismos de busca o que eles não devem indexar em um site. Esta é uma técnica “antiga”, mas ainda muito útil e que mesmo assim, muitos ainda desconhecem. Este texto é uma compilação das anotações que tenho feito sobre a utilização de robots.txt e que podem ser úteis para qualquer pessoa que queira esconder qualquer coisa que esteja disponível na web mas que por uma razão ou outra deve ser privada e não indexada pelos mecanismos de buscas.

A primeira coisa que você deve saber é que robots.txt não é usado para indicar o que os mecanismos de buscas DEVEM indexar e sim o que NÃO DEVEM! Você vai precisar usar robots.txt por exemplo em uma intranet que funcione na web e que pode conter informações que dizem respeito exclusivamente a uma empresa. Áreas restritas, documentos pessoais que são armazenados no seu servidor em uma determinada pasta e que só estão lá por backup ou para compartilhar informações entre um pequeno grupo etc, são contextos possíveis em que os mecanismos de buscas não devem indexar o conteúdo.

Se você quer que o Google ou qualquer outro mecanismo de busca indexe todo o seu conteúdo, você não precisa usar robots.txt. Mesmo que isso pareça óbvio, muitas pessoas se enganam sobre a utilização deste recurso.

Você precisa tomar alguns cuidados ao criar um arquivo de robots.txt como:

  • robots.txt é apenas um arquivo de texto que pode ser criado no notepad ou qualquer outro editor de texto ASCII e que salve com a extensão .txt. Lembre-se que não pode ser um html, tem que ser um txt.
  • Este arquivo deve ficar na raiz do seu site.
  • O nome do arquivo deve ser todo em letras minúsculas (lowercase) e nunca com letras maiúsculas. Ou seja, para qualquer site que queira implementar ele deverá se chamar robots.txt

Basicamente existem duas regras a serem declaradas neste arquivo. O User-Agent e o Disallow.

A regra “User-Agent” é usada para declarar um user agent específico. Um user-agent neste contexto é um mecanismo de busca como por exemplo o Googlebot:


User-Agent: Googlebot

Se quiser que todos os user agents (e não somente o robô do Google) observe suas regras de indexação, use asterisco como valor de User-Agent. Dessa forma você “seleciona” todos os mecanismos de busca a observarem as regras que você vai declarar logo abaixo com Disallow:


User-Agent: *

A regra Disallow é usada para indicar quais os locais onde os mecanismos de busca não devem “entrar”.

Para bloquear um site inteiro use uma barra como no exemplo abaixo:


Disallow: /

Para bloquear um diretório específico, use o nome do diretório entre barras como no exemplo:


Disallow: /private_directory/

Para bloquear uma página específica, use uma barra e o nome do arquivo.


Disallow: /private_file.html

Você pode usar quantas regras Disallow você quiser. Basta apenas iniciar outra linha. Lembre-se que urls são case sensitive. Se você tem um arquivo de html chamado Teste.html e no valor de Disallow coloca “teste.html”, o mecanismo de busca não vai considerar ambos como sendo o mesmo arquivo.

Em alguns casos, você pode querer declarar para os mecanismos de busca que não sigam determinada página na própria página utilizando a meta tag nofollow da seguinte maneira:


<meta name="robots" content="nofollow">

Com robots.txt você tem controle do que não deve ser indexado em uma escala maior do que a meta tag nofollow. De qualquer maneira ambas as soluções tem exatamente o mesmo objetivo: impedir com que mecanismos de busca indexem o conteúdo referenciado.

Todas as informações neste texto foram retiradas das referências abaixo!

  • http://www.plugmasters.com.br José de Menez

    Olá,

    Gostaria de divulgar seus artigos no Plugmasters, é possível? Nele podemos colocar o artigo e links para as fontes, ou seja, o revolucao.

    Forte abraço!

  • http://www.webpaulo.com Paulo Rodrigo Teixei

    Tem uma ferramenta para facilitar a criação dos robots.txt:

    http://www.marketingdebusca.com.br/robots-txt/

    Grande abraço

  • http://www.techzine.com.br Rael B. Riolino

    Eu utilizei rel=noflow na minha pagina de contato on-line do meu blog, mas mesmo assim eu recebo constantemente SPAMs via formulário on-line :(

    De alguma forma eles enviam um e-mail HTML para mim, do mesmo jeito que eu recebo via meu formulario on-line…

    Existe alguma maneira de bloquear definitivamente uma pagina para evitar o acesso de robots SPAM?

    valeu

  • Pingback: Evitando conteúdo duplicado em seu site ou blog · No Topo das Buscas()

  • Pingback: Melhorando a indexação de seu site ou blog com URLs amigáveis (friendly urls) · No Topo das Buscas()

  • Pingback: links for 2007-08-21()

  • sarvayoga.net

    Eu gostaria de aumentar o pagerank do site , você tem alguma dica boa.

  • Pingback: Yahoo!, Google e Microsoft em esforço conjunto no protocolo sitemaps » Revolução Etc()

  • Pingback: Bit por minuto » ROBOTS….. ja ouviu falar?()

  • Pingback: Review do livro SEO - Otimização de Sites » Revolução Etc()

  • Edson

    olá amigo, eu tenho uma dúvida, e gostaria que vc me desse uma dica!

    Eu uso o plugin da pagenavi no meu site da wordpress!

    Com isso todos os link da paginavi estava sendo indexado pelo google! ex do link /page/

    Com isso, gerou um monte de paginas duplicadas, fui descobrir o robots.txt um tempo depois, onde bloquiei para não indexar esses links!

    Mas, porém, todavia, ainda tem varias paginas que já tinha cido indexado antes que eu tivesse bloqueado, e isso está causando uma série de erros, com meta descrição duplicada, conteúdo duplicado e outros!

    Gostaria de saber como faço para retirar estes links das pesquisas do google!

    Já tentei remover url pelo webmaster da google, mas lá só apaga links que estão fora do ar!

    Por favor preciso de sua ajuda. obrigado!

    Estarei a espera!