Os mecanismos de pesquisa são equipados com robôs, também conhecidos como spiders ou bots, que rastreiam e indexam páginas da web. Se o seu site ou página está em desenvolvimento ou contém conteúdo confidencial, você pode bloquear o rastreamento e indexação do seu site por bots. Aprenda como bloquear sites, páginas e links inteiros com arquivos robots.txt e bloquear páginas e links específicos com tags html. Continue lendo para descobrir como bloquear o acesso de bots específicos ao seu conteúdo.
Passos
Método 1 de 2: Bloqueio de mecanismos de pesquisa com arquivos robots.txt
Etapa 1. Compreenda os arquivos robots.txt
Um arquivo robots.txt é um arquivo de texto simples ou ASCII que informa aos spiders dos mecanismos de pesquisa o que eles têm permissão para acessar em seu site. Os arquivos e pastas listados em um arquivo robots.txt não podem ser rastreados e indexados por spiders de um mecanismo de pesquisa. Pode ser necessário um arquivo robots.txt se:
- Você deseja bloquear conteúdo específico de spiders de mecanismos de pesquisa.
- Você está desenvolvendo um site ativo e não está preparado para que spiders de mecanismos de pesquisa rastreiem e indexem o site
- Você deseja limitar o acesso a bots confiáveis.
Etapa 2. Crie e salve o arquivo robots.txt
Para criar o arquivo, inicie um editor de texto simples ou um editor de código. Salve o arquivo como: robots.txt. O nome do arquivo deve estar todo em letras minúsculas.
- Não se esqueça do “s”.
- Ao salvar o arquivo, escolha a extensão “'.txt”'. Se você estiver usando o Word, selecione a opção “Texto Simples”.
Etapa 3. Grave um arquivo robots.txt totalmente desautorizado
É possível impedir que todos os spiders de mecanismos de pesquisa com boa reputação rastreiem e indexem seu site com um arquivo robots.txt “totalmente desautorizado”. Escreva as seguintes linhas em seu arquivo de texto:
User-agent: * Disallow: /
Etapa 4. Escreva um arquivo robots.txt com permissão condicional
Em vez de bloquear todos os bots, considere bloquear spiders específicos de certas áreas do seu site. Os comandos de permissão condicional comuns incluem:
- Bloqueie um bot específico: substitua os asteriscos ao lado de Agente de usuário com googlebot, googlebot-news, googlebot-image, bingbot, ou teoma.
-
Bloqueie um diretório e seu conteúdo:
User-agent: * Disallow: / sample-directory /
-
Bloquear uma página da web:
User-agent: * Disallow: /private_file.html
-
Bloqueie uma imagem:
User-agent: googlebot-image Disallow: /images_mypicture.jpg
-
Bloquear todas as imagens:
User-agent: googlebot-image Disallow: /
-
Bloqueie um formato de arquivo específico:
User-agent: * Disallow: /p*.gif$
Etapa 5. Incentive os bots a indexar e rastrear seu site
Muitas pessoas querem dar as boas-vindas, em vez de bloquear, aos spiders dos mecanismos de pesquisa porque desejam que todo o seu site seja indexado. Para fazer isso, você tem três opções. Primeiro, você pode desativar a criação de um arquivo robots.txt - quando o robô não encontrar um arquivo robots.txt, ele continuará a rastrear e indexar todo o seu site. Em segundo lugar, você pode criar um arquivo robots.txt vazio - o robô encontrará o arquivo robots.txt, reconhecerá que ele está vazio e continuará a rastrear e indexar seu site. Por último, você pode escrever um arquivo robots.txt com permissão total. Use o código:
User-agent: * Disallow:
Etapa 6. Salve o arquivo txt na raiz do seu domínio
Depois de escrever o arquivo robots.txt, salve as alterações. Faça upload do arquivo para o diretório raiz do seu site. Por exemplo, se o seu domínio for www.seudominio.com, coloque o arquivo robots.txt em www.yourdomain.com/robots.txt.
Método 2 de 2: Bloqueio de mecanismos de pesquisa com metatags
Etapa 1. Compreenda as metatags de robôs HTML
A metatag de robôs permite que os programadores definam parâmetros para bots ou spiders de mecanismos de pesquisa. Essas tags são usadas para impedir que os bots indexem e rastreiem um site inteiro ou apenas partes do site. Você também pode usar essas tags para impedir que um spider de mecanismo de pesquisa específico indexe seu conteúdo. Essas tags aparecem no cabeçalho do seu arquivo HTML.
Este método é comumente usado por programadores que não têm acesso ao diretório raiz de um site
Etapa 2. Bloquear bots em uma única página
É possível bloquear todos os bots de indexar uma página e / ou seguir os links de uma página. Essa tag é comumente usada quando um site ativo está em desenvolvimento. Assim que o site estiver concluído, é altamente recomendável que você remova essa tag. Se você não remover a tag, sua página não será indexada ou pesquisável por meio de mecanismos de pesquisa.
- Você pode impedir que os bots indexem a página e sigam qualquer um dos links:
- Você pode impedir que todos os bots indexem a página:
- Você pode impedir que todos os bots sigam os links da página:
Etapa 3. Permita que os bots indexem uma página, mas não siga seus links
Se você permitir que os bots indexem a página, a página será indexada; se você impedir que os spiders sigam os links, o caminho do link dessa página específica para outras páginas será interrompido. Insira a seguinte linha de código em seu cabeçalho:
Etapa 4. Deixe os spiders do mecanismo de pesquisa seguirem os links, mas não indexar a página
Se você permitir que os bots sigam os links, o caminho do link desta página específica para outras páginas permanecerá intacto; se você restringir a indexação da página, sua página da web não aparecerá no índice. Insira a seguinte linha de código em seu cabeçalho:
Etapa 5. Bloquear um único link de saída
Para ocultar um único link em uma página, incorpore um rel tag dentro da tag do link. Você pode querer usar esta tag para bloquear links em outras páginas que levam à página específica que você deseja bloquear.
Inserir link para página bloqueada
Etapa 6. Bloqueie um mecanismo de busca específico
Em vez de bloquear todos os bots de sua página da web, você pode querer evitar que um bot rastreie e indexe a página. Para fazer isso, substitua “'robô”' na metatag pelo nome de um bot específico. Exemplos incluem: googlebot, googlebot-news, googlebot-image, bingbot, e teoma.
Etapa 7. Incentive os bots a rastrear e indexar sua página
Se você deseja garantir que sua página seja indexada e seus links sejam seguidos, você pode inserir uma permissão para seguir meta “robô” tag em seu cabeçalho. Use o seguinte código: