Como bloquear motores de busca (com imagens)

Índice:

Como bloquear motores de busca (com imagens)
Como bloquear motores de busca (com imagens)

Vídeo: Como bloquear motores de busca (com imagens)

Vídeo: Como bloquear motores de busca (com imagens)
Vídeo: Como descompactar ou compactar qualquer arquivo em 2020 (ZIP, RAR ou qualquer outro formato) 2024, Abril
Anonim

Os mecanismos de pesquisa são equipados com robôs, também conhecidos como spiders ou bots, que rastreiam e indexam páginas da web. Se o seu site ou página está em desenvolvimento ou contém conteúdo confidencial, você pode bloquear o rastreamento e indexação do seu site por bots. Aprenda como bloquear sites, páginas e links inteiros com arquivos robots.txt e bloquear páginas e links específicos com tags html. Continue lendo para descobrir como bloquear o acesso de bots específicos ao seu conteúdo.

Passos

Método 1 de 2: Bloqueio de mecanismos de pesquisa com arquivos robots.txt

576315 1
576315 1

Etapa 1. Compreenda os arquivos robots.txt

Um arquivo robots.txt é um arquivo de texto simples ou ASCII que informa aos spiders dos mecanismos de pesquisa o que eles têm permissão para acessar em seu site. Os arquivos e pastas listados em um arquivo robots.txt não podem ser rastreados e indexados por spiders de um mecanismo de pesquisa. Pode ser necessário um arquivo robots.txt se:

  • Você deseja bloquear conteúdo específico de spiders de mecanismos de pesquisa.
  • Você está desenvolvendo um site ativo e não está preparado para que spiders de mecanismos de pesquisa rastreiem e indexem o site
  • Você deseja limitar o acesso a bots confiáveis.
576315 2
576315 2

Etapa 2. Crie e salve o arquivo robots.txt

Para criar o arquivo, inicie um editor de texto simples ou um editor de código. Salve o arquivo como: robots.txt. O nome do arquivo deve estar todo em letras minúsculas.

  • Não se esqueça do “s”.
  • Ao salvar o arquivo, escolha a extensão “'.txt”'. Se você estiver usando o Word, selecione a opção “Texto Simples”.
576315 3 1
576315 3 1

Etapa 3. Grave um arquivo robots.txt totalmente desautorizado

É possível impedir que todos os spiders de mecanismos de pesquisa com boa reputação rastreiem e indexem seu site com um arquivo robots.txt “totalmente desautorizado”. Escreva as seguintes linhas em seu arquivo de texto:

    User-agent: * Disallow: /

  • Usar um arquivo robots.txt “totalmente proibido” não é altamente recomendado. Quando um bot, como o Bingbot, lê esse arquivo, ele não indexa seu site e o mecanismo de pesquisa não exibe seu site.
  • User-agents: este é outro termo para spiders de mecanismos de pesquisa ou robôs
  • *: o asterisco significa que o código se aplica a todos os agentes de usuário
  • Disallow: /: a barra indica que todo o site está fora dos limites para bots
576315 4 1
576315 4 1

Etapa 4. Escreva um arquivo robots.txt com permissão condicional

Em vez de bloquear todos os bots, considere bloquear spiders específicos de certas áreas do seu site. Os comandos de permissão condicional comuns incluem:

  • Bloqueie um bot específico: substitua os asteriscos ao lado de Agente de usuário com googlebot, googlebot-news, googlebot-image, bingbot, ou teoma.
  • Bloqueie um diretório e seu conteúdo:

    User-agent: * Disallow: / sample-directory /

  • Bloquear uma página da web:

    User-agent: * Disallow: /private_file.html

  • Bloqueie uma imagem:

    User-agent: googlebot-image Disallow: /images_mypicture.jpg

  • Bloquear todas as imagens:

    User-agent: googlebot-image Disallow: /

  • Bloqueie um formato de arquivo específico:

    User-agent: * Disallow: /p*.gif$

576315 5
576315 5

Etapa 5. Incentive os bots a indexar e rastrear seu site

Muitas pessoas querem dar as boas-vindas, em vez de bloquear, aos spiders dos mecanismos de pesquisa porque desejam que todo o seu site seja indexado. Para fazer isso, você tem três opções. Primeiro, você pode desativar a criação de um arquivo robots.txt - quando o robô não encontrar um arquivo robots.txt, ele continuará a rastrear e indexar todo o seu site. Em segundo lugar, você pode criar um arquivo robots.txt vazio - o robô encontrará o arquivo robots.txt, reconhecerá que ele está vazio e continuará a rastrear e indexar seu site. Por último, você pode escrever um arquivo robots.txt com permissão total. Use o código:

    User-agent: * Disallow:

  • Quando um bot, como o googlebot, lê esse arquivo, fica à vontade para visitar todo o seu site.
  • User-agents: este é outro termo para spiders de mecanismos de pesquisa ou robôs
  • *: o asterisco significa que o código se aplica a todos os agentes de usuário
  • Não permitir: o comando blank disallow indica que todos os arquivos e pastas estão acessíveis
576315 6
576315 6

Etapa 6. Salve o arquivo txt na raiz do seu domínio

Depois de escrever o arquivo robots.txt, salve as alterações. Faça upload do arquivo para o diretório raiz do seu site. Por exemplo, se o seu domínio for www.seudominio.com, coloque o arquivo robots.txt em www.yourdomain.com/robots.txt.

Método 2 de 2: Bloqueio de mecanismos de pesquisa com metatags

576315 7
576315 7

Etapa 1. Compreenda as metatags de robôs HTML

A metatag de robôs permite que os programadores definam parâmetros para bots ou spiders de mecanismos de pesquisa. Essas tags são usadas para impedir que os bots indexem e rastreiem um site inteiro ou apenas partes do site. Você também pode usar essas tags para impedir que um spider de mecanismo de pesquisa específico indexe seu conteúdo. Essas tags aparecem no cabeçalho do seu arquivo HTML.

Este método é comumente usado por programadores que não têm acesso ao diretório raiz de um site

576315 8
576315 8

Etapa 2. Bloquear bots em uma única página

É possível bloquear todos os bots de indexar uma página e / ou seguir os links de uma página. Essa tag é comumente usada quando um site ativo está em desenvolvimento. Assim que o site estiver concluído, é altamente recomendável que você remova essa tag. Se você não remover a tag, sua página não será indexada ou pesquisável por meio de mecanismos de pesquisa.

  • Você pode impedir que os bots indexem a página e sigam qualquer um dos links:
  • Você pode impedir que todos os bots indexem a página:
  • Você pode impedir que todos os bots sigam os links da página:
576315 9
576315 9

Etapa 3. Permita que os bots indexem uma página, mas não siga seus links

Se você permitir que os bots indexem a página, a página será indexada; se você impedir que os spiders sigam os links, o caminho do link dessa página específica para outras páginas será interrompido. Insira a seguinte linha de código em seu cabeçalho:

576315 10
576315 10

Etapa 4. Deixe os spiders do mecanismo de pesquisa seguirem os links, mas não indexar a página

Se você permitir que os bots sigam os links, o caminho do link desta página específica para outras páginas permanecerá intacto; se você restringir a indexação da página, sua página da web não aparecerá no índice. Insira a seguinte linha de código em seu cabeçalho:

576315 11
576315 11

Etapa 5. Bloquear um único link de saída

Para ocultar um único link em uma página, incorpore um rel tag dentro da tag do link. Você pode querer usar esta tag para bloquear links em outras páginas que levam à página específica que você deseja bloquear.

    Inserir link para página bloqueada

576315 12
576315 12

Etapa 6. Bloqueie um mecanismo de busca específico

Em vez de bloquear todos os bots de sua página da web, você pode querer evitar que um bot rastreie e indexe a página. Para fazer isso, substitua “'robô”' na metatag pelo nome de um bot específico. Exemplos incluem: googlebot, googlebot-news, googlebot-image, bingbot, e teoma.

576315 13
576315 13

Etapa 7. Incentive os bots a rastrear e indexar sua página

Se você deseja garantir que sua página seja indexada e seus links sejam seguidos, você pode inserir uma permissão para seguir meta “robô” tag em seu cabeçalho. Use o seguinte código:

Recomendado: