spiders do google

Um arquivo robots.txt restringe o acesso a seu site de robôs de mecanismos de pesquisa que rastreiam a web. Esses bots são automáticos e, antes de acessarem as páginas de um site, verificam se existe um arquivo robots.txt que impede que eles acessem certas páginas. (Todos os robôs honrados respeitam as instruções de um arquivo robots.txt, embora alguns possam interpretá-las de modo diferente.

No entanto, um arquivo robots.txt não é executável e alguns criadores de spam e outros usuários mal-intencionados podem ignorá-lo. Por isso, recomendamos que as informações confidenciais sejam protegidas por senha.)

Para ver quais URLs o Google foi impedido de rastrear, visite a página URLs bloqueados da seçãoIntegridade nas Ferramentas do Google para webmasters.

O arquivo robots.txt é necessário apenas para o caso de o seu site incluir algum conteúdo que você não queira que os mecanismos de pesquisa indexem. Se você desejar que os mecanismos de pesquisa indexem tudo o que há no seu site, o arquivo robots.txt não será necessário (nem mesmo um arquivo em branco).

Embora o Google não rastreie ou indexe o conteúdo de páginas bloqueadas pelo robots.txt, ele ainda pode rastrear e indexar os URLs se os encontrar em outras páginas web. Dessa forma, o URL da página e, possivelmente, outras informações disponíveis, como o texto âncora em links para o site ou o título de um Open Directory Project (www.dmoz.org), poderão ser exibidos nos resultados de pesquisa do Google.

Para usar um arquivo robots.txt, é necessário ter acesso à raiz do domínio (se não tiver certeza disso, entre em contato com o hoster da web). Se não tiver acesso à raiz do domínio, você pode restringir o acesso usando uma meta tag de robôs.

Solução a ser adotada:

Para impedir completamente que o conteúdo de uma página seja relacionado no índice da web do Google, mesmo que outros sites estejam vinculados a ela, use uma metatag noindex ou uma x-robots-tag Quando o Googlebot buscar a página, encontrará a metatag noindex e impedirá que a página apareça no índice da web. O cabeçalho HTTP x-robots-tag é útil principalmente se você deseja limitar a indexação de arquivos não HTML, como gráficos e outros tipos de documentos.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s