When um motor de busca envia seu webcrawler para o seu site, uma das primeiras coisas que o webcrawler vai fazer é procurar o diretório raiz para o arquivo robots.txt. Um arquivo robots.txt corretamente formatada será composto por vários registros, cada um fornecendo instruções para uma determinada busca-bot. Um registro geralmente consistem em dois componentes, o primeiro é chamado o agente de usuário e é onde o nome do bot-busca está listado. A segunda linha consits de uma ou mais linhas "desautorizar".
Estas linhas indicam o webcrawler quais arquivos ou pastas não devem ser indexadas (ou seja, uma pasta cgi-bin) .Se você atualmente tem um site e não tem um arquivo robots.txt, você pode criar um facilmente. Como mencionado anteriormente, os arquivos são texto puro, então basta abrir o bloco de notas e salve o arquivo em robots.txt. A maioria dos webmasters podem usar um registro que será aplicado a todos os indexadores de mecanismo de busca. Depois de ter aberto o bloco de notas digite o seguinte: User-agent: * Disallow: O "*" esta regra se aplica a todos os bots.
Neste exemplo, não há nada listados na linha DISALLOW. Isso diz ao robô para indexar todo o site. Você também pode inserir um caminho de pasta aqui como "/privado" se houver uma pasta que não devem ser indexados. Isto pode ser muito útil se você ainda está testando uma parte do seu site ou uma seção ainda está sob construction.Now que você sabe que deve ir para o seu arquivo robots.txt, há vários erros comuns que as pessoas fazem ao criar esses arquivos. Nunca inserir anotações ou comentários para o arquivo como esses itens podem causar confusão para o webcrawler.
Além disso, o formato deve sempre ser o agente de utilizador na primeira linha, seguindo-se a evitar (s). Não inverter a ordem. Outro erro comum feita envolve usando o caso incorreto. Se a pasta não permitida é /privado, verifique se o arquivo robots.txt não lista a pasta como /privada. Parece uma questão menor, mas vai causar problemas se feito incorretamente. Finalmente, não existe nenhum comand