Portanto, agora o formulário Adicionar URL também tem um teste: ele exibe algumas letras onduladas destinadas a enganar automatizado "letra-guessers"; ele pede para você digitar as letras que você vê - algo como um teste de olho-chart para parar spambots. Quando Googlebot busca uma página, ele abates todos os links que aparecem na página e adiciona-los para uma fila para rastreamento subsequente. Googlebot tende a encontrar pouco spam, porque vincular a maioria dos autores de web só para o que eles acreditam que são páginas de alta qualidade.
Por elos de colheita de cada página que encontra, o Googlebot pode criar rapidamente uma lista de links que podem cobrir grandes extensões da web. Esta técnica, conhecida como rastreamento profundo, também permite que o Googlebot para sondar profundamente dentro de sites individuais. Por causa de sua escala maciça, os rastreamentos profundas pode chegar a quase todas as páginas na web. Porque a web é muito grande, isso pode levar algum tempo, por isso algumas páginas podem ser rastreados apenas uma vez por mês.
Embora sua função é simples, Googlebot deve ser programado para lidar com vários desafios. Em primeiro lugar, uma vez que o Googlebot envia solicitações simultâneas de milhares de páginas, a fila de "visitar em breve" URLs deve ser constantemente avaliado e comparado com URLs já no índice do Google. Duplicatas na fila deve ser eliminado para impedir que o Googlebot buscar novamente a mesma página. Googlebot deve determinar a freqüência de revisitar uma página. Por um lado, é um desperdício de recursos para re-indexar uma página inalterada.
Por outro lado, o Google quer reindexar páginas alteradas para entregar up-to-date resultados. Para manter o atual índice, Google recrawls continuamente mudam frequentemente páginas populares da web em uma taxa de aproximadamente proporcional à freqüência mudar as páginas. Tais rastreamentos manter um índice atual e são conhecidos c