*   >> Leitura Educação Artigos >> tech >> Internet

Como funciona o Google?

bombardearam a forma URL add com milhões de URLs apontando para propaganda comercial. Google rejeita as URLs enviados através do seu formulário Adicionar URL que ele suspeita que estão tentando enganar os usuários, empregando táticas, como a inclusão de texto oculto ou links em uma página, encher uma página com palavras irrelevantes, cloaking (aka bait and switch), usando redirecionamentos , criando portais, domínios ou sub-domínios com conteúdo substancialmente similar, o envio de consultas automáticas para o Google, e ligando para maus vizinhos.

Portanto, agora o formulário Adicionar URL também tem um teste: ele exibe algumas letras onduladas destinadas a enganar automatizado "letra-guessers"; ele pede para você digitar as letras que você vê - algo como um teste de olho-chart para parar spambots. Quando Googlebot busca uma página, ele abates todos os links que aparecem na página e adiciona-los para uma fila para rastreamento subsequente. Googlebot tende a encontrar pouco spam, porque vincular a maioria dos autores de web só para o que eles acreditam que são páginas de alta qualidade.

Por elos de colheita de cada página que encontra, o Googlebot pode criar rapidamente uma lista de links que podem cobrir grandes extensões da web. Esta técnica, conhecida como rastreamento profundo, também permite que o Googlebot para sondar profundamente dentro de sites individuais. Por causa de sua escala maciça, os rastreamentos profundas pode chegar a quase todas as páginas na web. Porque a web é muito grande, isso pode levar algum tempo, por isso algumas páginas podem ser rastreados apenas uma vez por mês.

Embora sua função é simples, Googlebot deve ser programado para lidar com vários desafios. Em primeiro lugar, uma vez que o Googlebot envia solicitações simultâneas de milhares de páginas, a fila de "visitar em breve" URLs deve ser constantemente avaliado e comparado com URLs já no índice do Google. Duplicatas na fila deve ser eliminado para impedir que o Googlebot buscar novamente a mesma página. Googlebot deve determinar a freqüência de revisitar uma página. Por um lado, é um desperdício de recursos para re-indexar uma página inalterada.

Por outro lado, o Google quer reindexar páginas alteradas para entregar up-to-date resultados. Para manter o atual índice, Google recrawls continuamente mudam frequentemente páginas populares da web em uma taxa de aproximadamente proporcional à freqüência mudar as páginas. Tais rastreamentos manter um índice atual e são conhecidos c

Page   <<  [1] [2] [3] [4] >>
Copyright © 2008 - 2016 Leitura Educação Artigos,https://artigos.nmjjxx.com All rights reserved.