Extrair dados de um site provavelmente a técnica mais comum usada tradicionalmente cópias que pretende (por exemplo, a URL e link de títulos); o processo é o de chegar a algumas expressões regulares. Na verdade, esta é a razão para o nosso software aplicativo raspador de tela escrito para o aplicativo foi iniciado. Exatamente Perl, você já está familiarizado com expressões regulares, e raspar o projeto é relativamente pequeno, ao mesmo tempo; eles podem ser uma boa solução.
Alguns dos programas de analisar o conteúdo semântico de uma página HTML, em seguida, arraste esse pedaço de interesse inteligente. Ainda outras abordagens, ou materiais, que se destinam a representar os nomes de domínio de ir para o desenvolvimento de um vocabulários hierárquicos.
Tela raspagem especificamente para o facto de que um número de aplicações comerciais (incluindo o seu próprio) são. Os pedidos variam muito, mas nos projetos de médio e grande porte, são muitas vezes uma boa solução.
Todo mundo tem sua própria curva de aprendizagem, uma nova aplicação que você vai aprender os meandros deve ter o tempo.
O que é a melhor maneira de recuperar os dados? Depende de quais são suas necessidades e quais recursos estão disponíveis. Há uma série de abordagens, bem como sugestões de como você pode usar cada um, existem alguns prós e contras: expressões regulares RAW e os Benefícios de código: - Se você já está familiarizado com expressões regulares e, pelo menos, uma linguagem de programação, pode ser uma solução rápida.
- Regular o conteúdo de Expressão essas pequenas mudanças que não quebram a "obscuridade" para fornecer uma quantidade razoável. - Provavelmente (uma expressão regular que você já está familiarizado com o programa, a começar de novo) não precisa de aprender novas línguas ou ferramentas. - As expressões regulares são suportados em quase todas as linguagens de programação modernas. Heck, mesmo que o VBScript expressão regular do motor. Sintaxe da expressão regular é diferente na sua aplicação, uma vez que não é muito diferente.
Desvantagens: - Eles não têm muita experiência daqueles que podem ser complexos. Aprender expressões regulares Perl em Java não é o caminho. Pérola para ver o problema de uma forma muito diferente envoltório em XSLT, a mente é como. - Eles são muitas vezes confundidos para análise. - O processo de descoberta porção de dados (se você quiser obter informações de web-crossing diferente) ainda está para ser abordada, e se você q