é a ferramenta de imagens de documentos primários. É um dispositivo que converte imagens em papel, texto impresso, manuscrito ou mesmo um objeto como um ornamento em uma imagem digital. Um scanner lê cor vermelho-verde-azul (RGB) de dados e esses dados são então processadas com o algoritmo do scanner para fazer ajustes para diferentes condições de exposição.
A qualidade da imagem depende da profundidade de cor, resolução e faixa de densidade, bem como a qualidade do algoritmo. A continuação da investigação aperfeiçoou o algoritmo, na medida em que as imagens podem agora ser melhor do que os originais. OCR
ou reconhecimento óptico de caracteres é uma tecnologia para converter imagens de documentos de texto em texto legível por máquina. Enquanto um alto grau de precisão foi alcançado em reconhecer impressos ou datilografados texto, a capacidade de reconhecer diferentes tipos de escrita é ainda avaliação imperfect.
A humano é normalmente necessário para garantir a precisão de 100 por cento dos sistemas document.Computer convertidos armazenar o digitalizada imagens de documentos, convertidos em texto legível por máquina, em seus repositórios. Mas como pode qualquer um destes documentos específicos ser rapidamente recuperados? Quando o número de documentos é alguns, isso pode não ser um problema tão grande. No entanto, quando esse número é executado em milhares ou milhões, encontrar um documento específico, de facto, tornar-se um problem.It é aqui que indexação
entra em cena.
Os dados de índice anexado aos documentos permitir consultas de estilo de motor de busca para ser executada para localizar documentos específicos, dentre a massa de indexação armazenado documents.Search-motor pode ser tão simples como a indexação de texto completo -, onde cada palavra em um documento é indexado --ou palavra-chave ou indexação tag, onde apenas algumas etiquetas presas ao documento são indexadas. Estas tags são selecionados para identificar corretamente o conteúdo da indexação document.Tag assume que todas as tags relevantes será anexado a cada documento.
Se este não for o caso, o documento não pode ser encontrado, mesmo quando relevante para muitas buscas imagens queries.Even e outros tipos de arquivos não-texto pode ser identificada