Introdução OCR

546 visualizações

Publicada em

Introdução Básica sobre o OCR Optical Character Recognition

Publicada em: Tecnologia
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
546
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
6
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Introdução OCR

  1. 1. Universidade Lusíada de Angola Sistemas Multimídia Tema: OCR (Optical Character Recognition) Membros: ● Lewis Gomes ● Rui Pinto ● Suely Nassola Docente: Dr. Adjah da Cruz
  2. 2. O que é o OCR?
  3. 3. OCR, do inglês Optical Character Recognition Reconhecimento Ótico de Caracteres), é um método aplicado de maneira a permitir que o conteúdo escrito em um documento no formato de imagem seja reconhecido e transformado em um arquivo de texto editável.
  4. 4. De onde surgiu esse tal de OCR?
  5. 5. Em 1950 David Shepard e Louis Tordela começaram a pesquisa do procedimento para automação de dados e com ajuda de Harvey Cook eles contruiram o “Gismo” o primeiro Software de OCR. Em 1953 a IBM obteve uma licença da IMR e desenvolveu um software próprio classificando-o como Optical Character Recognition, tornando o termo OCR um padrão na indústria para essa tecnologia.
  6. 6. Qual tecnologia está por trás do OCR?
  7. 7. Existem dois principais Sistemas de OCR: 1 - Matriz de correspondência Matriz de correspondência (também conhecido como correspondência de padrões) associa o que o scanner percebe como um caracter com um conjunto armazenado de padrões de bitmap ou contornos de caracteres. Quando uma imagem corresponde a um destes bitmaps selecionados dentro de um certo grau de semelhança, o programa identifica esta imagem como o caractere de texto equivalente. Uma desvantagem evidente deste sistema é que ele só pode ser usado para as fontes e tamanhos em seu repertório.
  8. 8. 2 - Extração de características Extração de recurso também é conhecida como reconhecimento de caracteres inteligente (ICR), ou análise de característica topológica. É um tipo de reconhecimento óptico de caracteres que não dependem de correspondência exata para definir modelos. O programa procura por elementos comuns, como espaços abertos, formas fechadas, linhas - diagonais que se interceptam e assim por diante.
  9. 9. Como Funciona?
  10. 10. Primeiro, o programa analisa a estrutura da imagem do documento. Ele divide a página em elementos como blocos de texto, tabelas, imagens, etc. As linhas são divididas em palavras e, então, em caracteres. Uma vez separados os caracteres, o programa compara-os com um conjunto de imagens padrão.
  11. 11. O segundo passo, consiste em comparar cada caracter com modelos de fontes suportadas pelo OCR. Havendo uma certa percentagem de coincidência, o caracter é reconhecido. Nos caracteres não reconhecidos, é aplicado um segundo processo bem mais minucioso, que consiste em analisar geometricamente cada caracter, calculando a altura, largura, e combinações de retas, curvas e áreas em branco.
  12. 12. Novamente, é usada a lei da probabilidade: um caracter com uma curva em forma de meia lua que continua na forma de uma reta, por exemplo, tem uma grande chance de ser um "d" minúsculo por exemplo. Este segundo processo é muito mais demorado, pois para cada letra é preciso gerar todo um novo conjunto de caracteres gráficos.
  13. 13. Se mesmo com o exame minucioso, não for possível reconhecer o caracter, o programa poderá utilizar um corretor ortográfico para corrigir erros bobos, ou preencher espaços vazios.
  14. 14. Qual as Vantagens?
  15. 15. Já tentou digitar um texto de uma revista para poder reproduzir em algum lugar? Se for um texto curto, de uma página recomendo que coloque do lado e digite, nosso OCR original, de fábrica, chamado cérebro é muito mais rápido do que qualquer outro dispositivo e certamente vai fazer o trabalho em menos tempo. Ou seja, para textos curtos não vale a pena. Mas imagine ter que digitar vários textos, ou então um livro ou revista. Ai já vale a pena usar o OCR pois ele fará o trabalho repetitivo e seu trabalho será apenas alimentar o scanner ou outro dispositivo de captura de imagens qualquer, como uma câmara digital.
  16. 16. Qual as Desvantagens?
  17. 17. O resultado final depende de muitos parâmetros, há programas de OCR que não reconhecem os acentos da língua portuguesa. Múltiplas fontes no mesmo texto também causam problemas e certamente o texto vai precisar de uma revisão antes de ser utilizado. Não suporta todos idiomas nem todos os tipos de fontes.
  18. 18. Podes mencionar alguns Softwares Existentes?
  19. 19. OCR Convert. OCR Terminal Beta. Online OCR. NewOCR.com. Free OCR to Word. ABBYY FineReader .
  20. 20. Conclusão OCR é um tecnologia que vale apena usar, a poisar que raramente pessoas não fazem uso deste recurso talvez por falta de informação , é um software que pode se encontrar na net de graça e em versões muita avançadas a que pagar uma certa quantia.
  21. 21. E onde foste pegar essas informações?
  22. 22. http://interfaceinterativa.blogspot.com/2009/02/ocr-voce-sabe-o-que-e-isso.html http://www.tecmundo.com.br/google/8862-sistema-ocr-da-google-possui-suporte-a-34-idiomas.htm http://www.abbyy.com.br/ocr/ http://www.ehow.com.br/funciona-ocr-como_5500/ http://www.ibytes.com.br/scanner-le-e-converte-elementos-escuros-da-leitura-em-um-mapa-de-bits/ Imagens www.Google.pt Bibliografia
  23. 23. “A duvida é o Principio da Sabedoria” ?

×