SlideShare uma empresa Scribd logo
1 de 36
Copyright © OpenText Corporation. All rights reserved.
Open Text Capture
Center
Classificação e Extração
Automática de Dados de
Documento
Marcelo Carrera
Sales Executive
April 20, 2013
Copyright © Open Text Corporation. All rights reserved.
Slide 1
Tecnologias de Documento da
Open Text
Tecnologias de Documento da Open Text
 Antigo CGK, Computer Gesellschaft Konstanz
 Processando Documentos desde 1972
 Incomparável: Pacote completo de tecnologia
 Líder mundial em tecnologia de reconhecimento
 Atendimento Global
 Desde 2009 como parte da Open Text
 CDT: Captaris Document Technologies e
 ODT: OCÉ Document Technologies
3
Alguns de Nossos Clientes
4
OEM Clientes Diretos
o
Beneficios, Escopo e Casos de
Uso
OCC – Beneficio
Copyright © Open Text Corporation. All rights reserved.
Q
Melhorar a Qualidade da Informação
 Melhorar o compartilhamento de informação
 Aproveitar um conjunto comum de regras de negócio
 Reduzir erros
$
Reduzir Custos Operacionais
 Automatizar tarefas manuais
 Implantar uma plataforma única de entrada de documentos
 Reduzir preenchimento/armazenamento de papel

Acelerar os Processos de Negócio
Diminuir o tempo de um ciclo
Reduzir o processamento de exceção
Melhorar o relacionamento com clientes
Aumentar produtividade da equipe
Conformidade (“Compliance”)
 Garantir conformidade / auditabilidade
 Melhorar visibilidade dos processos de negócio
 Ter evidências para o caso de um litigio
§§
Produtos
Slide 7
Nota Fiscal
Requerimento
Verificação
Solicitação
OpenText
Enterprise Scan
Invoice Capture Center
OpenText Capture Center
Aplicações Alvo
Content Server
TCP, IDM, VRD, C36
0, P360, …
SharePoint
Copyright © Open Text Corporation. All rights reserved.
Casos de Uso
Slide 8
Gera
Dinheiro
Economiza
Dinheiro
Documento
Eletrônico
Qualificado
Permite
Workflow
Digital
Captura de
Dados /
Documento
Reduzir
Entrada
Manual Permite
automação
de
Processos
 Digitalização de
Correspondência
 Digitalizar Documentos
em Arquivos Eletrônicos
 Conversão de
Documentos de
Processos Antigo
 Gerenciamento de
Transações e Processos
 Centro de Serviços
 Captura Ad-Hoc
Copyright © Open Text Corporation. All rights reserved.
Caso de Uso: Digitalização de Correspondência
LAD I G I T
P A P E L
Tempo Decorrido
Distribuição Interna
Trabalho Produtivo
Análise de
Documento
Digitalização
Preparação
Entrega de
Correspondência
Distribuição Interna
Copia
Trabalho Produtivo
EntregaTransporte
Interno
Seleção
Entrega de
Correspondência
Copyright © Open Text Corporation. All rights reserved.
Funcionalidades e Características
Visão Geral dos Componentes do OCC
IM EX
Fax, Email,
FTP site,
Pasta de Rede
SharePoint
Cliente do
Enterprise Scan
Aplicações de
Negócio
Arquivo
ConfiguraçãoMonitoramento
Expedição
ValidaçãoReconhecimento
Open Text Capture Center
Copyright © Open Text Corporation. All rights reserved.
Reconhecimento: Diferente Tipos de Documentos
Documentos
Estruturados
> Formulários
Documentos Semi-
Estruturados
> Correspondência B2B
Documentos
Desestruturados
> Correspondência C2B
Os dados estão em
grupos lógicos mas
as suas posições são
desconhecidas
Os dados podem
estar em qualquer
lugar do documento
Dados em posições
fixas
Copyright © Open Text Corporation. All rights reserved.
Passos no Reconhecimento de Documentos
Slide 13
Interpretação: Reforçar os dados extraídos dentro do contexto da informação
21012010
332.29 USD
X-44277
K441258-3
Data: Jan 21. 2010
Valor: 332,29 $
Nr do Pedido: X-44277
Fornecedor: Mueller & Friends
Classificação: Identificação do tipo de documento
„Nota Fiscal”
„Notas de Entrega“
„Pedidos“
„Outros“
Extração: Buscar informação básica no documento
Data: Jan 21. 2010
Valor: 332,29 $
Nr do Pedido: X-44277
Fornecedor: Mueller & Friends
Invoice
…
Separação: Dividir um lote de imagens em documentos individuais (várias páginas)
Copyright © Open Text Corporation. All rights reserved.
Importação
Importação Direta a partir do Enterprise Scan
 Estrutura de documento e pasta mantidos
 ES de meta dados mapeados para o index de dados do OCC
Entrada de Documento (hot spot) por
 File system
 E-Mail
 FTP site
 SharePoint
Tipos de Documentos
 Documentos Bitmap: TIFF, GIF, JPG, …
 Petro e Branco, escala de cinza, colorido
 Documentos PDF
Copyright © Open Text Corporation. All rights reserved.
Reconhecimento: Separação de Documento
Documento 1 Documento 2 Documento 3
 Coleta de páginas individuais em documentos
 Fronteiras do documento podem ser definidas por bordas
Código de Barra
Patch Code
Número Fixo de Páginas
Conteúdo e regras
Copyright © Open Text Corporation. All rights reserved.
Reconhecimento: Classificação de Documento
16
 Classifique cada documento de
acordo com a sua categoria
 Métodos
Baseado em Regras, ex. certas
frases ou objetos em alguma
posição
Adaptativa: aprendizado baseado
em amostras
Pontos de identificação: por
números, códigos de barras
Uma combinação dos tipos acima
Reconhecimento: Motores de Extração
Copyright © Open Text Corporation. All rights reserved.
Baseado em Regras
Classificação &
Extração
Adaptativa
Auto-rotação
Desentortar /
Limpar Imagem
Remoção de
Linhas
Filtro de Cor
Adaptive
Binarization
…
Processamento
de Imagens
Código de
Barras 1D
Código de
Barras 2D
Patch Code
Check Box
Mark Sense
Padrão de
Reconhecimento
Impressora
Escrita a mão
OCR Font
e.g. MICR
Core OCR
Reconhecimento
de Formulários
Reconhecimento
de formas livres
Classificação
(ACT)
Extração
(ART)
Bando de dados
base (SnapMatch)
Motor de Reconhecimento (RecoStar) Leitor de Documento(DOKuStar)
Extração de Formas Livres
Normalizar
“10/24/10”
Format (US)
Day = 24
Month = Oct
Year = 2010
24.10.2010
Decompõe a “string” em
subunidades e reformata
conforme exigido
Vericar
Compara com regras de
negócio e verifica se faz
sentido
Períod
o
valido
?
24.10.2010
yes no
Exporta
Entrada
Manual
Analisar
Date
Word
Number
Busca identicações que
fazem sentido com as
regras
Transforma pixels em
caracteres por meio do
reconhecimento ótico de
caracteres
OCR
CLERK: 12
DATE SHIPPED
ORDER DATE
10/30/02
10/24/02
COVER CODE
PA
3
Extrair
Order_Date =
“10/24/10”
Encontra a data correta
entre todas as
alternaticas possiveis
Copyright © Open Text Corporation. All rights reserved.
Efeito de Longo Prazo das Técnicas de Forma
Livre
Abordagem de OCC
Reconhecimento
de forma livre
Tecnologia
Adaptativa
(=aprendizado)
Combinando
forma livre e
adaptativa
Reconhecimento
baseado
(template) na
forma
Aumento da taxa de reconhecimento durante tempo de produção
Copyright © Open Text Corporation. All rights reserved.
Opção de Nota Fiscal
O Capture Center utiliza uma base de conhecimento
interna de notas fiscais
As regras de extração forma desenvolvidas e testadas com
base em amostras de notas fiscais de mais de 4000
fornecedores diferentes.
Exemplos de idiomas de mais de 25 paises incluindo o
Brasil
Taxa de reconhecimento de mais de 95% no nível de
campos, com valores médios entre 70% a 90%
Refinamento continuo baseado na experiência de campos
Copyright © Open Text Corporation. All rights reserved.
Extração de Dados de Nota Fiscal
Fornecedor
Número da Nota
Linha de Itens
Valor Liquido
Valor Total
Data da Nota
Número do Pedido
Moeda
Nota da Entrega
Copyright © Open Text Corporation. All rights reserved.
Amostra de Dados de Nota Fiscal
Dados
ID do fornecedor como no dado mestre
Nome do vendedor
Como o dado é extraído?
Pesquisa de base de dados SnapMatch
Utiliza o dado mestre de fornecedor incluindo
informações auxiliares (nome da
empresa, número de FAX e
telefone, endereço, …)
Uso
Necessário para a postagem
Campos mandatórios para formulários de nota
fiscal
Configuração
Script para download para base de
fornecedores
Número Tel / Fax
Nome
Endereço
Conta do banco
Dados mestre
(extraido do
ERP)
Outro…
ID do fornecedor
Nome do fornecedor
Fornecedor
Copyright © Open Text Corporation. All rights reserved.
Amostra de Dados de Nota Fiscal (continuação)
Dados
Liquido, bruto, valor e moeda (padrão)
Percentagem de imposto(s), valor(s), frete, …
(opcional)
Como os dados são extraídos?
Uso de base de conhecimento de nota fiscal
Pesquisa por itens (uma nota fiscal é cheia de
valores)
Relacionamento lógicos e geométricos entre
valores são utilizados para remover as
ambiguidades
Uso
Necessário para a postagem
Campos mandatórios para formulários de nota
fiscal
Configuração
Configuração de idioma
Valor(es)
Copyright © Open Text Corporation. All rights reserved.
Amostra de Dados de Nota Fiscal (continuação)
Data
Data de emissão
Número de referência do fornecedor
Como os dados são extraídos?
Uso de base de conhecimento de nota fiscal
Pesquisa por itens (uma nota fiscal é cheia de
valores)
Normalmente a data e o número da nota fiscal
estão próximos
Uso
Necessário para a postagem
Campos mandatórios para formulários de nota
fiscal
Configuração
Configuração de idioma
Intervalo de datas aceitas por script
Data é numero da nota fiscal
Copyright © Open Text Corporation. All rights reserved.
Amostra de Dados de Nota Fiscal (continuação)
Dado
Número do pedido de compras
Como os dados são extraídos?
Uso de base de conhecimento de nota fiscal
Pesquisa por itens chave
Uso de sintaxe pre-definida (450…) ou fazendo
download dos pedidos de compras em
aberto
Uso
Necessário para a postagem e para
conferência de itens por linha
Campos mandatórios para formulários de nota
fiscal
Configuração
Sintaxe utilizada pela empresa para números
de pedidos
Configuração de idioma
Número do Pedido de Compras
Copyright © Open Text Corporation. All rights reserved.
Amostra de Dados de Nota Fiscal (continuação)
Data
Número do pedido, número de ordem da
linha, quantidade, unidade, preço
unitário, preço total, percentagem de
imposto e valor, descrição, número da nota
de entrega.
Como os dados são extraídos?
Análise de layout e conteúdo
Uso opcional de cabeçalhos de coluna
Variando a ordem de linhas
Uso
Os dados precisam estar de acordo com o
pedido e os bens entregues
Uso: Opcionalmente
Configuração
Configuração de idioma
Itens de Linha
Copyright © Open Text Corporation. All rights reserved.
OCR – Estado da Arte
Impresso
Texto OCR
Escrita Manual
Escrita Cursiva
Praticamente
perfeito
Perfeito ou
aceitável
Para produção
Apenas em
ambientes restritos
Copyright © Open Text Corporation. All rights reserved.
Reconhecimento: Balanceamento de Carga
 Fácil de Escalar
 Maior rendimento com clusters de servidores de reconhecimento
 Suporta todos os cenários de fail-over
Copyright © Open Text Corporation. All rights reserved.
Servidor de
Reconhecimento 2
Nós Runtime
Servidor
OCC
Servidor de
Reconhecimento 1
Nós Runtime
Nós Runtime
Validação
Copyright © Open Text Corporation. All rights reserved.
 Correção de
Separação de documento
Classificação de documento
Dados Extraidos
Desenho ergonômico
Destaque (Highlight) de dados
extraidos
Pula campos corretos
Controle total por teclado
Entrada com clique único: Extração de
dados semi-automatica com
apontamento do dado
Entrada com um só clique
Copyright © Open Text Corporation. All rights reserved.
Validação de Desenho de Máscara
Slide 31 Copyright © Open Text Corporation. All rights reserved.
Exportação
Content Server (LiveLink)
 Pasta dependente da classe do
documento
 Configuração de nome de arquivo
 Meta dados por categoria
 Disparo de Workflow
SharePoint
 Biblioteca depentende da classe do
documento
 Configuração do nome do arquivo
 Atributos da biblioteca
 Atributos do caminho da informação
File System
 Pasta e nome do arquivos
selecionáveis
 Dado em XML ou CSV
Exportação customizada
Copyright © Open Text Corporation. All rights reserved.
Configuração
Importação de esquema de dados das categorias do Content Server
ou das bibliotecas do SharePoint
Fácil definição de tipos de campos
Comece com KFI (key from image) e depois automatize passo a passo
 Entrada de dados semiautomática
 Aprendizado adaptativo
 Operadores de extração pré-definidos
 Operadores de extração definidos pelo
usuário
Design Studio para definição de
campos para formulários e para
sem formulários
 Processos simplificados para desenvolvimento,
teste e implementação
 Teste com grandes volume de dados
 Teste de regração
Copyright © Open Text Corporation. All rights reserved.
Monitoramento e Relatórios
Ferramenta de monitoramento para controlar fase de
produção
 Saúde das fontes de entrada e dos respectivos destinos
 Saúde de todos os servidores de reconhecimento
 Lista de todos os clientes de validação ativos
 Sumário de todos os “batches” ativos
 Drill down em perfis individuias e “batches”.
Mudança de estado de “batches” e recursos de
processamento
Relatório de histórico de “batches”
 Passos de processamento
 Quando, o que e o tempo que levou
 Monitoramento da performance
Slide 34 Copyright © Open Text Corporation. All rights reserved.
Interface para criação de Scripts e
Programação
Escreva scripts em C#
Programe com .net (DLLs)
Pontos de entrada durante o reconhecimento
 Antes do reconhecimento, ex. Predefinição de metadados
 Depois da classificação, ex. Para substituir decisão de classificação
automática
 Depois do reconhecimento, e.g. Para validar dados ou combinar
diversos campos de dados
Durante a validação
 Baseados em eventos disparados pelo usuário como entrada de dados
e mudança de valor
Exportação customizada
Conector de entrada
Slide 35 Copyright © Open Text Corporation. All rights reserved.
Slide 36
Obrigado
Marcelo Carrera
Sales Executive
Av. Ibirapuera, 2332, Torre II, Cj. 132
Tel: +55 11 5054-8373
Mobile: +55 11 98536-7739
Email: mcarrera@opentext.com

Mais conteúdo relacionado

Destaque

01 atlas do corpo humano 01_15
01 atlas do corpo humano 01_1501 atlas do corpo humano 01_15
01 atlas do corpo humano 01_15rafaelaperboni
 
Ânsia storyboard
Ânsia storyboardÂnsia storyboard
Ânsia storyboardsara pinho
 
Sala de recursos zuleide
Sala de recursos   zuleideSala de recursos   zuleide
Sala de recursos zuleideSUZANASALOMAO
 
Adm 01 -o que é administração -
Adm   01 -o que é administração -Adm   01 -o que é administração -
Adm 01 -o que é administração -EvelyneBorges
 
Mi ple - J. Gopal Rovira Porta
Mi ple - J. Gopal Rovira PortaMi ple - J. Gopal Rovira Porta
Mi ple - J. Gopal Rovira PortaGopal Rovira
 
Caso practico de técnicas de priorización
Caso practico de técnicas de priorizaciónCaso practico de técnicas de priorización
Caso practico de técnicas de priorizaciónPaco Anes
 
Revista - TC - Super Interessante
Revista - TC - Super InteressanteRevista - TC - Super Interessante
Revista - TC - Super InteressanteGuilherme Cerveira
 
P. a. lacaz´lecture iii about sccbesme humanidade 2003
P. a. lacaz´lecture iii about sccbesme humanidade 2003P. a. lacaz´lecture iii about sccbesme humanidade 2003
P. a. lacaz´lecture iii about sccbesme humanidade 2003Paulo Augusto Lacaz
 
Legislação Previdenciária – Aula 01-questões
Legislação Previdenciária – Aula 01-questõesLegislação Previdenciária – Aula 01-questões
Legislação Previdenciária – Aula 01-questõesRegina Pereira
 
3.2.1.1 atención a usuarios
3.2.1.1 atención a usuarios3.2.1.1 atención a usuarios
3.2.1.1 atención a usuariosjuangoto
 
06 prescrição e decadência
06 prescrição e decadência06 prescrição e decadência
06 prescrição e decadênciaSidnei Almeida
 

Destaque (20)

NOTICIA
NOTICIANOTICIA
NOTICIA
 
Gospelcards
GospelcardsGospelcards
Gospelcards
 
01 atlas do corpo humano 01_15
01 atlas do corpo humano 01_1501 atlas do corpo humano 01_15
01 atlas do corpo humano 01_15
 
Ânsia storyboard
Ânsia storyboardÂnsia storyboard
Ânsia storyboard
 
Leveson
LevesonLeveson
Leveson
 
Geiza Texto pauza
Geiza Texto pauzaGeiza Texto pauza
Geiza Texto pauza
 
Sala de recursos zuleide
Sala de recursos   zuleideSala de recursos   zuleide
Sala de recursos zuleide
 
Adm 01 -o que é administração -
Adm   01 -o que é administração -Adm   01 -o que é administração -
Adm 01 -o que é administração -
 
1º dia 7º ano
1º dia 7º ano1º dia 7º ano
1º dia 7º ano
 
Matematica
MatematicaMatematica
Matematica
 
Mi ple - J. Gopal Rovira Porta
Mi ple - J. Gopal Rovira PortaMi ple - J. Gopal Rovira Porta
Mi ple - J. Gopal Rovira Porta
 
Caso practico de técnicas de priorización
Caso practico de técnicas de priorizaciónCaso practico de técnicas de priorización
Caso practico de técnicas de priorización
 
Revista - TC - Super Interessante
Revista - TC - Super InteressanteRevista - TC - Super Interessante
Revista - TC - Super Interessante
 
Ergonomia
ErgonomiaErgonomia
Ergonomia
 
Presentacion Openoffice Impress
Presentacion Openoffice ImpressPresentacion Openoffice Impress
Presentacion Openoffice Impress
 
P. a. lacaz´lecture iii about sccbesme humanidade 2003
P. a. lacaz´lecture iii about sccbesme humanidade 2003P. a. lacaz´lecture iii about sccbesme humanidade 2003
P. a. lacaz´lecture iii about sccbesme humanidade 2003
 
Legislação Previdenciária – Aula 01-questões
Legislação Previdenciária – Aula 01-questõesLegislação Previdenciária – Aula 01-questões
Legislação Previdenciária – Aula 01-questões
 
Teamviewer
TeamviewerTeamviewer
Teamviewer
 
3.2.1.1 atención a usuarios
3.2.1.1 atención a usuarios3.2.1.1 atención a usuarios
3.2.1.1 atención a usuarios
 
06 prescrição e decadência
06 prescrição e decadência06 prescrição e decadência
06 prescrição e decadência
 

Semelhante a Digitalização de Notas Fiscais

Logistica e Sistemas de Automação
Logistica e Sistemas de AutomaçãoLogistica e Sistemas de Automação
Logistica e Sistemas de AutomaçãoPixelBits
 
Gerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimentoGerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimentocomercial-suse
 
Automação com Data Collection
Automação com Data CollectionAutomação com Data Collection
Automação com Data CollectionBRAVA Tecnologia
 
Palestra proferida em Curitiba, sobre Advocacia e Tecnologia, por Lara Selem
Palestra proferida em Curitiba, sobre Advocacia e Tecnologia, por Lara SelemPalestra proferida em Curitiba, sobre Advocacia e Tecnologia, por Lara Selem
Palestra proferida em Curitiba, sobre Advocacia e Tecnologia, por Lara SelemLara Selem
 
Implantação glpi empresa de advcacia
Implantação glpi empresa de advcaciaImplantação glpi empresa de advcacia
Implantação glpi empresa de advcaciaTiago Figueiredo
 
12º Insurance Service Meeting - Marco Dearo
12º Insurance Service Meeting - Marco Dearo12º Insurance Service Meeting - Marco Dearo
12º Insurance Service Meeting - Marco DearoCNseg
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoComunidade NetPonto
 
AutomationEdge Quality Nextech
AutomationEdge Quality NextechAutomationEdge Quality Nextech
AutomationEdge Quality NextechJorge Biesczad Jr.
 
Architecture In a Box - Plataforma de Aplicações
Architecture In a Box - Plataforma de AplicaçõesArchitecture In a Box - Plataforma de Aplicações
Architecture In a Box - Plataforma de AplicaçõesMarkus Christen
 
(5) Padronizacao de cadastro e abreviatura de campos
(5) Padronizacao de cadastro e abreviatura de campos(5) Padronizacao de cadastro e abreviatura de campos
(5) Padronizacao de cadastro e abreviatura de camposPortal KeyConsultas-web
 
inConcert Allegro Portugues
inConcert  Allegro PortuguesinConcert  Allegro Portugues
inConcert Allegro PortuguesDiegoPonce
 
Xerox and Autostore
Xerox and AutostoreXerox and Autostore
Xerox and AutostoreNSI LA
 
Service Desk e Customer Care Premier Plataforma Cool Vendor 2016
Service Desk e Customer Care Premier Plataforma Cool Vendor 2016Service Desk e Customer Care Premier Plataforma Cool Vendor 2016
Service Desk e Customer Care Premier Plataforma Cool Vendor 2016Jorge Biesczad Jr.
 
(2) Saneamento de Cadastros de Clientes e Fornecedores: o processo
(2) Saneamento de Cadastros de Clientes e Fornecedores: o processo(2) Saneamento de Cadastros de Clientes e Fornecedores: o processo
(2) Saneamento de Cadastros de Clientes e Fornecedores: o processoPortal KeyConsultas-web
 

Semelhante a Digitalização de Notas Fiscais (20)

Logistica e Sistemas de Automação
Logistica e Sistemas de AutomaçãoLogistica e Sistemas de Automação
Logistica e Sistemas de Automação
 
Gerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimentoGerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimento
 
Automação com Data Collection
Automação com Data CollectionAutomação com Data Collection
Automação com Data Collection
 
Nota Fiscal Eletrônica
Nota Fiscal EletrônicaNota Fiscal Eletrônica
Nota Fiscal Eletrônica
 
Palestra proferida em Curitiba, sobre Advocacia e Tecnologia, por Lara Selem
Palestra proferida em Curitiba, sobre Advocacia e Tecnologia, por Lara SelemPalestra proferida em Curitiba, sobre Advocacia e Tecnologia, por Lara Selem
Palestra proferida em Curitiba, sobre Advocacia e Tecnologia, por Lara Selem
 
Implantação glpi empresa de advcacia
Implantação glpi empresa de advcaciaImplantação glpi empresa de advcacia
Implantação glpi empresa de advcacia
 
12º Insurance Service Meeting - Marco Dearo
12º Insurance Service Meeting - Marco Dearo12º Insurance Service Meeting - Marco Dearo
12º Insurance Service Meeting - Marco Dearo
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis Paulino
 
AutomationEdge Quality Nextech
AutomationEdge Quality NextechAutomationEdge Quality Nextech
AutomationEdge Quality Nextech
 
Oobj CT-e - Conhecimento de Transporte Eletrônico
Oobj CT-e - Conhecimento de Transporte EletrônicoOobj CT-e - Conhecimento de Transporte Eletrônico
Oobj CT-e - Conhecimento de Transporte Eletrônico
 
Oobj CT-e
Oobj CT-eOobj CT-e
Oobj CT-e
 
Architecture In a Box - Plataforma de Aplicações
Architecture In a Box - Plataforma de AplicaçõesArchitecture In a Box - Plataforma de Aplicações
Architecture In a Box - Plataforma de Aplicações
 
(5) Padronizacao de cadastro e abreviatura de campos
(5) Padronizacao de cadastro e abreviatura de campos(5) Padronizacao de cadastro e abreviatura de campos
(5) Padronizacao de cadastro e abreviatura de campos
 
inConcert
inConcert inConcert
inConcert
 
inConcert Allegro Portugues
inConcert  Allegro PortuguesinConcert  Allegro Portugues
inConcert Allegro Portugues
 
Xerox and Autostore
Xerox and AutostoreXerox and Autostore
Xerox and Autostore
 
Service Desk e Customer Care Premier Plataforma Cool Vendor 2016
Service Desk e Customer Care Premier Plataforma Cool Vendor 2016Service Desk e Customer Care Premier Plataforma Cool Vendor 2016
Service Desk e Customer Care Premier Plataforma Cool Vendor 2016
 
(2) Saneamento de Cadastros de Clientes e Fornecedores: o processo
(2) Saneamento de Cadastros de Clientes e Fornecedores: o processo(2) Saneamento de Cadastros de Clientes e Fornecedores: o processo
(2) Saneamento de Cadastros de Clientes e Fornecedores: o processo
 
Saneamento de Cadastro de Clientes e Fornecedores (KeyConsultas-web)
Saneamento de Cadastro de Clientes e Fornecedores (KeyConsultas-web)Saneamento de Cadastro de Clientes e Fornecedores (KeyConsultas-web)
Saneamento de Cadastro de Clientes e Fornecedores (KeyConsultas-web)
 
Apresentação+do+stoq
Apresentação+do+stoqApresentação+do+stoq
Apresentação+do+stoq
 

Digitalização de Notas Fiscais

  • 1. Copyright © OpenText Corporation. All rights reserved. Open Text Capture Center Classificação e Extração Automática de Dados de Documento Marcelo Carrera Sales Executive April 20, 2013 Copyright © Open Text Corporation. All rights reserved. Slide 1
  • 3. Tecnologias de Documento da Open Text  Antigo CGK, Computer Gesellschaft Konstanz  Processando Documentos desde 1972  Incomparável: Pacote completo de tecnologia  Líder mundial em tecnologia de reconhecimento  Atendimento Global  Desde 2009 como parte da Open Text  CDT: Captaris Document Technologies e  ODT: OCÉ Document Technologies 3
  • 4. Alguns de Nossos Clientes 4 OEM Clientes Diretos o
  • 5. Beneficios, Escopo e Casos de Uso
  • 6. OCC – Beneficio Copyright © Open Text Corporation. All rights reserved. Q Melhorar a Qualidade da Informação  Melhorar o compartilhamento de informação  Aproveitar um conjunto comum de regras de negócio  Reduzir erros $ Reduzir Custos Operacionais  Automatizar tarefas manuais  Implantar uma plataforma única de entrada de documentos  Reduzir preenchimento/armazenamento de papel  Acelerar os Processos de Negócio Diminuir o tempo de um ciclo Reduzir o processamento de exceção Melhorar o relacionamento com clientes Aumentar produtividade da equipe Conformidade (“Compliance”)  Garantir conformidade / auditabilidade  Melhorar visibilidade dos processos de negócio  Ter evidências para o caso de um litigio §§
  • 7. Produtos Slide 7 Nota Fiscal Requerimento Verificação Solicitação OpenText Enterprise Scan Invoice Capture Center OpenText Capture Center Aplicações Alvo Content Server TCP, IDM, VRD, C36 0, P360, … SharePoint Copyright © Open Text Corporation. All rights reserved.
  • 8. Casos de Uso Slide 8 Gera Dinheiro Economiza Dinheiro Documento Eletrônico Qualificado Permite Workflow Digital Captura de Dados / Documento Reduzir Entrada Manual Permite automação de Processos  Digitalização de Correspondência  Digitalizar Documentos em Arquivos Eletrônicos  Conversão de Documentos de Processos Antigo  Gerenciamento de Transações e Processos  Centro de Serviços  Captura Ad-Hoc Copyright © Open Text Corporation. All rights reserved.
  • 9. Caso de Uso: Digitalização de Correspondência LAD I G I T P A P E L Tempo Decorrido Distribuição Interna Trabalho Produtivo Análise de Documento Digitalização Preparação Entrega de Correspondência Distribuição Interna Copia Trabalho Produtivo EntregaTransporte Interno Seleção Entrega de Correspondência Copyright © Open Text Corporation. All rights reserved.
  • 11. Visão Geral dos Componentes do OCC IM EX Fax, Email, FTP site, Pasta de Rede SharePoint Cliente do Enterprise Scan Aplicações de Negócio Arquivo ConfiguraçãoMonitoramento Expedição ValidaçãoReconhecimento Open Text Capture Center Copyright © Open Text Corporation. All rights reserved.
  • 12. Reconhecimento: Diferente Tipos de Documentos Documentos Estruturados > Formulários Documentos Semi- Estruturados > Correspondência B2B Documentos Desestruturados > Correspondência C2B Os dados estão em grupos lógicos mas as suas posições são desconhecidas Os dados podem estar em qualquer lugar do documento Dados em posições fixas Copyright © Open Text Corporation. All rights reserved.
  • 13. Passos no Reconhecimento de Documentos Slide 13 Interpretação: Reforçar os dados extraídos dentro do contexto da informação 21012010 332.29 USD X-44277 K441258-3 Data: Jan 21. 2010 Valor: 332,29 $ Nr do Pedido: X-44277 Fornecedor: Mueller & Friends Classificação: Identificação do tipo de documento „Nota Fiscal” „Notas de Entrega“ „Pedidos“ „Outros“ Extração: Buscar informação básica no documento Data: Jan 21. 2010 Valor: 332,29 $ Nr do Pedido: X-44277 Fornecedor: Mueller & Friends Invoice … Separação: Dividir um lote de imagens em documentos individuais (várias páginas) Copyright © Open Text Corporation. All rights reserved.
  • 14. Importação Importação Direta a partir do Enterprise Scan  Estrutura de documento e pasta mantidos  ES de meta dados mapeados para o index de dados do OCC Entrada de Documento (hot spot) por  File system  E-Mail  FTP site  SharePoint Tipos de Documentos  Documentos Bitmap: TIFF, GIF, JPG, …  Petro e Branco, escala de cinza, colorido  Documentos PDF Copyright © Open Text Corporation. All rights reserved.
  • 15. Reconhecimento: Separação de Documento Documento 1 Documento 2 Documento 3  Coleta de páginas individuais em documentos  Fronteiras do documento podem ser definidas por bordas Código de Barra Patch Code Número Fixo de Páginas Conteúdo e regras Copyright © Open Text Corporation. All rights reserved.
  • 16. Reconhecimento: Classificação de Documento 16  Classifique cada documento de acordo com a sua categoria  Métodos Baseado em Regras, ex. certas frases ou objetos em alguma posição Adaptativa: aprendizado baseado em amostras Pontos de identificação: por números, códigos de barras Uma combinação dos tipos acima
  • 17. Reconhecimento: Motores de Extração Copyright © Open Text Corporation. All rights reserved. Baseado em Regras Classificação & Extração Adaptativa Auto-rotação Desentortar / Limpar Imagem Remoção de Linhas Filtro de Cor Adaptive Binarization … Processamento de Imagens Código de Barras 1D Código de Barras 2D Patch Code Check Box Mark Sense Padrão de Reconhecimento Impressora Escrita a mão OCR Font e.g. MICR Core OCR Reconhecimento de Formulários Reconhecimento de formas livres Classificação (ACT) Extração (ART) Bando de dados base (SnapMatch) Motor de Reconhecimento (RecoStar) Leitor de Documento(DOKuStar)
  • 18. Extração de Formas Livres Normalizar “10/24/10” Format (US) Day = 24 Month = Oct Year = 2010 24.10.2010 Decompõe a “string” em subunidades e reformata conforme exigido Vericar Compara com regras de negócio e verifica se faz sentido Períod o valido ? 24.10.2010 yes no Exporta Entrada Manual Analisar Date Word Number Busca identicações que fazem sentido com as regras Transforma pixels em caracteres por meio do reconhecimento ótico de caracteres OCR CLERK: 12 DATE SHIPPED ORDER DATE 10/30/02 10/24/02 COVER CODE PA 3 Extrair Order_Date = “10/24/10” Encontra a data correta entre todas as alternaticas possiveis Copyright © Open Text Corporation. All rights reserved.
  • 19. Efeito de Longo Prazo das Técnicas de Forma Livre Abordagem de OCC Reconhecimento de forma livre Tecnologia Adaptativa (=aprendizado) Combinando forma livre e adaptativa Reconhecimento baseado (template) na forma Aumento da taxa de reconhecimento durante tempo de produção Copyright © Open Text Corporation. All rights reserved.
  • 20. Opção de Nota Fiscal O Capture Center utiliza uma base de conhecimento interna de notas fiscais As regras de extração forma desenvolvidas e testadas com base em amostras de notas fiscais de mais de 4000 fornecedores diferentes. Exemplos de idiomas de mais de 25 paises incluindo o Brasil Taxa de reconhecimento de mais de 95% no nível de campos, com valores médios entre 70% a 90% Refinamento continuo baseado na experiência de campos Copyright © Open Text Corporation. All rights reserved.
  • 21. Extração de Dados de Nota Fiscal Fornecedor Número da Nota Linha de Itens Valor Liquido Valor Total Data da Nota Número do Pedido Moeda Nota da Entrega Copyright © Open Text Corporation. All rights reserved.
  • 22. Amostra de Dados de Nota Fiscal Dados ID do fornecedor como no dado mestre Nome do vendedor Como o dado é extraído? Pesquisa de base de dados SnapMatch Utiliza o dado mestre de fornecedor incluindo informações auxiliares (nome da empresa, número de FAX e telefone, endereço, …) Uso Necessário para a postagem Campos mandatórios para formulários de nota fiscal Configuração Script para download para base de fornecedores Número Tel / Fax Nome Endereço Conta do banco Dados mestre (extraido do ERP) Outro… ID do fornecedor Nome do fornecedor Fornecedor Copyright © Open Text Corporation. All rights reserved.
  • 23. Amostra de Dados de Nota Fiscal (continuação) Dados Liquido, bruto, valor e moeda (padrão) Percentagem de imposto(s), valor(s), frete, … (opcional) Como os dados são extraídos? Uso de base de conhecimento de nota fiscal Pesquisa por itens (uma nota fiscal é cheia de valores) Relacionamento lógicos e geométricos entre valores são utilizados para remover as ambiguidades Uso Necessário para a postagem Campos mandatórios para formulários de nota fiscal Configuração Configuração de idioma Valor(es) Copyright © Open Text Corporation. All rights reserved.
  • 24. Amostra de Dados de Nota Fiscal (continuação) Data Data de emissão Número de referência do fornecedor Como os dados são extraídos? Uso de base de conhecimento de nota fiscal Pesquisa por itens (uma nota fiscal é cheia de valores) Normalmente a data e o número da nota fiscal estão próximos Uso Necessário para a postagem Campos mandatórios para formulários de nota fiscal Configuração Configuração de idioma Intervalo de datas aceitas por script Data é numero da nota fiscal Copyright © Open Text Corporation. All rights reserved.
  • 25. Amostra de Dados de Nota Fiscal (continuação) Dado Número do pedido de compras Como os dados são extraídos? Uso de base de conhecimento de nota fiscal Pesquisa por itens chave Uso de sintaxe pre-definida (450…) ou fazendo download dos pedidos de compras em aberto Uso Necessário para a postagem e para conferência de itens por linha Campos mandatórios para formulários de nota fiscal Configuração Sintaxe utilizada pela empresa para números de pedidos Configuração de idioma Número do Pedido de Compras Copyright © Open Text Corporation. All rights reserved.
  • 26. Amostra de Dados de Nota Fiscal (continuação) Data Número do pedido, número de ordem da linha, quantidade, unidade, preço unitário, preço total, percentagem de imposto e valor, descrição, número da nota de entrega. Como os dados são extraídos? Análise de layout e conteúdo Uso opcional de cabeçalhos de coluna Variando a ordem de linhas Uso Os dados precisam estar de acordo com o pedido e os bens entregues Uso: Opcionalmente Configuração Configuração de idioma Itens de Linha Copyright © Open Text Corporation. All rights reserved.
  • 27. OCR – Estado da Arte Impresso Texto OCR Escrita Manual Escrita Cursiva Praticamente perfeito Perfeito ou aceitável Para produção Apenas em ambientes restritos Copyright © Open Text Corporation. All rights reserved.
  • 28. Reconhecimento: Balanceamento de Carga  Fácil de Escalar  Maior rendimento com clusters de servidores de reconhecimento  Suporta todos os cenários de fail-over Copyright © Open Text Corporation. All rights reserved. Servidor de Reconhecimento 2 Nós Runtime Servidor OCC Servidor de Reconhecimento 1 Nós Runtime Nós Runtime
  • 29. Validação Copyright © Open Text Corporation. All rights reserved.  Correção de Separação de documento Classificação de documento Dados Extraidos Desenho ergonômico Destaque (Highlight) de dados extraidos Pula campos corretos Controle total por teclado Entrada com clique único: Extração de dados semi-automatica com apontamento do dado
  • 30. Entrada com um só clique Copyright © Open Text Corporation. All rights reserved.
  • 31. Validação de Desenho de Máscara Slide 31 Copyright © Open Text Corporation. All rights reserved.
  • 32. Exportação Content Server (LiveLink)  Pasta dependente da classe do documento  Configuração de nome de arquivo  Meta dados por categoria  Disparo de Workflow SharePoint  Biblioteca depentende da classe do documento  Configuração do nome do arquivo  Atributos da biblioteca  Atributos do caminho da informação File System  Pasta e nome do arquivos selecionáveis  Dado em XML ou CSV Exportação customizada Copyright © Open Text Corporation. All rights reserved.
  • 33. Configuração Importação de esquema de dados das categorias do Content Server ou das bibliotecas do SharePoint Fácil definição de tipos de campos Comece com KFI (key from image) e depois automatize passo a passo  Entrada de dados semiautomática  Aprendizado adaptativo  Operadores de extração pré-definidos  Operadores de extração definidos pelo usuário Design Studio para definição de campos para formulários e para sem formulários  Processos simplificados para desenvolvimento, teste e implementação  Teste com grandes volume de dados  Teste de regração Copyright © Open Text Corporation. All rights reserved.
  • 34. Monitoramento e Relatórios Ferramenta de monitoramento para controlar fase de produção  Saúde das fontes de entrada e dos respectivos destinos  Saúde de todos os servidores de reconhecimento  Lista de todos os clientes de validação ativos  Sumário de todos os “batches” ativos  Drill down em perfis individuias e “batches”. Mudança de estado de “batches” e recursos de processamento Relatório de histórico de “batches”  Passos de processamento  Quando, o que e o tempo que levou  Monitoramento da performance Slide 34 Copyright © Open Text Corporation. All rights reserved.
  • 35. Interface para criação de Scripts e Programação Escreva scripts em C# Programe com .net (DLLs) Pontos de entrada durante o reconhecimento  Antes do reconhecimento, ex. Predefinição de metadados  Depois da classificação, ex. Para substituir decisão de classificação automática  Depois do reconhecimento, e.g. Para validar dados ou combinar diversos campos de dados Durante a validação  Baseados em eventos disparados pelo usuário como entrada de dados e mudança de valor Exportação customizada Conector de entrada Slide 35 Copyright © Open Text Corporation. All rights reserved.
  • 36. Slide 36 Obrigado Marcelo Carrera Sales Executive Av. Ibirapuera, 2332, Torre II, Cj. 132 Tel: +55 11 5054-8373 Mobile: +55 11 98536-7739 Email: mcarrera@opentext.com