Virtualização de dados para Advanced Analytics e Machine Learning

Virtualização de dados para
Advanced Analytics e
Machine Learning
Gabriella Figueiredo
Sales Account Manager – QSOFT
Guilherme Gonçalves Nunes
Data Scientist – QSOFT
Evandro Pacolla
Sales Engineer – Denodo

Palestrantes
Gabriella Figueiredo
Sales Account
Manager
Guilherme Nunes
Data
Scientist
Evandro Pacolla
Sales
Engineer

1. Introdução
2. Rapidminer GO
3. Escala de análise
4. Dados e Advanced Analytics
5. Metodologia Q-IA para Data Mining
6. IA e machine learning precisam de dados
7. Virtualizando os dados para rápidas implantações
8. Q&A
Agenda

Escala de Análise
Descritiva
Envolve a organização, resumo
e apresentação dos dados.
Inferencial
Envolve o uso de uma amostra
para chegar a conclusões sobre
uma população.

Escala de Análise e Input Humano

Dados e Advanced Analytics
E esse ingrediente tão especial para as análises pode vir dos mais diversos locais e formatos:
• Arquivos em diversos formatos (CSV, logs, Parquet, …);
• Bancos de dados Relacionais (EDW, Sistemas, …);
• NoSQL (Documentos, documentos chave-valor, …);
• APIs SaaS (Salesforce, Facebook, Twitter, …)

9
IA e machine learning precisam de dados
Prever pacientes de alto risco
Os dados incluem demografia
do paciente, histórico familiar,
sinais vitais do paciente,
resultados de exames
laboratoriais, histórico de
medicamentos passados,
visitas ao hospital e quaisquer
dados de sinistros
Prever falha no equipamento
Os dados podem incluir registros
de dados de manutenção
mantidos pelos técnicos,
especialmente para máquinas
mais antigas. Para máquinas
mais novas, os dados
provenientes dos diferentes
sensores da máquina —
incluindo temperatura, tempo de
funcionamento, durações no
nível de energia e mensagens de
erro
Prever riscos de inadimplência
da empresa ou individual,
produtos que compraram/
usaram, histórico de
pagamentos passados,
registros de suporte ao cliente
e quaisquer eventos adversos
recentes.
Prevenção de sinistros
fraudulentos
Os dados incluem a
localização de origem da
reclamação, hora do dia,
histórico do requerente, valor
da reclamação e até dados
públicos, como o Banco
nacional de fraudes.
Prever churn de clientes
do cliente, produtos
comprados, uso de produtos,
chamadas de clientes, tempo
desde o último contato,
histórico de transações
passado, indústria, tamanho
da empresa e receita.

10
Mas os Dados estão em algum lugar aqui…

11
Confirmação das Restrições em ML/AI…
Source: Machine learning in UK financial services, Bank of England
and Financial Conduct Authority, October 2019

13
Fluxo de trabalho típico de ciência de dados
Um fluxo de trabalho típico para um cientista de dados
é:
1. Reunir os requisitos para o problema dos negócios
2. Identificar dados úteis para o caso
• Ingerir dados
3. Limpe os dados em um formato útil
4. Analisar dados
5. Prepare a entrada para seus algoritmos
6. Executar algoritmos de ciência de dados (ML, IA,
etc.)
• Repetir 2-6 até que insights valiosos sejam produzidos
7. Visualize e compartilhe

14
Fluxo de trabalho típico de ciência de dados
80% do tempo – Encontrando e preparando os dados
10% de tempo – Análise
10% de tempo – Visualizando dados

15
Para onde vai seu tempo?
Uma grande quantidade de tempo e esforço entra em tarefas não
intrinsecamente relacionadas à ciência de dados:
• Descobrir onde os dados certos podem estar
• Obtendo acesso aos dados
• Burocracia
• Entendendo os métodos de acesso e a tecnologia (noSQL, REST APIs, etc.)
• Transformando dados em um formato fácil de trabalhar
• Combinando dados originalmente disponíveis em diferentes fontes e formatos
• Perfil e limpeza de dados para eliminar pontos de dados incompletos ou inconsistentes

16
TI – Dilema dos negócios
TI foca na coleta
e
armazenamento
de dados
Negócios focam
em Visualização
e Análise de
Dados
Ninguém focado na entrega de dados
– Então os dados são replicados dezenas de vezes para poder
serem utilizados
Inventory System
(MS SQL Server)
Product Catalog
(Web Service -SOAP)
BI / Reporting
JDBC, ODBC,
ADO .NET
Web / Mobile
WS – REST JSON,
XML, HTML, RSS
Log files
(.txt/.log files)
CRM
(MySQL)
Billing System
(Web Service - Rest)
ETL
Portals
JSR168 / 286,
Ms Web Parts
SOA, Middleware,
Enterprise Apps
WS – SOAP
Java API
Customer Voice
(Internet, Unstruc)

18
Seis capacidades essenciais da virtualização de dados
4. Serviços de dados em sistema
‘self-service’
5. Centralização dos metadados,
segurança e governança
6. Estrutura multi-nuvem
independente de localização,
aceleração híbrida
1. Captação de dados
2. Replicação zero, realocação zero
3. Informação em tempo real

19
Como funciona?
Development
Lifecycle Mgmt
Monitoring & Audit
Governance
Security
Development Tools
and SDK
Scheduled Tasks
Data Caching
Query Optimizer
JDBC/ODBC/ADO.Net SOAP / REST WS
U
Business
View
Data Mart
View
J
Application
Layer
Business
Layer
Unified View Unified View
Unified View
Unified View
A
J
J
Derived View Derived View
J
J
S
Data
Source
Layer
Base
View
Base
View
Base
View
Base
View
Base
View
Base
View
Base
View

A solução – Uma camada de abstração de dados
20
Abstrai o acesso a dados de
diferentes fontes
Funciona como um repositório único
(virtual)
Disponibiliza os dados em
tempo real para os usuários
DATA ABSTRACTION LAYER
“Arquitetos corporativos estão descobrindo que as
arquiteturas de dados tradicionais não estão
atendendo às novas demandas dos negócios,
sobretudo acerca da integração de dados para análise
em tempo real”
The Forrester Wave: Enterprise Data Virtualization, Jan 12, 2018
DATA VIRTUALIZATION PLATFORM

21
Key Takeaways
Conclusão
Abstração de
Fontes
• Substitui a
complexidade
de acesso pela
facilidade de ter
tudo em um
único lugar.
Modelo de
Dados
Semântico
• Entidades e
visões pré
agregadas com
segurança e
privacidade.
Opções
Flexíveis de
publicação
• Múltiplas
opções JDBC,
ODBC, Web
Services. Para
se adapatar ao
negócio.
Operação e
criação
• Simplifica a
segurança ,
privacidade e
auditoria.
Facilita o Self-
service
• Simplifica o
processo de
busca pelo
dado correto.

www.denodo.com
info.la@denodo.com
www.qsoft.com.br
comercial@qsoft.com.br
Thanks!

Virtualização de dados para Advanced Analytics e Machine Learning

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Virtualização de dados para Advanced Analytics e Machine Learning

Semelhante a Virtualização de dados para Advanced Analytics e Machine Learning (20)

Mais de Denodo

Mais de Denodo (20)

Virtualização de dados para Advanced Analytics e Machine Learning