Watch full webinar here: https://bit.ly/31iF9Ot
Técnicas avançadas de ciência de dados, como o Machine Learning, provaram ser uma ferramenta extremamente útil para se obter valiosos insights a partir de dados existentes. Plataformas como RapidMiner e bibliotecas para R e Python simplificam partes do processo e colocam técnicas avançadas à disposição de cientistas de dados. Entretanto, estes profissionais passam até 80% de seu tempo procurando os dados corretos e preparando-os em um formato ideal para a aplicação do Machine Learning. Com isso, a virtualização de dados se torna uma nova alternativa para abordar estas questões de uma maneira mais eficiente e ágil.
Participe deste webinar e descubra:
- Como você pode usar a Plataforma Denodo com grandes volumes de dados de uma maneira eficiente
- Casos de uso do cliente e uma demonstração ao vivo de análise preditiva e virtualização de dados
3. 1. Introdução
2. Rapidminer GO
3. Escala de análise
4. Dados e Advanced Analytics
5. Metodologia Q-IA para Data Mining
6. IA e machine learning precisam de dados
7. Virtualizando os dados para rápidas implantações
8. Q&A
Agenda
4. Escala de Análise
Descritiva
Envolve a organização, resumo
e apresentação dos dados.
Inferencial
Envolve o uso de uma amostra
para chegar a conclusões sobre
uma população.
7. Dados e Advanced Analytics
E esse ingrediente tão especial para as análises pode vir dos mais diversos locais e formatos:
• Arquivos em diversos formatos (CSV, logs, Parquet, …);
• Bancos de dados Relacionais (EDW, Sistemas, …);
• NoSQL (Documentos, documentos chave-valor, …);
• APIs SaaS (Salesforce, Facebook, Twitter, …)
9. 9
IA e machine learning precisam de dados
Prever pacientes de alto risco
Os dados incluem demografia
do paciente, histórico familiar,
sinais vitais do paciente,
resultados de exames
laboratoriais, histórico de
medicamentos passados,
visitas ao hospital e quaisquer
dados de sinistros
Prever falha no equipamento
Os dados podem incluir registros
de dados de manutenção
mantidos pelos técnicos,
especialmente para máquinas
mais antigas. Para máquinas
mais novas, os dados
provenientes dos diferentes
sensores da máquina —
incluindo temperatura, tempo de
funcionamento, durações no
nível de energia e mensagens de
erro
Prever riscos de inadimplência
Os dados incluem demografia
da empresa ou individual,
produtos que compraram/
usaram, histórico de
pagamentos passados,
registros de suporte ao cliente
e quaisquer eventos adversos
recentes.
Prevenção de sinistros
fraudulentos
Os dados incluem a
localização de origem da
reclamação, hora do dia,
histórico do requerente, valor
da reclamação e até dados
públicos, como o Banco
nacional de fraudes.
Prever churn de clientes
Os dados incluem demografia
do cliente, produtos
comprados, uso de produtos,
chamadas de clientes, tempo
desde o último contato,
histórico de transações
passado, indústria, tamanho
da empresa e receita.
11. 11
Confirmação das Restrições em ML/AI…
Source: Machine learning in UK financial services, Bank of England
and Financial Conduct Authority, October 2019
13. 13
Fluxo de trabalho típico de ciência de dados
Um fluxo de trabalho típico para um cientista de dados
é:
1. Reunir os requisitos para o problema dos negócios
2. Identificar dados úteis para o caso
• Ingerir dados
3. Limpe os dados em um formato útil
4. Analisar dados
5. Prepare a entrada para seus algoritmos
6. Executar algoritmos de ciência de dados (ML, IA,
etc.)
• Repetir 2-6 até que insights valiosos sejam produzidos
7. Visualize e compartilhe
14. 14
Fluxo de trabalho típico de ciência de dados
80% do tempo – Encontrando e preparando os dados
10% de tempo – Análise
10% de tempo – Visualizando dados
15. 15
Para onde vai seu tempo?
Uma grande quantidade de tempo e esforço entra em tarefas não
intrinsecamente relacionadas à ciência de dados:
• Descobrir onde os dados certos podem estar
• Obtendo acesso aos dados
• Burocracia
• Entendendo os métodos de acesso e a tecnologia (noSQL, REST APIs, etc.)
• Transformando dados em um formato fácil de trabalhar
• Combinando dados originalmente disponíveis em diferentes fontes e formatos
• Perfil e limpeza de dados para eliminar pontos de dados incompletos ou inconsistentes
16. 16
TI – Dilema dos negócios
TI foca na coleta
e
armazenamento
de dados
Negócios focam
em Visualização
e Análise de
Dados
Ninguém focado na entrega de dados
– Então os dados são replicados dezenas de vezes para poder
serem utilizados
Inventory System
(MS SQL Server)
Product Catalog
(Web Service -SOAP)
BI / Reporting
JDBC, ODBC,
ADO .NET
Web / Mobile
WS – REST JSON,
XML, HTML, RSS
Log files
(.txt/.log files)
CRM
(MySQL)
Billing System
(Web Service - Rest)
ETL
Portals
JSR168 / 286,
Ms Web Parts
SOA, Middleware,
Enterprise Apps
WS – SOAP
Java API
Customer Voice
(Internet, Unstruc)
18. 18
Seis capacidades essenciais da virtualização de dados
4. Serviços de dados em sistema
‘self-service’
5. Centralização dos metadados,
segurança e governança
6. Estrutura multi-nuvem
independente de localização,
aceleração híbrida
1. Captação de dados
2. Replicação zero, realocação zero
3. Informação em tempo real
19. 19
Como funciona?
Development
Lifecycle Mgmt
Monitoring & Audit
Governance
Security
Development Tools
and SDK
Scheduled Tasks
Data Caching
Query Optimizer
JDBC/ODBC/ADO.Net SOAP / REST WS
U
Business
View
Data Mart
View
J
Application
Layer
Business
Layer
Unified View Unified View
Unified View
Unified View
A
J
J
Derived View Derived View
J
J
S
Data
Source
Layer
Base
View
Base
View
Base
View
Base
View
Base
View
Base
View
Base
View
20. A solução – Uma camada de abstração de dados
20
Abstrai o acesso a dados de
diferentes fontes
Funciona como um repositório único
(virtual)
Disponibiliza os dados em
tempo real para os usuários
DATA ABSTRACTION LAYER
“Arquitetos corporativos estão descobrindo que as
arquiteturas de dados tradicionais não estão
atendendo às novas demandas dos negócios,
sobretudo acerca da integração de dados para análise
em tempo real”
The Forrester Wave: Enterprise Data Virtualization, Jan 12, 2018
DATA VIRTUALIZATION PLATFORM
21. 21
Key Takeaways
Conclusão
Abstração de
Fontes
• Substitui a
complexidade
de acesso pela
facilidade de ter
tudo em um
único lugar.
Modelo de
Dados
Semântico
• Entidades e
visões pré
agregadas com
segurança e
privacidade.
Opções
Flexíveis de
publicação
• Múltiplas
opções JDBC,
ODBC, Web
Services. Para
se adapatar ao
negócio.
Operação e
criação
• Simplifica a
segurança ,
privacidade e
auditoria.
Facilita o Self-
service
• Simplifica o
processo de
busca pelo
dado correto.