SlideShare uma empresa Scribd logo
1 de 23
Baixar para ler offline
Virtualização de dados para
Advanced Analytics e
Machine Learning
Gabriella Figueiredo
Sales Account Manager – QSOFT
Guilherme Gonçalves Nunes
Data Scientist – QSOFT
Evandro Pacolla
Sales Engineer – Denodo
Palestrantes
Gabriella Figueiredo
Sales Account
Manager
Guilherme Nunes
Data
Scientist
Evandro Pacolla
Sales
Engineer
1. Introdução
2. Rapidminer GO
3. Escala de análise
4. Dados e Advanced Analytics
5. Metodologia Q-IA para Data Mining
6. IA e machine learning precisam de dados
7. Virtualizando os dados para rápidas implantações
8. Q&A
Agenda
Escala de Análise
Descritiva
Envolve a organização, resumo
e apresentação dos dados.
Inferencial
Envolve o uso de uma amostra
para chegar a conclusões sobre
uma população.
Escala de Análise
Escala de Análise e Input Humano
Dados e Advanced Analytics
E esse ingrediente tão especial para as análises pode vir dos mais diversos locais e formatos:
• Arquivos em diversos formatos (CSV, logs, Parquet, …);
• Bancos de dados Relacionais (EDW, Sistemas, …);
• NoSQL (Documentos, documentos chave-valor, …);
• APIs SaaS (Salesforce, Facebook, Twitter, …)
Q-IA
9
IA e machine learning precisam de dados
Prever pacientes de alto risco
Os dados incluem demografia
do paciente, histórico familiar,
sinais vitais do paciente,
resultados de exames
laboratoriais, histórico de
medicamentos passados,
visitas ao hospital e quaisquer
dados de sinistros
Prever falha no equipamento
Os dados podem incluir registros
de dados de manutenção
mantidos pelos técnicos,
especialmente para máquinas
mais antigas. Para máquinas
mais novas, os dados
provenientes dos diferentes
sensores da máquina —
incluindo temperatura, tempo de
funcionamento, durações no
nível de energia e mensagens de
erro
Prever riscos de inadimplência
Os dados incluem demografia
da empresa ou individual,
produtos que compraram/
usaram, histórico de
pagamentos passados,
registros de suporte ao cliente
e quaisquer eventos adversos
recentes.
Prevenção de sinistros
fraudulentos
Os dados incluem a
localização de origem da
reclamação, hora do dia,
histórico do requerente, valor
da reclamação e até dados
públicos, como o Banco
nacional de fraudes.
Prever churn de clientes
Os dados incluem demografia
do cliente, produtos
comprados, uso de produtos,
chamadas de clientes, tempo
desde o último contato,
histórico de transações
passado, indústria, tamanho
da empresa e receita.
10
Mas os Dados estão em algum lugar aqui…
11
Confirmação das Restrições em ML/AI…
Source: Machine learning in UK financial services, Bank of England
and Financial Conduct Authority, October 2019
12
A Escala do Problema…
13
Fluxo de trabalho típico de ciência de dados
Um fluxo de trabalho típico para um cientista de dados
é:
1. Reunir os requisitos para o problema dos negócios
2. Identificar dados úteis para o caso
• Ingerir dados
3. Limpe os dados em um formato útil
4. Analisar dados
5. Prepare a entrada para seus algoritmos
6. Executar algoritmos de ciência de dados (ML, IA,
etc.)
• Repetir 2-6 até que insights valiosos sejam produzidos
7. Visualize e compartilhe
14
Fluxo de trabalho típico de ciência de dados
80% do tempo – Encontrando e preparando os dados
10% de tempo – Análise
10% de tempo – Visualizando dados
15
Para onde vai seu tempo?
Uma grande quantidade de tempo e esforço entra em tarefas não
intrinsecamente relacionadas à ciência de dados:
• Descobrir onde os dados certos podem estar
• Obtendo acesso aos dados
• Burocracia
• Entendendo os métodos de acesso e a tecnologia (noSQL, REST APIs, etc.)
• Transformando dados em um formato fácil de trabalhar
• Combinando dados originalmente disponíveis em diferentes fontes e formatos
• Perfil e limpeza de dados para eliminar pontos de dados incompletos ou inconsistentes
16
TI – Dilema dos negócios
TI foca na coleta
e
armazenamento
de dados
Negócios focam
em Visualização
e Análise de
Dados
Ninguém focado na entrega de dados
– Então os dados são replicados dezenas de vezes para poder
serem utilizados
Inventory System
(MS SQL Server)
Product Catalog
(Web Service -SOAP)
BI / Reporting
JDBC, ODBC,
ADO .NET
Web / Mobile
WS – REST JSON,
XML, HTML, RSS
Log files
(.txt/.log files)
CRM
(MySQL)
Billing System
(Web Service - Rest)
ETL
Portals
JSR168 / 286,
Ms Web Parts
SOA, Middleware,
Enterprise Apps
WS – SOAP
Java API
Customer Voice
(Internet, Unstruc)
17
Reference Architecture
18
Seis capacidades essenciais da virtualização de dados
4. Serviços de dados em sistema
‘self-service’
5. Centralização dos metadados,
segurança e governança
6. Estrutura multi-nuvem
independente de localização,
aceleração híbrida
1. Captação de dados
2. Replicação zero, realocação zero
3. Informação em tempo real
19
Como funciona?
Development
Lifecycle Mgmt
Monitoring & Audit
Governance
Security
Development Tools
and SDK
Scheduled Tasks
Data Caching
Query Optimizer
JDBC/ODBC/ADO.Net SOAP / REST WS
U
Business
View
Data Mart
View
J
Application
Layer
Business
Layer
Unified View Unified View
Unified View
Unified View
A
J
J
Derived View Derived View
J
J
S
Data
Source
Layer
Base
View
Base
View
Base
View
Base
View
Base
View
Base
View
Base
View
A solução – Uma camada de abstração de dados
20
Abstrai o acesso a dados de
diferentes fontes
Funciona como um repositório único
(virtual)
Disponibiliza os dados em
tempo real para os usuários
DATA ABSTRACTION LAYER
“Arquitetos corporativos estão descobrindo que as
arquiteturas de dados tradicionais não estão
atendendo às novas demandas dos negócios,
sobretudo acerca da integração de dados para análise
em tempo real”
The Forrester Wave: Enterprise Data Virtualization, Jan 12, 2018
DATA VIRTUALIZATION PLATFORM
21
Key Takeaways
Conclusão
Abstração de
Fontes
• Substitui a
complexidade
de acesso pela
facilidade de ter
tudo em um
único lugar.
Modelo de
Dados
Semântico
• Entidades e
visões pré
agregadas com
segurança e
privacidade.
Opções
Flexíveis de
publicação
• Múltiplas
opções JDBC,
ODBC, Web
Services. Para
se adapatar ao
negócio.
Operação e
criação
• Simplifica a
segurança ,
privacidade e
auditoria.
Facilita o Self-
service
• Simplifica o
processo de
busca pelo
dado correto.
Q&A
www.denodo.com
info.la@denodo.com
www.qsoft.com.br
comercial@qsoft.com.br
Thanks!

Mais conteúdo relacionado

Mais procurados

Gestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricGestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricDenodo
 
Wiseminer Self-Service Data Analytics
Wiseminer Self-Service Data AnalyticsWiseminer Self-Service Data Analytics
Wiseminer Self-Service Data AnalyticsLeonardo Couto
 
Cloud tendências 2018
Cloud tendências 2018Cloud tendências 2018
Cloud tendências 2018everis
 
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...Neo4j
 
Data warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosMarcos Pessoa
 
Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoThiago Santiago
 
Kimball Vs Inmon
Kimball Vs InmonKimball Vs Inmon
Kimball Vs Inmonguest2308b5
 
Tableau: Big Data Analytics with Tableau
Tableau: Big Data Analytics with TableauTableau: Big Data Analytics with Tableau
Tableau: Big Data Analytics with TableauXpand IT
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Datainmetrics
 
Por que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BIPor que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BILeonardo Karpinski
 
24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigDataDiego Nogare
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro WanderleyLeandro Couto
 
Luis gregorio big data
Luis gregorio   big dataLuis gregorio   big data
Luis gregorio big dataiseltech
 
Governança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoGovernança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoClaudio Bonel
 
Big Data & Cognitive Lab
Big Data & Cognitive LabBig Data & Cognitive Lab
Big Data & Cognitive LabTenbu
 
Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data WarehouseMessias Batista
 

Mais procurados (20)

Gestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricGestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data Fabric
 
Big data Workshop
Big data WorkshopBig data Workshop
Big data Workshop
 
Microsoft Power BI
Microsoft Power BIMicrosoft Power BI
Microsoft Power BI
 
Wiseminer Self-Service Data Analytics
Wiseminer Self-Service Data AnalyticsWiseminer Self-Service Data Analytics
Wiseminer Self-Service Data Analytics
 
Cloud tendências 2018
Cloud tendências 2018Cloud tendências 2018
Cloud tendências 2018
 
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
 
Data warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentos
 
Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da Informação
 
Kimball Vs Inmon
Kimball Vs InmonKimball Vs Inmon
Kimball Vs Inmon
 
Power bi sinc 2014
Power bi sinc 2014Power bi sinc 2014
Power bi sinc 2014
 
Tableau: Big Data Analytics with Tableau
Tableau: Big Data Analytics with TableauTableau: Big Data Analytics with Tableau
Tableau: Big Data Analytics with Tableau
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 
TIEnergia2016
TIEnergia2016TIEnergia2016
TIEnergia2016
 
Por que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BIPor que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BI
 
24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
 
Luis gregorio big data
Luis gregorio   big dataLuis gregorio   big data
Luis gregorio big data
 
Governança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoGovernança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª Edição
 
Big Data & Cognitive Lab
Big Data & Cognitive LabBig Data & Cognitive Lab
Big Data & Cognitive Lab
 
Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data Warehouse
 

Semelhante a Virtualização de dados para Advanced Analytics e Machine Learning

Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
SAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesSAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesAlexandre Mendes
 
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...fabiolagrijo
 
Gestão Estratégica da Informação.pdf
Gestão Estratégica da Informação.pdfGestão Estratégica da Informação.pdf
Gestão Estratégica da Informação.pdfjoeljose321235
 
Inteligência Analítica
Inteligência AnalíticaInteligência Analítica
Inteligência AnalíticaCesar Patiño
 
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteSAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteJuly A. M. Rizzo
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Trabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroTrabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroMarco Garcia
 
Financial services overview and customer (2014)
Financial services   overview and customer (2014)Financial services   overview and customer (2014)
Financial services overview and customer (2014)Sidnir Vieira
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseVinícius Amaral
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Tomada decisão
Tomada decisãoTomada decisão
Tomada decisãoEcoplas
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Introdução Splunk Brasil
Introdução Splunk BrasilIntrodução Splunk Brasil
Introdução Splunk BrasilSplunk
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)Marco Garcia
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 

Semelhante a Virtualização de dados para Advanced Analytics e Machine Learning (20)

Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
SAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesSAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a Decisoes
 
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
 
Gestão Estratégica da Informação.pdf
Gestão Estratégica da Informação.pdfGestão Estratégica da Informação.pdf
Gestão Estratégica da Informação.pdf
 
Inteligência Analítica
Inteligência AnalíticaInteligência Analítica
Inteligência Analítica
 
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteSAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Trabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroTrabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado Financeiro
 
Financial services overview and customer (2014)
Financial services   overview and customer (2014)Financial services   overview and customer (2014)
Financial services overview and customer (2014)
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
 
Business Analytics
Business AnalyticsBusiness Analytics
Business Analytics
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Tomada decisão
Tomada decisãoTomada decisão
Tomada decisão
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Trabalho Business Intelligence
Trabalho Business IntelligenceTrabalho Business Intelligence
Trabalho Business Intelligence
 
Introdução Splunk Brasil
Introdução Splunk BrasilIntrodução Splunk Brasil
Introdução Splunk Brasil
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 

Mais de Denodo

Enterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoEnterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoDenodo
 
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachLunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachDenodo
 
Achieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerAchieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerDenodo
 
What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?Denodo
 
Mastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeMastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeDenodo
 
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo
 
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Denodo
 
Drive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDrive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDenodo
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationData Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationDenodo
 
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo
 
Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Denodo
 
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardIt’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardDenodo
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Denodo
 
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Denodo
 
How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?Denodo
 
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsWebinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsDenodo
 
Enabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityEnabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityDenodo
 
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo
 
GenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesGenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesDenodo
 

Mais de Denodo (20)

Enterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoEnterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in Denodo
 
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachLunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
 
Achieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerAchieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services Layer
 
What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?
 
Mastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeMastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business Landscape
 
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
 
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
 
Drive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDrive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory Compliance
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationData Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
 
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me Anything
 
Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!
 
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardIt’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
 
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
 
How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?
 
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsWebinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
 
Enabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityEnabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usability
 
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
 
GenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesGenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidades
 

Virtualização de dados para Advanced Analytics e Machine Learning

  • 1. Virtualização de dados para Advanced Analytics e Machine Learning Gabriella Figueiredo Sales Account Manager – QSOFT Guilherme Gonçalves Nunes Data Scientist – QSOFT Evandro Pacolla Sales Engineer – Denodo
  • 2. Palestrantes Gabriella Figueiredo Sales Account Manager Guilherme Nunes Data Scientist Evandro Pacolla Sales Engineer
  • 3. 1. Introdução 2. Rapidminer GO 3. Escala de análise 4. Dados e Advanced Analytics 5. Metodologia Q-IA para Data Mining 6. IA e machine learning precisam de dados 7. Virtualizando os dados para rápidas implantações 8. Q&A Agenda
  • 4. Escala de Análise Descritiva Envolve a organização, resumo e apresentação dos dados. Inferencial Envolve o uso de uma amostra para chegar a conclusões sobre uma população.
  • 6. Escala de Análise e Input Humano
  • 7. Dados e Advanced Analytics E esse ingrediente tão especial para as análises pode vir dos mais diversos locais e formatos: • Arquivos em diversos formatos (CSV, logs, Parquet, …); • Bancos de dados Relacionais (EDW, Sistemas, …); • NoSQL (Documentos, documentos chave-valor, …); • APIs SaaS (Salesforce, Facebook, Twitter, …)
  • 9. 9 IA e machine learning precisam de dados Prever pacientes de alto risco Os dados incluem demografia do paciente, histórico familiar, sinais vitais do paciente, resultados de exames laboratoriais, histórico de medicamentos passados, visitas ao hospital e quaisquer dados de sinistros Prever falha no equipamento Os dados podem incluir registros de dados de manutenção mantidos pelos técnicos, especialmente para máquinas mais antigas. Para máquinas mais novas, os dados provenientes dos diferentes sensores da máquina — incluindo temperatura, tempo de funcionamento, durações no nível de energia e mensagens de erro Prever riscos de inadimplência Os dados incluem demografia da empresa ou individual, produtos que compraram/ usaram, histórico de pagamentos passados, registros de suporte ao cliente e quaisquer eventos adversos recentes. Prevenção de sinistros fraudulentos Os dados incluem a localização de origem da reclamação, hora do dia, histórico do requerente, valor da reclamação e até dados públicos, como o Banco nacional de fraudes. Prever churn de clientes Os dados incluem demografia do cliente, produtos comprados, uso de produtos, chamadas de clientes, tempo desde o último contato, histórico de transações passado, indústria, tamanho da empresa e receita.
  • 10. 10 Mas os Dados estão em algum lugar aqui…
  • 11. 11 Confirmação das Restrições em ML/AI… Source: Machine learning in UK financial services, Bank of England and Financial Conduct Authority, October 2019
  • 12. 12 A Escala do Problema…
  • 13. 13 Fluxo de trabalho típico de ciência de dados Um fluxo de trabalho típico para um cientista de dados é: 1. Reunir os requisitos para o problema dos negócios 2. Identificar dados úteis para o caso • Ingerir dados 3. Limpe os dados em um formato útil 4. Analisar dados 5. Prepare a entrada para seus algoritmos 6. Executar algoritmos de ciência de dados (ML, IA, etc.) • Repetir 2-6 até que insights valiosos sejam produzidos 7. Visualize e compartilhe
  • 14. 14 Fluxo de trabalho típico de ciência de dados 80% do tempo – Encontrando e preparando os dados 10% de tempo – Análise 10% de tempo – Visualizando dados
  • 15. 15 Para onde vai seu tempo? Uma grande quantidade de tempo e esforço entra em tarefas não intrinsecamente relacionadas à ciência de dados: • Descobrir onde os dados certos podem estar • Obtendo acesso aos dados • Burocracia • Entendendo os métodos de acesso e a tecnologia (noSQL, REST APIs, etc.) • Transformando dados em um formato fácil de trabalhar • Combinando dados originalmente disponíveis em diferentes fontes e formatos • Perfil e limpeza de dados para eliminar pontos de dados incompletos ou inconsistentes
  • 16. 16 TI – Dilema dos negócios TI foca na coleta e armazenamento de dados Negócios focam em Visualização e Análise de Dados Ninguém focado na entrega de dados – Então os dados são replicados dezenas de vezes para poder serem utilizados Inventory System (MS SQL Server) Product Catalog (Web Service -SOAP) BI / Reporting JDBC, ODBC, ADO .NET Web / Mobile WS – REST JSON, XML, HTML, RSS Log files (.txt/.log files) CRM (MySQL) Billing System (Web Service - Rest) ETL Portals JSR168 / 286, Ms Web Parts SOA, Middleware, Enterprise Apps WS – SOAP Java API Customer Voice (Internet, Unstruc)
  • 18. 18 Seis capacidades essenciais da virtualização de dados 4. Serviços de dados em sistema ‘self-service’ 5. Centralização dos metadados, segurança e governança 6. Estrutura multi-nuvem independente de localização, aceleração híbrida 1. Captação de dados 2. Replicação zero, realocação zero 3. Informação em tempo real
  • 19. 19 Como funciona? Development Lifecycle Mgmt Monitoring & Audit Governance Security Development Tools and SDK Scheduled Tasks Data Caching Query Optimizer JDBC/ODBC/ADO.Net SOAP / REST WS U Business View Data Mart View J Application Layer Business Layer Unified View Unified View Unified View Unified View A J J Derived View Derived View J J S Data Source Layer Base View Base View Base View Base View Base View Base View Base View
  • 20. A solução – Uma camada de abstração de dados 20 Abstrai o acesso a dados de diferentes fontes Funciona como um repositório único (virtual) Disponibiliza os dados em tempo real para os usuários DATA ABSTRACTION LAYER “Arquitetos corporativos estão descobrindo que as arquiteturas de dados tradicionais não estão atendendo às novas demandas dos negócios, sobretudo acerca da integração de dados para análise em tempo real” The Forrester Wave: Enterprise Data Virtualization, Jan 12, 2018 DATA VIRTUALIZATION PLATFORM
  • 21. 21 Key Takeaways Conclusão Abstração de Fontes • Substitui a complexidade de acesso pela facilidade de ter tudo em um único lugar. Modelo de Dados Semântico • Entidades e visões pré agregadas com segurança e privacidade. Opções Flexíveis de publicação • Múltiplas opções JDBC, ODBC, Web Services. Para se adapatar ao negócio. Operação e criação • Simplifica a segurança , privacidade e auditoria. Facilita o Self- service • Simplifica o processo de busca pelo dado correto.
  • 22. Q&A