Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Evolução da análise de dados do BI ao Big Data
1. Globalcode – Open4education
A evolução da análise de dados:
Um caminho tecnológico do BI
tradicional ao Big-Data
Carina Mendes
Business Analytics Architect
2. Globalcode – Open4education
Evolução da análise de dados?
Acredito que a tecnologia não seja um
salto, uma inovação, ou uma explosão,
como em um “Big-Bang”, mas sim
como uma evolução.
Não existe nada inventado na análise
de dados, que não se baseia no
aprimoramento de técnicas e
metodologias já estabelecidas.
Pois isso é normal, dada a
característica cognitiva
humana.
3. Globalcode – Open4education
Qual foi a primeira relação da
humanidade com o Dado? Em
que momento passamos a
registra-los?
Penso que essa prática se
iniciou lá na idade da pedra,
quando os homens primatas
faziam aqueles desenhos
rupestres nas paredes de suas
cavernas.
Onde tudo começou?
4. Globalcode – Open4education
Curioso, não?
Podemos fazer uma analogia e
dizer que as paredes daquelas
cavernas, foram os primeiros
HD’s inventados pelo homem.
Um pensamento curioso é:
E não é que aquele desenho
dos Flintstones faz mesmo
algum sentido?
5. Globalcode – Open4education
Os dados contam histórias?
Será que
desliguei o
forno?
Aquele
momento que
você está
saindo para
travar batalhas,
para e pensa:
Eles
sempre
caem
de pé!
Ai
meu
Deus!
Sobre
adesivo de
família nos
carros. Não é
novidade tá?
Sobre os
gatos,
nós já
testamos!
6. Globalcode – Open4education
Business Intelligence – BI:
O BI é exatamente isso: ele utiliza o registro histórico que as empresas armazenaram, para narrar
os eventos ocorridos através dos dados e conforme essa história nos é contada, podemos tomar
decisões precisas baseados em fatos.
Os eventos ocorridos no negócio, são medidos com a função de identificar parâmetros,
tendências, calcular metas e sinalizar ocorrências de acordo com as questões relevantes.
Seu principal objetivo é ter o controle sólido das informações da organização e desta forma,
servir de base para tomada de decisões.
Ação
Business
Intelligence
Eventos Ocorridos
Um exercício interessante de se fazer, é
pensar também em coisas que o BI não
faz, como por exemplo, simulação,
projeção, predição, impressão, café e
etc...
7. Globalcode – Open4education
Data Warehouse:
Para que haja integração entre fontes distintas, é necessário chegar em uma modelagem
específica de dados, o Data Warehouse(DW).
O DW possui características especificas, como por exemplo, a forma com que as suas
tabelas se relacionam, onde uma única tabela Fato se relaciona com várias outras tabelas
de Dimensões, devido a isso o desenho destes relacionamentos são semelhantes estrelas,
por isso a origem do nome Star Schema.
A coluna chave de relacionamento para
os Joins entre essas tabelas são
conhecidas como Surrogates Keys(SK)
são identificadores únicos do modelo
de dados.
Toda essa estruturação de dados é
realizada de acordo com o modelo de
negócio em questão com o objetivo de
garantir a integridade da informação.
8. Globalcode – Open4education
Tabela Fato:
Uma Fato é onde fica armazenado o registro histórico de cada evento realizado da área
de assunto em questão. Por exemplo: Uma venda ou compra realizada, uma entrada ou
saída do estoque, etc.
Os dados armazenados em uma tabela Fato, possui característica quantitativa (Unidade
Monetária, Quantidade, Peso, Metros, etc.) dentro do Modelo de Vendas. A partir dela
são extraídas as métricas que são cruzadas com os dados das Dimensões, concebendo,
assim, informações significativas para a análise do usuário. A Fato armazena as
medições necessárias para avaliar o assunto pretendido.
9. Globalcode – Open4education
Tabelas Dimensões:
É uma coleção de dados descritivos distintos, que irão classificar, definir e esclarecer por
assim dizer os eventos contidos na tabela Fato. Por exemplo, o mês que ocorreu a venda, ou
qual vendedor que a realizou.
As Dimensões permitem analisar os eventos da tabela Fato por diversas perspectivas
diferentes, como também cruzar informações distintas de uma mesma métrica.
10. Globalcode – Open4education
Hierarquias - Agregação:
Hierarquia são propriedades específicas de algumas Tabelas de Dimensões, elas ajudam a
classificar as métricas da Fato em níveis de grupo. Por exemplo. As Cidades, estão dentro
de Estados, os Estados dentro de Países que por sua vez fazem parte dos continentes e
assim sucessivamente.
Dimensão Geográfica
Coluna de País
Coluna de Estados
Coluna de Cidades
Baseado no exemplo dado de dimensões
geográficas, utilizamos o conceito de pai e
filho. Por exemplo, a coluna de País é pai
da coluna de Estados que por sua vez é
pai da coluna de Cidades.
11. Globalcode – Open4education
Exemplo de Relacionamento:
Aqui conseguimos exemplificar em SQL
como o modelo de dados Star Schema
se relaciona no DW.
Por trás de um gráfico as aplicações de
BI montam scripts parecidos com este.
Podendo existir ainda, além das regras
de negócio projetadas do DW, regras
de desenvolvidas dentro das
aplicações.
Eu sempre utilizo como parâmetro de
uma boa modelagem, o quanto de
customizações na aplicação existe para
tratar o dado.
Quanto menos customizações existir,
mais eficiente é a sua integração dos
dados.
12. Globalcode – Open4education
Modelos de Dados Tradicionais:
O DW pode ter diversos modelos, o mais
comum é o Star Schema, mas existem
modelagens mais complexas como Snow
Flake, Fact Less, Slow Change Dimension e
etc.
14. Globalcode – Open4education
Resultado final do BI:
No exemplo abaixo, temos um gráfico realizado para um BI de Suply Chain, ele nos conta a
história de um indicador comum chamado Índice de Giro, que mede o quanto de rotatividade
existe dentro do estoque de uma certa filial ou centro de distribuição de uma empresa.
Se o Índice de Giro está inferior ao nível de estoque significa que existem produtos
armazenados que não estão sendo vendidos. Os dados registrados, viraram conhecimento.
Então a área estratégica é acionada para realizar uma ação em cima daquela informação.
15. Globalcode – Open4education
Mudanças nas Demandas:
O que acontece em 60
segundos de internet??
Hoje, a capacidade de
estruturar e armazenar
dados, não é mais
suficiente.
A utilização massiva da
internet, principalmente
das plataformas de Social
e a interatividade mobile,
geram um crescimento
exponencial da
volumetria, velocidade e
variedade dos dados que
precisamos analisar.
16. Globalcode – Open4education
Ação
Business
Intelligence
Acompanhar
Metas e
Indicadores
Eficiência
Operacional e
Aumento de
Receita
Data
Discovery
Encontrar
Concentrações
e Correlações
Excelência
Operacional e
Novos Modelos
de Negócio
BI em plena inovação do Big-Data?
Toda essa diversidade nos dados, nos leva a necessidade de incorporar diferentes conceitos
em nosso processo de análise de dados. Desta forma, ambos atuam em paralelo, cada um
com as suas particularidades, mas com o objetivo comum de gerar informação para as
tomadas de decisões:
17. Globalcode – Open4education
Conceitos diferentes, métodos
diferentes:
Enquanto no BI, temos etapas de início ao fim, no Data Discovery o método baseia-se na
exploração dos dados. Podemos observar que o processo é cíclico e contínuo, essa é uma
característica que permite o amadurecimento da análise a cada ciclo, expandindo o
conhecimento adquirido.
18. Globalcode – Open4education
Identificando as demandas:
• Estruturados
• Semiestruturados
• Não Estruturados
Tipo de
Dados
• Acesso Full Time
• Acesso Mobile
• Compatibilidade
Apresentação
• Self-service
• Had-hoc
Interação
• Dados Históricos
• Insigths
• Advanced Analytics
Infraestrutura
19. Globalcode – Open4education
Técnicas de Análises de Dados para
Big-Data:
Data Mining
Seleção (Coleta dos Dados).
Processamento (Data Quality e Análise Exploratória).
Transformação (Normalização e Enriquecimento).
Mineração de Dados.
Interpretação/Avaliação.
Estatística e Matemática Básica
Média, Desvio Padrão, Frequência, Correlação e Variância.
Estatística Descritiva: Variáveis Qualitativas (Ordinal ou
Nominal) e Quantitativas (Discreta e Contínua).
Modelos Estatísticos
Regressão Linear.
Coeficiente de Correlação.
Fator e Métodos Ortogonais da Análise Fatorial
QUI-Quadrado.
20. Globalcode – Open4education
Tecnologias Utilizadas:
Engenie: Motor de cálculo
estatístico com sua própria
biblioteca de linguagens.
Client com interface gráfica para
acessar e codificar os modelos
estatísticos.
Open Source and In Memory
21. Globalcode – Open4education
Conceitos Base – Estatística:
• Média: Distância entre dois pontos X1 e X2.
• Desvio Padrão: Distancia dos pontos em relação à média.
• Reta: A linha traçada do ponto b na intercepção de y até o ponto a que á a angulação da reta no
gráfico.
• Relação Linear: Compreende-se no comportamento dos pontos em relação à reta, onde se inicia o
modelo de análise linear. A distância dos pontos em relação a reta é chamada de Erro (E1,E2), a partir
de então é possível se aprofundar em análises mais complexas das variáveis como a correlação
linear.
22. Globalcode – Open4education
Análise Estatística:
É um indicador que mede a existência e a força de
relacionamento entre os pontos (dados) existentes em
duas ou mais variáveis. Ela é dada em escala de -1 a 1
onde quanto mais r for próximo de 1 mais forte é a
relação entre os pontos.
Insight: Se encontrarmos
valores com um alto
coeficiente de correlação,
poderemos supor que um
influencia em outro (relação
causa-efeito).
Previsão: Assim sendo, a
partir de estimativas futuras
da variável independente,
calcularemos a previsão da
variável dependente.
Outliers: São os pontos
localizados mais distantes da
reta.
23. Globalcode – Open4education
Aplicação prática da análise de
correlação no R:
Dataset é um arquivo de
conjunto de dados, de onde
iremos extrair as nossas
variáveis de análise.
O R Studio possui um dataset de
exemplo, incluído em sua
livraria, bastante utilizado para
exercícios práticos.
Esse dataset é o “mtcars” uma
base de dados extraídos a partir
de 1974 Motor Trend revista
norte-americana.
Em nossa análise iremos utilizar
os valores de mpg para X e wt
para Y.
24. Globalcode – Open4education
Aplicação prática da análise de
correlação no R:
Conclusão: Quanto mais leve é o veículo (wt) mais milhas ele consegue
percorrer por galão (mpg).
25. Globalcode – Open4education
Para evoluir é necessário ligar os
pontos:
“Você não consegue ligar os
pontos olhando pra frente;
você só consegue ligá-los
olhando pra trás. Então você
tem que confiar que os pontos
se ligarão algum dia no futuro.
Você tem que confiar em algo –
seu instinto, destino, vida,
carma, o que for. Esta
abordagem nunca me
desapontou, e fez toda
diferença na minha vida.”
Steve Jobs
Essa mensagem me leva a pensar
que os dados são como as estrelas
no céu, se você simplesmente
olhá-las, são apenas pontos
distintos. Mas se você souber
como conectá-las, elas nos contam
suas histórias.
26. Globalcode – Open4education
Carina Mendes?
Atualmente Arquiteta de Business Analytics na CIS Corporate e apaixonada por análise
de dados, a Carina Mendes faz de sua filosofia de vida, o ato de compartilhar
conhecimento e informação em prol do crescimento mútuo do indivíduo e das
organizações através da tecnologia e da inovação. Gerando mudança e melhoria de
vida nos mercados e desta forma alcançar sociedades.
Tem exercido este trabalho desde 2014 através de seu blog CarinaMendes.Com onde
publica artigos contendo cases e implantações em diversas tecnologias e conceitos
sobre Business Analytics que realizou ao longo de sua jornada. Hoje seu blog possui
mais de 70 mil acessos ao ano e já alcançou mais de 115 países pelo mundo.
Graduada em Gestão Financeira com MBA em Big-Data & Data Science, publicou mais de 50 artigos técnicos em seu
blog como também nas sessões de Business Intelligence e Cloud Computing do site da Oracle Latim América.
Ao longo dos últimos três anos, ministra workshops e treinamentos técnicos sobre ferramentas de BI como
também é palestrante em eventos de TI como Oracle Tour Latim América, BI & Big-Data Summit e hoje no TDC.
Possui cerificado de especialista em BI nas soluções Oracle, é a primeira mulher com o reconhecimento Oracle ACE
do país e também gosta de se divertir com comandos SQL, Shell, R, Python, HTML e PHP e CSS.
Em suas horas livres ela gosta de fazer trilhas em florestas, escalar montanhas e saltar de paraquedas...
Baseado nisso, gostaria de iniciar esta Trilha levando vocês a refletir, sobre qual foi a primeira relação da humanidade com o Dado? Em que momento passamos a registra-los?
Acredito que essa prática se iniciou lá na idade da pedra, quando os homens primatas faziam aqueles desenhos rupestres nas paredes de suas cavernas.
Aqueles foram nossos primeiros registros, dados em forma de imagens, que contam uma história. Podemos fazer uma analogia e dizer que as paredes daquelas cavernas, foram os primeiros HD’s inventados pelo homem. E curioso pensar que, não é que aquele desenho dos Flintstones faz mesmo algum sentido?
Com o passar das estações e eras, o homem precisou se movimentar, se locomover em busca de suas necessidades existências, surgiram culturas mais nômades, a humanidade encontrou uma forma de levar as informações consigo mesmo, mudou-se a forma com que gravavam os registros, das cavernas para as lascas de pedra, depois para pele de animais, em seguida os papiros, talvez a informação mobile não seja algo tão novo assim, rs!
Mas essa reflexão um tanto quanto descontraída, nos leva a ver que temos intimidade com o hábito de registrar há muito mais tempo que imaginávamos e que essas histórias servem de referências para a humanidade na sua evolução.
O BI é exatamente isso, ele utiliza o registro histórico que as empresas e organizações armazenaram, para narrar os eventos ocorridos e conforme essa história nos é contada, podemos tomar decisões baseados em fatos.
Mas para isso, o BI tem suas particularidades em seu armazenamento de dados, a modelagem desses dados precisa ser feita seguindo seus próprios padrões e métodos para que realmente seja extraída informações relevantes dos dados. Essas metodologias foram e vem sendo utilizadas há mais de dez anos no mercado global.
Algo curioso que gosto de trazer para facilitar a definição de BI, é trazer também o que ele não faz, como, projeção, predição, impressão, e etc.
Hoje trabalhamos com um termo bastante conhecido, chamado de Data Warehouse (DW) ele é a base do BI, o lugar certo para a inteligência do seu negócio estar, eu vou tentar exemplificar como as tabelas desenvolvidas em torno do evento ocorrido, ok? Para exemplificar como os dados são armazenados e como eles se relacionam em uma análise tradicional como o do BI, preciso falar de alguns objetos que compõe o DW.
O exemplo mais prático que sempre utilizo para ilustrar esses objetos, é o evento de vendas, todo mundo ou compra ou vende alguma coisa, seja produto, serviços, esse é o exemplo de negócio mais comum de se analisar, certo?
Outra característica importante a se observar em um desenvolvimento de modelo de dados para DW são as Hierarquias, elas determinam a lógica de agregação e integração dos dados, que implica em indexação de tabelas e performance de queries de banco.
No BI você quer responder determinadas perguntas pertinentes ao seu negócio, no Data Discovery você não faz ideia de quais perguntas fazer.