Trabalho de Conclusão sobre Ciclo de Vida dos Dados
1.
2. Karina Moura
Trabalho Conclusão de Curso
Orientadora: Prof. Dra. Daniela
Brauner
Data Science:
Um estudo exploratório dos
modelos de análise de dados
entre o mercado e a academia
3. Quais as principais metodologias
utilizadas pelas equipes de data science
para extração do conhecimento a partir
de um grande volume de dados?
8. “Data science é a extração de
conhecimento acionável diretamente
dos dados por meio de um processo de
descoberta ou formulação de hipóteses
e teste de hipóteses”
NIST (2015)
10. “O ciclo de vida dos dados é o conjunto
de processos aplicados para
transformar dados brutos em
conhecimento acionável”
NIST (2015)
11. KDD Process (1993)
CRISP-DM (1996)
SEMMA (1996)
Data Analytics Lifecycle (2012)
SAS Analytical Life Cycle (2016)
Processos da literatura
12. O Data Analytics Lifecycle foi
designado a resolver problemas
relacionados a projetos que envolvam
big data e data science, seguindo um
ciclo de seis fases.
DIETRICH, HELLER e YANG (2015)
18. Fase 1 - Negócio
Venda
Entendimento do
Negócio
Compreensão do
Problema
Capacidade da empresa
em realizar análises
Prototipação
Escopo do projeto
Fase 2 - Projeto
Mapear dados
Separar dados
Limpar dados
Explorar dados
Modelar dados
Validar o modelo
Fase 3 - Entregas
Relatórios
Dashboards
Algoritmos
Planos de implementação
Treinamento de equipes
Empresas de Consultorias
19. Fase 1 - Negócio
Venda
Entendimento do
Negócio
Compreensão do
Problema
Capacidade da empresa
em implementar o
software
Disponibilização do
software gratuitamente
Escopo do projeto
Fase 2 - Projeto
Integrar software com os
bancos de dados
Preparar os dados no
software
Construir análises ou
modelos em outras
linguagens
Validar resultados
obtidos pelo software
Fase 3 - Entregas
Relatórios
Dashboards
Software para análise
Treinamento de equipes
Representantes de Software
24. 62%
Empresas de Serviços
42%
Mais de 500
funcionários
Analista BI
Cientista de Dados
Desenvolvedor
Gerente
Faixa etária
21 5632
73% 42%
Homens Trabalham com
análise de 1 a 5 anos
36% cargos
27. Contribuiu para o
projeto
RecomendariamJá tinham preenchido
um canvas para
análise
67% 93%7%
1 (super fácil) - 5 (muito difícil)
DADCANVAS É FÁCIL DE USAR
E CONTRIBUI PARA O
DESENVOLVIMENTO DO
PROJETO
46 respostas
30. Problemas relatados
Desenvolver soluções adequadas e
de fácil visualização para os clientes
Dificuldades em
modelar e integrar os
dados
7
5
Compreensão do
problema e dados
confiáveis
31. Resultados
Empresas sentem dificuldades em
fazer análises de dados
Não fazem análise de
dados ou fazem
parcial
Empresas entrevistadas não precisam prospectar
clientes
29%
36. Sugestões
Disseminar a Data Science e o Big Data pelo ecossistema
Utilizar ferramentas de apoio para compreensão do
problema a ser resolvido: DADCanvas
37. Trabalhos futuros
Por que as empresas não buscam processos na literatura?
Todo projeto de software deveria ser baseado em dados?
Como o DADCanvas pode auxiliar as empresas?