O documento discute os principais tópicos relacionados a Business Intelligence, Big Data, NoSQL, Data Mining e Business Analytics. Ele fornece definições e exemplos destes conceitos, discute as tendências atuais e como esses campos estão interligados para extrair conhecimento dos dados e apoiar a tomada de decisão nas organizações.
House of data - ciência de dados para desenvolvedoresAna Paula Gomes
Hoje produzimos milhões de dados e temos o desafio de extrair informações relevantes desses dados. Nesta palestra serão exibidas técnicas e bibliotecas que o desenvolvedor poderá utilizar para extrair informações úteis e produzir softwares mais inteligentes.
Como usar os dados do Meetup.com para entender comunidades?
Nesta palestra mostro como coletar e analisar informações sobre comunidades a partir dos dados da Meetup API.
Apresentação para o 6º Behave Data Meetup
Milhões de pessoas no mundo usam redes sociais para conectar-se com amigos e compartilhar fotos, localização e outros dados. Esses dados compõem vestígios do que as pessoas fazem e podem fornecer informações valiosas sobre como se comportam. O Python é uma linguagem de programação de sintaxe simples mas muito poderosa.
Nesta palestra será apresentada uma visão de como coletar e analisar dados de redes sociais, como Twitter, com Python.
House of data - ciência de dados para desenvolvedoresAna Paula Gomes
Hoje produzimos milhões de dados e temos o desafio de extrair informações relevantes desses dados. Nesta palestra serão exibidas técnicas e bibliotecas que o desenvolvedor poderá utilizar para extrair informações úteis e produzir softwares mais inteligentes.
Como usar os dados do Meetup.com para entender comunidades?
Nesta palestra mostro como coletar e analisar informações sobre comunidades a partir dos dados da Meetup API.
Apresentação para o 6º Behave Data Meetup
Milhões de pessoas no mundo usam redes sociais para conectar-se com amigos e compartilhar fotos, localização e outros dados. Esses dados compõem vestígios do que as pessoas fazem e podem fornecer informações valiosas sobre como se comportam. O Python é uma linguagem de programação de sintaxe simples mas muito poderosa.
Nesta palestra será apresentada uma visão de como coletar e analisar dados de redes sociais, como Twitter, com Python.
Apresentação realizada por Renato Rocha Souza - Professor e pesquisador da Escola de Matemática Aplicada da FGV e da Escola de Ciência da Informação da UFMG no I Simpósio Internacional Network Science - Nov/2017 - Rio de Janeiro. Vídeo Disponível (01:00:00)
Big Data: Seus problemas estão apenas começandoThiago Gonzaga
Uma breve introdução ao termo Big Data e soluções disponíveis, assim como algumas leituras recomendadas.
Palestra apresentada na Fatec Rio Preto no encontro mensal do Java Noroeste (Grupo De Usuários Java do Noroeste Paulista)
Trabalho sobre Big Data apresentado na disciplina Tópicos Especiais de TI no curso de Sistemas de Informação do IFAL. Fala sobre algumas definições que auxiliaram no surgimento do que hoje chamamos de Big Data, além de falar sobre a ferramenta SPLUNK
A alguns anos comecei a estudar para me tornar um Cientista de Dados. Ainda Não estou totalmente lá, mas essa palestra traz algumas coisas que aprendi e recursos para aprender ainda mais.
Mini-Curso: Introdução à Big Data e Data Science - Aula 1 - O que é Big DataDiego Nogare
Este é um mini-curso gratuito de introdução à estas duas grandes áreas em evidência na atualidade. O instrutor é o MVP em Data Platform Diego Nogare.
Este mini-curso será realizado ONLINE de segunda à quarta-feira, sempre das 21h30 às 22h00. Serão realizadas 12 aulas de 30 minutos diárias, durante 4 semanas.
Aula 1 - O que é Big Data
O que significa ETL?
“Extract”: extrair informações dos sistemas legados;
“Transformation”: transformar, limpar, formatar a informação, sem mudar as propriedades originais;
“Load”: preparar a informação para a camada de apresentação.
Apresentação realizada por Renato Rocha Souza - Professor e pesquisador da Escola de Matemática Aplicada da FGV e da Escola de Ciência da Informação da UFMG no I Simpósio Internacional Network Science - Nov/2017 - Rio de Janeiro. Vídeo Disponível (01:00:00)
Big Data: Seus problemas estão apenas começandoThiago Gonzaga
Uma breve introdução ao termo Big Data e soluções disponíveis, assim como algumas leituras recomendadas.
Palestra apresentada na Fatec Rio Preto no encontro mensal do Java Noroeste (Grupo De Usuários Java do Noroeste Paulista)
Trabalho sobre Big Data apresentado na disciplina Tópicos Especiais de TI no curso de Sistemas de Informação do IFAL. Fala sobre algumas definições que auxiliaram no surgimento do que hoje chamamos de Big Data, além de falar sobre a ferramenta SPLUNK
A alguns anos comecei a estudar para me tornar um Cientista de Dados. Ainda Não estou totalmente lá, mas essa palestra traz algumas coisas que aprendi e recursos para aprender ainda mais.
Mini-Curso: Introdução à Big Data e Data Science - Aula 1 - O que é Big DataDiego Nogare
Este é um mini-curso gratuito de introdução à estas duas grandes áreas em evidência na atualidade. O instrutor é o MVP em Data Platform Diego Nogare.
Este mini-curso será realizado ONLINE de segunda à quarta-feira, sempre das 21h30 às 22h00. Serão realizadas 12 aulas de 30 minutos diárias, durante 4 semanas.
Aula 1 - O que é Big Data
O que significa ETL?
“Extract”: extrair informações dos sistemas legados;
“Transformation”: transformar, limpar, formatar a informação, sem mudar as propriedades originais;
“Load”: preparar a informação para a camada de apresentação.
Visual Analytics 101 - Princípios, práticas e ferramentasLuis__Rodrigues
Apresentação panorâmica sobre a área emergente de Visual Analytics, citando principais conceitos e referências que vêm moldando suas práticas.
Apresentada no Rio BigData Meetup de 21 de outubro de 2014, no anfiteatro do Rio Data Center na PUC-Rio.
QMeeting / SP - Um Evento de Bi e QlikView para poucos. Roberto Oliveira
O QMeeting é um evento com o objetivo de unir empresários, desenvolvedores e estudantes para falar de maneira descontraida do mercado de business intelligence no Brasil, um evento que chama a atenção das pessoas para este mercado, vamos ter palestras e debates com temas novos e atuais. Todos poderão interagir, compartilhar conhecimento, saber das novidades e acompanhar as principais tendências de um universo onde inovar é a palavra mágica.
Tenho certeza que este evento poderá mudar a sua carreira, empresa ou negócio, é isso que queremos e é isso que vamos ter.
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
Apresentação da utilização do PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho realizada no PgDay 2016 de Curitiba. Slides em :
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...fabiolagrijo
40º CONGRESSO BRASILEIRO DE PATOLOGIA CLÍNICA
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta para tomada de decisão
Fabíola Azevedo Grijó
Curitiba - PR
21/09/2006
A palestra apresenta o conceito de data lakes e big data, e como estas arquiteturas são formadas para o armazenamento e consumo de grande volumes de dados, sua relação com as arquiteturas distribuídas como é o caso do ecosistema Hadoop e como o a suíte Pentaho pode ajudar na gestão e extração de informações para tomada de decisão com recursos de big data analitycs.
Governança de Dados-Uma abordagem via Canvas MGD_v02Carlos Barbieri
Uma abordagem para implementação de Governança de Dados, usando o Canvas MGD-Melhoria de Gestão de Dados, desenvolvido pelo autor. A abordagem facilita a interação entre os envolvidos nos aspectos de dados da empresa, propiciando um ambiente interativo de discussão de problemas e desenvolvimento de soluções de dados . Essa versão apresenta os diagramas do DMBOK refeitos, por aspectos de direitos
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
Watch full webinar here: https://bit.ly/31iF9Ot
Técnicas avançadas de ciência de dados, como o Machine Learning, provaram ser uma ferramenta extremamente útil para se obter valiosos insights a partir de dados existentes. Plataformas como RapidMiner e bibliotecas para R e Python simplificam partes do processo e colocam técnicas avançadas à disposição de cientistas de dados. Entretanto, estes profissionais passam até 80% de seu tempo procurando os dados corretos e preparando-os em um formato ideal para a aplicação do Machine Learning. Com isso, a virtualização de dados se torna uma nova alternativa para abordar estas questões de uma maneira mais eficiente e ágil.
Participe deste webinar e descubra:
- Como você pode usar a Plataforma Denodo com grandes volumes de dados de uma maneira eficiente
- Casos de uso do cliente e uma demonstração ao vivo de análise preditiva e virtualização de dados
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.
3. Business Intelligence
"Um termo guarda-chuva que encobre ferramentas,
arquiteturas, metodologias, bancos de dados, etc.
integradas em um suíte de software"
(Turban et al., 2007 apud Chee, 2009)
● Objetivos
○ Auxiliar o processo de tomada de decisão gerencial;
○ Gerar Diferencial competitivo;
4. Business Intelligence
● ERP - Enterprise Resource Planning
● DSS - Decision Support Systems
● EIS - Executive Information Systems
● CRM - Customer Relationship Management
6. O macro processo da informação
Sistemas de
DADOS Produção DADOS BD
OLTP Operacional
Clientes Funcionários
CICLO DO BI
Ofertas Planejamento
Promoções Metas
etc Promoções
CONHECIMENTO
Relatórios
Gerentes Cubos Data
INFORMAÇÃO INFORMAÇÃO
Dashboards Warehouse
Data Mining
DECISÃO
7. O macro processo da informação
Sistemas de
DADOS Produção DADOS BD
OLTP Operacional
Clientes Funcionários
Ofertas Planejamento
Promoções Metas
etc Promoções
CONHECIMENTO
Relatórios
Gerentes Cubos Data
INFORMAÇÃO INFORMAÇÃO
Dashboards Warehouse
Data Mining
DECISÃO
8. Business Intelligence
● KPI - Key Performance Indicators
● Data Warehouse
● Integration Process / ETL
● Reporting
● OLAP
● Dashboards
9. Processo Pentaho
BI Server Data
Warehouse
Clientes
R
E
Q
U
I
S PDI
T
O
S
PRD
Schema BD
Workbench Operacional
Analistas de BI
Spoon
10. Processo Pentaho
SGDB
Servidor de Aplicação BD
Clientes Operacional
BI Server
PUC JReport Data
R Warehouse
E Documentos
Q PAC JPivot
U
I CDE Repositorios
S Meta Dados
T PDI
O PAN, KITCHEN, Web
S Mondrian CARTE
FERRAMENTAS ADMINISTRATIVAS
Analistas PRD PME PDI
PSW SPOON PDS CDE PAD
de BI
12. Business Intelligence
● Data Warehouses
○ (Inmon, 2002) e (Kimball, 2002)
○ Conjunto de dados orientado à assunto, integrados,
não voláteis, variáveis em relação ao tempo;
○ Dados agregados/sintetizados;
○ Estruturado;
13. Business Intelligence
● De onde vêm os dados?
○ ERP's
○ Planilhas
○ Arquivos de Texto
○ Em sua maioria os dados são estruturados
16. Business Intelligence
● Novas fontes de dados
○ Monitoramento da marca;
○ Monitoramento de campanhas de marketing;
○ Relacionamento com o consumidor;
○ Análise de tendências;
17. Business Intelligence
● Novas fontes de dados
○ Dados estruturados/semi estruturados e não
estruturados;
○ Fluxo contínuo;
○ Alta dimensionalidade;
○ Esquema flexível;
20. Big Data
● Buzzword da moda...
● Quando o tamanho do dados faz parte do
problema!
● Alta Dimensionalidade
○ Entidades / Atributos / Instâncias
21. Big Data
● 4 V's (Stapleton, 2011)
○ Volume
■ Terabytes para Petabytes de dados
○ Velocidade
■ Fluxo contínuo e rápido de novos dados
○ Variedade
■ Dados estruturados, semi e não estruturados
○ Veracidade
■ Governança de dados e qualificação entre
Consistente, Inconsistente, Incompleto, Ambíguo, ...
23. Big Data
● Exemplos
○ Social Media
○ Web Logs
○ Sensor Networks
○ Cadeias de DNA
○ LHC
24. Big Data
● SGBD's relacionais (Codd, 1970) têm
capacidade de lidar com esse problema?
● ACID x BASE (Pritchett, 2008)
● Teorema CAP (Brewer, 2000)
○ Consistency / Availability / Partition Tolerant
○ Escolha apenas 2!
25. NoSql
● Esquemas de dados não relacionais
○ Key-Value Store
○ Document Store
○ Graph Databases
○ Wide Column / Column Oriented
○ ...
32. Data Science
● Indo além do KDD...
● Espectro mais amplo do que o KDD;
● Enquando a DM é uma metodologia
específica, a DS é a aplicação do método
científico
34. Data Science
● Banco de Dados
● Simulação
● Inteligência Artificial
● Otimização
● Inferência Estatística
● Análise Multivariada
● Séries Temporais
● ...
35. Data Science
● Descritive
○ Descreve e modela os dados
● Diagnostic
○ Identifica uma ou mais CAUSAS nos dados
● Preditive
○ Modela as tendências apontadas pelos dados
● Prescritive
○ Indica a melhor tendência a seguir
36. Business Analytics
● Data Science dentro do Business Intelligence
● O BI tem um foco mais informativo e
descritivo;
○ Acompanhamento da situação do negócio
● O BA tem um foco mais preditivo e
diagnóstico;
○ Projeção do negócio
37. BI vs BA
Business Intelligence Business Analytics
Relatórios Projeções
Métodos Gráficos Modelos
Indicadores Cenários
O que aconteceu? Por que aconteceu?
Quando ? Acontecerá
novamente?
Perguntas Onde?
Quando?
Como?
O que mais poderá
Quem? acontecer?
39. Tendências
● Genética
● Séries Espaço-Temporais
○ Trajetórias
○ Wireless Sensor Networks
● Data Warehouses Multimídia
● Ubiquitous
● Real Time Analysis
40. Conclusão Intelligence
ERP's
Data
Warehouse
Logs
Arquivos
E-mail Big Data Analytics
NoSQL
Web
Social
Media
INFORMAÇÃO
DADO CONHECIMENTO
41. Referências
● Azevedo, A.; Santos, M.F. KDD, SEMMA, and CRISP-DM: A Parallel Overview.
Proceedings of the IADIS European Conference on Data Mining, Amsterdam,
2008, pp. 182-185. Disponível em http://recipp.ipp.pt/handle/10400.22/136.
Acesso em 28/01/2013.
● Brewer, Eric A.: Towards Robust Distributed Systems. Portland, Oregon, July
2000. – Keynote at the ACM Symposium on Principles of Distributed Computing
(PODC). Disponível em http://www.cs.berkeley.edu/~brewer/cs262b-2004/PODC-
keynote.pdf Acesso em 27/01/2013.
● Chapman, P. et al. CRISP-DM 1.0 - Step-by-step data mining guide. 2000.
Disponível em http://www.crisp-dm.org/CRISPWP-0800.pdf. Acesso em
27/01/2013.
● Chee, Timothy; Chan, Lee-Kwun et al. Business Intelligence Systems: State-of-
the-art review and contemporary applications. In Symposium on Progress in
Information & Communication Technology 2009. p. 96-101.
● Codd, Edgar F.: A Relational Model of Data for Large Shared Data Banks. In:
Communications of the ACM 13 (1970), June, No. 6, p. 377–387
● Dean, J. and Ghemawat, S. MapReduce: simplified data processing on large
clusters. Communications of the ACM. p. 107-113. 2008.
42. Referências
● Fayyad, U. M. et al. From data mining to knowledge discovery: an overview.
In Fayyad, U. M.et al (Eds.), Advances in knowledge discovery and data mining.
AAAI Press / The MIT Press.
● Fayyad, U. and Piatetsky-Shapiro, G. and Smyth, P. The KDD process for
extracting useful knowledge from volumes of data. Communications of the
ACM v. 39, n. 11, p. 27-34. 1996.
● Inmon, W.H. Building the data warehouse. J. Wiley. 2002.
● MacVittie, Lori. The Four V’s of Big Data. Disponível em https://devcentral.f5.
com/blogs/us/the-four-v-rsquos-of-big-data. Acesso em 27/01/2013.
● Pritchett, Dan. BASE: An ACID alternative. ACM Queue. 2008. Disponível em
http://queue.acm.org/detail.cfm?id=1394128. Acesso em 27/01/2013.
● Kimball, R.; Ross, M. et al. The data warehouse toolkit: the complete guide to
dimensional modelling. New York: 2002.
● SAS Institute. SAS Enterprise Miner – SEMMA. Disponível em http://www.sas.
com/technologies/analytics/datamining/miner/semma.html. Acessado em
27/01/2013.
● Stapleton, Lisa K. Taming big data. Disponível em http://www.ibm.
com/developerworks/data/library/dmmag/DMMag_2011_Issue2/BigData/index.
html?cmp=dw&cpb=dwinf&ct=dwnew&cr=dwnen&ccy=zz&csr=051211. Acesso
em 27/01/2013.