Big Data e Data Science é um documento que discute:
1) O que são dados e como eles se relacionam com informação e conhecimento.
2) O que é Big Data e como os dados estão crescendo em volume, velocidade e variedade.
3) Como a ciência de dados pode ser usada para encontrar padrões e tendências nos dados através de técnicas estatísticas e de aprendizado de máquina.
DATA SCIENCE, R E R-LADIES: UM POUCO DA MINHA EXPERIÊNCIA NO VALE DO SILÍCIO.
Nesta palestra, falarei sobre a minha trajetória como Data Scientist, dando exemplos de como uso o R no meu dia-a-dia e da história do R-Ladies.
Gabriela de Queiroz é Lead Data Scientist na SelfScore, onde cria e mantém modelos Estatísticos e de Machine Learning usados em otimização, fraude e risco. Atuou em algumas startups no Vale do Silício. Nas suas horas vagas é mentora em Data Science. Fundadora do grupo R-Ladies com mais de 30 capítulos ao redor do mundo. Mestre em Estatística pela CSUEB e Epidemiologia pela Fiocruz.
Saiba mais sobre o evento: http://bit.ly/2rdrGad
Conheça o curso Big Data e Data Science:
A era do “Big Data” é uma realidade e saber quais são as implicações dessa nova era e como criar dinheiro através dos dados é extremamente importante. Claro que executivos, gerentes, analistas e consultores, que atuam em setores de informação intensiva e com facilidade em matemática se identificarão mais com as disciplinas, mas qualquer profissional que tenha interesse em conhecer a ciência dos dados precisa fazer esse curso: http://bit.ly/2pTUq3l
Apresentação feita para o grupo Hadoop de São Paulo sobre a relação de Data Science e Big Data. Nela explico como podemos usar Data Science para descobrir informações que podem personalizar o site e criar uma experiência unica
Presentation to the Sao Paulo Hadoop Group about Data Science and Big Data. How we can use Data Science to create innovative user interaction.
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Bruno Rocha
Não é preciso ser um cientista para atuar na área de Data Science, Engenheiros de software, programadores, desenvolvedores web tem muito a colaborar integrando-se aos times de Data Science.
Visão sobre o encontro dos dois conceitos emergentes (Big Data e Governança de Dados), analisada à luz de modelos como DMBOK(Data management Association) e DMM(Data Management Maturity Model, do CMMI Institute).
Apresentação dada na 3a. Semana da Física do Instituto de Física da USP São Carlos.
Nela mostro como os físicos podem atuar nesta nova área que vem surgido nos últimos anos, e um exemplo de como esse conhecimento pode ser usado.
DATA SCIENCE, R E R-LADIES: UM POUCO DA MINHA EXPERIÊNCIA NO VALE DO SILÍCIO.
Nesta palestra, falarei sobre a minha trajetória como Data Scientist, dando exemplos de como uso o R no meu dia-a-dia e da história do R-Ladies.
Gabriela de Queiroz é Lead Data Scientist na SelfScore, onde cria e mantém modelos Estatísticos e de Machine Learning usados em otimização, fraude e risco. Atuou em algumas startups no Vale do Silício. Nas suas horas vagas é mentora em Data Science. Fundadora do grupo R-Ladies com mais de 30 capítulos ao redor do mundo. Mestre em Estatística pela CSUEB e Epidemiologia pela Fiocruz.
Saiba mais sobre o evento: http://bit.ly/2rdrGad
Conheça o curso Big Data e Data Science:
A era do “Big Data” é uma realidade e saber quais são as implicações dessa nova era e como criar dinheiro através dos dados é extremamente importante. Claro que executivos, gerentes, analistas e consultores, que atuam em setores de informação intensiva e com facilidade em matemática se identificarão mais com as disciplinas, mas qualquer profissional que tenha interesse em conhecer a ciência dos dados precisa fazer esse curso: http://bit.ly/2pTUq3l
Apresentação feita para o grupo Hadoop de São Paulo sobre a relação de Data Science e Big Data. Nela explico como podemos usar Data Science para descobrir informações que podem personalizar o site e criar uma experiência unica
Presentation to the Sao Paulo Hadoop Group about Data Science and Big Data. How we can use Data Science to create innovative user interaction.
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Bruno Rocha
Não é preciso ser um cientista para atuar na área de Data Science, Engenheiros de software, programadores, desenvolvedores web tem muito a colaborar integrando-se aos times de Data Science.
Visão sobre o encontro dos dois conceitos emergentes (Big Data e Governança de Dados), analisada à luz de modelos como DMBOK(Data management Association) e DMM(Data Management Maturity Model, do CMMI Institute).
Apresentação dada na 3a. Semana da Física do Instituto de Física da USP São Carlos.
Nela mostro como os físicos podem atuar nesta nova área que vem surgido nos últimos anos, e um exemplo de como esse conhecimento pode ser usado.
Quer você saiba ou não, seu negócio já faz parte do mercado de dados e informações. Enquanto nossas vidas continuam migrando para a internet, produzimos um fluxo constante e exaustivo de informação digital.
Artigo Científico apresentado à Faculdade de Tecnologia da Zona Sul – Fatec-ZS como exigência parcial para a obtenção do título de Tecnólogo em Informática para Gestão de Negócios.
Orientador: Prof. Alex Macedo de Araujo.
Visão sobre o encontro dos dois conceitos emergentes (Big Data e Governança de Dados) analisada à luz dos modelos DAMA/DMBOK(Data Management Association) e DMM(Data Management Maturity Model do CMMI Institute). Por aspectos de direitos, foram refeitos diagramas do modelo DMBOK.
My impressions about the next years future for Big Data and Data Science. Next few years we're going to see an increase in Real Time techniques, with new industries starting to use Big Data techniques.
Apresentação dada para o evento de finalização do curso de Big Data da FIA. Nele falo sobre minhas impressões sobre o futuro do Big Data, e como vamos ver o aumento de técnicas de Real Time, como novas industrias no Brasil adotando técnicas de Big Data.
Trabalho sobre Big Data apresentado na disciplina Tópicos Especiais de TI no curso de Sistemas de Informação do IFAL. Fala sobre algumas definições que auxiliaram no surgimento do que hoje chamamos de Big Data, além de falar sobre a ferramenta SPLUNK
Apresetanção dada na semana de inovação e tecnologia da FMU sobre a relação e a importância do Big Data para as novas startups.
Presentation given at Innovation and Technology Weetk at FMU College about Big Data and its importance to new startups.
Quer você saiba ou não, seu negócio já faz parte do mercado de dados e informações. Enquanto nossas vidas continuam migrando para a internet, produzimos um fluxo constante e exaustivo de informação digital.
Artigo Científico apresentado à Faculdade de Tecnologia da Zona Sul – Fatec-ZS como exigência parcial para a obtenção do título de Tecnólogo em Informática para Gestão de Negócios.
Orientador: Prof. Alex Macedo de Araujo.
Visão sobre o encontro dos dois conceitos emergentes (Big Data e Governança de Dados) analisada à luz dos modelos DAMA/DMBOK(Data Management Association) e DMM(Data Management Maturity Model do CMMI Institute). Por aspectos de direitos, foram refeitos diagramas do modelo DMBOK.
My impressions about the next years future for Big Data and Data Science. Next few years we're going to see an increase in Real Time techniques, with new industries starting to use Big Data techniques.
Apresentação dada para o evento de finalização do curso de Big Data da FIA. Nele falo sobre minhas impressões sobre o futuro do Big Data, e como vamos ver o aumento de técnicas de Real Time, como novas industrias no Brasil adotando técnicas de Big Data.
Trabalho sobre Big Data apresentado na disciplina Tópicos Especiais de TI no curso de Sistemas de Informação do IFAL. Fala sobre algumas definições que auxiliaram no surgimento do que hoje chamamos de Big Data, além de falar sobre a ferramenta SPLUNK
Apresetanção dada na semana de inovação e tecnologia da FMU sobre a relação e a importância do Big Data para as novas startups.
Presentation given at Innovation and Technology Weetk at FMU College about Big Data and its importance to new startups.
Palestra realizada por Nicole Verillo, diretora da AMARRIBO Brasil, durante o Painel “Transparência em Belém: a hora é agora!”, na sede da Ordem dos Advogados do Brasil-Pará, 16 de abril de 2014.
Brasil 100% Digital - O evento teve como principal objetivo a troca de experiências relacionadas ao uso de técnicas avançadas de análise de dados como instrumento para melhoria da gestão e do controle de entidades e políticas públicas. Espera-se que os debates contribuam para que as instituições participantes possam iniciar ou intensificar a adoção de tais técnicas, de modo a obter maior eficiência e efetividade em suas atividades.
Apresentação sobre soluções NoSQL, NewSQL e Big Data na Nuvem da Amazon Web Services. Aprenda sobre as opções de banco de dados na AWS, os benefícios da Nuvem para soluções Big Data, sobre a solução NoSQL como serviço DynamoDB e sobre Hadoop simples e rápido com Amazon Elastic Map Reduce
Big Data e Data Science - GBG - Google Business GroupDiego Nogare
Nesta palestra falo sobre os tipos de aprendizados de máquinas (supervisionado, semi-supervisionado e não supervisinado) e os possíveis resultados reais obtidos com cada um destes tipos de classificadores para se trabalhar com Machine Learning.
Data Science, Big Data e Analytics são termos que escutamos constantemente hoje em dia. Mais do que buzzwords elas estão guiando o modo como empresas de diferentes de tamanhos pensam e evoluem seus modelos de negócio.
Vamos desmistificar alguns desses conceitos e mostrar como podemos começar a aplicar algumas dessas técnicas em nossos projetos. E, sendo uma das mais usadas linguagens para análise de dados, veremos como Python pode nos ajudar nessa jornada.
Apresentação sobre Data warehouse e Data mining do curso de Gestão da Informação UFPR. Matéria Informática aplicada II (Business Intelligence).
Autores: Cassius Busemeyer, Cristiane Aparecida Luquetta, Rafael Slonik
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
Apresentação da utilização do PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho realizada no PgDay 2016 de Curitiba. Slides em :
A palestra apresenta o conceito de data lakes e big data, e como estas arquiteturas são formadas para o armazenamento e consumo de grande volumes de dados, sua relação com as arquiteturas distribuídas como é o caso do ecosistema Hadoop e como o a suíte Pentaho pode ajudar na gestão e extração de informações para tomada de decisão com recursos de big data analitycs.
A alguns anos comecei a estudar para me tornar um Cientista de Dados. Ainda Não estou totalmente lá, mas essa palestra traz algumas coisas que aprendi e recursos para aprender ainda mais.
Webinar: Monitorando sensores IoT: Do ESP32 ao GrafanaEmbarcados
Neste Webinar, aprenderemos o que é o Grafana e como criar um ecossistema utilizando-o como interface para visualização de gráficos, geração de alertas e etc. Vamos entender toda a topologia de funcionamento para você construir uma dashboard de monitoramento robusta e customizável para seus projetos de IoT.
TDC Connections - Offline first - Como este requisito impacta seu projeto?Claudinei Brito Junior
Palestra apresentada no The Developers Conference Connections, que ocorreu em 09 de julho de 2021, de forma remota.
Contato:
- Claudinei Brito Junior (claudineibjr@hotmail.com / https://www.linkedin.com/in/claudineibjr)
- Gabriela Pereira (gabriela.flutterdev@hotmail.com / https://www.linkedin.com/in/gabriela-pereira-dos-santos-472365139/)
4. O que são dados?
DADOS ● Simples / Escalar
INFORMAÇÃO ● Combinação de dados
CONHECIMENTO ● Combinação de informações
5. Categorias de Dados
Estruturado Semi-Estruturado Não Estruturado
Estrutura
Rígida
Atributos
Fixos
Tamanhos
Fixos
Integriadade e
Consistencia
Estrutura
Flexível Sem
Estrutura
Atributos
Variáveis
Tamanhos
Variáveis
10. O macro processo da informação
Sistemas de
Produção
BD
Operacional
Data
Warehouse
Relatórios
Cubos
Dashboards
Data Mining
Clientes Funcionários
DADOS
DECISÃO
INFORMAÇÃO
DADOS
INFORMAÇÃO
CONHECIMENTO
Planejamento
Metas
Promoções
Ofertas
Promoções
etc
Gerentes
13. Tamanho dos Dados
Unidade Conversão O que representa
Bit 0 ou 1
Byte (B) 8 bits Uma letra
Kilobyte (KB) 1024 bytes Um parágrafo de texto
Megabyte (MB) 1024 Kb Um livro, uma música de 2 min
Gigabyte (GB) 1024 Mb 40 minutos de filme em qualidade de DVD
Terabyte (TB) 1024 Gb Três semanas e meia de vídeo de alta qualidade,
Petabyte (PB) 1024 Tb ???
Exabyte (EB) 1024 Pb ???
Zetabyte (ZB) 1024 Eb ???
14.
15. Custo por Tamanho dos Dados
Fonte: http://www.techtudo.com.br/artigos/noticia/2013/04/do-disquete-ao-pendrive-veja-evolucao-do-armazenamento-movel.html
16.
17.
18. Custo do Armazenamento Hoje
Mídia Custo Médio por GB (R$)
Pendrive 2,50
SSD 2,60
Disco Rígido 0,37
Cloud 0,03 (mês)
19. Velocidade de comunicação
Velocidade 1 Segundo 1 Minuto 1 Hora
bits por segundo (bps) 1 7.5 B 450 B
Kilobits por segundo (Kbps) 125 B 7.3 KB 439 KB
Megabits por segundo (Mbps) 122 KB 7.3 MB 439 MB
Gigabits por segundo (Gbps) 119 MB 6,9 GB 414 GB
Fonte: http://www.wu.ece.ufl.edu/links/dataRate/DataMeasurementChart.html
20. Velocidade dos Dados
Dispositivo Velocidade Segundo Ano
Modem 56 K 56 Kbps 6,8 KB 1998
ADSL Até 8 Mbps 976 KB 1999
Cable Modem Até 52 Mbps 6,3 MB 2001
Ethernet 100Mbps 12,5 MB 1995
Gigabit Ethernet 1 Gbps 125 MB 1998
Wireless 108 Mbps 13,5 MB 2003
3G 384 Kbps 48 KB 2002
21. Custo por Velocidade dos Dados
Meio Velocidade Custo Mensal por Mbps
Celular 3G 1 Mbps 30,00
ADSL 1 Mbps 44,00
Cabo 1 Mbps 40,00
Fibra 15 Mbps 75,00
Wireless
23. Novas Fontes de Dados
● Por quê?
○ Monitoramento da marca;
○ Monitoramento de campanhas de marketing;
○ Relacionamento com o consumidor;
○ Análise de tendências (trending topics);
○ ...
24. ● 4 milhões de buscas no Google
● 2,5 milhões de posts no
Facebook
● 300 mil posts no Twitter
Data Explosion
● 220 mil fotos no Instagram
● 72 horas de vídeo no Youtube
● 50 mil downloads de aplicativos
na Apple Store
● 200 milhões de e-mails
O que acontece em 1 minuto na Internet?
Fonte: http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/
25.
26.
27. Internet das Coisas (IoT)
● Diversos sensores coletando dados
automaticamente;
● Dados são enviados para a internet e
armazenados;
● Usuário é alertado sobre os dados;
28.
29.
30.
31. Internet das Coisas (IoT)
● Sensores
● GPS
● Climáticos
○ Temperatura
○ Umidade
○ Precipitação
○ Velocidade do Vento
● Luminosidade
● Timer
● Biométricos
○ Pressão
○ Temperatura
Corporal
○ BPM
● Carros
33. Dados Abertos (Open Data)
Disponibilizar arquivos de dados:
● Completos
● Primários
● Atuais
● Acessíveis
● Tratáveis por
computador
● Sem discriminação
● Sem propriedade
● Sem licença
34. Dados Abertos (Open Data)
● Existência
○ Os dados devem estar disponíveis e indexados na web!
● Aproveitamento
○ Os dados devem estar em formato utilizável por computador!
● Utilidade
○ Os dados devem estar livres de restrições jurídicas!
35. Dados Abertos Governamentais
● Lei de Acesso à Informação (LAI)
○ http://dados.gov.br/
○ http://www.portaltransparencia.gov.br/
○ http://www.transparencia.mg.gov.br/
○ http://www.ifnmg.edu.br/acessoainformacao/sobre-
o-acesso-a-informacao
○
38. Novo cenário
● Todos os dados
○ Formatos diferentes entre si;
○ Gerados em velocidades distintas;
○ Validades diferentes;
○ Relacionados ou não.
39.
40.
41. Valor e Depreciação
● Alguns dados sofrem depreciação
○ Têm dada de validade
○ Custo de Oportunidade
Depois de coletados e armazenados os dados
devem rapidamente serem transformados em
informação para ser consumida!
43. Visualização da Informação
● Relatórios
● Gráficos
● Indicadores de Desempenho
● Painéis de Controle (Dashboards)
● Infográficos e Data Storytelling
49. Big Data
● 4 V's (Stapleton, 2011)
○ Volume
■ Terabytes para Petabytes de dados
○ Velocidade
■ Fluxo contínuo e rápido de novos dados
○ Variedade
■ Dados estruturados, semi e não estruturados
○ Veracidade
■ Governança de dados e qualificação entre
Consistente, Inconsistente, Incompleto, Ambíguo, ...
54. E o poder de processamento???
● Supercomputadores ???
○ $$$ #Fail
● Multicomputadores !!!
○ $$$ :-)
55. E o poder de processamento???
● Multicomputadores
○ Cluster
■ SIMD - Single Instruction Multiple Data
■ Rede Local
○ Grid
■ MIMD - Multiple Instruction Multiple Data
■ Distribuição geográfica
56. E o poder de processamento???
● Cluster = Dividir para Conquistar
○ Sharding
■ Sistema de Arquivos Distribuídos
■ Dividir os dados
○ Map/Reduce
■ Processamento Distribuído & Paralelo
■ Dividir o processamento
58. Sharding
● Particionamento Horizontal Replicado
○ O total de dados é dividido em vários partes
pequenas (shards - cacos);
○ As partes são divididas entre vários computadores
○ Cada parte tem pelo menos 3 cópias em
computadores diferentes (segurança)
59. Sharding
Comp 1 Comp 2 Comp 3 Comp 4
Comp N
...
Master
Dados
Índice
A
B
Dados
C
D
Dados
A
C
Dados
B
D
Dados
A
D
61. Map/Reduce: Processamento Distribuído
● Etapa de Mapeamento
○ O processamento total é dividido em pequenas
tarefas
○ As tarefas são enviadas para os computadores
executarem nos dados locais
○ Cada computador envia o resultado para o
computador central
63. Map/Reduce: Processamento Distribuído
● Etapa de Redução
○ O computador central recebe o resultado do
processamento dos outro computadores
○ Os resultados individuais são combinados em um
resultado único
66. Até aqui...
● Tenho muitos dados
○ De muitos tipos
○ Chegando muito rápido
● Tenho muito poder computacional
○ Muitos discos
○ Muitos processadores
E o que eu faço com tudo isso???
68. Ciência de Dados
● Objetivo
○ Encontrar PADRÕES e TENDÊNCIAS nos dados;
■ Novos
■ Potencialmente úteis
○ Desenvolver tecnologias a partir dos padrões
encontrados.
70. Data Science
Bancos de DadosProgramação
Estatística
Inteligência
Computacional
Cálculo
Metodologia
de Pesquisa
Gestão de
Projetos
Análise de
Negócio
Grafos e Redes
Design
Otimização
Simulação
Álgebra
Linear
83. Conclusão
● Tudo está conectado!
● Nunca antes tivemos tantos dados,
informações e conhecimento sobre tantas
coisas;
● Há um vasto leque de possibilidades
latentes...
84. Conclusão
● Data Science
○ Mais do mesmo ou novidade?
○ Uma nova renascença ou uma onda passageira?
Até onde podemos chegar?
O que somos capazes de fazer?
85. Efeito Borboleta
"Um parafuso mal ajustado na planta de
produção de uma fábrica pode causar uma
crise econômica mundial?"
86. "Em Deus eu confio.
Todos os outros precisam
trazer dados"
William E. Deming
89. Referências
● Azevedo, A.; Santos, M.F. KDD, SEMMA, and CRISP-DM: A Parallel Overview.
Proceedings of the IADIS European Conference on Data Mining, Amsterdam,
2008, pp. 182-185. Disponível em http://recipp.ipp.pt/handle/10400.22/136.
Acesso em 28/01/2013.
● Brewer, Eric A.: Towards Robust Distributed Systems. Portland, Oregon, July
2000. – Keynote at the ACM Symposium on Principles of Distributed Computing
(PODC). Disponível em http://www.cs.berkeley.edu/~brewer/cs262b-2004/PODC-
keynote.pdf Acesso em 27/01/2013.
● Chapman, P. et al. CRISP-DM 1.0 - Step-by-step data mining guide. 2000.
Disponível em http://www.crisp-dm.org/CRISPWP-0800.pdf. Acesso em
27/01/2013.
● Chee, Timothy; Chan, Lee-Kwun et al. Business Intelligence Systems: State-of-
the-art review and contemporary applications. In Symposium on Progress in
Information & Communication Technology 2009. p. 96-101.
● Codd, Edgar F.: A Relational Model of Data for Large Shared Data Banks. In:
Communications of the ACM 13 (1970), June, No. 6, p. 377–387
90. Referências
● Fayyad, U. M. et al. From data mining to knowledge discovery: an overview.
In Fayyad, U. M.et al (Eds.), Advances in knowledge discovery and data mining.
AAAI Press / The MIT Press.
● Fayyad, U. and Piatetsky-Shapiro, G. and Smyth, P. The KDD process for
extracting useful knowledge from volumes of data. Communications of the
ACM v. 39, n. 11, p. 27-34. 1996.
● Inmon, W.H. Building the data warehouse. J. Wiley. 2002.
● MacVittie, Lori. The Four V’s of Big Data. Disponível em https://devcentral.f5.
com/blogs/us/the-four-v-rsquos-of-big-data. Acesso em 27/01/2013.
● Pritchett, Dan. BASE: An ACID alternative. ACM Queue. 2008. Disponível em
http://queue.acm.org/detail.cfm?id=1394128. Acesso em 27/01/2013.
● Kimball, R.; Ross, M. et al. The data warehouse toolkit: the complete guide to
dimensional modelling. New York: 2002.
● SAS Institute. SAS Enterprise Miner – SEMMA. Disponível em http://www.sas.
com/technologies/analytics/datamining/miner/semma.html. Acessado em
27/01/2013.