O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open

259 visualizações

Publicada em

Nesta palestra será apresentado como podemos construir uma plataforma para geração de insights significativos usando apenas tecnologias open source e free softwares. Desafios do uso do Open Source e diferenciais competitivos e estratégicos. Serão detalhadas também questões técnicas da funções das ferramentas de integração de dados, carga de lotes, qualidade dos dados, segurança dos dados, estrutura distribuída, data warehouse, fluxo de dados em tempo real, processamento e visualização de dados todas open source para que possa se implementar uma plataforma Open Source para Data Science. Um destaque especial do uso do Pentaho nesta plataforma será abordado.

Publicada em: Tecnologia
  • Login to see the comments

FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open

  1. 1. Open Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open Marcio Junior Vieira CEO & Data Scientist, Ambiente Livre Prof. MBA Universidade Positivo
  2. 2. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Marcio Junior Vieira Mini-cv ● 18 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial e Analise de Dados. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante FLOSS: FISL, LATINOWARE,Campus Party, Pentaho Day, TDC, Ticnova ● Organizador Geral: Pentaho Day 2017, 2015 e apoio nas ed. 2013 e 2014. ● CEO da Ambiente Livre. ● Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas. ● Prof. MBA em Big Data, Data Science, BI e Inteligência Artificial da Univ. Positivo. ● Prof. MBA de Inteligência Artificial da FIAP. ● Ajudou na capacitação equipes de Big Data, Data Science e Analiytics na IBM, Accenture, Tivit, Serpro, Ministerio Público, Netshoes, Natura, Embraer entre outras.
  3. 3. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Nosso Ecossistema de Serviços
  4. 4. Indústria 4.0. A próxima revolução industrial. baseado no … Quarto paradigma da ciência
  5. 5. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O Quarto Paradigma da Ciência ● Empírica: É uma maneira de adquirir conhecimento por meio de observação ou experiência direta e indireta. ● Investigação: Melhorar as teorias científicas para uma melhor compreensão ou previsão de fenômenos naturais. Muitas vezes impulsionado pela curiosidade. ● Computação: Estuda as técnicas, metodologias e instrumentos computacionais, que automatiza processos e desenvolve soluções baseadas no uso do processamento digital. ● Baseada em dados ( data-driven ) Ciência Sobre os Dados ou Ciência dos Dados
  6. 6. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Data Science ● Campo interdisciplinar de pesquisa sobre métodos científicos, processos e sistemas para extrair conhecimentos ou insights a partir de dados em várias formas, estruturadas ou não estruturadas, semelhantes ao KDD. ● Unificar estatísticas, análise de dados e seus métodos relacionados, a fim de compreender e analisar fenômenos reais com dados. ● Emprega técnicas e teorias extraídas das áreas amplas de matemática, estatística, ciência da informação e ciência da computação, aprendizagem de máquinas, classificação, análise de cluster, mineração de dados, bancos de dados e visualização.
  7. 7. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Convergência Tecnológica Data Science Machine Learning Deep Learning Big Data Data Analytics Business Intelligence Inteligência Artificial Databases Data MiningBlockchain RPA Inteligência Cognitiva Chatbots
  8. 8. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Vantagens Competitivas - Data Science ● Melhorar a precisão das previsões de demanda; ● Desenvolver novos serviços; ● Descobrir novos padrões de demanda; ● Realizar um planejamento de oferta em tempo real, usando recursos e dados de sensores de produção e da Internet das Coisas.
  9. 9. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Vantagens Competitivas - Inteligência Artificial ● Automação - RPA ● Redução de custos ● 60% das funções, no mercado de trabalho, pode ter pelo menos um terço de suas atividades automatizadas ( Fonte: McKinsey )
  10. 10. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
  11. 11. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Software Livre
  12. 12. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Software Livre "Software Livre" se refere à liberdade dos usuários executarem, copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o software. São 4 tipos de liberdade, para os usuários do software: ● 1. A liberdade de executar o programa, para qualquer propósito. ● 2. A liberdade de estudar como o programa funciona, e adaptá-lo para as suas necessidades. Acesso ao código-fonte é um pré- requisito para esta liberdade. ● 3. A liberdade de redistribuir cópias de modo que você possa ajudar ao seu próximo. ● 4. A liberdade de aperfeiçoar o programa, e liberar ● os seus aperfeiçoamentos, de modo que toda a ● comunidade se beneficie.
  13. 13. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Open Source ● Criado pela OSI (Open Source Initiative) ● Não refere-se a software também conhecido por software livre. ● Qualquer licença de software livre é também uma licença de código aberto (Open Source) ● Mas o contrário nem sempre é verdade ● Criado por Eric Raymond e outros fundadores da OSI.
  14. 14. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Free Software X Open Source ● 4 Lei da GPL ● OBRIGATORIEDADE: A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie. X
  15. 15. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Captura de Dados ● Web crawler ● IoT ● Equipamentos de Redes ● Open Source (Data System) Erps, CRMs, etc ● Logs ● Streaming ● Etc, etc, etc
  16. 16. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Armazenar
  17. 17. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Processar
  18. 18. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Data Visualization e Query Analytics
  19. 19. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Machine Learning / Deep Learning / Inteligência Artificial Apache Singa
  20. 20. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Arquitetura
  21. 21. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Fundação Apache ● Data Science = Apache = Open Source ● Apache é lider em Big Data e Data Science! ● ~43 projetos da linha “Big Data” incluindo “Apache Hadoop” e “Spark” ● ~25 projetos de database incluindo “Apache Cassandra”
  22. 22. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Pentaho - Hitachi Vantara ● Plataforma abrangente para integração de dados e Business Analytics. 3 Pilares do Pentaho
  23. 23. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Pentaho Data Integration ● Processa em Paralelo Cluster Apache Spark ● Acessar dados diretamente (se necessário sem DW ) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dasboards. ● “Programação e Fluxo Visual” com aproximadamente 350 steps/funções diferentes
  24. 24. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Pentaho Data Integration – Big Data ● Conexões nativas e camada adaptável de Big Data e acesso funcionalidades dos populares big data stores. ● Capacidade de acessar dados, processá-los, combiná-los e consumi-los em qualquer lugar. ● Flexibilidade, isolamento das mudanças no ecossistema de dados ● Suporte a distros Hadoop Open Sources e Comerciais ● Acessar dados para preparação via SQL no Spark e orquestrar aplicativos Spark (Scala, Java e Python) ● Integração com NoSQL stores
  25. 25. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Pentaho Report Designer ● Visualização Web ou Embed. ● Assistente de geração de relatórios ● Amplo suporte de fonte de dados, incluindo ● relacionais, OLAP, XML e Pentaho Analysis, ● arquivos flat, objetos Java e ... ● Big Data Reports ● ( integra-se com PDI )
  26. 26. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Pentaho Analysis ( Mondrian) ● Explora através de perfuração e tabulação de dados. ● Velocidade de resposta as consultas analíticas complexas. ● Visualiza a informação multi-dimensional, escolhendo métricas e atributos específicos para analisar. ● Totalmente Web, drag-and-drop. ● Classificação e filtragem avançadas ● Totais personalizados e definidos pelo usuário cálculos ● Gráfico para visualizações
  27. 27. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Dashboards ( Ctools ) ● Oferecer métricas em uma atrativa interface intuitiva e visual, painéis proporcionam aos gestores empresariais a informação crítica de que necessitam para entender e melhorar o desempenho organizacional.
  28. 28. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Dashboards através de ETL ● Dashboards permiter ● integração com ETL
  29. 29. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Dashboards através de ETL https://github.com/d3/d3/wiki/Gallery http://romsson.github.io/dragit/example/nations.html https://bl.ocks.org/mbostock/1136236 http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
  30. 30. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Pentaho Data Mining ( aka Weka ) ● Solução completa para Machine Learning ● Aprox. 79 Algorítimos - Classificação - Associação - Cluster
  31. 31. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Um exemplo para ilustração – Data Science ●
  32. 32. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Comunidade Pentaho Brasileira ● +de 2000 Hachers em Analitycs, Integradores, Desenvolvedores, Machine Learning, Data Science, etc. Pentaho Day 2017 em Curitiba na Universidade Positivo Aprox. 300 Pessoas 6 países (Brasil, Paraguai, Argentina, Bélgica, Portugal e EUA) 20 Estados Brasileiros presentes. 40 Palestrantes, 35 Palesras e 12 Minicursos.
  33. 33. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Open Source e Free Software gerando valor ● Facebook vende software? Não mas entrega muita tecnologia open source assim como milhares de outras startup. Exemplo Hive. ● Cloudera vende 18% de ações para Intel ● Hoje intel controla 51% ações para cloudera.
  34. 34. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Dificuldades ou Desculpas criadas por “vendors” ● Como vai gerenciar Schedulers ? ● Como vai gerenciar Segurança ? ● Como vai gerenciar o Cluster ? ● Como ? Como ? Como? ● cron ● chmod 600 ● Shell script / Apache tools ● Open Source Data Scientist Nutela Data Scientist Raiz
  35. 35. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Diferenciais Reais mas não impeditivos ● Interface ● Aceleração do Trabalho ( tempo) ● BI Self Service , Dig Data Self Service! Será mesmo ? ● Suporte do Desenvolvedor ● Documentação, Livros, Materiais em Português ● Documentação extremamente técnica
  36. 36. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Dificuldades reais ● Alto investimento em capital intelectual das pessoas ● Encontrar pessoas com perfil “hacker e pesquisador” ● Tempo ● Persistência
  37. 37. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Acontecendo no mercado ● Compram Player de Mercado... ● Montamos Cluster na Amazon, Azure, Azure ● Uso o Framework da Nuvem ● O custo sobe.. a empresa cresce.. e crise vem... o dólar sobe...! ● Começo a mesclar usando Open Source ● Startups! Começam ao Contrário! Open Sorce sempre primeiro.
  38. 38. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Minhas Perguntas aos Grandes ● Sei que você usa arquitetura “mesclada”, mas é possível fazer 100% Open Source? ● Sim recebidos!
  39. 39. © 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 100% OPEN SOURCE DATA SCIENCE SIM by
  40. 40. Obrigado Marcio Junior Vieira marcio@ambientelivre.com.br @marviojvieira @ambientelivre https://www.linkedin.com/in/mvieira1/

×