Open Data Science -
Elaborando uma plataforma
de Big Data & Analytics
100% Open
Marcio Junior Vieira
CEO & Data Scientist, Ambiente Livre
Prof. MBA Universidade Positivo
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Marcio Junior Vieira
Mini-cv
●
18 anos de experiência em informática, vivência em desenvolvimento e análise de
sistemas de Gestão empresarial e Analise de Dados.
●
Trabalhando com Free Software e Open Source desde 2000 com serviços de
consultoria e treinamento.
●
Graduado em Tecnologia em Informática(2004) e pós-graduado em Software
Livre(2005) ambos pela UFPR.
●
Palestrante FLOSS: FISL, LATINOWARE,Campus Party, Pentaho Day, TDC, Ticnova
●
Organizador Geral: Pentaho Day 2017, 2015 e apoio nas ed. 2013 e 2014.
●
CEO da Ambiente Livre.
●
Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas.
●
Prof. MBA em Big Data, Data Science, BI e Inteligência Artificial da Univ. Positivo.
●
Prof. MBA de Inteligência Artificial da FIAP.
●
Ajudou na capacitação equipes de Big Data, Data Science e Analiytics na IBM,
Accenture, Tivit, Serpro, Ministerio Público, Netshoes, Natura, Embraer entre outras.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Nosso Ecossistema de Serviços
Indústria 4.0.
A próxima revolução industrial.
baseado no …
Quarto paradigma da ciência
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
O Quarto Paradigma da Ciência
●
Empírica: É uma maneira de adquirir conhecimento por meio de
observação ou experiência direta e indireta.
●
Investigação: Melhorar as teorias científicas para uma melhor
compreensão ou previsão de fenômenos naturais. Muitas vezes
impulsionado pela curiosidade.
●
Computação: Estuda as técnicas, metodologias e instrumentos
computacionais, que automatiza processos e desenvolve soluções
baseadas no uso do processamento digital.
●
Baseada em dados ( data-driven )
Ciência Sobre os Dados ou Ciência dos Dados
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Data Science
●
Campo interdisciplinar de pesquisa sobre métodos científicos,
processos e sistemas para extrair conhecimentos ou insights
a partir de dados em várias formas, estruturadas ou não
estruturadas, semelhantes ao KDD.
●
Unificar estatísticas, análise de dados e seus métodos
relacionados, a fim de compreender e analisar fenômenos reais
com dados.
●
Emprega técnicas e teorias extraídas das áreas amplas de
matemática, estatística, ciência da informação e ciência da
computação, aprendizagem de máquinas, classificação, análise
de cluster, mineração de dados, bancos de dados e visualização.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Convergência Tecnológica
Data Science
Machine Learning
Deep Learning
Big Data
Data Analytics
Business
Intelligence
Inteligência
Artificial
Databases
Data
MiningBlockchain
RPA
Inteligência
Cognitiva
Chatbots
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Vantagens Competitivas - Data Science
●
Melhorar a precisão das previsões de demanda;
●
Desenvolver novos serviços;
●
Descobrir novos padrões de demanda;
●
Realizar um planejamento de oferta em tempo real, usando
recursos e dados de sensores de produção e da Internet das
Coisas.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Vantagens Competitivas - Inteligência Artificial
●
Automação - RPA
●
Redução de custos
●
60% das funções, no mercado de trabalho, pode ter pelo menos
um terço de suas atividades automatizadas ( Fonte: McKinsey )
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Software Livre
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Software Livre
"Software Livre" se refere à liberdade dos usuários executarem,
copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o
software. São 4 tipos de liberdade, para os usuários do software:
●
1. A liberdade de executar o programa, para qualquer propósito.
●
2. A liberdade de estudar como o programa funciona, e adaptá-lo
para as suas necessidades. Acesso ao código-fonte é um pré-
requisito para esta liberdade.
●
3. A liberdade de redistribuir cópias de modo que você possa
ajudar ao seu próximo.
●
4. A liberdade de aperfeiçoar o programa, e liberar
●
os seus aperfeiçoamentos, de modo que toda a
●
comunidade se beneficie.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Open Source
●
Criado pela OSI (Open Source Initiative)
●
Não refere-se a software também conhecido por software livre.
●
Qualquer licença de software
livre é também uma licença
de código aberto (Open Source)
●
Mas o contrário nem sempre é
verdade
●
Criado por Eric Raymond
e outros fundadores da OSI.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Free Software X Open Source
●
4 Lei da GPL
●
OBRIGATORIEDADE:
A liberdade de aperfeiçoar o programa, e liberar os seus
aperfeiçoamentos, de modo que toda a comunidade se beneficie.
X
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Captura de Dados
●
Web crawler
●
IoT
●
Equipamentos de Redes
●
Open Source (Data System) Erps, CRMs, etc
●
Logs
●
Streaming
●
Etc, etc, etc
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Armazenar
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Processar
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Data Visualization e Query Analytics
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Machine Learning / Deep Learning / Inteligência Artificial
Apache Singa
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Arquitetura
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Fundação Apache
●
Data Science = Apache = Open Source
●
Apache é lider em Big Data e Data Science!
●
~43 projetos da linha “Big Data” incluindo “Apache Hadoop” e
“Spark”
●
~25 projetos de database incluindo “Apache Cassandra”
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Pentaho - Hitachi Vantara
●
Plataforma abrangente para integração de dados e Business
Analytics. 3 Pilares do Pentaho
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Pentaho Data Integration
●
Processa em Paralelo Cluster Apache Spark
●
Acessar dados diretamente (se necessário sem DW )
●
Permite publicar dados diretamente em Reports, Ad-Hoc Reports
e Dasboards.
●
“Programação e Fluxo Visual” com aproximadamente 350
steps/funções diferentes
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Pentaho Data Integration – Big Data
●
Conexões nativas e camada adaptável de Big
Data e acesso funcionalidades dos populares
big data stores.
●
Capacidade de acessar dados, processá-los,
combiná-los e consumi-los em qualquer lugar.
●
Flexibilidade, isolamento das mudanças no
ecossistema de dados
●
Suporte a distros Hadoop Open Sources e
Comerciais
●
Acessar dados para preparação via SQL no
Spark e orquestrar aplicativos Spark (Scala,
Java e Python)
●
Integração com NoSQL stores
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Pentaho Report Designer
●
Visualização Web ou Embed.
●
Assistente de geração de relatórios
●
Amplo suporte de fonte de dados, incluindo
●
relacionais, OLAP, XML e Pentaho Analysis,
●
arquivos flat, objetos Java e ...
●
Big Data Reports
●
( integra-se com PDI )
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Pentaho Analysis ( Mondrian)
●
Explora através de perfuração e tabulação de dados.
●
Velocidade de resposta as consultas analíticas complexas.
●
Visualiza a informação multi-dimensional,
escolhendo métricas e atributos
específicos para analisar.
●
Totalmente Web, drag-and-drop.
●
Classificação e filtragem avançadas
●
Totais personalizados e definidos pelo
usuário cálculos
●
Gráfico para visualizações
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Dashboards ( Ctools )
●
Oferecer métricas em uma atrativa
interface intuitiva e visual, painéis
proporcionam aos gestores
empresariais a informação crítica de
que necessitam para entender e
melhorar o desempenho
organizacional.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Dashboards através de ETL
●
Dashboards permiter
●
integração com ETL
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
Dashboards através de ETL
https://github.com/d3/d3/wiki/Gallery
http://romsson.github.io/dragit/example/nations.html
https://bl.ocks.org/mbostock/1136236
http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
Pentaho Data Mining ( aka Weka )
●
Solução completa para Machine Learning
●
Aprox. 79
Algorítimos
- Classificação
- Associação
- Cluster
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381
Um exemplo para ilustração – Data Science
●
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382
Comunidade Pentaho Brasileira
●
+de 2000
Hachers em Analitycs,
Integradores,
Desenvolvedores,
Machine Learning,
Data Science, etc.
Pentaho Day 2017 em Curitiba na Universidade Positivo
Aprox. 300 Pessoas
6 países (Brasil, Paraguai, Argentina, Bélgica, Portugal e EUA)
20 Estados Brasileiros presentes.
40 Palestrantes, 35 Palesras e 12 Minicursos.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383
Open Source e Free Software gerando valor
●
Facebook vende software? Não mas entrega muita tecnologia
open source assim como milhares de outras startup. Exemplo
Hive.
●
Cloudera vende 18%
de ações para Intel
●
Hoje intel controla
51% ações para cloudera.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384
Dificuldades ou Desculpas criadas por “vendors”
●
Como vai gerenciar Schedulers ?
●
Como vai gerenciar Segurança ?
●
Como vai gerenciar o Cluster ?
●
Como ? Como ? Como?
●
cron
●
chmod 600
●
Shell script / Apache tools
●
Open Source
Data Scientist Nutela Data Scientist Raiz
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385
Diferenciais Reais mas não impeditivos
●
Interface
●
Aceleração do Trabalho ( tempo)
●
BI Self Service , Dig Data Self Service! Será mesmo ?
●
Suporte do Desenvolvedor
●
Documentação, Livros, Materiais em Português
●
Documentação extremamente técnica
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386
Dificuldades reais
●
Alto investimento em capital intelectual das pessoas
●
Encontrar pessoas com perfil “hacker e pesquisador”
●
Tempo
●
Persistência
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387
Acontecendo no mercado
●
Compram Player de Mercado...
●
Montamos Cluster na Amazon, Azure, Azure
●
Uso o Framework da Nuvem
●
O custo sobe.. a empresa cresce.. e crise vem... o dólar sobe...!
●
Começo a mesclar usando Open Source
●
Startups! Começam ao Contrário! Open Sorce sempre primeiro.
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388
Minhas Perguntas aos Grandes
●
Sei que você usa arquitetura “mesclada”, mas é possível fazer
100% Open Source?
●
Sim recebidos!
© 2017, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389
100% OPEN SOURCE DATA SCIENCE
SIM by
Obrigado
Marcio Junior Vieira
marcio@ambientelivre.com.br
@marviojvieira @ambientelivre
https://www.linkedin.com/in/mvieira1/

FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytics 100% Open

  • 1.
    Open Data Science- Elaborando uma plataforma de Big Data & Analytics 100% Open Marcio Junior Vieira CEO & Data Scientist, Ambiente Livre Prof. MBA Universidade Positivo
  • 2.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Marcio Junior Vieira Mini-cv ● 18 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial e Analise de Dados. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante FLOSS: FISL, LATINOWARE,Campus Party, Pentaho Day, TDC, Ticnova ● Organizador Geral: Pentaho Day 2017, 2015 e apoio nas ed. 2013 e 2014. ● CEO da Ambiente Livre. ● Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas. ● Prof. MBA em Big Data, Data Science, BI e Inteligência Artificial da Univ. Positivo. ● Prof. MBA de Inteligência Artificial da FIAP. ● Ajudou na capacitação equipes de Big Data, Data Science e Analiytics na IBM, Accenture, Tivit, Serpro, Ministerio Público, Netshoes, Natura, Embraer entre outras.
  • 3.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Nosso Ecossistema de Serviços
  • 4.
    Indústria 4.0. A próximarevolução industrial. baseado no … Quarto paradigma da ciência
  • 5.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 O Quarto Paradigma da Ciência ● Empírica: É uma maneira de adquirir conhecimento por meio de observação ou experiência direta e indireta. ● Investigação: Melhorar as teorias científicas para uma melhor compreensão ou previsão de fenômenos naturais. Muitas vezes impulsionado pela curiosidade. ● Computação: Estuda as técnicas, metodologias e instrumentos computacionais, que automatiza processos e desenvolve soluções baseadas no uso do processamento digital. ● Baseada em dados ( data-driven ) Ciência Sobre os Dados ou Ciência dos Dados
  • 6.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Data Science ● Campo interdisciplinar de pesquisa sobre métodos científicos, processos e sistemas para extrair conhecimentos ou insights a partir de dados em várias formas, estruturadas ou não estruturadas, semelhantes ao KDD. ● Unificar estatísticas, análise de dados e seus métodos relacionados, a fim de compreender e analisar fenômenos reais com dados. ● Emprega técnicas e teorias extraídas das áreas amplas de matemática, estatística, ciência da informação e ciência da computação, aprendizagem de máquinas, classificação, análise de cluster, mineração de dados, bancos de dados e visualização.
  • 7.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Convergência Tecnológica Data Science Machine Learning Deep Learning Big Data Data Analytics Business Intelligence Inteligência Artificial Databases Data MiningBlockchain RPA Inteligência Cognitiva Chatbots
  • 8.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Vantagens Competitivas - Data Science ● Melhorar a precisão das previsões de demanda; ● Desenvolver novos serviços; ● Descobrir novos padrões de demanda; ● Realizar um planejamento de oferta em tempo real, usando recursos e dados de sensores de produção e da Internet das Coisas.
  • 9.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Vantagens Competitivas - Inteligência Artificial ● Automação - RPA ● Redução de custos ● 60% das funções, no mercado de trabalho, pode ter pelo menos um terço de suas atividades automatizadas ( Fonte: McKinsey )
  • 10.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380
  • 11.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Software Livre
  • 12.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Software Livre "Software Livre" se refere à liberdade dos usuários executarem, copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o software. São 4 tipos de liberdade, para os usuários do software: ● 1. A liberdade de executar o programa, para qualquer propósito. ● 2. A liberdade de estudar como o programa funciona, e adaptá-lo para as suas necessidades. Acesso ao código-fonte é um pré- requisito para esta liberdade. ● 3. A liberdade de redistribuir cópias de modo que você possa ajudar ao seu próximo. ● 4. A liberdade de aperfeiçoar o programa, e liberar ● os seus aperfeiçoamentos, de modo que toda a ● comunidade se beneficie.
  • 13.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Open Source ● Criado pela OSI (Open Source Initiative) ● Não refere-se a software também conhecido por software livre. ● Qualquer licença de software livre é também uma licença de código aberto (Open Source) ● Mas o contrário nem sempre é verdade ● Criado por Eric Raymond e outros fundadores da OSI.
  • 14.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Free Software X Open Source ● 4 Lei da GPL ● OBRIGATORIEDADE: A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie. X
  • 15.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Captura de Dados ● Web crawler ● IoT ● Equipamentos de Redes ● Open Source (Data System) Erps, CRMs, etc ● Logs ● Streaming ● Etc, etc, etc
  • 16.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Armazenar
  • 17.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Processar
  • 18.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Data Visualization e Query Analytics
  • 19.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Machine Learning / Deep Learning / Inteligência Artificial Apache Singa
  • 20.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Arquitetura
  • 21.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Fundação Apache ● Data Science = Apache = Open Source ● Apache é lider em Big Data e Data Science! ● ~43 projetos da linha “Big Data” incluindo “Apache Hadoop” e “Spark” ● ~25 projetos de database incluindo “Apache Cassandra”
  • 22.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Pentaho - Hitachi Vantara ● Plataforma abrangente para integração de dados e Business Analytics. 3 Pilares do Pentaho
  • 23.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Pentaho Data Integration ● Processa em Paralelo Cluster Apache Spark ● Acessar dados diretamente (se necessário sem DW ) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dasboards. ● “Programação e Fluxo Visual” com aproximadamente 350 steps/funções diferentes
  • 24.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Pentaho Data Integration – Big Data ● Conexões nativas e camada adaptável de Big Data e acesso funcionalidades dos populares big data stores. ● Capacidade de acessar dados, processá-los, combiná-los e consumi-los em qualquer lugar. ● Flexibilidade, isolamento das mudanças no ecossistema de dados ● Suporte a distros Hadoop Open Sources e Comerciais ● Acessar dados para preparação via SQL no Spark e orquestrar aplicativos Spark (Scala, Java e Python) ● Integração com NoSQL stores
  • 25.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Pentaho Report Designer ● Visualização Web ou Embed. ● Assistente de geração de relatórios ● Amplo suporte de fonte de dados, incluindo ● relacionais, OLAP, XML e Pentaho Analysis, ● arquivos flat, objetos Java e ... ● Big Data Reports ● ( integra-se com PDI )
  • 26.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Pentaho Analysis ( Mondrian) ● Explora através de perfuração e tabulação de dados. ● Velocidade de resposta as consultas analíticas complexas. ● Visualiza a informação multi-dimensional, escolhendo métricas e atributos específicos para analisar. ● Totalmente Web, drag-and-drop. ● Classificação e filtragem avançadas ● Totais personalizados e definidos pelo usuário cálculos ● Gráfico para visualizações
  • 27.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Dashboards ( Ctools ) ● Oferecer métricas em uma atrativa interface intuitiva e visual, painéis proporcionam aos gestores empresariais a informação crítica de que necessitam para entender e melhorar o desempenho organizacional.
  • 28.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Dashboards através de ETL ● Dashboards permiter ● integração com ETL
  • 29.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 Dashboards através de ETL https://github.com/d3/d3/wiki/Gallery http://romsson.github.io/dragit/example/nations.html https://bl.ocks.org/mbostock/1136236 http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
  • 30.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34380 Pentaho Data Mining ( aka Weka ) ● Solução completa para Machine Learning ● Aprox. 79 Algorítimos - Classificação - Associação - Cluster
  • 31.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34381 Um exemplo para ilustração – Data Science ●
  • 32.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34382 Comunidade Pentaho Brasileira ● +de 2000 Hachers em Analitycs, Integradores, Desenvolvedores, Machine Learning, Data Science, etc. Pentaho Day 2017 em Curitiba na Universidade Positivo Aprox. 300 Pessoas 6 países (Brasil, Paraguai, Argentina, Bélgica, Portugal e EUA) 20 Estados Brasileiros presentes. 40 Palestrantes, 35 Palesras e 12 Minicursos.
  • 33.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34383 Open Source e Free Software gerando valor ● Facebook vende software? Não mas entrega muita tecnologia open source assim como milhares de outras startup. Exemplo Hive. ● Cloudera vende 18% de ações para Intel ● Hoje intel controla 51% ações para cloudera.
  • 34.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34384 Dificuldades ou Desculpas criadas por “vendors” ● Como vai gerenciar Schedulers ? ● Como vai gerenciar Segurança ? ● Como vai gerenciar o Cluster ? ● Como ? Como ? Como? ● cron ● chmod 600 ● Shell script / Apache tools ● Open Source Data Scientist Nutela Data Scientist Raiz
  • 35.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34385 Diferenciais Reais mas não impeditivos ● Interface ● Aceleração do Trabalho ( tempo) ● BI Self Service , Dig Data Self Service! Será mesmo ? ● Suporte do Desenvolvedor ● Documentação, Livros, Materiais em Português ● Documentação extremamente técnica
  • 36.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34386 Dificuldades reais ● Alto investimento em capital intelectual das pessoas ● Encontrar pessoas com perfil “hacker e pesquisador” ● Tempo ● Persistência
  • 37.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34387 Acontecendo no mercado ● Compram Player de Mercado... ● Montamos Cluster na Amazon, Azure, Azure ● Uso o Framework da Nuvem ● O custo sobe.. a empresa cresce.. e crise vem... o dólar sobe...! ● Começo a mesclar usando Open Source ● Startups! Começam ao Contrário! Open Sorce sempre primeiro.
  • 38.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34388 Minhas Perguntas aos Grandes ● Sei que você usa arquitetura “mesclada”, mas é possível fazer 100% Open Source? ● Sim recebidos!
  • 39.
    © 2017, AmbienteLivre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-34389 100% OPEN SOURCE DATA SCIENCE SIM by
  • 40.
    Obrigado Marcio Junior Vieira marcio@ambientelivre.com.br @marviojvieira@ambientelivre https://www.linkedin.com/in/mvieira1/