SlideShare uma empresa Scribd logo
1 de 27
Baixar para ler offline
Low-Code Data Science with
Pentaho Machine
Intelligence
Marcio Junior Vieira
CEO & Data Scientist, Ambiente Livre
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Marcio Junior Vieira
Mini-cv
●
20 anos de experiência em TI, vivência em desenvolvimento, análise e ciência de dados.
●
CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
●
Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e BI da Universidade Positivo.
●
Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
●
Pesquisador do Laboratório de tecnologias de tomada de decisão da Universidade de Brasília (UNB/Latitude).
●
Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
●
Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
●
Palestrante FLOSS em: FISL, TDC, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
●
Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
●
Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
●
Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer, etc.
●
Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
●
Contribuidor de projetos internacionais, tais como Pentaho, LimeSurvey, SuiteCRM e Camunda.
●
Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable e Camunda.
●
Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho).
●
Membro da The Order Of de Bee (comunidade Alfresco para desenvolver o ecossistema Alfresco independente)
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Nosso Ecossistema de Serviços
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Agenda
① Low Code.
② Data Science Low Code.
③ Pentaho
④ Pentaho Data Mining.
⑤ Pentaho Data Integration.
⑥ Pentaho Machine Intelligence.
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Low Code
Definição
• O termo “Low Code” foi criado em 2014 para denotar plataformas que
tinham interfaces de desenvolvimento baseadas em GUI (Graphical User
Interface).
• Codificação tradicional sem a necessidade de conhecer explicitamente a
linguagem de programação.
• Elimina a necessidade de criar estruturas, vincular diferentes bancos de
dados e realizar outras tarefas que normalmente são necessárias para
codificar um software ou um aplicativo.
• Desenvolvimento mais simples e fácil.
• Pessoas sem conhecimento em codificação podem desenvolver
aplicativos.
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Por que muitas empresas adotam Low Code?
Definição
• Grandes gargalos para serem resolvidos antes que um novo software seja
criado e implementado.
• Com o desenvolvimento dessa ferramenta, é possível a uma empresa
receba um programa ou software rapidamente.
• Plataformas Low Code:
* Interfaces de arrastar e soltar.
* Modelagem Visual.
* Segurança e escalabilidade.
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Data Science Low Code
Definição
• Aplica os conceitos de Low Code a area de Ciência de dados.
• Simplifica a necessidade de Conhecimento avançado em estatística e
tratamento de dados.
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
Ferramentas - Data Science / IA - Low Code
Definição
• Muitas opções em Cloud!
• Algumas opções Open Source!
Machine Intelligence
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
3 Pilares do Pentaho
●
Plataforma abrangente para integração de dados e Business Analytics.
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
0
Pentaho Data Mining - Weka
Weka
●
Desenvolvido pela Universidade de Waikato (Waikato Environment for Knowledge
Analysis)
●
Licença GPL
●
Desenvolvido em Java
●
Iniciado o desenvolvimento em 1993.
●
O software foi adquirido pela Pentaho Corporation em 2016
(Hoje chamada de Hitachi Vantara ).
●
Site do projeto: http://www.cs.waikato.ac.nz/ml/weka/
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
1
Funcionalidades
●
Aprendizado de máquina
●
Mineração de Dados
●
Pré-processamento
●
Classificação
●
Regressão
●
Agrupamento
●
Regras de associação
●
Atributo de seleção
●
Experiências
●
Workflow
●
Visualização
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
2
Atual mantenedor
●
Líder do projeto Weka / PDM.
●
15 anos de experiência como pesquisador acadêmico em ciências da computação.
●
Diversas publicações em conferências de aprendizado de máquina, mineração de
dados e revistas.
●
Se formou no pós-doutorado da Universidade de Waikato, na Nova Zelândia.
●
Blog: markahall.blogspot.com
●
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
3
Interface Weka
●
Explorer: Uso geral ( Pré-processamento, clusterização
Classificação, visualização)
●
Experimenter: controle de treinamento ( divisão do
conjunto teste/treinamento, cross-validarition)
●
KnowledgeFlow: Tarefas de ETL como fluxo de
dados
●
Workbench: GUI antiga.
●
Simple CLI: Console para uso por linha de comando
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
4
Pentaho Data Integration ( PDI )
●
Processa em Paralelo (também roda em Cluster Spark)
●
Acessar dados diretamente (se necessário sem DW )
●
Permite publicar dados diretamente em Reports, Ad-Hoc Reports
e Dasboards.
●
“Programação e Fluxo Visual” com aproximadamente 350 steps
diferentes
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
5
Funcionalidades do Pentaho Data Integration
Funcionalidades Tradicionais
• Usadas em projetos de data warehouse
Funcionalidades Adicionais
• Migração de dados entre aplicações/banco de dados
• Exportar dados de banco de dados para arquivos texto
• Carregar massivamente dados em banco de dados
• Data Cleansing – disciplina de qualidade/limpeza de dados de data warehouse
• Integração de aplicações.
• Gerenciamento de Filesystem (File management )
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
6
Pentaho Machine Intelligence
PMI
• Plugin do PDI.
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
7
Pentaho Machine Intelligence
Motores de ML
• Weka.
• Python.
• R.
• Spark MLib.
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
8
Instalando o PMI
Marketplace
• Pode acessar o menu do Marktplace no próprio PDI e instalar.
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
9
Tipos de Aprendizado de Máquina
Supervisionada
●
Classificação (Naive Bayes, SVM,Randon Decision Forest)
●
Regressão (Linear, Logistic)
Não Supervisionada
●
Associação
●
Agrupamento/Clustering ( K-Means )
●
Detecção de Desvios
●
Padrões Sequênciais
●
Sumarização
Reforço
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
0
Supervisionado - Extração de Características
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
1
Supervisionado - Extração de Características
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
2
Aprendizagem Supervisionada
Extração de
Características
Modelo
Preditivo
Algoritmo de
Aprendizagem
Fase 1
Fase 2
Extração de
Características
Modelo
Preditivo Iris Versicolor
Supervisor
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
3
Caso Prático.
Dataset
●
Desatre do Titanic.
O que queremos prever
●
Se você congressista sobreviveria se
tivesse embarcado.
●
Vamos fazer na prática!
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
4
Caso Prático - Analise do Titanic.
Extração de
Características
Modelo
Preditivo
Algoritmo de
Aprendizagem
Fase 1
Fase 2
Extração de
Características
Modelo
Preditivo Sobreviveria?
Supervisor
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
5
Agradecimentos
• Agradeço ao ConFLOSS pelo convite!
• Obrigado ao Anderson e Galvão!
• Obrigado aos palestrantes e congressistas!
© 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438
6
Referências
Web
• Você sabe o que é Low Code?
https://www.blendit.com/2020/11/25/voce-sabe-o-que-e-low-code/
• Artificial Intelligence with Pentaho -
https://community.hitachivantara.com/s/article/artificial-intelligence-with-pe
ntaho-1
• Slides da Apresentação
https://www.slideshare.net/ambientelivre
Códigos Fontes das Transformação e Jobs
@ambientelivre no Github
https://github.com/ambientelivre/samples-pentaho/tree/master/data-integra
tion/pentaho-machine-intelligence
Obrigado
Marcio Junior Vieira
marcio@ambientelivre.com.br
@marviojvieira @ambientelivre
@ambientelivreopensoftware
https://www.linkedin.com/in/mvieira1/
Slide da Palestra será publicada em:
Linkedin….: https://www.linkedin.com/in/mvieira1/
SlideShare: http://slideshare.net/ambientelivre/
Blog……...: http://blogs.ambientelivre.com.br/marcio/

Mais conteúdo relacionado

Mais procurados

Learn why Microsoft Power BI is an Undisputed Market Leader?
Learn why Microsoft Power BI is an Undisputed Market Leader?Learn why Microsoft Power BI is an Undisputed Market Leader?
Learn why Microsoft Power BI is an Undisputed Market Leader?Visual_BI
 
SAP BO Web Intelligence Basics
SAP BO Web Intelligence BasicsSAP BO Web Intelligence Basics
SAP BO Web Intelligence BasicsKiran Joy
 
Web Intelligence - Tutorial1
Web Intelligence - Tutorial1Web Intelligence - Tutorial1
Web Intelligence - Tutorial1Obily W
 

Mais procurados (8)

Learn why Microsoft Power BI is an Undisputed Market Leader?
Learn why Microsoft Power BI is an Undisputed Market Leader?Learn why Microsoft Power BI is an Undisputed Market Leader?
Learn why Microsoft Power BI is an Undisputed Market Leader?
 
Tableau
TableauTableau
Tableau
 
Informatica session
Informatica sessionInformatica session
Informatica session
 
Sap BusinessObjects 4
Sap BusinessObjects 4Sap BusinessObjects 4
Sap BusinessObjects 4
 
Introduccion a PowerBI
Introduccion a PowerBIIntroduccion a PowerBI
Introduccion a PowerBI
 
Proyecto de reingenieria de software
Proyecto de reingenieria  de softwareProyecto de reingenieria  de software
Proyecto de reingenieria de software
 
SAP BO Web Intelligence Basics
SAP BO Web Intelligence BasicsSAP BO Web Intelligence Basics
SAP BO Web Intelligence Basics
 
Web Intelligence - Tutorial1
Web Intelligence - Tutorial1Web Intelligence - Tutorial1
Web Intelligence - Tutorial1
 

Semelhante a Low-Code Data Science with Pentaho Machine Intelligence

Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Caio Moreno
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...IT4biz IT Solutions
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011Campus Party Brasil
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...Ambiente Livre
 
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013Marcio Junior Vieira
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoAmbiente Livre
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoPentahoBrasil
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreIT4biz IT Solutions
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreCaio Moreno
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration Ambiente Livre
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Diego Nogare
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Denodo
 

Semelhante a Low-Code Data Science with Pentaho Machine Intelligence (20)

Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
Palestra: Desenvolvendo Produtos sobre a Plataforma Pentaho - Pentaho Day 2013
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 
Desenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma PentahoDesenvolvendo Produtos sobre a Plataforma Pentaho
Desenvolvendo Produtos sobre a Plataforma Pentaho
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreInteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?
 
Apresentação Executiva S2it
Apresentação Executiva S2itApresentação Executiva S2it
Apresentação Executiva S2it
 

Mais de Ambiente Livre

Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataAmbiente Livre
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...Ambiente Livre
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreAmbiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISAmbiente Livre
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPMAmbiente Livre
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoAmbiente Livre
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportAmbiente Livre
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Ambiente Livre
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAmbiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceAmbiente Livre
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicAmbiente Livre
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMAmbiente Livre
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONAmbiente Livre
 

Mais de Ambiente Livre (20)

Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 
Criando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSONCriando e consumindo webservice REST com PHP e JSON
Criando e consumindo webservice REST com PHP e JSON
 

Low-Code Data Science with Pentaho Machine Intelligence

  • 1. Low-Code Data Science with Pentaho Machine Intelligence Marcio Junior Vieira CEO & Data Scientist, Ambiente Livre
  • 2. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Marcio Junior Vieira Mini-cv ● 20 anos de experiência em TI, vivência em desenvolvimento, análise e ciência de dados. ● CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software. ● Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e BI da Universidade Positivo. ● Professor do MBA Artificial Intelligence e Machine Learning da FIAP. ● Pesquisador do Laboratório de tecnologias de tomada de decisão da Universidade de Brasília (UNB/Latitude). ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante FLOSS em: FISL, TDC, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL. ● Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014. ● Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas. ● Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer, etc. ● Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB. ● Contribuidor de projetos internacionais, tais como Pentaho, LimeSurvey, SuiteCRM e Camunda. ● Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable e Camunda. ● Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho). ● Membro da The Order Of de Bee (comunidade Alfresco para desenvolver o ecossistema Alfresco independente)
  • 3. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Nosso Ecossistema de Serviços
  • 4. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Agenda ① Low Code. ② Data Science Low Code. ③ Pentaho ④ Pentaho Data Mining. ⑤ Pentaho Data Integration. ⑥ Pentaho Machine Intelligence.
  • 5. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Low Code Definição • O termo “Low Code” foi criado em 2014 para denotar plataformas que tinham interfaces de desenvolvimento baseadas em GUI (Graphical User Interface). • Codificação tradicional sem a necessidade de conhecer explicitamente a linguagem de programação. • Elimina a necessidade de criar estruturas, vincular diferentes bancos de dados e realizar outras tarefas que normalmente são necessárias para codificar um software ou um aplicativo. • Desenvolvimento mais simples e fácil. • Pessoas sem conhecimento em codificação podem desenvolver aplicativos.
  • 6. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Por que muitas empresas adotam Low Code? Definição • Grandes gargalos para serem resolvidos antes que um novo software seja criado e implementado. • Com o desenvolvimento dessa ferramenta, é possível a uma empresa receba um programa ou software rapidamente. • Plataformas Low Code: * Interfaces de arrastar e soltar. * Modelagem Visual. * Segurança e escalabilidade.
  • 7. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Data Science Low Code Definição • Aplica os conceitos de Low Code a area de Ciência de dados. • Simplifica a necessidade de Conhecimento avançado em estatística e tratamento de dados.
  • 8. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 Ferramentas - Data Science / IA - Low Code Definição • Muitas opções em Cloud! • Algumas opções Open Source! Machine Intelligence
  • 9. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 3 Pilares do Pentaho ● Plataforma abrangente para integração de dados e Business Analytics.
  • 10. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 0 Pentaho Data Mining - Weka Weka ● Desenvolvido pela Universidade de Waikato (Waikato Environment for Knowledge Analysis) ● Licença GPL ● Desenvolvido em Java ● Iniciado o desenvolvimento em 1993. ● O software foi adquirido pela Pentaho Corporation em 2016 (Hoje chamada de Hitachi Vantara ). ● Site do projeto: http://www.cs.waikato.ac.nz/ml/weka/
  • 11. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 1 Funcionalidades ● Aprendizado de máquina ● Mineração de Dados ● Pré-processamento ● Classificação ● Regressão ● Agrupamento ● Regras de associação ● Atributo de seleção ● Experiências ● Workflow ● Visualização
  • 12. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 2 Atual mantenedor ● Líder do projeto Weka / PDM. ● 15 anos de experiência como pesquisador acadêmico em ciências da computação. ● Diversas publicações em conferências de aprendizado de máquina, mineração de dados e revistas. ● Se formou no pós-doutorado da Universidade de Waikato, na Nova Zelândia. ● Blog: markahall.blogspot.com ●
  • 13. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 3 Interface Weka ● Explorer: Uso geral ( Pré-processamento, clusterização Classificação, visualização) ● Experimenter: controle de treinamento ( divisão do conjunto teste/treinamento, cross-validarition) ● KnowledgeFlow: Tarefas de ETL como fluxo de dados ● Workbench: GUI antiga. ● Simple CLI: Console para uso por linha de comando
  • 14. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 4 Pentaho Data Integration ( PDI ) ● Processa em Paralelo (também roda em Cluster Spark) ● Acessar dados diretamente (se necessário sem DW ) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dasboards. ● “Programação e Fluxo Visual” com aproximadamente 350 steps diferentes
  • 15. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 5 Funcionalidades do Pentaho Data Integration Funcionalidades Tradicionais • Usadas em projetos de data warehouse Funcionalidades Adicionais • Migração de dados entre aplicações/banco de dados • Exportar dados de banco de dados para arquivos texto • Carregar massivamente dados em banco de dados • Data Cleansing – disciplina de qualidade/limpeza de dados de data warehouse • Integração de aplicações. • Gerenciamento de Filesystem (File management )
  • 16. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 6 Pentaho Machine Intelligence PMI • Plugin do PDI.
  • 17. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 7 Pentaho Machine Intelligence Motores de ML • Weka. • Python. • R. • Spark MLib.
  • 18. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 8 Instalando o PMI Marketplace • Pode acessar o menu do Marktplace no próprio PDI e instalar.
  • 19. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 9 Tipos de Aprendizado de Máquina Supervisionada ● Classificação (Naive Bayes, SVM,Randon Decision Forest) ● Regressão (Linear, Logistic) Não Supervisionada ● Associação ● Agrupamento/Clustering ( K-Means ) ● Detecção de Desvios ● Padrões Sequênciais ● Sumarização Reforço
  • 20. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 0 Supervisionado - Extração de Características
  • 21. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 1 Supervisionado - Extração de Características
  • 22. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 2 Aprendizagem Supervisionada Extração de Características Modelo Preditivo Algoritmo de Aprendizagem Fase 1 Fase 2 Extração de Características Modelo Preditivo Iris Versicolor Supervisor
  • 23. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 3 Caso Prático. Dataset ● Desatre do Titanic. O que queremos prever ● Se você congressista sobreviveria se tivesse embarcado. ● Vamos fazer na prática!
  • 24. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 4 Caso Prático - Analise do Titanic. Extração de Características Modelo Preditivo Algoritmo de Aprendizagem Fase 1 Fase 2 Extração de Características Modelo Preditivo Sobreviveria? Supervisor
  • 25. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 5 Agradecimentos • Agradeço ao ConFLOSS pelo convite! • Obrigado ao Anderson e Galvão! • Obrigado aos palestrantes e congressistas!
  • 26. © 2021, Ambiente Livre. Todos direitos reservados. www.ambientelivre.com.br +55 (41) 3308-3438 6 Referências Web • Você sabe o que é Low Code? https://www.blendit.com/2020/11/25/voce-sabe-o-que-e-low-code/ • Artificial Intelligence with Pentaho - https://community.hitachivantara.com/s/article/artificial-intelligence-with-pe ntaho-1 • Slides da Apresentação https://www.slideshare.net/ambientelivre Códigos Fontes das Transformação e Jobs @ambientelivre no Github https://github.com/ambientelivre/samples-pentaho/tree/master/data-integra tion/pentaho-machine-intelligence
  • 27. Obrigado Marcio Junior Vieira marcio@ambientelivre.com.br @marviojvieira @ambientelivre @ambientelivreopensoftware https://www.linkedin.com/in/mvieira1/ Slide da Palestra será publicada em: Linkedin….: https://www.linkedin.com/in/mvieira1/ SlideShare: http://slideshare.net/ambientelivre/ Blog……...: http://blogs.ambientelivre.com.br/marcio/