1) O documento discute machine learning e apresenta o Weka, uma ferramenta de código aberto para aprendizado de máquina.
2) O Weka contém algoritmos de aprendizado supervisionado e não supervisionado, pré-processamento de dados e interfaces gráficas.
3) O documento explica como usar o Weka para classificação, clustering, seleção de atributos e experimentação com diferentes algoritmos.
Machine Learning tem se tornado um tópico importante no cenário de software atual. Muito do que se vê sobre o assunto ainda está altamente relacionado a uma matemática complicada, algo exclusivamente acadêmico ou relacionado ao tema do momento, Big Data. A proposta desta apresentação é tentar mostrar um pouco além da teoria sobre o assunto. Mostrar como parte de toda a carga conceitual por trás de Machine Learning, tem tornado aplicações ligeiramente mais “inteligentes” e como isso pode ser usado em projetos mais tradicionais do mundo empresarial, sem necessidade de ser uma grande startup, que produz alguns milhões de registros de dados por dia. Nesta palestra, será apresentada uma visão geral sobre o assunto, será mostrado alguns algoritmos e exemplos de aplicações. Além de mostrar um pouco pouco do trabalho que está sendo feito no processo de evolução de um sistema de recomendação e da otimização de processos empresariais através das idéias de Process Mining.
Machine learning é um tema muito popular, mas ainda é muito comum ter uma série de dúvidas.
O objetivo desta apresentação é desmistificar este tema, mostrando uma série de informações sobre os dados e com um exemplo prático.
O objetivo desta palestra é apresentar o que é o Big Data, suas principais
características além do perfil do profissional desta área.
Ao longo da apresentação busco mostrar como é possível criar projetos
de grande valor organizacional. Além de
compartilhar um código-fonte de fácil entendimento que ja tornaria possível
gerar ótimos resultados com poucos conhecimentos
Também deixa minha explícita minha convicção que o valor não está no Big Data em si
mas sim na cultura de abordagem sistêmica através de matemática e estatística que
oferece o poder de extração de dados a partir de dados e geração de informação
Palestra sobre algumas novidades do C# 8 e do ML.NET para o evento de lançamento do Visual Studio 2019.
Todas as implementações do ML.NET foram feitas em F#
#vs19
Tivemos nossa primeira palestra introdutória sobre Machine Learning ministrada pelo nosso curador Moacyr "Moa"Cardoso!
Esse é o primeiro dos eventos que vamos oferecer que vai reforçar nossa vocação e dedicação ao Data Science!
esses são os slides que eu uso na primeira hora do curso de Big Data e Data Science da FGV. A ideia é mostrar para o aluno um pouco da evolução para a ciência de dados e discutir alguns assuntos como a proposta do curso, os desafios e as burocracias.
Machine Learning tem se tornado um tópico importante no cenário de software atual. Muito do que se vê sobre o assunto ainda está altamente relacionado a uma matemática complicada, algo exclusivamente acadêmico ou relacionado ao tema do momento, Big Data. A proposta desta apresentação é tentar mostrar um pouco além da teoria sobre o assunto. Mostrar como parte de toda a carga conceitual por trás de Machine Learning, tem tornado aplicações ligeiramente mais “inteligentes” e como isso pode ser usado em projetos mais tradicionais do mundo empresarial, sem necessidade de ser uma grande startup, que produz alguns milhões de registros de dados por dia. Nesta palestra, será apresentada uma visão geral sobre o assunto, será mostrado alguns algoritmos e exemplos de aplicações. Além de mostrar um pouco pouco do trabalho que está sendo feito no processo de evolução de um sistema de recomendação e da otimização de processos empresariais através das idéias de Process Mining.
Machine learning é um tema muito popular, mas ainda é muito comum ter uma série de dúvidas.
O objetivo desta apresentação é desmistificar este tema, mostrando uma série de informações sobre os dados e com um exemplo prático.
O objetivo desta palestra é apresentar o que é o Big Data, suas principais
características além do perfil do profissional desta área.
Ao longo da apresentação busco mostrar como é possível criar projetos
de grande valor organizacional. Além de
compartilhar um código-fonte de fácil entendimento que ja tornaria possível
gerar ótimos resultados com poucos conhecimentos
Também deixa minha explícita minha convicção que o valor não está no Big Data em si
mas sim na cultura de abordagem sistêmica através de matemática e estatística que
oferece o poder de extração de dados a partir de dados e geração de informação
Palestra sobre algumas novidades do C# 8 e do ML.NET para o evento de lançamento do Visual Studio 2019.
Todas as implementações do ML.NET foram feitas em F#
#vs19
Tivemos nossa primeira palestra introdutória sobre Machine Learning ministrada pelo nosso curador Moacyr "Moa"Cardoso!
Esse é o primeiro dos eventos que vamos oferecer que vai reforçar nossa vocação e dedicação ao Data Science!
esses são os slides que eu uso na primeira hora do curso de Big Data e Data Science da FGV. A ideia é mostrar para o aluno um pouco da evolução para a ciência de dados e discutir alguns assuntos como a proposta do curso, os desafios e as burocracias.
Uma breve introdução ao Big Data e Inteligência Artificial.pptxAlessandro Binhara
A palestra "Uma breve introdução ao Big Data e Inteligência Artificial" aborda conceitos fundamentais, histórico e aplicações de Big Data e Inteligência Artificial (IA), destacando a importância dessas tecnologias no mundo atual e seu impacto em diversos setores. Inicia apresentando os palestrantes Leonardo de Souza Marques e Alessandro de Oliveira Binhara, profissionais com vasta experiência em dados, IA e sistemas computacionais.
A palestra destaca a evolução do Big Data, citando o aumento exponencial do volume de dados gerados, de 9 zettabytes em 2013 para 120 zettabytes em 2023, e a capacidade atual de processamento e análise de grandes volumes de dados, possibilitada pela computação em nuvem e avanços tecnológicos. Destaca-se a transformação digital em áreas como a genômica, onde o custo de sequenciamento de genes reduziu significativamente, permitindo avanços científicos e médicos.
Profissionais de dados são fundamentais nesse contexto, com a palestra elucidando as funções e a importância do cientista e do engenheiro de dados, além de apresentar dados salariais dos EUA para essas profissões em 2023. A discussão se estende para o mercado de Big Data, projetando um crescimento significativo para 2024, com o mercado de big data analytics alcançando $34956 bilhões.
Sobre a Inteligência Artificial, a palestra percorre desde suas bases filosóficas e matemáticas até aplicações modernas, como reconhecimento de padrões e aprendizado de máquina. Destaca marcos históricos da IA, como o Teste de Turing, a Conferência de Dartmouth, o desenvolvimento de sistemas especialistas, até avanços recentes em deep learning e linguagem natural processamento.
Aspectos técnicos são abordados, como a definição e funcionamento de neurônios artificiais, redes neurais, e o processo de treinamento de redes neurais, incluindo conceitos como feedforward, backpropagation e ajuste de pesos. A palestra também trata do aprendizado de máquina, diferenciando entre seus tipos (supervisionado, não supervisionado e por reforço) e destacando sua importância para o desenvolvimento de sistemas inteligentes.
O ChatGPT, desenvolvido pela OpenAI, é apresentado como exemplo de aplicação da IA, com ênfase em sua capacidade de gerar conversações realistas e aplicar conhecimentos em matemática e interpretação de imagem. A aplicação de IA em sistemas de recomendação é exemplificada pelo caso da Netflix, onde 75% das visualizações são baseadas em recomendações, evidenciando o impacto da tecnologia no entretenimento e na tomada de decisões comerciais.
A palestra conclui questionando a preparação das empresas para a integração da IA em suas operações e a abertura para perguntas, promovendo a discussão sobre o impacto das tecnologias apresentadas no futuro das organizações e da sociedade
Engenharia do Conhecimento e Inteligência Artificial - Aula 1/3Roberto C. S. Pacheco
Introdução à Engenharia do Conhecimento: O que é Inteligência Artificial? Qual é a relação entre Engenharia do Conhecimento e IA? Como IA se desenvolveu? Quais são os principais instrumentos da IA? Qual é a relação entre IA e EC? 1a das 3 aulas de introdução a Engenharia do Conhecimento, ministrada na disciplina EGC6003 do Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento da Universidade Federal de Santa Catarina - Brasil
Machine Learning: Classificação de Comentários com Azure ML & PythonGabriel Schade Cardoso
Slides utilizados no evento InterOP para demonstrar a criação de um modelo utilizando tanto Python quanto o Azure Machine Learning Studio.
Além disso, os slides dão uma boa noção do conceito geral.
Semelhante a Machine learning java ce conference 2012 - fortaleza ce (20)
Da Descoberta do Ágil ao Manifesto Luca Bastos AgileVale 2013Luca Bastos
Keynote Agile Vale 2013 - Da descoberta do Ágil ao Manifesto Luca Bastos
Um emenda so Software Craftmanship Manifesto que por sua vez emenda o Agile Manifesto.
O meu considera coisas atuais tais como Inception, Design Thinking mais algumas coisas de Lean Startup como Customer Validation, MVP e Lean UX
Da descoberta do Ágil ao Manifesto Luca Bastos Agile Brazil 2013Luca Bastos
Lançamento do Manifesto Luca Bastos no Agile Brazil 2013.
É uma emenda ao Sotware Craftmanship Manifesto que por sua vez é uma emenda ao Manifesto Ágil. Inclui alguns conceitos mais recentes tais com Inception (ou Liftoff), Design Thinking, Lean UX e Lean Startup
Apresentação feita em Florianópolis em 25/05/2013
Grande parte do conteúdo foi tirado do excelente livro Lean Analytics escrito por Allistair Croll e Ben Yoskovitz, a melhor referência que conheço neste assunto
Apresentação no TDC2012 em 08/07/2012 na trilha de empreendedorismo.
Baseada no capítulo 8 do e-book gratuito Revendo os Próprios Passos http://ebook.concretesolutions.com.br
Transações compensatórias usando REST
Bruno Pereira bruno.pereira@concretesolutions.com.br
Luca Bastos
luca.bastos@concretesolutions.com.br
Apresentada no Qcon São Paulo/2011
Apresentado no AgileBrazil 2011 em 01/07/2011 em Fortaleza/CE
A diferença de produtividade entre programadores já foi motivo de preocupação de estudiosos como Bohem, De Marco, Sposlky e outros. O último capítulo do livro Making Software, What Really Works, and Why We Believe It publicado este ano pela O’Reilly é de autoria do Steve McConnel (autor do Code Complete). Lá ele discute o que é um programador 10x e como medir as variações.
Lendo este texto é inevitável pensar no que podemos fazer para elevar o nível de um programador iniciante e lhe dar condições de um dia ser um programador 10×. Me assusta perceber que dentre as práticas do desenvolvimento ágil menos usadas, estão justamente aquelas mais adequadas a este propósito.
Pretendo discutir programação em par, revisão de código e ambiente propício a disseminação de conhecimento.
3. Luca Bastos,
conhecido apenas na família e pelo gerente do
banco como Luiz Arnaldo de Gusmão Bastos.
4. Luca Bastos,
conhecido apenas na família e pelo gerente do
banco como Luiz Arnaldo de Gusmão Bastos.
Dev do tempo da Carochinha.
5. Luca Bastos,
conhecido apenas na família e pelo gerente do
banco como Luiz Arnaldo de Gusmão Bastos.
Dev do tempo da Carochinha.
Eterno aprendiz. Fazer com paixão, aprender
e compartilhar sempre.
Minha receita de vida que sigo aplicando na
Concrete Solutions em SP.
6. Se tiver uma chance,
vem trabalhar com a gente.
Garanto que a Concrete Solutions
é um lugar legal de trabalhar.
10. ML estuda como construir sistemas
que automaticamente melhorem com a
experiência
11. ML estuda como construir sistemas
que automaticamente melhorem com a
experiência
e quais são as leis fundamentais que
governam os processos de aprendizado.
12. ML estuda como construir sistemas
que automaticamente melhorem com a
experiência
e quais são as leis fundamentais que
governam os processos de aprendizado.
Tom Mitchel, CMU
18. Conjunto de ferramentas e métodos
que visa perceber padrões e extrair visões
a partir de registros de observações e dados
de exemplos ou experiências passadas.
19. Ciência que faz computadores agirem sem ser
explicitamente programados!
20. Ciência que faz computadores agirem sem ser
explicitamente programados!
25. O que usamos:
Algoritmos"
+ computação on-demand
+ dados que estão em toda a parte
17 horas - Fernando Meyer:
Big data analytics – Por que o dado por si só
não significa nada.
26. Supervised learning!
A máquina aprende a partir de dados onde
a gente específica uma variável alvo.
27. Supervised learning!
A máquina aprende a partir de dados onde
a gente específica uma variável alvo.
A gente sabe o que está procurando.
28. Supervised learning!
A máquina aprende a partir de dados onde
a gente específica uma variável alvo.
A gente sabe o que está procurando.
Usamos a estrutura dos nossos dados para
obter as respostas.
29. Unsupervised learning!
Não sabemos o que procurar e
perguntamos a máquina o que os dados
tem em comum.
30. Unsupervised learning!
Não sabemos o que procurar e
perguntamos a máquina o que os dados
tem em comum.
Queremos descobrir estrutura em nossos
dados.
41. Previsões
Podem se dividir de acordo com o tipo de
tarefa que faz:
Classificação – prevê resultados qualitativos
discretos do tipo S/N, morre/sobrevive
Regressão – prevê resultados quantitativos
44. Classificação consiste em rotular um input
baseado em dados previamente vistos
Filtro anti spam
Identificação de linguagem
Detecção de rosto (você conhece o rosto)
45. Classificação consiste em rotular um input
baseado em dados previamente vistos
Filtro anti spam
Identificação de linguagem
Detecção de rosto (você conhece o rosto)
57. Exemplo: regra anti-spam
De um monte de mensagens, colocamos na tabela abaixo as
frequências relativas das palavras mais comuns e as marcas
de pontuação do que é spam ou não:
luiz
você
seu
CS
oferta
jantar
mês
eu
!
?
email! 1.27
1.28
0.44
0.90
0.07
0.43
0.11
0.42
0.18
0.29
58. Exemplo: regra anti-spam
De um monte de mensagens, colocamos na tabela abaixo as
frequências relativas das palavras mais comuns e as marcas
de pontuação do que é spam ou não:
luiz
você
seu
CS
oferta
jantar
mês
eu
!
?
email! 1.27
1.28
0.44
0.90
0.07
0.43
0.11
0.42
0.18
0.29
Por pura observação a gente poderia criar uma regra como:
Se (“luiz” < 0.60) e (“você” > 1.50) então é spam
69. DM foca na extração de conhecimento
compreensível
(padrões estruturais que capturam de uma
maneira explicita o conhecimento).
https://sites.google.com/site/gladyscjaprendizagem/program/data-mining-machine-learning
70. ML centra-se mais nos métodos
computacionais que fazem possível que
computadores aprendam e melhorem o seu
desempenho com a experiência.
https://sites.google.com/site/gladyscjaprendizagem/program/data-mining-machine-learning
76. Probabilidade
= Número de vezes que um determinado evento
pode ocorrer em relação ao total de ocorrências
77. Probabilidade
= Número de vezes que um determinado evento
pode ocorrer em relação ao total de ocorrências
P(A) é a probabilidade de que A seja verdadeiro
0 ≤ P(A) ≤ 1
78. Probabilidade de ocorrer um evento A em um
espaço S
número de casos favoráveis
n(A)
P(A) =
=
número de casos possíveis
n(S)
79. Qual a chance de sairem 2 números seis ao
lançar um par de dados?
80. Qual a chance de sairem 2 números seis ao
lançar um par de dados?
Resposta = ⅙ × ⅙!
85. Weka
Waikato Environment for Knowledge
Analysis
Criado por pesquisadores da Universidade
de Waikato na Nova Zelândia
86. Weka
Waikato Environment for Knowledge
Analysis
Criado por pesquisadores da Universidade
de Waikato na Nova Zelândia
Também é nome de uma ave nativa da NZL
87. É uma coleção de algoritmos de machine
learning no estado da arte úteis para tarefas de
data mining e mais diversas ferramentas de
pré-processamento de dados.
88. É uma coleção de algoritmos de machine
learning no estado da arte úteis para tarefas de
data mining e mais diversas ferramentas de
pré-processamento de dados.
Eles podem ser aplicados diretamente a um
conjunto de dados ou chamados via código
Java
89. Principais facilidades:
49 ferramentas de pré-processamento de
dados
76 algoritmos de classificação e regressão
8 algoritmos de clustering
3 algoritmos para achar regras de
associação
90. Principais facilidades – parte 2:
10 algoritmos para seleção de atributos
3 graphical user interfaces
- Explorer – exploratory data analysis
- Experimenter – experimental environment
- KnowledgeFlow – configurável para
streamed data processing
Interface de linha de comando
91. O Weka foi feito em Java e é distribuído como
open source sob licença GPL2.0 para v.3.6
92. O Weka foi feito em Java e é distribuído como
open source sob licença GPL3.0 Weka > 3.7.5
94. Quem usa OSX, na hora de instalar o .dmg,
além de copiar weka-3-6-6.app para
Aplicativos,
95. Quem usa OSX, na hora de instalar o .dmg,
além de copiar weka-3-6-6.app para
Aplicativos,
precisa copiar para algum lugar a seu gosto, o
diretório que contém os docs, isto é,
weka-3-6-6 (versão que estou usando)
96. As classes são organizadas como pacotes que
podem ser importados por uma aplicação Java
normal (GPL).
97. O tamanho máximo da heap padrão do Java é
insuficiente para executar ou usar o Weka.
Aumente usando o flag -Xmx2048M. "
98. O flag -server usa -Xmx2048M e é o default no
OSX. Mas o Weka vem com –Xmx256M. No
OSX use o Xcode para editar o Info.plist e
alterar Java/VMOptions.
99. Veja mais sobre configurações do Java em:
http://www.arquiteturajava.com.br/livro/principios-de-garbage-
collection.pdf
http://java.dzone.com/articles/how-tame-java-gc-pauses
100. Os recursos de pré-processamento, os
algoritmos de ML e as saídas gráficas podem
ser usados através de uma interface gráfica de
usuário (GUI) chamada de Weka workbench.
102. Explorer
Interface gráfica que dá acesso a todas as
facilidades usando seleção via menu e
preenchimento de formulários.
103. Explorer
Interface gráfica que dá acesso a todas as
facilidades usando seleção via menu e
preenchimento de formulários.
Fácil de usar mas carrega TODOS os dados
na memória. Casos pequenos e médios.
104. Explorer
Interface gráfica que dá acesso a todas as
facilidades usando seleção via menu e
preenchimento de formulários.
Fácil de usar mas carrega TODOS os dados
na memória. Casos pequenos e médios.
Faz pré-processamento de dados, executa
os algoritmos, mostra saídas e gráficos.
106. Explorer – pré processamento
Dados importados com vários formatos: arff,
csv, c4.5, binário
Dados lidos de uma URL ou de um banco
de dados relacional via JDBC
Filtros (ferramentas de pré-processamento):
discretização, normalização, resampling,
seleção, combinação e transformação de
atributos,…
117. Experimenter
Experimentar e avaliar algoritmos de ML.
Saber qual o mais adequado.
Comparar técnicas de aprendizado. Vai além
do Explorer porque permite automatizar
rodando com diferentes parâmetros.
118. Experimenter
Experimentar e avaliar algoritmos de ML.
Saber qual o mais adequado.
Comparar técnicas de aprendizado. Vai além
do Explorer porque permite automatizar
rodando com diferentes parâmetros.
Distribuir cargas por várias JVMs via RMI.
121. KnowledgeFlow
Projetar configurações para streamed data
processing.
Arrastar caixas representando algoritmos e
data sources unindo-os para carregar e
processar de forma incremental.
122. KnowledgeFlow
Projetar configurações para streamed data
processing.
Arrastar caixas representando algoritmos e
data sources unindo-os para carregar e
processar de forma incremental.
Os algoritmos incrementais do Weka
contornam a questão do Explorer não
conseguir tratar problemas grandes.
124. Simple CLI
Uma interface simples que permite digitar
comandos.
125. Simple CLI
Uma interface simples que permite digitar
comandos.
De forma alternativa, se pode usar a CLI do
sistema operacional para classes do
weka.jar
(segundo o README, precisa adicionar
$WEKAINSTALL/weka.jar no seu
CLASSPATH).
129. Data Mining – Practical Machine Learning
Tools and Techniques, Witten, Frank & Hall
130. Revista Mundo Java número 24 Jul/Ago 2007"
Artigo:
Mineração de Dados em Java: Weka
de Rafael Santos
131. IBM developerWorks:
Data mining with WEKA, Part 1:
Introduction and regression
Data mining with WEKA, Part 2:
Classification and clustering
Data mining with WEKA, Part 3:
Nearest Neighbor and server-side library
132. Introdução a mineração de dados utilizando o
Weka – Marcelo Damasceno - V CONNEPI,
Maceió 2010
Uma Abordagem para Classificação Online de
Tráfego TCP, InfoBrasil, Fortaleza, Março 2012
Naive Bayes com estimação de densidade de
kernel para Classificação de Tráfego Internet,
InfoBrasil, Fortaleza, Março 2012