2. Ary Fagundes Bressane Neto
Graduação: BCC, UNESP/Bauru (2007)
Mestrado: CC, USP/Butantã (conclusão prevista para 2010)
Experiência diversificada em Ciência da Computação
Pesquisador do LIDET
Flávio Soares Corrêa da Silva
Graduação: POLI-USP (1984)
Mestrado: POLI-USP (1989)
PhD: Inteligência Artificial, Edinburgh University (1992)
Livre-docência: USP (1999)
Experiência diversificada em CC, com foco em IA
Pesquisador do LIDET
3. Universidade de São Paulo
Fundação: 1934
Ranking internacional: aprox. 100ª no mundo
56 mil alunos de graduação
25 mil alunos de pós-graduação
6 mil docentes
Aprox. 10 % da produção científica do Brasil
4. Departamento de Ciência da Computação
Início de atividades: 1972
Mais de mil alunos de graduação formados
39 docentes em atividade
Reconhecido centro de pesquisas e ensino, no Brasil e no
Exterior
5. LIDET: Laboratory of Interactivity and Digital
Entertainment Technology
Início de atividades: 2005
Intensas atividades em pesquisa e ensino
Inteligência Artificial Aplicada
Jogos de Computador
Sistemas Interativos Inteligentes
Governabilidade Eletrônica
Atividades em colaboração com LIAMF (Laboratório de Lógica,
Inteligência Artificial e Métodos Formais da USP) e CCSL (Centro
de Competência em Software Livre da USP)
Cooperação internacional com centros de pesquisa no Chile,
Reino Unido, Itália e Espanha
Coordenador: Flávio Soares Corrêa da Silva
Equipe: estudantes de mestrado (6) e doutorado (6)
6. Introdução sobre Data Mining
Apresentação e funcionamento do WEKA
WEKA + Java
8. 1. World Data Centre for Climate
6 petabytes de dados
2. National Energy Research Scientific Computing
Center (EUA)
2.8 petabytes de dados
3. AT&T
323 terabytes de informação
1.9 trilhões de registros de chamadas telefônicas
4. Google
91 milões de pesquisas por dia
33 trilhões de registros
Fonte: http://www.businessintelligencelowdown.com/
9. 5. Sprint
2.85 trilhões de linhas no banco de dados
365 milhões de registros de ligações telefonicas por dia
6. ChoicePoint
250 terabytes de dados pessoais
Informação de 250 milhões de pessoas
7. YouTube
100 milhões de vídeos assisitdos por dia
65,000 vídeos adicionados por dia
60% de todos os vídeos assistidos online
45 terabytes de vídeos
Fonte: http://www.businessintelligencelowdown.com/
10. 8. Amazon
59 milhões de usuários ativos
42 terabytes de dados
9. Central Intelligence Agency (EUA)
Informações sobre mais de 250 países e instituições
Número desconhecido de informações confidenciais
10. Library of Congress (EUA)
130 milhões de itens (livros, fotografias, mapas, etc.)
29 milhões de livros
10,000 novos itens adicionados por dia
5 milhões de documentos digitais
20 terabytes de informação em texto
Fonte: http://www.businessintelligencelowdown.com/
11. “A habilidade de mandar, dirigir e selecionar
informação pode chegar a ser uma fonte de
poder comparável aos grandes recursos
naturais, tecnológicos e econômicos”
Wilbur Schramm
12.
13. Medicina
Diagnóstico
Sintomas
Exames de imagem
Exames laboratoriais
Departamento de Vendas
Clientes com diferentes perfis
Clientes procurando sugestões
Ciência
Seqüenciamento genético
Design
Novos materiais
Fonte: http://www.businessintelligencelowdown.com/
14. Departamento de Vendas (CRM)
Presencial
Virtual
Departamento de Marketing
Investimentos
Aplicações de Recursos do Governo
15. Bases de Dados integradas para consultas analíticas
de históricos
Qual a tecnologia atende a essa demanda?
17. “Descoberta de conhecimento de Base de
Dados é um processo não-tivial de
identificação de padrões válidos, novos,
potencialmente úteis e compreensíveis
embutidos nos dados”
Usama Fayyad,
Gregory Piatetsky-Shapiro,
Padhraic Smyth
18. Wal Mart
Banco Itaú
Bank of America
Banco Nossa Caixa
Full Tilt Poker
19. The KDD Process for Extracting Useful
Knowledge from Volumes of Data
20. Mineração
de Dados
Atividades Atividades
Preditivas Descritivas
Regras de
Classificação Regressão Sumarização
Associação
Clusterização
21. Soluções Proprietárias
SPSS Clementine
SAS Enterprise Miner
STATISTICA Data Miner
IBM Intelligent Miner Data Mining Suite
Oracle Data Mining
Microsoft SQL Server (Microsoft BI)
Excel
Matlab
22. Soluções Open Source
WEKA
RapidMiner
KNIME
R
Código próprio
24. Univesidade de Waikato
Projeto financiado pelo Governo da NZ
(1993)
Desenvolver uma ferramenta no estado da arte
Explorar os campos de aplicação
Desenvolver novos métodos
Open Source (GNU General Public
License)
100% Java
26. http://www.cs.waikato.ac.nz/ml/weka/
Stable GUI version 3.6
Windows
Mac OS X
Linux
java -jar weka.jar
Book version 3.4
Developer version 3.7
27.
28. @RELATION iris
@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,
Iris-versicolor, Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
29. @RELATION iris @relation <relation-name>
@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,
Iris-versicolor, Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
30. @RELATION iris @attribute <attribute-name> <datatype>
@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL integer
@ATTRIBUTE petallength REAL Real
<nominal-specification>
@ATTRIBUTE petalwidth REAL
string
@ATTRIBUTE class {Iris-setosa,
date [<date-format>]
Iris-versicolor, Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
31. @RELATION iris
@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,
Iris-versicolor, Iris-virginica}
@DATA @data
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
32. @RELATION iris
@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,
Iris-versicolor, Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
35. Técnica que constrói um classificador utilizando uma
estrutura de árvore onde os nós folhas representam
as classes e os nós internos representam um teste
sobre um atributo
Exemplos
Figura Geométrica
Oferta de crédito # lados
Diagnóstico médico =3 >3
Triângulo
36. Poupador Bens Rendimento Oferecer
anual Crédito
Cliente1 Médio Alto 75.000 Sim
Cliente2 Baixo Baixo 50.000 Não
Cliente3 Alto Médio 25.000 Não
Cliente4 Médio Médio 50.000 Sim
Cliente5 Baixo Médio 100.000 Sim
Cliente6 Alto Alto 25.000 Sim
Cliente7 Baixo Baixo 25.000 Não
Cliente8 Médio Médio 75.000 Sim
37. Poupador Bens Rendimento Oferecer
anual Crédito
Cliente7 Baixo Baixo 25.000 Não
Cliente3 Alto Médio 25.000 Não
Cliente6 Alto Alto 25.000 Sim
Cliente2 Baixo Baixo 50.000 Não
Cliente4 Médio Médio 50.000 Sim
Cliente1 Médio Alto 75.000 Sim
Cliente8 Médio Médio 75.000 Sim
Cliente5 Baixo Médio 100.000 Sim
41. Poupador Bens Rendimento Oferecer
anual Crédito
Cliente1 Médio Alto 75.000 Sim
Cliente2 Baixo Baixo 50.000 Não
Cliente3 Alto Médio 25.000 Não
Cliente4 Médio Médio 50.000 Sim
Cliente5 Baixo Médio 100.000 Sim
Cliente6 Alto Alto 25.000 Sim
Cliente7 Baixo Baixo 25.000 Não
Cliente8 Médio Médio 75.000 Sim
Rendimento
=25.000 >=75.000
=50.000
Oferecer
Bens Bens
Crédito
≠ Alto =Alto Médio Alto
Não Oferecer Oferecer Não Oferecer Oferecer
Crédito Crédito Crédito Crédito
42.
43. Modelos matemáticos que permite aprendizado e
generalização
Esse aprendizado está associado a capacidade de
adaptar seus parâmetros como conseqüência da sua
iteração com o meio externo
Estrutura similar as redes neurais biológicas
Exemplos X1
W1
Oferta de crédito X2 W2
Diagnóstico médico X3
W3
u f(u) y = f(u)
Detectar fraudes Wn
Xn
44. X1
W1
X2 W2
u f(u) y = f(u)
W3
X3
Wn
Xn
u = valor de ativação
f(u) = função de propagação
47. Técnica que mapeia um item em um dos vários
clusters, onde clusters são agrupamentos de itens de
dados baseados em alguma métricas de similaridade.
Permite compreender os agrupamentos naturais ou
estruturas subjacentes a um conjunto de dados.
Exemplos:
Identificação de grupos distintos de clientes (público-alvo)
Identificar a taxonomia de plantas e animais
Agrupar estudantes por desempenho e dificuldades para adotar
estratégias de ensino mais eficientes e adequadas
59. O objetivo é encontrar um conjunto de atributos
que quando presentes implicam na presença de outro
conjunto de atributos
Exemplos:
Análise de nota fiscal de compra
Associação de palavras em textos
Combate à corrupção
60. P1 P2 P3 P4 P5 P6
T1 x x x x x
T2 x x
T3 x x x
T4 x x
T5 x x
Apriori (Suporte mínimo, Confiança)
Apriori (2, 60%)
61. P1 P2 P3 P4 P5 P6
T1 x x x x x
T2 x x
T3 x x x
T4 x x
T5 x x
Produto Freq. Produto Freq.
P1 4 P1 4
Suporte mínimo = 2
P2 4 P2 4
P3 2 P3 2
P4 1 P6 2
P5 1
P6 2
62. P1 P2 P3 P4 P5 P6
T1 x x x x x
T2 x x
T3 x x x
T4 x x
T5 x x
Produto Freq. Produto Freq.
P1, P2 3 P1, P2 3
Suporte mínimo = 2
P1, P3 1 P1, P6 2
P1, P6 2 P2, P3 2
P2, P3 2
P2, P6 1
P3, P6 0
63. P1 P2 P3 P4 P5 P6
T1 x x x x x
T2 x x
T3 x x x
T4 x x
T5 x x
Produto Freq.
P1, P2, P3 1
Suporte mínimo = 2
P1, P2, P6 1
VAZIO !!!
P1, P3, P6 0
P2, P3, P6 0
65. P1 P2 P3 P4 P5 P6
T1 x x x x x
T2 x x
T3 x x x
T4 x x
T5 x x
Produto Freq. Conf.
P1, P2 3 3/4 = 75% {P1} ⇒ {P2}: sup_min = 3; conf=75%
{P2} ⇒ {P1}: sup_min = 3; conf=75%
P2, P1 3 3/4 = 75% {P6} ⇒ {P1}: sup_min = 2; conf=100%
P6, P1 2 2/2 = 100% {P3} ⇒ {P2}: sup_min = 2; conf=100%
P3, P2 2 2/2 = 100%
66. Escândalo dos “Cartões Coorporativos”
“Planalto pressiona e ministra da Igualdade Racial cai por uso
irregular de cartão.”
“A ministra vinha resistindo ao pedido de demissão. Mas foi
atropelada pela divulgação sobre o uso do cartão num free
shop (R$ 461,16), no aluguel sistemático de carros (mais de R$
110 mil, sem licitação) e em seu período de férias (R$ 2.969,01),
como revelou ontem a Folha. Matilde gastou R$ 171 mil com o
cartão em 2007, a recordista entre os ministros.”
Folha de S. Paulo 02/02/2008
67. Escândalo dos “Cartões Coorporativos”
“Cartão de Pagamento do Governo Federal: uma Análise
de Regras de Associação”
Workshop Franco-Brasileiro sobre Mineração de Dados (2009)
Dr. Michel Silva, Me. Marcelo Stopanovski, Me. Henrique Rocha, Bel. David Cosac
Secretaria de Prevenção da Corrupção e Informações Estratégicas, Controladoria-
Geral da União
{“LOCAÇÃO DE AUTOMÓVEL SEM CONDUTOR”, “R$ 1000 a R$
1500”} → {“SEC. ESPECIAL DE POLÍTICAS DE PROMOÇÃO DA
IGUALDADE RACIAL”}: suporte = 1,15% e confiança =
86,67%.
Ressalta-se que esse exemplo é exatamente o pivô das discussões sobre
cartões, configurado no aluguel de carros em viagens.
68. @relation weather.symbolic
@attribute outlook {sunny, overcast, rainy}
@attribute temperature {hot, mild, cool}
@attribute humidity {high, normal}
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,hot,high,FALSE,no
sunny,hot,high,TRUE,no
overcast,hot,high,FALSE,yes
71. Bases de Dados integradas para consultas analíticas de
históricos estão em todo lugar
Papel do profissional de Ciência da Computação
Data Mining (KDD) pode ser implementado em diversas
áreas
WEKA é uma ferramenta flexível
Diversos algoritmos
Permite a descoberta de conhecimento tanto via interface com o
usuário quando embutida na aplicação do desenvolvedor
Pode ser utilizada não somente para Data Mining
72.
73. Integração de dados
Otimização de algoritmos
Incorporação de conhecimento prévio
Visualização científica
Mineração em dados multimídia