SlideShare uma empresa Scribd logo
1 de 15
Mineração de Dados
Seminário
Aluno Leandro Escobar
Professora Dra Denise Tsunoda
mineraçãodedados CONTEXTO
O volume de dados armazenados ultrapassa a capacidade de análise de
pesquisadores e analistas;
A capacidade de integração de diferentes bases de dados aprofunda este
limite, trazendo mais desafios
Por exemplo:
- Um paciente de UTI tem, em média, 7 indicadores de vida monitorados a cada 2
minutos.
- Quantos indicadores são monitorados em todos os leitos de uma UTI por dia?
- Quais são as principais causas de baixa qualidade na montagem de motores de
automóveis? Quantos dados sobre a montagem de motores são ou podem ser
coletados ao ano?
- Quantas pessoas elogiam ou reclamam sobre um determinado fabricante nas
redes sociais? O que elas estão dizendo?
- Quantas pessoas compraram em uma rede de mercados? Quem são elas, o que
elas compram?
mineraçãodedados CONTEXTO
Dado:
- Símbolos que representam a observação do mundo real ou virtual.
- Não possuem significado
- Por exemplo, defina o que é
- João
- 100
Informação:
- Atribuição de significado aos dados = transmutação do dado em significado
- Por exemplo:
- Cliente: João da Silva
- Saldo em conta corrente = R$ 100,00
Conhecimento:
- Significado contextualizado e carregado de possibilidades práticas.
- Permite a tomada de decisão
- Por exemplo:
- Dias para o final do mês = 22
- Saldo para consumo = R$ 1.000
- Média de consumo diário = R$ 80,00
- E agora?????
mineraçãodedados MINERAÇÃO DE DADOS
Aplicação de algoritmos para encontrar padrões e relações em bancos de dados,
apoiando a descoberta de novos conhecimentos para a gestão ou a pesquisa
(REZENDE, 2005).
• O conhecimento a ser descoberto deve:
– Ser correto
– Compreensível por humanos
– Interessante, útil, novo
– Eficiente, acurado:
• Matemática = exatidão de uma tabela ou expressão
• Física = Propriedade de uma grandeza que foi obtida por processos ou instrumentos
isentos de erro
– Genérico
• Aplicável a vários tipos de dados e situações
– Flexível
• Facilmente modificável
(STEINER et al, 2006)
A tomada de decisão precisa estar alicerçada em argumentos baseados em
conhecimentos básicos da área aplicada, bem como na informação, regularidade e
tendências extraídas dos dados (COLLAZZOS, 2002).
mineraçãodedados MODELOS E TAREFAS DE MINERAÇÃO DE DADOS
Mineração de dados
Descritiva
Preditiva
Agrupamento
Clustering
Regras de Associação
Association Rules
Sumarização
Summarization
Classificação
Classification
Regressão
Regretion
mineraçãodedados MODELOS E TAREFAS
Classificação: Categorizar dados em classes
Determinar o risco de fraudes;
 Identificar a melhor forma de tratamento de um paciente.
Regressão: Definir um valor para variáveis contínuas desconhecidas
 Estimar a probabilidade de morte de um paciente
 Prever a demanda para um novo produto
Associação: Determinar quais itens tendem a estarem juntos em uma mesma transação
 Determinar quais os produtos são adquiridos simultaneamente em uma transação.
Agrupamento: Partição de uma população heterogênea em vários subgrupos ou grupos
mais homogêneos
 Agrupar clientes com comportamento de compra similar;
 Agrupar seções de usuários Web para prever comportamento futuro de usuário.
Sumarização: Mapear os dados em classes com descrições simplificadas
 Caracterizar os alunos de um curso (por Sexo e Faixa etária);
 Generalizar os defeitos de telefonia em classes simplificadas (por horário e tipo de
defeito).
mineraçãodedados KDD – KNOWLEDGE DISCOVERY IN DATA BASES
• Processo, de várias etapas, não trivial, interativo e iterativo, para
identificação de padrões compreensíveis, válidos, novos e potencialmente
úteis a partir de grandes conjuntos de dados é composto de cinco etapas
Fayyad, Piatetsky-Shapiro e Smyth (1996)
mineraçãodedados DESAFIOS COMUNS APRESENTADOS
• Explorar os dados (com métodos estatísticos) contribui para a melhoria da
acurácia dos resultados da mineração de dados (STEINER, 2006)
• Integração de diferentes bases de dados (VIANNA, 2010) – passa a ser um
desafio à mineração de dados por conta da distribuição de atributos em
diferentes repositórios
• Os dados devem ser coletados corretamente, justificados e criticados para
que se possa evitar a necessidade de dispensar muito tempo na sua
preparação (COLLAZOS, 2002)
• Utilizar protocolos específicos para avaliar e validar a eficiência das
soluções / resultados da mineração de dados (LE et al 2011)
mineraçãodedados DIFICULDADES FREQUENTES
• Determinação dos atributos alvo
– Descobrir atributos relevantes que possam sustentar uma hipótese sobre o
modelo a ser obtido
• Ausência de dados
– Dados relevantes para a identificação de padrões podem não estar disponíveis
para todas as instâncias.
– Alguns dados não são preenchidos porque não são inquiridos/coletados.
DISCUSSÃO: Dispor de dados completos para tomada de decisão frente às
dinâmicas sociais e econômicas atuais é um grande desafio, uma vez que a
velocidade da mudança é maior que a velocidade de construção de sistemas
mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Estabelecer uma correlação estatística entre atributos de dados e conjuntos
de dados.
• Encontrar um conjunto de itens frequentes em registros ou transações de
dados e identificar a influência desses conjuntos na presença de outro
conjunto
• Se x então y
• Traduzindo:
• O Produto A foi adquirido em 90% das transações, destas, 45% também
adquiriram o Produto B
Produto B <-- Produto A (Suporte= 90%| Confiança = 45%)
Consequente Antecedente Métricas da Regra
mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Traduza a seguinte regra de associação, retirada de uma base de dados de
desempenho acadêmico
Análise_de_dados=Rep <-- Estatística=Rep
(S= 95%; C=98%)
• Este padrão é surpreendente?? Por quê?
mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Considere uma loja de cervejas. Abaixo, está uma amostra dos itens que
compõem os carrinhos de compra.
• Qual é a relação entre SKOL e BOHEMIA?
• Calcular o SUPORTE da SKOL = X / N
– X = número de repetições do item na base
– N = total de registros na base
– 4/7 = 57%
• Calcular a Confiança “SKOL e BOHEMIA” = XUY / X
– XUY = repetições do conjunto (Skol e Bohemia)
– 2/4 = 50%
• BOHEMIA <- SKOL (S=57%; C=50%)
# Transação
1 Skol, Bohemia, Devassa
2 Original. Bohemia, Eisenbahn, Budwiser
3 Skol, Polar, Spoler, Kaiser
4 Kaiser, Spoler, Bhrama
5 Original, Budweiser
6 Sol, Skol, Bhrama
7 Skol, Bohemia, Budweiser
mineraçãodedados EXERCÍCIO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Qual é a relação entre KAISER, SPOLER e BHRAMA?
• Calcular o SUPORTE de “KAISER e SPOLER”= X / N
– X = número de repetições do item na base
– N = total de registros na base
• Calcular a Confiança “SKOL e SPOLER” e BHRAMA = XUY / X
– XUY = repetições do conjunto
• R: ?
# Transação
1 Skol, Bohemia, Devassa
2 Original. Bohemia, Eisenbahn, Budwiser
3 Skol, Polar, Spoler, Kaiser
4 Kaiser, Spoler, Bhrama
5 Original, Budweiser
6 Sol, Skol, Bhrama
7 Skol, Bohemia, Budweiser
mineraçãodedados
DEMONSTRAÇÃO DO ALGORÍTMO APRIORI
mineraçãodedados
MUITO OBRIGADO!

Mais conteúdo relacionado

Semelhante a Mineração de dados_escobar2.0

Tecnicas de Previsoes PPCP
Tecnicas de Previsoes PPCPTecnicas de Previsoes PPCP
Tecnicas de Previsoes PPCPLeandro
 
Capítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimento
Capítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimentoCapítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimento
Capítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimentoEverton Souza
 
Gestão da Qualidade Total
Gestão da Qualidade TotalGestão da Qualidade Total
Gestão da Qualidade TotalBruna Marandola
 
Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negóciosFelipeyeger
 
Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negóciosFelipeyeger
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
Inteligência Competitiva e Pesquisa de Mercado
Inteligência Competitiva e Pesquisa de MercadoInteligência Competitiva e Pesquisa de Mercado
Inteligência Competitiva e Pesquisa de MercadoAdeildo Caboclo
 
Sistemas de apoio à decisão - SAD
Sistemas de apoio à decisão - SADSistemas de apoio à decisão - SAD
Sistemas de apoio à decisão - SADJosé Luiz Wollinger
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendaçãosaspi2
 
Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negóciosFelipeyeger
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapKlaytonAlves
 

Semelhante a Mineração de dados_escobar2.0 (20)

Data mining
Data miningData mining
Data mining
 
Tecnicas de Previsoes PPCP
Tecnicas de Previsoes PPCPTecnicas de Previsoes PPCP
Tecnicas de Previsoes PPCP
 
Capítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimento
Capítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimentoCapítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimento
Capítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimento
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Gestão da Qualidade Total
Gestão da Qualidade TotalGestão da Qualidade Total
Gestão da Qualidade Total
 
Atps estatistica 2
Atps estatistica 2Atps estatistica 2
Atps estatistica 2
 
Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negócios
 
Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negócios
 
dq
dqdq
dq
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
OLAP, BI, EIS
OLAP, BI, EISOLAP, BI, EIS
OLAP, BI, EIS
 
Inteligência Competitiva e Pesquisa de Mercado
Inteligência Competitiva e Pesquisa de MercadoInteligência Competitiva e Pesquisa de Mercado
Inteligência Competitiva e Pesquisa de Mercado
 
Sistemas de apoio à decisão - SAD
Sistemas de apoio à decisão - SADSistemas de apoio à decisão - SAD
Sistemas de apoio à decisão - SAD
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
 
Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negócios
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
 
Data mining
Data miningData mining
Data mining
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
 

Mineração de dados_escobar2.0

  • 1. Mineração de Dados Seminário Aluno Leandro Escobar Professora Dra Denise Tsunoda
  • 2. mineraçãodedados CONTEXTO O volume de dados armazenados ultrapassa a capacidade de análise de pesquisadores e analistas; A capacidade de integração de diferentes bases de dados aprofunda este limite, trazendo mais desafios Por exemplo: - Um paciente de UTI tem, em média, 7 indicadores de vida monitorados a cada 2 minutos. - Quantos indicadores são monitorados em todos os leitos de uma UTI por dia? - Quais são as principais causas de baixa qualidade na montagem de motores de automóveis? Quantos dados sobre a montagem de motores são ou podem ser coletados ao ano? - Quantas pessoas elogiam ou reclamam sobre um determinado fabricante nas redes sociais? O que elas estão dizendo? - Quantas pessoas compraram em uma rede de mercados? Quem são elas, o que elas compram?
  • 3. mineraçãodedados CONTEXTO Dado: - Símbolos que representam a observação do mundo real ou virtual. - Não possuem significado - Por exemplo, defina o que é - João - 100 Informação: - Atribuição de significado aos dados = transmutação do dado em significado - Por exemplo: - Cliente: João da Silva - Saldo em conta corrente = R$ 100,00 Conhecimento: - Significado contextualizado e carregado de possibilidades práticas. - Permite a tomada de decisão - Por exemplo: - Dias para o final do mês = 22 - Saldo para consumo = R$ 1.000 - Média de consumo diário = R$ 80,00 - E agora?????
  • 4. mineraçãodedados MINERAÇÃO DE DADOS Aplicação de algoritmos para encontrar padrões e relações em bancos de dados, apoiando a descoberta de novos conhecimentos para a gestão ou a pesquisa (REZENDE, 2005). • O conhecimento a ser descoberto deve: – Ser correto – Compreensível por humanos – Interessante, útil, novo – Eficiente, acurado: • Matemática = exatidão de uma tabela ou expressão • Física = Propriedade de uma grandeza que foi obtida por processos ou instrumentos isentos de erro – Genérico • Aplicável a vários tipos de dados e situações – Flexível • Facilmente modificável (STEINER et al, 2006) A tomada de decisão precisa estar alicerçada em argumentos baseados em conhecimentos básicos da área aplicada, bem como na informação, regularidade e tendências extraídas dos dados (COLLAZZOS, 2002).
  • 5. mineraçãodedados MODELOS E TAREFAS DE MINERAÇÃO DE DADOS Mineração de dados Descritiva Preditiva Agrupamento Clustering Regras de Associação Association Rules Sumarização Summarization Classificação Classification Regressão Regretion
  • 6. mineraçãodedados MODELOS E TAREFAS Classificação: Categorizar dados em classes Determinar o risco de fraudes;  Identificar a melhor forma de tratamento de um paciente. Regressão: Definir um valor para variáveis contínuas desconhecidas  Estimar a probabilidade de morte de um paciente  Prever a demanda para um novo produto Associação: Determinar quais itens tendem a estarem juntos em uma mesma transação  Determinar quais os produtos são adquiridos simultaneamente em uma transação. Agrupamento: Partição de uma população heterogênea em vários subgrupos ou grupos mais homogêneos  Agrupar clientes com comportamento de compra similar;  Agrupar seções de usuários Web para prever comportamento futuro de usuário. Sumarização: Mapear os dados em classes com descrições simplificadas  Caracterizar os alunos de um curso (por Sexo e Faixa etária);  Generalizar os defeitos de telefonia em classes simplificadas (por horário e tipo de defeito).
  • 7. mineraçãodedados KDD – KNOWLEDGE DISCOVERY IN DATA BASES • Processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados é composto de cinco etapas Fayyad, Piatetsky-Shapiro e Smyth (1996)
  • 8. mineraçãodedados DESAFIOS COMUNS APRESENTADOS • Explorar os dados (com métodos estatísticos) contribui para a melhoria da acurácia dos resultados da mineração de dados (STEINER, 2006) • Integração de diferentes bases de dados (VIANNA, 2010) – passa a ser um desafio à mineração de dados por conta da distribuição de atributos em diferentes repositórios • Os dados devem ser coletados corretamente, justificados e criticados para que se possa evitar a necessidade de dispensar muito tempo na sua preparação (COLLAZOS, 2002) • Utilizar protocolos específicos para avaliar e validar a eficiência das soluções / resultados da mineração de dados (LE et al 2011)
  • 9. mineraçãodedados DIFICULDADES FREQUENTES • Determinação dos atributos alvo – Descobrir atributos relevantes que possam sustentar uma hipótese sobre o modelo a ser obtido • Ausência de dados – Dados relevantes para a identificação de padrões podem não estar disponíveis para todas as instâncias. – Alguns dados não são preenchidos porque não são inquiridos/coletados. DISCUSSÃO: Dispor de dados completos para tomada de decisão frente às dinâmicas sociais e econômicas atuais é um grande desafio, uma vez que a velocidade da mudança é maior que a velocidade de construção de sistemas
  • 10. mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO • Estabelecer uma correlação estatística entre atributos de dados e conjuntos de dados. • Encontrar um conjunto de itens frequentes em registros ou transações de dados e identificar a influência desses conjuntos na presença de outro conjunto • Se x então y • Traduzindo: • O Produto A foi adquirido em 90% das transações, destas, 45% também adquiriram o Produto B Produto B <-- Produto A (Suporte= 90%| Confiança = 45%) Consequente Antecedente Métricas da Regra
  • 11. mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO • Traduza a seguinte regra de associação, retirada de uma base de dados de desempenho acadêmico Análise_de_dados=Rep <-- Estatística=Rep (S= 95%; C=98%) • Este padrão é surpreendente?? Por quê?
  • 12. mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO • Considere uma loja de cervejas. Abaixo, está uma amostra dos itens que compõem os carrinhos de compra. • Qual é a relação entre SKOL e BOHEMIA? • Calcular o SUPORTE da SKOL = X / N – X = número de repetições do item na base – N = total de registros na base – 4/7 = 57% • Calcular a Confiança “SKOL e BOHEMIA” = XUY / X – XUY = repetições do conjunto (Skol e Bohemia) – 2/4 = 50% • BOHEMIA <- SKOL (S=57%; C=50%) # Transação 1 Skol, Bohemia, Devassa 2 Original. Bohemia, Eisenbahn, Budwiser 3 Skol, Polar, Spoler, Kaiser 4 Kaiser, Spoler, Bhrama 5 Original, Budweiser 6 Sol, Skol, Bhrama 7 Skol, Bohemia, Budweiser
  • 13. mineraçãodedados EXERCÍCIO PRÁTICO: REGRAS DE ASSOCIAÇÃO • Qual é a relação entre KAISER, SPOLER e BHRAMA? • Calcular o SUPORTE de “KAISER e SPOLER”= X / N – X = número de repetições do item na base – N = total de registros na base • Calcular a Confiança “SKOL e SPOLER” e BHRAMA = XUY / X – XUY = repetições do conjunto • R: ? # Transação 1 Skol, Bohemia, Devassa 2 Original. Bohemia, Eisenbahn, Budwiser 3 Skol, Polar, Spoler, Kaiser 4 Kaiser, Spoler, Bhrama 5 Original, Budweiser 6 Sol, Skol, Bhrama 7 Skol, Bohemia, Budweiser