2. mineraçãodedados CONTEXTO
O volume de dados armazenados ultrapassa a capacidade de análise de
pesquisadores e analistas;
A capacidade de integração de diferentes bases de dados aprofunda este
limite, trazendo mais desafios
Por exemplo:
- Um paciente de UTI tem, em média, 7 indicadores de vida monitorados a cada 2
minutos.
- Quantos indicadores são monitorados em todos os leitos de uma UTI por dia?
- Quais são as principais causas de baixa qualidade na montagem de motores de
automóveis? Quantos dados sobre a montagem de motores são ou podem ser
coletados ao ano?
- Quantas pessoas elogiam ou reclamam sobre um determinado fabricante nas
redes sociais? O que elas estão dizendo?
- Quantas pessoas compraram em uma rede de mercados? Quem são elas, o que
elas compram?
3. mineraçãodedados CONTEXTO
Dado:
- Símbolos que representam a observação do mundo real ou virtual.
- Não possuem significado
- Por exemplo, defina o que é
- João
- 100
Informação:
- Atribuição de significado aos dados = transmutação do dado em significado
- Por exemplo:
- Cliente: João da Silva
- Saldo em conta corrente = R$ 100,00
Conhecimento:
- Significado contextualizado e carregado de possibilidades práticas.
- Permite a tomada de decisão
- Por exemplo:
- Dias para o final do mês = 22
- Saldo para consumo = R$ 1.000
- Média de consumo diário = R$ 80,00
- E agora?????
4. mineraçãodedados MINERAÇÃO DE DADOS
Aplicação de algoritmos para encontrar padrões e relações em bancos de dados,
apoiando a descoberta de novos conhecimentos para a gestão ou a pesquisa
(REZENDE, 2005).
• O conhecimento a ser descoberto deve:
– Ser correto
– Compreensível por humanos
– Interessante, útil, novo
– Eficiente, acurado:
• Matemática = exatidão de uma tabela ou expressão
• Física = Propriedade de uma grandeza que foi obtida por processos ou instrumentos
isentos de erro
– Genérico
• Aplicável a vários tipos de dados e situações
– Flexível
• Facilmente modificável
(STEINER et al, 2006)
A tomada de decisão precisa estar alicerçada em argumentos baseados em
conhecimentos básicos da área aplicada, bem como na informação, regularidade e
tendências extraídas dos dados (COLLAZZOS, 2002).
5. mineraçãodedados MODELOS E TAREFAS DE MINERAÇÃO DE DADOS
Mineração de dados
Descritiva
Preditiva
Agrupamento
Clustering
Regras de Associação
Association Rules
Sumarização
Summarization
Classificação
Classification
Regressão
Regretion
6. mineraçãodedados MODELOS E TAREFAS
Classificação: Categorizar dados em classes
Determinar o risco de fraudes;
Identificar a melhor forma de tratamento de um paciente.
Regressão: Definir um valor para variáveis contínuas desconhecidas
Estimar a probabilidade de morte de um paciente
Prever a demanda para um novo produto
Associação: Determinar quais itens tendem a estarem juntos em uma mesma transação
Determinar quais os produtos são adquiridos simultaneamente em uma transação.
Agrupamento: Partição de uma população heterogênea em vários subgrupos ou grupos
mais homogêneos
Agrupar clientes com comportamento de compra similar;
Agrupar seções de usuários Web para prever comportamento futuro de usuário.
Sumarização: Mapear os dados em classes com descrições simplificadas
Caracterizar os alunos de um curso (por Sexo e Faixa etária);
Generalizar os defeitos de telefonia em classes simplificadas (por horário e tipo de
defeito).
7. mineraçãodedados KDD – KNOWLEDGE DISCOVERY IN DATA BASES
• Processo, de várias etapas, não trivial, interativo e iterativo, para
identificação de padrões compreensíveis, válidos, novos e potencialmente
úteis a partir de grandes conjuntos de dados é composto de cinco etapas
Fayyad, Piatetsky-Shapiro e Smyth (1996)
8. mineraçãodedados DESAFIOS COMUNS APRESENTADOS
• Explorar os dados (com métodos estatísticos) contribui para a melhoria da
acurácia dos resultados da mineração de dados (STEINER, 2006)
• Integração de diferentes bases de dados (VIANNA, 2010) – passa a ser um
desafio à mineração de dados por conta da distribuição de atributos em
diferentes repositórios
• Os dados devem ser coletados corretamente, justificados e criticados para
que se possa evitar a necessidade de dispensar muito tempo na sua
preparação (COLLAZOS, 2002)
• Utilizar protocolos específicos para avaliar e validar a eficiência das
soluções / resultados da mineração de dados (LE et al 2011)
9. mineraçãodedados DIFICULDADES FREQUENTES
• Determinação dos atributos alvo
– Descobrir atributos relevantes que possam sustentar uma hipótese sobre o
modelo a ser obtido
• Ausência de dados
– Dados relevantes para a identificação de padrões podem não estar disponíveis
para todas as instâncias.
– Alguns dados não são preenchidos porque não são inquiridos/coletados.
DISCUSSÃO: Dispor de dados completos para tomada de decisão frente às
dinâmicas sociais e econômicas atuais é um grande desafio, uma vez que a
velocidade da mudança é maior que a velocidade de construção de sistemas
10. mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Estabelecer uma correlação estatística entre atributos de dados e conjuntos
de dados.
• Encontrar um conjunto de itens frequentes em registros ou transações de
dados e identificar a influência desses conjuntos na presença de outro
conjunto
• Se x então y
• Traduzindo:
• O Produto A foi adquirido em 90% das transações, destas, 45% também
adquiriram o Produto B
Produto B <-- Produto A (Suporte= 90%| Confiança = 45%)
Consequente Antecedente Métricas da Regra
11. mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Traduza a seguinte regra de associação, retirada de uma base de dados de
desempenho acadêmico
Análise_de_dados=Rep <-- Estatística=Rep
(S= 95%; C=98%)
• Este padrão é surpreendente?? Por quê?
12. mineraçãodedados EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Considere uma loja de cervejas. Abaixo, está uma amostra dos itens que
compõem os carrinhos de compra.
• Qual é a relação entre SKOL e BOHEMIA?
• Calcular o SUPORTE da SKOL = X / N
– X = número de repetições do item na base
– N = total de registros na base
– 4/7 = 57%
• Calcular a Confiança “SKOL e BOHEMIA” = XUY / X
– XUY = repetições do conjunto (Skol e Bohemia)
– 2/4 = 50%
• BOHEMIA <- SKOL (S=57%; C=50%)
# Transação
1 Skol, Bohemia, Devassa
2 Original. Bohemia, Eisenbahn, Budwiser
3 Skol, Polar, Spoler, Kaiser
4 Kaiser, Spoler, Bhrama
5 Original, Budweiser
6 Sol, Skol, Bhrama
7 Skol, Bohemia, Budweiser
13. mineraçãodedados EXERCÍCIO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Qual é a relação entre KAISER, SPOLER e BHRAMA?
• Calcular o SUPORTE de “KAISER e SPOLER”= X / N
– X = número de repetições do item na base
– N = total de registros na base
• Calcular a Confiança “SKOL e SPOLER” e BHRAMA = XUY / X
– XUY = repetições do conjunto
• R: ?
# Transação
1 Skol, Bohemia, Devassa
2 Original. Bohemia, Eisenbahn, Budwiser
3 Skol, Polar, Spoler, Kaiser
4 Kaiser, Spoler, Bhrama
5 Original, Budweiser
6 Sol, Skol, Bhrama
7 Skol, Bohemia, Budweiser