Mineração com sql server 2008 r2

Mineração de Dados com
SQL Server 2008 R2

Rodrigo Ramos Dornel

MCP, MCTS, MCITP e MCT
Consultor e Professor Universitário
Mestrando em Computação na UFPR

Twitter: @rdornel
Site/Blog: rdornel.com
Email: rodrigo@rdornel.com

Agenda

Introdução: O que é Mineração de Dados.
Conceitos de Mercado: Business Intelligence – BI ou
Business Analytics – BA.

Mineração de Dados com SQL Server.
Mineração de Dados no Integration Services.
Linguagem DMX
Mineração no Excel.
Mineração no Visio.
Demo

Introdução: O que é Mineração de Dados?

Mineração de dados é definido como um processo de análise de dados
por algoritmos e modelos matemáticos com o objetivo de encontrar
padrões e tendências nos dados de entrada.

Importante frisar que nem sempre a saída é um modelo final, este
modelo poder ser usado em outras tarefas e passar por refinamentos até
se chegar ao modelo desejado.

Geralmente dividido em dois grupos de tarefas:
• Descritivas (Agrupamento e Regras de Associação)
• Preditivas (Classificação e Regressão)

Introdução: O que é Mineração de Dados?

Também temos outros grupos dentro dos grupos citados
anteriormente:

• Supervisionado: Onde o aprendizado é assistido por um
padrão, ou seja, você aprende baseado em algum conjunto de
dados existente, geralmente chamado de base de treinamento.
Neste caso você conhece o “label” das classes, e procura
classificar os dados de entrada com base em alguma
similaridade.

• Não Supervisionado: você não conhece o “label” das classes, o
algoritmos vai encontrar um meio de classificar os dados.

Exemplo 1
Treinamento
Altura Sexo Label Base de Testes
Altura Sexo Label
1,80 0 Alto
1,75 0 ???
1,50 0 Baixo

∑(1,80-1,75)+(0-0) = 0,05
(Este será o responsável pelo Label do novo registro “Alto”)

∑(1,50-1,75)+(0-0) = 0,25

Exemplo baseado em distância.

Exemplo 2

{2,4,6,3,7,9}

Target Objetivo 2 Classes
Somatório = 31
Média = 5,16

Grupo 1 < 5,16 = {2,3,4}
Grupo 2 > 5,16 = {6,7,9}

Terminologia
Dados Contínuos: Altura, 1.76, 1.87 e 1.55

Dados Discretos: > 1 & < 5, >5 & <10

Confidência e confiança: representa a frequência de ocorrência do
item, ou seja, quantas vezes aquele caso ocorre. Indica a
probabilidade de um evento em decorrência do outro.

Suporte: É a representação de quantas vezes determinado evento
ocorre em relação a outro, neste caso deixa de ser probabilidade.

Acurácia: O quanto algo está acurado, perfeito ou preciso.

Conceitos de Mercado: Business
Intelligence – BI ou Business Analytics - BA?

Business Intelligence leva até a empresa a consolidação dos
dados, já o Business Analytics (Mineração de Dados) visa explicar
a relação entre os números apresentados por essa consolidação.

Business Analytics é o nome comercial para o conjunto de
tecnologias de análise de dados com objetivo de gerar tendências
e descrições do comportamento dos dados.

Estrutura de um projeto

• Fonte de Dados
• Escolha da Tarefa
• Processamento
• Visualização

Arquitetura Lógica

Árvores de Decisão
Clustering (Agrupamento)
MSC
MTS
Saída
Data Source Naive Bayes Microsoft
Rede Neural Microsoft
Regras de Associação
Regressão Linear
Regressão Logística

Árvore de Decisão
O algoritmo Árvores de Decisão da Microsoft é um algoritmo de
classificação e regressão para uso em modelagens de previsão de
atributos discretos e contínuos.
Por exemplo, em um cenário em que se deseja prever a tendência
dos clientes em adquirir uma bicicleta, se 9 de 10 clientes jovens
comprarem uma bicicleta, mas apenas 2 de 10 clientes mais
velhos fizerem o mesmo, o algoritmo infere que idade é um bom
indicador para a compra de bicicletas.

Clustering (Agrupamento)

O algoritmo Microsoft Clustering é um algoritmo de segmentação.
O algoritmo usa técnicas iterativas para agrupar casos em um
conjunto de dados em clusters que contenham características
semelhantes.

Erro
Rejeição
Outliers

MSC - Microsoft Sequence Clustering: Algoritmo MSC é um híbrido
que usa a análise de cadeia Markov para identificar seqüências
ordenadas e combina os resultados dessa análise com técnicas de
clusterização para gerar clusters com base nas seqüências e
outros atributos no modelo.

MTS - Microsoft Time Series

Naive Bayes Microsoft
O nome Naive Bayes foi atribuído pelo fato de o algoritmo usar o
teorema de Bayes, mas não considerar dependências que possam
existir. Portanto, suas suposições são consideradas ingênuas.
Rede Neural Microsoft
Rede Neural da Microsoft combina cada estado possível do
atributo de entrada com cada estado possível do atributo previsível
e usa os dados de treinamento para calcular probabilidades.

Regras de Associação: Um mecanismo de recomendação, que
recomenda produtos aos clientes com base nos itens que eles já
compraram ou pelos quais mostraram interesse. O algoritmo
Associação da Microsoft também é útil para análise da cesta de
compras.

Regressão Linear
O algoritmo Regressão Linear da Microsoft é uma variação do
algoritmo Árvores de Decisão da Microsoft que o ajuda a calcular
uma relação linear entre uma variável dependente e uma
independente e, depois, a usar aquela relação para previsão.

Regressão Logística
O algoritmo Regressão Logística da Microsoft é uma variação do
algoritmo Rede Neural da Microsoft. A regressão logística é uma
técnica estatística conhecida, usada para modelar resultados
binários, como um resultado sim-não.

Mineração de Dados com SQL Server

O SQL Server oferece suporte nativo à Business Intelligence e
Mineração de Dados desde a versão 2000 sem custo adicional.

DMX

CREATE MINING MODEL SELECT [Bike Buyer],
SubcategoryAssociations PredictProbability([Bike Buyer],1),
PredictHistogram([Bike Buyer])
( FROM TargetMailDT
NATURAL PREDICTION JOIN
[Customer ID] LONG KEY,
(SELECT 25 AS Age,
[Subcategories] TABLE PREDICT '5-10 Miles' AS [Commute Distance],
'M' AS Gender,
( 1 AS [House Owner Flag],
'S' AS [Marital Status],
[Subcategory] TEXT KEY
1 AS [Number Cars Owned],
) 0 AS [Number Children At Home],
'Manual' AS Occupation,
) USING Microsoft_Association_Rules 'Pacific' AS Region,
0 AS [Total Children],
45000 AS [Yearly Income]
) AS t

Mineração no Excel

Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.

Mineração no Visio

Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.

Algoritmos de plug-in
Exemplo Codeplex: Support Vector Machine plug-in in
Analysis Services

© 2009 Microsoft Corporation. Todos os direitos reservados.
Microsoft, Active Directory, Windows e Windows Vista são marcas registradas ou comerciais da Microsoft Corporation nos Estados Unidos e/ou outros países. Os
nomes de empresas e produtos reais aqui mencionados podem ser marcas comerciais de seus respectivos proprietários. As informações aqui contidas destinam-se
a fins informativos apenas e representam a visão atual da Microsoft Corporation na data desta apresentação. Como a Microsoft deve responder às mudanças das
condições de mercado, este documento não deve ser interpretado como um compromisso da parte da Microsoft, e a Microsoft não pode assegurar a exatidão de
qualquer informação fornecida após a data desta apresentação. A MICROSOFT NÃO DÁ NENHUMA GARANTIA, EXPRESSA, IMPLÍCITA OU ESTATUTÁRIA,
QUANTO ÀS INFORMAÇÕES NESTA APRESENTAÇÃO.

PREENCHA A FICHA DE AVALIAÇÃO DO EVENTO
Entregue na saída do evento e ganhe brinde!
Acesse o site da Comunidade:
www.mcitpsc.com.br
Dúvidas ou Sugestões:
E-mail: contato@mcitpsc.com.br

Quer ser um Membro da
Comunidade?
Acesse nosso site e cadastre-se!

Twitter: @rdornel Site/Blog: rdornel.com
Email: rodrigo@rdornel.com

Mineração com sql server 2008 r2

Mais conteúdo relacionado

Semelhante a Mineração com sql server 2008 r2

Mais de Rodrigo Dornel

Mineração com sql server 2008 r2