Mineração de Dados com
SQL Server 2008 R2
Rodrigo Ramos Dornel

MCP, MCTS, MCITP e MCT
Consultor e Professor Universitário
Mestrando em Computação na UFPR


Twitter: @rdornel
Site/Blog: rdornel.com
Email: rodrigo@rdornel.com
Agenda

Introdução: O que é Mineração de Dados.
Conceitos de Mercado: Business Intelligence – BI ou
Business Analytics – BA.


Mineração de Dados com SQL Server.
Mineração de Dados no Integration Services.
Linguagem DMX
Mineração no Excel.
Mineração no Visio.
Demo
Introdução: O que é Mineração de Dados?

Mineração de dados é definido como um processo de análise de dados
por algoritmos e modelos matemáticos com o objetivo de encontrar
padrões e tendências nos dados de entrada.


Importante frisar que nem sempre a saída é um modelo final, este
modelo poder ser usado em outras tarefas e passar por refinamentos até
se chegar ao modelo desejado.


Geralmente dividido em dois grupos de tarefas:
• Descritivas (Agrupamento e Regras de Associação)
• Preditivas (Classificação e Regressão)
Introdução: O que é Mineração de Dados?

Também temos outros grupos dentro dos grupos citados
anteriormente:


• Supervisionado: Onde o aprendizado é assistido por um
  padrão, ou seja, você aprende baseado em algum conjunto de
  dados existente, geralmente chamado de base de treinamento.
  Neste caso você conhece o “label” das classes, e procura
  classificar os dados de entrada com base em alguma
  similaridade.


• Não Supervisionado: você não conhece o “label” das classes, o
  algoritmos vai encontrar um meio de classificar os dados.
Exemplo 1
 Treinamento
 Altura    Sexo      Label           Base de Testes
                                     Altura    Sexo    Label
 1,80      0         Alto
                                     1,75      0        ???
 1,50      0         Baixo




 ∑(1,80-1,75)+(0-0) = 0,05
(Este será o responsável pelo Label do novo registro “Alto”)

∑(1,50-1,75)+(0-0) = 0,25

Exemplo baseado em distância.
Exemplo 2

             {2,4,6,3,7,9}


      Target Objetivo 2 Classes
            Somatório = 31
             Média = 5,16


        Grupo 1 < 5,16 = {2,3,4}
       Grupo 2 > 5,16 = {6,7,9}
Terminologia
Dados Contínuos: Altura, 1.76, 1.87 e 1.55


Dados Discretos: > 1 & < 5, >5 & <10


Confidência e confiança: representa a frequência de ocorrência do
item, ou seja, quantas vezes aquele caso ocorre. Indica a
probabilidade de um evento em decorrência do outro.


Suporte: É a representação de quantas vezes determinado evento
ocorre em relação a outro, neste caso deixa de ser probabilidade.


Acurácia: O quanto algo está acurado, perfeito ou preciso.
Conceitos de Mercado: Business
Intelligence – BI ou Business Analytics - BA?

Business Intelligence leva até a empresa a consolidação dos
dados, já o Business Analytics (Mineração de Dados) visa explicar
a relação entre os números apresentados por essa consolidação.


Business Analytics é o nome comercial para o conjunto de
tecnologias de análise de dados com objetivo de gerar tendências
e descrições do comportamento dos dados.
Estrutura de um projeto

• Fonte de Dados
• Escolha da Tarefa
• Processamento
• Visualização
Estrutura de um projeto
Arquitetura Lógica

                     Árvores de Decisão
                Clustering (Agrupamento)
                           MSC
                           MTS
                                           Saída
Data Source      Naive Bayes Microsoft
                 Rede Neural Microsoft
                 Regras de Associação
                     Regressão Linear
                  Regressão Logística
Árvore de Decisão
O algoritmo Árvores de Decisão da Microsoft é um algoritmo de
classificação e regressão para uso em modelagens de previsão de
atributos discretos e contínuos.
Por exemplo, em um cenário em que se deseja prever a tendência
dos clientes em adquirir uma bicicleta, se 9 de 10 clientes jovens
comprarem uma bicicleta, mas apenas 2 de 10 clientes mais
velhos fizerem o mesmo, o algoritmo infere que idade é um bom
indicador para a compra de bicicletas.
Clustering (Agrupamento)


O algoritmo Microsoft Clustering é um algoritmo de segmentação.
O algoritmo usa técnicas iterativas para agrupar casos em um
conjunto de dados em clusters que contenham características
semelhantes.




Erro
Rejeição
Outliers
MSC - Microsoft Sequence Clustering: Algoritmo MSC é um híbrido
que usa a análise de cadeia Markov para identificar seqüências
ordenadas e combina os resultados dessa análise com técnicas de
clusterização para gerar clusters com base nas seqüências e
outros atributos no modelo.


MTS - Microsoft Time Series


Naive Bayes Microsoft
O nome Naive Bayes foi atribuído pelo fato de o algoritmo usar o
teorema de Bayes, mas não considerar dependências que possam
existir. Portanto, suas suposições são consideradas ingênuas.
Rede Neural Microsoft
Rede Neural da Microsoft combina cada estado possível do
atributo de entrada com cada estado possível do atributo previsível
e usa os dados de treinamento para calcular probabilidades.
Regras de Associação: Um mecanismo de recomendação, que
recomenda produtos aos clientes com base nos itens que eles já
compraram ou pelos quais mostraram interesse. O algoritmo
Associação da Microsoft também é útil para análise da cesta de
compras.


Regressão Linear
O algoritmo Regressão Linear da Microsoft é uma variação do
algoritmo Árvores de Decisão da Microsoft que o ajuda a calcular
uma relação linear entre uma variável dependente e uma
independente e, depois, a usar aquela relação para previsão.


Regressão Logística
O algoritmo Regressão Logística da Microsoft é uma variação do
algoritmo Rede Neural da Microsoft. A regressão logística é uma
técnica estatística conhecida, usada para modelar resultados
binários, como um resultado sim-não.
Mineração de Dados com SQL Server


O SQL Server oferece suporte nativo à Business Intelligence e
Mineração de Dados desde a versão 2000 sem custo adicional.
DMX


CREATE MINING MODEL                   SELECT [Bike Buyer],
SubcategoryAssociations                PredictProbability([Bike Buyer],1),
                                       PredictHistogram([Bike Buyer])
(                                     FROM TargetMailDT
                                      NATURAL PREDICTION JOIN
    [Customer ID] LONG KEY,
                                      (SELECT 25 AS Age,
    [Subcategories] TABLE PREDICT      '5-10 Miles' AS [Commute Distance],
                                       'M' AS Gender,
    (                                   1 AS [House Owner Flag],
                                        'S' AS [Marital Status],
        [Subcategory] TEXT KEY
                                        1 AS [Number Cars Owned],
    )                                   0 AS [Number Children At Home],
                                        'Manual' AS Occupation,
) USING Microsoft_Association_Rules     'Pacific' AS Region,
                                        0 AS [Total Children],
                                        45000 AS [Yearly Income]
                                        ) AS t
Mineração no Excel

Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.
Mineração no Visio

Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.
Mineração no SSIS
Algoritmos de plug-in
Exemplo Codeplex: Support Vector Machine plug-in in
Analysis Services
© 2009 Microsoft Corporation. Todos os direitos reservados.
Microsoft, Active Directory, Windows e Windows Vista são marcas registradas ou comerciais da Microsoft Corporation nos Estados Unidos e/ou outros países. Os
nomes de empresas e produtos reais aqui mencionados podem ser marcas comerciais de seus respectivos proprietários. As informações aqui contidas destinam-se
a fins informativos apenas e representam a visão atual da Microsoft Corporation na data desta apresentação. Como a Microsoft deve responder às mudanças das
condições de mercado, este documento não deve ser interpretado como um compromisso da parte da Microsoft, e a Microsoft não pode assegurar a exatidão de
qualquer informação fornecida após a data desta apresentação. A MICROSOFT NÃO DÁ NENHUMA GARANTIA, EXPRESSA, IMPLÍCITA OU ESTATUTÁRIA,
QUANTO ÀS INFORMAÇÕES NESTA APRESENTAÇÃO.
PREENCHA A FICHA DE AVALIAÇÃO DO EVENTO
Entregue na saída do evento e ganhe brinde!
Acesse o site da Comunidade:
www.mcitpsc.com.br
Dúvidas ou Sugestões:
E-mail: contato@mcitpsc.com.br

Quer ser um Membro da
Comunidade?
Acesse nosso site e cadastre-se!




                                   Twitter: @rdornel Site/Blog: rdornel.com
                                               Email: rodrigo@rdornel.com

Mineração com sql server 2008 r2

  • 1.
    Mineração de Dadoscom SQL Server 2008 R2
  • 2.
    Rodrigo Ramos Dornel MCP,MCTS, MCITP e MCT Consultor e Professor Universitário Mestrando em Computação na UFPR Twitter: @rdornel Site/Blog: rdornel.com Email: rodrigo@rdornel.com
  • 3.
    Agenda Introdução: O queé Mineração de Dados. Conceitos de Mercado: Business Intelligence – BI ou Business Analytics – BA. Mineração de Dados com SQL Server. Mineração de Dados no Integration Services. Linguagem DMX Mineração no Excel. Mineração no Visio. Demo
  • 4.
    Introdução: O queé Mineração de Dados? Mineração de dados é definido como um processo de análise de dados por algoritmos e modelos matemáticos com o objetivo de encontrar padrões e tendências nos dados de entrada. Importante frisar que nem sempre a saída é um modelo final, este modelo poder ser usado em outras tarefas e passar por refinamentos até se chegar ao modelo desejado. Geralmente dividido em dois grupos de tarefas: • Descritivas (Agrupamento e Regras de Associação) • Preditivas (Classificação e Regressão)
  • 5.
    Introdução: O queé Mineração de Dados? Também temos outros grupos dentro dos grupos citados anteriormente: • Supervisionado: Onde o aprendizado é assistido por um padrão, ou seja, você aprende baseado em algum conjunto de dados existente, geralmente chamado de base de treinamento. Neste caso você conhece o “label” das classes, e procura classificar os dados de entrada com base em alguma similaridade. • Não Supervisionado: você não conhece o “label” das classes, o algoritmos vai encontrar um meio de classificar os dados.
  • 6.
    Exemplo 1 Treinamento Altura Sexo Label Base de Testes Altura Sexo Label 1,80 0 Alto 1,75 0 ??? 1,50 0 Baixo ∑(1,80-1,75)+(0-0) = 0,05 (Este será o responsável pelo Label do novo registro “Alto”) ∑(1,50-1,75)+(0-0) = 0,25 Exemplo baseado em distância.
  • 7.
    Exemplo 2 {2,4,6,3,7,9} Target Objetivo 2 Classes Somatório = 31 Média = 5,16 Grupo 1 < 5,16 = {2,3,4} Grupo 2 > 5,16 = {6,7,9}
  • 8.
    Terminologia Dados Contínuos: Altura,1.76, 1.87 e 1.55 Dados Discretos: > 1 & < 5, >5 & <10 Confidência e confiança: representa a frequência de ocorrência do item, ou seja, quantas vezes aquele caso ocorre. Indica a probabilidade de um evento em decorrência do outro. Suporte: É a representação de quantas vezes determinado evento ocorre em relação a outro, neste caso deixa de ser probabilidade. Acurácia: O quanto algo está acurado, perfeito ou preciso.
  • 9.
    Conceitos de Mercado:Business Intelligence – BI ou Business Analytics - BA? Business Intelligence leva até a empresa a consolidação dos dados, já o Business Analytics (Mineração de Dados) visa explicar a relação entre os números apresentados por essa consolidação. Business Analytics é o nome comercial para o conjunto de tecnologias de análise de dados com objetivo de gerar tendências e descrições do comportamento dos dados.
  • 10.
    Estrutura de umprojeto • Fonte de Dados • Escolha da Tarefa • Processamento • Visualização
  • 11.
  • 12.
    Arquitetura Lógica Árvores de Decisão Clustering (Agrupamento) MSC MTS Saída Data Source Naive Bayes Microsoft Rede Neural Microsoft Regras de Associação Regressão Linear Regressão Logística
  • 13.
    Árvore de Decisão Oalgoritmo Árvores de Decisão da Microsoft é um algoritmo de classificação e regressão para uso em modelagens de previsão de atributos discretos e contínuos. Por exemplo, em um cenário em que se deseja prever a tendência dos clientes em adquirir uma bicicleta, se 9 de 10 clientes jovens comprarem uma bicicleta, mas apenas 2 de 10 clientes mais velhos fizerem o mesmo, o algoritmo infere que idade é um bom indicador para a compra de bicicletas.
  • 14.
    Clustering (Agrupamento) O algoritmoMicrosoft Clustering é um algoritmo de segmentação. O algoritmo usa técnicas iterativas para agrupar casos em um conjunto de dados em clusters que contenham características semelhantes. Erro Rejeição Outliers
  • 15.
    MSC - MicrosoftSequence Clustering: Algoritmo MSC é um híbrido que usa a análise de cadeia Markov para identificar seqüências ordenadas e combina os resultados dessa análise com técnicas de clusterização para gerar clusters com base nas seqüências e outros atributos no modelo. MTS - Microsoft Time Series Naive Bayes Microsoft O nome Naive Bayes foi atribuído pelo fato de o algoritmo usar o teorema de Bayes, mas não considerar dependências que possam existir. Portanto, suas suposições são consideradas ingênuas. Rede Neural Microsoft Rede Neural da Microsoft combina cada estado possível do atributo de entrada com cada estado possível do atributo previsível e usa os dados de treinamento para calcular probabilidades.
  • 16.
    Regras de Associação:Um mecanismo de recomendação, que recomenda produtos aos clientes com base nos itens que eles já compraram ou pelos quais mostraram interesse. O algoritmo Associação da Microsoft também é útil para análise da cesta de compras. Regressão Linear O algoritmo Regressão Linear da Microsoft é uma variação do algoritmo Árvores de Decisão da Microsoft que o ajuda a calcular uma relação linear entre uma variável dependente e uma independente e, depois, a usar aquela relação para previsão. Regressão Logística O algoritmo Regressão Logística da Microsoft é uma variação do algoritmo Rede Neural da Microsoft. A regressão logística é uma técnica estatística conhecida, usada para modelar resultados binários, como um resultado sim-não.
  • 17.
    Mineração de Dadoscom SQL Server O SQL Server oferece suporte nativo à Business Intelligence e Mineração de Dados desde a versão 2000 sem custo adicional.
  • 18.
    DMX CREATE MINING MODEL SELECT [Bike Buyer], SubcategoryAssociations PredictProbability([Bike Buyer],1), PredictHistogram([Bike Buyer]) ( FROM TargetMailDT NATURAL PREDICTION JOIN [Customer ID] LONG KEY, (SELECT 25 AS Age, [Subcategories] TABLE PREDICT '5-10 Miles' AS [Commute Distance], 'M' AS Gender, ( 1 AS [House Owner Flag], 'S' AS [Marital Status], [Subcategory] TEXT KEY 1 AS [Number Cars Owned], ) 0 AS [Number Children At Home], 'Manual' AS Occupation, ) USING Microsoft_Association_Rules 'Pacific' AS Region, 0 AS [Total Children], 45000 AS [Yearly Income] ) AS t
  • 19.
    Mineração no Excel MicrosoftSQL Server 2008 Data Mining Add-ins for Microsoft Office.
  • 20.
    Mineração no Visio MicrosoftSQL Server 2008 Data Mining Add-ins for Microsoft Office.
  • 21.
  • 22.
    Algoritmos de plug-in ExemploCodeplex: Support Vector Machine plug-in in Analysis Services
  • 24.
    © 2009 MicrosoftCorporation. Todos os direitos reservados. Microsoft, Active Directory, Windows e Windows Vista são marcas registradas ou comerciais da Microsoft Corporation nos Estados Unidos e/ou outros países. Os nomes de empresas e produtos reais aqui mencionados podem ser marcas comerciais de seus respectivos proprietários. As informações aqui contidas destinam-se a fins informativos apenas e representam a visão atual da Microsoft Corporation na data desta apresentação. Como a Microsoft deve responder às mudanças das condições de mercado, este documento não deve ser interpretado como um compromisso da parte da Microsoft, e a Microsoft não pode assegurar a exatidão de qualquer informação fornecida após a data desta apresentação. A MICROSOFT NÃO DÁ NENHUMA GARANTIA, EXPRESSA, IMPLÍCITA OU ESTATUTÁRIA, QUANTO ÀS INFORMAÇÕES NESTA APRESENTAÇÃO.
  • 25.
    PREENCHA A FICHADE AVALIAÇÃO DO EVENTO Entregue na saída do evento e ganhe brinde! Acesse o site da Comunidade: www.mcitpsc.com.br Dúvidas ou Sugestões: E-mail: contato@mcitpsc.com.br Quer ser um Membro da Comunidade? Acesse nosso site e cadastre-se! Twitter: @rdornel Site/Blog: rdornel.com Email: rodrigo@rdornel.com