Big Data e Data Mining
Conceitos e Técnicas sobre Data Mining
AGENDA
• Aprendizado de máquina, mineração de dados e big data
• Dados, informação e conhecimento
• Análise de dados e estatística
• Armazenamento analítico
• Processos de mineração de dados
• Tarefas de aprendizado de máquina
• Aplicação: crimes financeiros
Aprendizado de máquina,
mineração de dados e big data
Aprendizado de máquina :algoritmos que
buscam reconhecer padrões em dados
Mineração de dados: é a aplicação destes
algoritmos em grandes conjuntos de dados em
busca de informação e conhecimento
Big Data: volume, velocidade e variedade
Big Data colocou o aprendizado de máquina em
evidência, pois de nada adianta montanhas de dados
se não podemos aproveitá-los para produzir
informação e conhecimento
Existem dezenas de produtos no mercado que mineram dados. Desde aqueles
fornecidos por gigantes de software como Microsoft, SAS, IBM e Oracle, até
produtos open source como R, Weka e Orange. Destes, o mais popular é o
SAS, dos produtos comerciais, e o R, open source. O R é originalmente um
software estatístico, mas que se popularizou também como ferramenta para
minerar dados. Suas funcionalidades podem ser estendidas através de
pacotes, que são desenvolvidos, pela comunidade no mundo inteiro.
Dados, informação e conhecimento
O dado é um fato, um valor documentado ou um resultado de uma
medição. Quando um sentido semântico ou um significado é atribuído aos
dados, gera-se a informação. Quando esses significados tornam-se
familiares, ou seja, quando um agente os aprende, este se torna consciente
e capaz de tomar decisões a partir deles, e surge o conhecimento
Tipos de dados
Dados estruturados
Tipicamente, uma base de dados usada em sistemas
informatizados convencionais é organizada de forma
que se tenham dados armazenados em estruturas
tabulares, em que linhas armazenam uma ocorrência
de uma evento caracterizado por um conjunto de
colunas que representam características que
descrevem um exemplar (instância) daquele evento
Dados não estruturados
Muitos dados disponíveis para análise e extração de
informação e conhecimento estão apresentados de
forma não estruturada, a exemplo de textos, imagens,
vídeos e sons. Para fins de mineração de dados, dados
não estruturados precisam passar por uma etapa de
pré-processamento, de forma que uma representação
adequada lhes seja produzida.
Análise de Dados
Analisar dados é aplicar algum tipo de transformação
nos dados em busca de conhecimento.
Análises de dados exploratória, implícita e explícita
Análises explícitas: a informação e o conhecimento estão disponíveis explicitamente nos dados, e normalmente só é
necessária alguma operação, de baixa complexidade, para ressaltar o dado e produzir a informação (exemplo: filtrar
ou ordenar).
Análise implícita: a informação não está disponível claramente no conjunto de dados: mesmo que você olhe os dados
de várias formas, filtre, selecione ou faça algum tipo de cálculo, a informação só será produzida com o uso de alguma
função mais sofisticada. Exemplo de funções mais sofisticadas são usar uma tarefa de aprendizado de máquina ou
uma lei estatística.
Análise exploratória de dados
Você conhece os dados que está prestes a analisar? Tem noção de como eles estão distribuídos? Quais são suas
médias? Desvios padrões? Como estão relacionados? Se existem valores anormais? A análise exploratória foi
proposta pelo estatístico John Wilder Tukey, na obra Exploratory Data Analysis de 1977, cujos conceitos são válidos
até hoje. O objetivo é conhecer os dados antes de tentar analisá-los, para depois, usando técnicas explícitas ou
implícitas, por exemplo, para tirar conclusão.
Exemplo de Análise Implícita
Queremos prever se novos clientes que vêm até a empresa solicitar crédito, serão ou não bons
pagadores. Pode parecer óbvio, basta olhar seu histórico de empréstimos passados. Porém a
história nos mostra que nem sempre quem foi mal pagador no passado será no futuro. Um
algoritmo de classificação como Naive Bayes, pode atribuir pesos a todos os atributos do
cliente e prever, com uma margem de erro, se ele será ou não um bom pagador. Este tipo de
conhecimento não é óbvio nos dados, é preciso a aplicação de técnicas mais apuradas para
produzir esta informação.
Armazenamento analítico
Dados estruturados de forma a facilitar a análise
• Data Warehouse
• OLAP
• OLTP
• BI
• Relatórios
• Cubos
• Dashboards
Processos de mineração de
dados
A mineração de dados pressupõe uma série de etapas,
que vão de entender o negócio até a implementação.
Existem dois padrões mais conhecidos quando o tema é
mineração: O CRISP-DM e o KDD.
CRISP-DM é o acrônimo para Cross Industry Standard
Process for Data Mining, traduzindo-se para Processo
Padrão Genérico para Mineração de Dados. Este é o
padrão mais conhecido e adotado o qual prevê seis fases
no processo: entendimento do negócio, entendimento
dos dados, preparação dos dados, modelagem, avaliação,
implementação.
O KDD é acrônimo para Knowledge-discovery in
databases, traduzido como descoberta de conhecimento
em banco de dados, e está dividido em cinco fases.
CRISP-DM E KDD
CRISP-DM ETAPA EQUIVALENTE NO KDD
Entendimento do negócio Entendimento do negócio
Entendimento dos dados Pré-processamento
Preparação dos dados Transformação
Modelagem Mineração dos dados
Avaliação Interpretação e avaliação
Implementação Interpretação e avaliação
Atributos, classes e instâncias
Imagine um conjunto de dados estruturado de forma tabular clássica, em linhas e
colunas. As colunas possuem um nome que normalmente tem um valor semântico
como nome, idade, profissão. Cada linha representa um conjunto de dados
relacionados que foi coletado de alguma forma. Em aprendizado de máquina, cada
coluna é um atributo ou dimensão, e cada linha, uma instância. Classe, ou variável
de interesse, é um atributo especial, normalmente localizado na última coluna, que é
o elemento que se quer prever ou descrever numa tarefa de classificação. Por
exemplo, dados de transações no varejo buscam identificar transações fraudulentas,
terão um atributo especial, Fraude, onde estará registrada a informação sobre se
aquela instância foi uma transação fraudulenta ou não
Código Nome Valor compra Data da compra Status
001 Leonardo 1.000 16/05/21 Não fraude
002 Bianca 700 17/05/21 Não fraude
003 Alejandro 600 14/05/21 Não fraude
004 Eduardo 2.000 16/05/21 Não fraude
005 Evelyn 150 17/05/21 Não fraude
006 Jéssica 200 18/05/21 Fraude
Atributos Classe
Instâncias
O aprendizado de máquina pode ser dividido em três grandes grupos de tarefas: classificação, agrupamento e
associação. A tarefa mais comum é a de classificação. Na classificação, os dados devem possuir uma classe qual
queremos prever. Na tabela acima é a coluna “Classe”
Outro conceito importante em aprendizado de máquina é quanto às
tarefas supervisionadas e não supervisionadas.
São tarefas supervisionadas aquelas em que existe uma classe, ou um
atributo ao qual se quer descrever ou prever. Classificação é, então, uma
técnica supervisionada. Nas técnicas não supervisionadas não existe uma
classe. Exemplos de tarefas não supervisionadas são as de agrupamento e
regras de associação.
Aplicação: crimes financeiros
Já sabemos que na tarefa de classificação temos um
atributo especial denominado classe. Normalmente,
aplicamos aprendizado de máquina para tentar prever
a classe. Diferente de um algoritmo tradicional, a
classificação funciona como dados históricos. Estes
dados históricos de clientes que já solicitaram
aprovação de crédito e que já estão classificados: bom
ou mal pagador são usados pelo algoritmo de
classificação para construir um modelo. Uma vez
construído esse modelo, os dados históricos não serão
mais necessários. A cada nova instância com novos
dados, ou seja, dados ainda não classificados em que,
por exemplo, não se sabe se o cliente é um bom ou
mau pagador, estes são aplicados ao modelo que vai
prever, com uma margem de erro, se aquele cliente é
ou não mau pagador.
Mas na prática, o que é um modelo?
Depende do tipo de algoritmo. Vamos imaginar um algoritmo de classificação mais
rudimentar e simples que existe, chamado ZeroR. Este algoritmo cria o modelo
simplesmente baseado na moda da classe. Em estatística, moda é o valor com maior
frequência. Vamos imaginar na prática o caso de aprovação de crédito: os valores
possíveis para a classe são bons ou ruins. ZeroR vai verificar qual é a moda da classe e
concluir que é bom. O modelo, então vai classificar toda a nova instância como bom.
Dados Históricos
Treino
Teste
Algoritmo
Modelo
Avaliação do
Modelo
Construção do modelo
OBRIGADO :)

Data Mining (mineração de dados)

  • 1.
    Big Data eData Mining Conceitos e Técnicas sobre Data Mining
  • 2.
    AGENDA • Aprendizado demáquina, mineração de dados e big data • Dados, informação e conhecimento • Análise de dados e estatística • Armazenamento analítico • Processos de mineração de dados • Tarefas de aprendizado de máquina • Aplicação: crimes financeiros
  • 3.
    Aprendizado de máquina, mineraçãode dados e big data Aprendizado de máquina :algoritmos que buscam reconhecer padrões em dados Mineração de dados: é a aplicação destes algoritmos em grandes conjuntos de dados em busca de informação e conhecimento Big Data: volume, velocidade e variedade
  • 4.
    Big Data colocouo aprendizado de máquina em evidência, pois de nada adianta montanhas de dados se não podemos aproveitá-los para produzir informação e conhecimento
  • 5.
    Existem dezenas deprodutos no mercado que mineram dados. Desde aqueles fornecidos por gigantes de software como Microsoft, SAS, IBM e Oracle, até produtos open source como R, Weka e Orange. Destes, o mais popular é o SAS, dos produtos comerciais, e o R, open source. O R é originalmente um software estatístico, mas que se popularizou também como ferramenta para minerar dados. Suas funcionalidades podem ser estendidas através de pacotes, que são desenvolvidos, pela comunidade no mundo inteiro.
  • 6.
    Dados, informação econhecimento O dado é um fato, um valor documentado ou um resultado de uma medição. Quando um sentido semântico ou um significado é atribuído aos dados, gera-se a informação. Quando esses significados tornam-se familiares, ou seja, quando um agente os aprende, este se torna consciente e capaz de tomar decisões a partir deles, e surge o conhecimento
  • 7.
    Tipos de dados Dadosestruturados Tipicamente, uma base de dados usada em sistemas informatizados convencionais é organizada de forma que se tenham dados armazenados em estruturas tabulares, em que linhas armazenam uma ocorrência de uma evento caracterizado por um conjunto de colunas que representam características que descrevem um exemplar (instância) daquele evento Dados não estruturados Muitos dados disponíveis para análise e extração de informação e conhecimento estão apresentados de forma não estruturada, a exemplo de textos, imagens, vídeos e sons. Para fins de mineração de dados, dados não estruturados precisam passar por uma etapa de pré-processamento, de forma que uma representação adequada lhes seja produzida.
  • 8.
    Análise de Dados Analisardados é aplicar algum tipo de transformação nos dados em busca de conhecimento.
  • 9.
    Análises de dadosexploratória, implícita e explícita Análises explícitas: a informação e o conhecimento estão disponíveis explicitamente nos dados, e normalmente só é necessária alguma operação, de baixa complexidade, para ressaltar o dado e produzir a informação (exemplo: filtrar ou ordenar). Análise implícita: a informação não está disponível claramente no conjunto de dados: mesmo que você olhe os dados de várias formas, filtre, selecione ou faça algum tipo de cálculo, a informação só será produzida com o uso de alguma função mais sofisticada. Exemplo de funções mais sofisticadas são usar uma tarefa de aprendizado de máquina ou uma lei estatística. Análise exploratória de dados Você conhece os dados que está prestes a analisar? Tem noção de como eles estão distribuídos? Quais são suas médias? Desvios padrões? Como estão relacionados? Se existem valores anormais? A análise exploratória foi proposta pelo estatístico John Wilder Tukey, na obra Exploratory Data Analysis de 1977, cujos conceitos são válidos até hoje. O objetivo é conhecer os dados antes de tentar analisá-los, para depois, usando técnicas explícitas ou implícitas, por exemplo, para tirar conclusão.
  • 10.
    Exemplo de AnáliseImplícita Queremos prever se novos clientes que vêm até a empresa solicitar crédito, serão ou não bons pagadores. Pode parecer óbvio, basta olhar seu histórico de empréstimos passados. Porém a história nos mostra que nem sempre quem foi mal pagador no passado será no futuro. Um algoritmo de classificação como Naive Bayes, pode atribuir pesos a todos os atributos do cliente e prever, com uma margem de erro, se ele será ou não um bom pagador. Este tipo de conhecimento não é óbvio nos dados, é preciso a aplicação de técnicas mais apuradas para produzir esta informação.
  • 11.
    Armazenamento analítico Dados estruturadosde forma a facilitar a análise • Data Warehouse • OLAP • OLTP • BI • Relatórios • Cubos • Dashboards
  • 12.
    Processos de mineraçãode dados A mineração de dados pressupõe uma série de etapas, que vão de entender o negócio até a implementação. Existem dois padrões mais conhecidos quando o tema é mineração: O CRISP-DM e o KDD. CRISP-DM é o acrônimo para Cross Industry Standard Process for Data Mining, traduzindo-se para Processo Padrão Genérico para Mineração de Dados. Este é o padrão mais conhecido e adotado o qual prevê seis fases no processo: entendimento do negócio, entendimento dos dados, preparação dos dados, modelagem, avaliação, implementação. O KDD é acrônimo para Knowledge-discovery in databases, traduzido como descoberta de conhecimento em banco de dados, e está dividido em cinco fases.
  • 13.
    CRISP-DM E KDD CRISP-DMETAPA EQUIVALENTE NO KDD Entendimento do negócio Entendimento do negócio Entendimento dos dados Pré-processamento Preparação dos dados Transformação Modelagem Mineração dos dados Avaliação Interpretação e avaliação Implementação Interpretação e avaliação
  • 14.
    Atributos, classes einstâncias Imagine um conjunto de dados estruturado de forma tabular clássica, em linhas e colunas. As colunas possuem um nome que normalmente tem um valor semântico como nome, idade, profissão. Cada linha representa um conjunto de dados relacionados que foi coletado de alguma forma. Em aprendizado de máquina, cada coluna é um atributo ou dimensão, e cada linha, uma instância. Classe, ou variável de interesse, é um atributo especial, normalmente localizado na última coluna, que é o elemento que se quer prever ou descrever numa tarefa de classificação. Por exemplo, dados de transações no varejo buscam identificar transações fraudulentas, terão um atributo especial, Fraude, onde estará registrada a informação sobre se aquela instância foi uma transação fraudulenta ou não
  • 15.
    Código Nome Valorcompra Data da compra Status 001 Leonardo 1.000 16/05/21 Não fraude 002 Bianca 700 17/05/21 Não fraude 003 Alejandro 600 14/05/21 Não fraude 004 Eduardo 2.000 16/05/21 Não fraude 005 Evelyn 150 17/05/21 Não fraude 006 Jéssica 200 18/05/21 Fraude Atributos Classe Instâncias O aprendizado de máquina pode ser dividido em três grandes grupos de tarefas: classificação, agrupamento e associação. A tarefa mais comum é a de classificação. Na classificação, os dados devem possuir uma classe qual queremos prever. Na tabela acima é a coluna “Classe”
  • 16.
    Outro conceito importanteem aprendizado de máquina é quanto às tarefas supervisionadas e não supervisionadas. São tarefas supervisionadas aquelas em que existe uma classe, ou um atributo ao qual se quer descrever ou prever. Classificação é, então, uma técnica supervisionada. Nas técnicas não supervisionadas não existe uma classe. Exemplos de tarefas não supervisionadas são as de agrupamento e regras de associação.
  • 17.
    Aplicação: crimes financeiros Jásabemos que na tarefa de classificação temos um atributo especial denominado classe. Normalmente, aplicamos aprendizado de máquina para tentar prever a classe. Diferente de um algoritmo tradicional, a classificação funciona como dados históricos. Estes dados históricos de clientes que já solicitaram aprovação de crédito e que já estão classificados: bom ou mal pagador são usados pelo algoritmo de classificação para construir um modelo. Uma vez construído esse modelo, os dados históricos não serão mais necessários. A cada nova instância com novos dados, ou seja, dados ainda não classificados em que, por exemplo, não se sabe se o cliente é um bom ou mau pagador, estes são aplicados ao modelo que vai prever, com uma margem de erro, se aquele cliente é ou não mau pagador.
  • 19.
    Mas na prática,o que é um modelo? Depende do tipo de algoritmo. Vamos imaginar um algoritmo de classificação mais rudimentar e simples que existe, chamado ZeroR. Este algoritmo cria o modelo simplesmente baseado na moda da classe. Em estatística, moda é o valor com maior frequência. Vamos imaginar na prática o caso de aprovação de crédito: os valores possíveis para a classe são bons ou ruins. ZeroR vai verificar qual é a moda da classe e concluir que é bom. O modelo, então vai classificar toda a nova instância como bom.
  • 20.
  • 21.

Notas do Editor