Aprendizado de máquina.
Mineração de dados e big data.
Dados, informação e conhecimento.
Análise de dados e estatística.
Armazenamento analítico.
Processos de mineração de dados.
Tarefas de aprendizado de máquina.
Aplicação: crimes financeiros.
1. Big Data e Data Mining
Conceitos e Técnicas sobre Data Mining
2. AGENDA
• Aprendizado de máquina, mineração de dados e big data
• Dados, informação e conhecimento
• Análise de dados e estatística
• Armazenamento analítico
• Processos de mineração de dados
• Tarefas de aprendizado de máquina
• Aplicação: crimes financeiros
3. Aprendizado de máquina,
mineração de dados e big data
Aprendizado de máquina :algoritmos que
buscam reconhecer padrões em dados
Mineração de dados: é a aplicação destes
algoritmos em grandes conjuntos de dados em
busca de informação e conhecimento
Big Data: volume, velocidade e variedade
4. Big Data colocou o aprendizado de máquina em
evidência, pois de nada adianta montanhas de dados
se não podemos aproveitá-los para produzir
informação e conhecimento
5. Existem dezenas de produtos no mercado que mineram dados. Desde aqueles
fornecidos por gigantes de software como Microsoft, SAS, IBM e Oracle, até
produtos open source como R, Weka e Orange. Destes, o mais popular é o
SAS, dos produtos comerciais, e o R, open source. O R é originalmente um
software estatístico, mas que se popularizou também como ferramenta para
minerar dados. Suas funcionalidades podem ser estendidas através de
pacotes, que são desenvolvidos, pela comunidade no mundo inteiro.
6. Dados, informação e conhecimento
O dado é um fato, um valor documentado ou um resultado de uma
medição. Quando um sentido semântico ou um significado é atribuído aos
dados, gera-se a informação. Quando esses significados tornam-se
familiares, ou seja, quando um agente os aprende, este se torna consciente
e capaz de tomar decisões a partir deles, e surge o conhecimento
7. Tipos de dados
Dados estruturados
Tipicamente, uma base de dados usada em sistemas
informatizados convencionais é organizada de forma
que se tenham dados armazenados em estruturas
tabulares, em que linhas armazenam uma ocorrência
de uma evento caracterizado por um conjunto de
colunas que representam características que
descrevem um exemplar (instância) daquele evento
Dados não estruturados
Muitos dados disponíveis para análise e extração de
informação e conhecimento estão apresentados de
forma não estruturada, a exemplo de textos, imagens,
vídeos e sons. Para fins de mineração de dados, dados
não estruturados precisam passar por uma etapa de
pré-processamento, de forma que uma representação
adequada lhes seja produzida.
8. Análise de Dados
Analisar dados é aplicar algum tipo de transformação
nos dados em busca de conhecimento.
9. Análises de dados exploratória, implícita e explícita
Análises explícitas: a informação e o conhecimento estão disponíveis explicitamente nos dados, e normalmente só é
necessária alguma operação, de baixa complexidade, para ressaltar o dado e produzir a informação (exemplo: filtrar
ou ordenar).
Análise implícita: a informação não está disponível claramente no conjunto de dados: mesmo que você olhe os dados
de várias formas, filtre, selecione ou faça algum tipo de cálculo, a informação só será produzida com o uso de alguma
função mais sofisticada. Exemplo de funções mais sofisticadas são usar uma tarefa de aprendizado de máquina ou
uma lei estatística.
Análise exploratória de dados
Você conhece os dados que está prestes a analisar? Tem noção de como eles estão distribuídos? Quais são suas
médias? Desvios padrões? Como estão relacionados? Se existem valores anormais? A análise exploratória foi
proposta pelo estatístico John Wilder Tukey, na obra Exploratory Data Analysis de 1977, cujos conceitos são válidos
até hoje. O objetivo é conhecer os dados antes de tentar analisá-los, para depois, usando técnicas explícitas ou
implícitas, por exemplo, para tirar conclusão.
10. Exemplo de Análise Implícita
Queremos prever se novos clientes que vêm até a empresa solicitar crédito, serão ou não bons
pagadores. Pode parecer óbvio, basta olhar seu histórico de empréstimos passados. Porém a
história nos mostra que nem sempre quem foi mal pagador no passado será no futuro. Um
algoritmo de classificação como Naive Bayes, pode atribuir pesos a todos os atributos do
cliente e prever, com uma margem de erro, se ele será ou não um bom pagador. Este tipo de
conhecimento não é óbvio nos dados, é preciso a aplicação de técnicas mais apuradas para
produzir esta informação.
12. Processos de mineração de
dados
A mineração de dados pressupõe uma série de etapas,
que vão de entender o negócio até a implementação.
Existem dois padrões mais conhecidos quando o tema é
mineração: O CRISP-DM e o KDD.
CRISP-DM é o acrônimo para Cross Industry Standard
Process for Data Mining, traduzindo-se para Processo
Padrão Genérico para Mineração de Dados. Este é o
padrão mais conhecido e adotado o qual prevê seis fases
no processo: entendimento do negócio, entendimento
dos dados, preparação dos dados, modelagem, avaliação,
implementação.
O KDD é acrônimo para Knowledge-discovery in
databases, traduzido como descoberta de conhecimento
em banco de dados, e está dividido em cinco fases.
13. CRISP-DM E KDD
CRISP-DM ETAPA EQUIVALENTE NO KDD
Entendimento do negócio Entendimento do negócio
Entendimento dos dados Pré-processamento
Preparação dos dados Transformação
Modelagem Mineração dos dados
Avaliação Interpretação e avaliação
Implementação Interpretação e avaliação
14. Atributos, classes e instâncias
Imagine um conjunto de dados estruturado de forma tabular clássica, em linhas e
colunas. As colunas possuem um nome que normalmente tem um valor semântico
como nome, idade, profissão. Cada linha representa um conjunto de dados
relacionados que foi coletado de alguma forma. Em aprendizado de máquina, cada
coluna é um atributo ou dimensão, e cada linha, uma instância. Classe, ou variável
de interesse, é um atributo especial, normalmente localizado na última coluna, que é
o elemento que se quer prever ou descrever numa tarefa de classificação. Por
exemplo, dados de transações no varejo buscam identificar transações fraudulentas,
terão um atributo especial, Fraude, onde estará registrada a informação sobre se
aquela instância foi uma transação fraudulenta ou não
15. Código Nome Valor compra Data da compra Status
001 Leonardo 1.000 16/05/21 Não fraude
002 Bianca 700 17/05/21 Não fraude
003 Alejandro 600 14/05/21 Não fraude
004 Eduardo 2.000 16/05/21 Não fraude
005 Evelyn 150 17/05/21 Não fraude
006 Jéssica 200 18/05/21 Fraude
Atributos Classe
Instâncias
O aprendizado de máquina pode ser dividido em três grandes grupos de tarefas: classificação, agrupamento e
associação. A tarefa mais comum é a de classificação. Na classificação, os dados devem possuir uma classe qual
queremos prever. Na tabela acima é a coluna “Classe”
16. Outro conceito importante em aprendizado de máquina é quanto às
tarefas supervisionadas e não supervisionadas.
São tarefas supervisionadas aquelas em que existe uma classe, ou um
atributo ao qual se quer descrever ou prever. Classificação é, então, uma
técnica supervisionada. Nas técnicas não supervisionadas não existe uma
classe. Exemplos de tarefas não supervisionadas são as de agrupamento e
regras de associação.
17. Aplicação: crimes financeiros
Já sabemos que na tarefa de classificação temos um
atributo especial denominado classe. Normalmente,
aplicamos aprendizado de máquina para tentar prever
a classe. Diferente de um algoritmo tradicional, a
classificação funciona como dados históricos. Estes
dados históricos de clientes que já solicitaram
aprovação de crédito e que já estão classificados: bom
ou mal pagador são usados pelo algoritmo de
classificação para construir um modelo. Uma vez
construído esse modelo, os dados históricos não serão
mais necessários. A cada nova instância com novos
dados, ou seja, dados ainda não classificados em que,
por exemplo, não se sabe se o cliente é um bom ou
mau pagador, estes são aplicados ao modelo que vai
prever, com uma margem de erro, se aquele cliente é
ou não mau pagador.
18.
19. Mas na prática, o que é um modelo?
Depende do tipo de algoritmo. Vamos imaginar um algoritmo de classificação mais
rudimentar e simples que existe, chamado ZeroR. Este algoritmo cria o modelo
simplesmente baseado na moda da classe. Em estatística, moda é o valor com maior
frequência. Vamos imaginar na prática o caso de aprovação de crédito: os valores
possíveis para a classe são bons ou ruins. ZeroR vai verificar qual é a moda da classe e
concluir que é bom. O modelo, então vai classificar toda a nova instância como bom.