2
O que é?
Mineração de dados (em inglês, data mining) é o
processo de encontrar anomalias, padrões e
correlações em grandes conjuntos de dados para
prever resultados. Através de uma variedade de
técnicas, você pode usar essas informações para
aumentar a renda, cortar custos, melhorar o
relacionamento com os clientes, reduzir riscos e
mais.
3
O que significa o termo mineração de dados?
"Mineração de dados" é um nome impróprio porque o objetivo da mineração de
dados não é extrair ou minerar os dados em si. Em vez disso, uma grande
quantidade de dados já está presente e a mineração de dados extrai significado
ou conhecimento valioso deles. O processo típico de coleta, armazenamento,
análise e mineração de dados é descrito abaixo.
A coleta de dados está capturando dados de diferentes fontes, como feedback do
cliente, pagamentos e pedidos de compra.
Data warehousing é o processo de armazenar esses dados em um grande banco
de dados ou data warehouse.
A análise de dados está processando, armazenando e analisando os dados
usando software e algoritmos complexos.
4
História da mineração de dados
O processo de minerar dados para descobrir conexões
escondidas e prever tendências futuras tem uma longa história.
Por vezes chamado de "descoberta de conhecimento em bancos
de dados", o termo "mineração" só foi cunhado nos anos 1990,
mas sua base compreende três disciplinas científicas entrelaçadas
que existem há tempos: estatística (o estudo numérico das
relações entre dados), inteligência artificial (inteligência exibida
por softwares e/ou máquinas, que se assemelha à humana) e
machine learning (algoritmos que podem aprender com dados
para realizar previsões). A tecnologia de mineração de dados
continua evoluindo para acompanhar o potencial ilimitado do big
data e a computação de baixo custo.
5
Avanços recentes da mineração de dados
Na última década, os avanços no poder e na velocidade de
processamento nos permitiram ir de práticas manuais, tediosas
e lentas para análises de dados rápidas, fáceis e automatizadas.
Quanto mais complexos forem os conjuntos de dados
coletados, mais potencial haverá para deles extrair insights
relevantes. Varejistas, bancos, fabricantes, operadoras de
telecomunicações, seguradoras etc, estão usando a mineração
de dados para descobrir relações entre tudo — desde preços,
promoções e demografias até como a economia, o risco, a
concorrência e as mídias sociais estão afetando seus modelos
de negócio, receitas, operações e relacionamentos com os
clientes.
6
Importância da mineração de dados
Então qual a importância da mineração de dados? Você viu que os números
são impressionantes — o volume de dados produzidos está dobrando a cada
dois anos. Somente os dados não-estruturados compõem 90% do universo
digital. Porém, mais informação não significa necessariamente mais
conhecimento.
A mineração de dados permite que você:
Separe todos os ruídos caóticos e repetitivos em seus dados;
Entenda o que é relevante para, então, fazer um bom uso dessa informação
para avaliar os resultados possíveis;
Acelere o ritmo de tomadas de decisões bem-informadas.
7
Como funciona?
São muitas as metodologias e técnicas usadas na mineração
de dados, pois envolvem modelos de estatística, inteligência
artificial e machine learning, que não são únicos. Logo, os
nomes variam conforme o autor. Mas, basicamente, a
mineração segue cinco etapas:
1) Coleta e seleção;
2) Compreensão e pré-processamento;
3) Preparação e transformação;
8
Técnicas da mineração de dados
As Técnicas de Mineração de Dados são as ações utilizadas para
encontrar padrões em um grande volume de dados. Estes padrões
podem ser explicativos, de modo a descrever as relações entre
segmentos de dados, ou preditivos, os quais podem prever
valores futuros baseados em dados anteriores.
A técnica de mineração de dados conhecida como Classificação
possui como objetivo categorizar os dados com base em classes
previamente definidas. Por sua vez, a Associação é uma técnica
que procura descobrir relacionamentos entre variáveis. Já o
Agrupamento é o particionamento de dados em diferentes classes,
as quais possuem elementos com características semelhantes