O que é a ciência de dados (data science). Discussão do conceito
Inteligencia de negócios
1. Universidade Federal de Santa Maria
Curso de Tecnologia em sistemas para Internet
Inteligência de Negócios
Professor Juçara Salete Gubiane
Data Warehousing, Data Mining e BI
Acadêmico: Daniel Nóro
Visão Geral da Tecnologia de Mineração de Dados
Com o passar do tempo, em meio a tantos avanços tecnológicos, enormes volumes de
dados são acrescidos às bases, que muitas vezes dobram de tamanho em poucos anos ou em
curtos períodos de tempo, onde é comum que antigas informações acabem caindo “no
esquecimento” e sendo pouco utilizados para uma análise mais, sem contar que as pesquisas e
relatórios tradicionais podem não proporcionar a exibição e interpretação das informações
com uma visão amplamente diferenciada, implicando assim no mau aproveitamento do
conhecimento e entendimento das informações adquiridas. Existem tendências e padrões
implícitos nas informações armazenadas que podem propiciar maior detalhamento da situação
da organização, além de apresentar padrões que podem ser úteis na definição de estratégia
dos negócios e também campanhas de marketing, por exemplo, ou simplesmente para
identificar um comportamento pouco usual, como as probabilidades e características dos
consumidores.
Diante de fatores como estes, é que surge a necessidade de ferramentas e
mecanismos que permitam que os dados possam ser analisados de uma forma otimizada, uma
vez que os mesmos são de extrema importância, pois, armazenam toda a trajetória dos dados,
auxiliando no processo de planejamento, análise de mercado, administração e apoio à decisão,
onde tais informações estão escondidas ou não são percebidas em meio ao grande volume de
dados.
O emprego do Data Warehouse (armazém de dados), que em síntese, é utilizado para
armazenar conjuntos de dados organizados por assuntos, mantendo todo um histórico, tendo
como objetivo dar suporte a tomada de decisão com dados. Com a entrada de outro recurso
valioso e um dos mais importantes quando o objetivo é a busca de conhecimento, é o Data
Mining (Mineração de Dados). O Data Mining é um processo que consiste basicamente na
identificação de informações relevantes que estão presentes em grandes bancos de dados,
Data Warehouses ou repositórios, através de diversas técnicas, tais como associações, padrões
consistentes, anomalias, estruturas e etc, unindo várias áreas, como a estatística e da
inteligência artificial, e é uma ferramenta essencial para o processo de descoberta de
conhecimento em base de dados, também denominado KDD (Knowledge Discovery in
Databases, figura 1). Quanto ao processo de Data Mining, o mesmo pode ser dividido
basicamente em três etapas, sendo elas a exploração, a definição dos padrões e a validação
dos dados.
2. 1- Business Intelligence (BI) ou Inteligência de Negócios
Permitindo a extração de informações das bases de dados e apresentando uma nova
visão de análise e possibilitando a definição de fatores estratégicos, a tecnologia Data Mining é
empregada para fornecer a base de diversos segmentos, como é o caso de Business
Intelligence (BI). O recurso de Business Intelligence ou Inteligência de Negócios é definido
como um conjunto de métodos e conceitos que podem ser implementados através de
Softwares com o intuito de utilizar os dados importantes, para auxiliar no processo de tomada
de decisões, proporcionando melhorias e reunindo todas as informações relevantes em um
único lugar. Sendo assim, o Data Mining tem o objetivo de transformar os dados em
conhecimento, que por sua vez é utilizado para obter diversas vantagens em meio ao mercado
altamente competitivo. Outra tecnologia que existe para prover uma melhor e mais flexível
análise das informações, é a OLAP (On-Line Analytical Processing ou Processamento Analítico
On-Line), que permite uma visão conceitual de forma multidimensional das informações, onde
as consultas disponibilizam os dados relacionados a medidas, decompostas em diversas
dimensões. As informações são visualizadas e analisadas de diferentes perspectivas pelo
usuário, mantendo toda a estrutura de dados adequadamente.
2. Descobertas de Padrões Sequenciais
A descoberta de padrões sequenciais é baseada no conceito de uma sequência de
conjuntos de itens, existe um problema de identificar tais padrões sequenciais é encontrar
todas as subsequências para os conjuntos indicados que possuem um suporte mínimo definido
3. pelo usuário. Essa previsão é baseada na frequência (suporte) dessa sequência no passado,
diversos algoritmos foram pesquisados para detecção da sequência.
2.1-Descoberta de Padrões na Série Temporal
Séries temporais são sequências de eventos, cada evento pode ser uma transação que
ocorre em um período de tempo. A série temporal procura uma série de padrões analisando
sequências e subsequências, ela pode ser comparada estabelecendo medidas de similaridades
para identificar ações, que se comportam de modo semelhante.
2.2-Regressão
A regressão é uma aplicação na qual uma regra de classificação é considerada uma
função, na qual ela mapeia variáveis em uma variável de classe de destino, denominada de
regra de regressão , essa aplicação ocorre quando, em vez de mapear uma coluna de dados em
uma classe especifica , o valor da variável é prevista com base nessa coluna.
A análise de regressão é uma ferramenta muito útil em diversos campos de análise, a
descoberta dessa função para prever o destino é equivalente a uma operação de mineração de
dados.
2.3-Redes Neurais
A rede neural é uma derivação da pesquisa de inteligência artificial que usa a regressão
generalizada e oferece um método interativo para executá-la. São usadas técnicas de ajuste de
curva para deduzir uma função de um conjunto de amostras, com essa técnica se consegue um
enfoque de aprendizado, ela é controlada por uma amostra de teste que é usada para
inferência e o aprendizado inicial.
Esse método possibilita respostas ás novas entradas que podem ser capazes de serem
interpoladas com base nas amostras conhecidas, porém depende do modelo de representação
interna do domínio do problema, assim desenvolvendo o método de aprendizado. As redes
neurais podem ser classificadas de modo geral em duas categorias:
A. Aprendizado supervisionado-utilizam métodos adaptativos que tentam reduzir
o erro na saída.
B. Aprendizado não supervisionado-são aqueles que desenvolvem
representações internas de saídas de amostra.
As redes neurais aprendem pela informação sobre um problema especifico, elas se
auto adaptam, são uteis na mineração de dados. Mas apresentam problemas, pois suas saídas
são difíceis de entender e altamente quantitativas, além de um problema na modelagem de
dados de série de tempo.
2.4-Algoritmos Genéticos
Algoritmos Genéticos (GAs-Genetic Algorithms) é uma classe de procedimento de
pesquisa aleatória capaz de realizar uma pesquisa adaptativa por uma grande faixa de
topologias de espaço de pesquisa. As GAs são usadas em diversos campos desde análise de
imagens, escalonamento e projeto de engenharia.
4. Os GAs utilizam a ideia da genética humana do alfabeto, a construção do algoritmo
envolve a idealização de um alfabeto que codifica as soluções para o problema de decisão,
essas sequências são equivalentes a um individuo, uma função de ajuste define quais soluções
podem sobreviver e quais não podem. As formas podem ser combinadas e moldadas pela
operação combinada de cortar e cruzar.
AS soluções produzidas pelos GAs são diferentes da maioria das outras técnicas pelas
seguintes características:
Uma pesquisa de GA usa um conjunto de soluções durante cada geração, em
vez de uma única solução.
A pesquisa no espaço da sequência representa uma pesquisa paralela muito
maior no espaço das soluções codificadas.
A memória de pesquisa feita é representada unicamente pelo conjunto de
soluções disponíveis para uma geração.
Um algoritmo genético é um algoritmo que se torna aleatório, pois os
mecanismos de pesquisa utilizam operadores probabilísticos.
5. 2.5-Aplicações da Mineração de Dados
Algumas áreas em que a tecnologia de mineração de dados tem ganhado significativos,
onde a tomada de decisão nos negócios é um fator essencial. Incluem as seguintes áreas:
Marketing. Incluem análise de comportamento do consumidor, assim
determinando estratégias de marketing.
Propaganda. Inclui análise de crédito de clientes, segmentação de contas a
pagar, receber, análise de investimentos financeiros e títulos de fundos
financeiros.
Manufatura. Envolvem a otimização de recursos como máquinas, mão de obra
e materiais.
Saúde. Incluem descobertas de padronização de imagens radiológicos, analise
de dados experimentais de chip de gene e relacionar sintomas ou doenças ,
analise de efeitos colaterais de drogas e eficácia de certos tratamentos,
também como otimização de processos em hospital e o relacionamento de
dados de bem-estar do paciente com qualificações do médico.
Conclusão
O principal objetivo foi de demonstrar como é utilizado de uma forma conjunta várias
ferramentas e técnicas para descoberta de conhecimento, onde é utilizada e aplicada, apenas
para demostrar a como uma base de dados pode ser útil e aproveitada em diversos setores e
tarefas. A mineração de dados pode ser descrita como uma análise de dados exploratória,
onde como já citado o objetivo é procurar padrões que possam ser usados para tomadas de
decisões.
6. Referências Bibliográficas
ELMASRI, Ramez; NAVATHE, Shamkant B, Sistemas de banco de dados. 6ª. ed. Pearson
Brasil, 2011,capítulo 28.
Silberschatz, A; Korth, H; Sudarshan, S, Sistema de Banco de Dados. 5ª. ed. Campus, 2006,
Cápitulo 18.
Kumazawa, A. H; Funcionamento do Algoritmo Genético. Disponível em
<https://linux.ime.usp.br/~cef/mac499-03/monografias/anselmo/node12.html>.
Pesquisado no dia: 15 de novembro de 2013.
Gonçalves, E. C; Revista SQL Magazine nº 111. Mineração de dados com Market Basket
Analysis .