O documento discute o conceito de Big Data, definindo-o como dados caracterizados por grande volume, velocidade e variedade que requerem técnicas específicas para extrair valor. Explora as características do Big Data, tipos de dados, exemplos de fontes de Big Data e técnicas como data mining e machine learning para analisá-lo. Também apresenta tecnologias como NoSQL e Hadoop para armazenar e processar Big Data.
1. UNIDADE CURRICULAR - GESTÃO DE DADOS
DISCENTE: KHRYSTYNA KRUTS
BIG DATA
Mestrado em Métodos Quantitativos para
Decisão Económica e Empresarial
DOCENTE: CARLOS COSTA
Ano Letivo 2017-2018
2. Definição
Big Data reflete dados caracterizados por um enorme
volume, velocidade e variedade que necessitam a
utilização de técnicas e tecnologias específicas com o
intuito de criação de valor. (De Mauro, Greco, & Grimaldi,
2016)
3. Características
Volume
Velocidade
VariedadeVeracidade
Valor
Diz respeito às grandes
quantidades de dados que são
gerados a cada segundo
Rapidez com que os dados são
gerados, processados e
analisados.
Corresponde à gestão de vários
tipos de dados.
É importante a utilização de
processos que garantam a
consistência dos dados.
Num grande conjunto de dados
existem dados relevantes que
podem trazer valor económico.
4. Tipos de Dados
Dados Estruturados:
Dados Não Estruturados
Dados Semi-estruturados
São dados organizados, que podem ser inseridos e
recuperados de uma base de dados relacional. Possuem
uma estrutura rígida e podem ser encontados em
Sistemas de Gestão de Base de Dados (SGBD).
São dados que ainda não passaram por processos de
normalização e modelização, pelo que, ainda não
possuem uma estrutura reconhecível.
Não podem ser considerados totalmente não estruturados
nem são aptos para ser armazenados numa base de
dados relacional, contudo têm alguns atributos
organizacionais que facilitam a sua análise
5. Tipos de Big Data mais conhecidos
Redes Sociais
Sistemas Tradicionais
de Gestão
IoT - Internet das
Coisas
6. Técnicas para analisar Big Data
Data Mining Machine Learning
• Análise de Clusters - método estatístico
que procura identificar um padrão ou estrutura
num conjunto de dados diversificados.
Consiste num processo onde os objetos são
agrupados em n grupos, denominados de
clusters, em que cada um deles contem um
conjunto de objetos com características
análogas entre si.
• Natural Language Processing (NPL) -
conjunto de técnicas de machine learning e de
linguistics que permitem analisar a linguagem
(natural) dos humanos. Um exemplo deste
conjunto de técnicas é a utilização de
sentimentos nas redes sociais com o intuito de
determinar que potenciais clientes estão a reagir
às campanhas publicitárias.
7. Tecnologias para tratar Big Data
• Base de Dados NoSQL
- bases de dados não são construídas com uma estrutura relacional;
- utilizam o armazenamento em colunas, documentos, estruturas key-value ou
outro tipo de estruturas que sejam fáceis de gerir;
-oferecem uma arquitetura muito mais escalável e eficiente , facilitando o
armazenamento e as consultas de dados semi-estruturados e não estruturados;
- sãobastante económicas e possuem propriedades mais flexíveis.
Big Table
8. Tecnologias para tratar Big Data
• Hadoop
- solução open source de processamento de dados escrita em Java e destinada à
criação e execução de aplicações distribuídas que permitem processar dados de
elevado volume e variedade ;
- foi originalmente desenvolvido pelo Yahoo e agora é gerido como um projeto da
Apache Software Foundation;
- a sua implementação oferece um meio relativamente acessível para extrair
informações e fazer previsões a partir da compreensão dos dados da empresa.