UNIDADE CURRICULAR - GESTÃO DE DADOS
DISCENTE: KHRYSTYNA KRUTS
BIG DATA
Mestrado em Métodos Quantitativos para
Decisão Económica e Empresarial
DOCENTE: CARLOS COSTA
Ano Letivo 2017-2018
Definição
Big Data reflete dados caracterizados por um enorme
volume, velocidade e variedade que necessitam a
utilização de técnicas e tecnologias específicas com o
intuito de criação de valor. (De Mauro, Greco, & Grimaldi,
2016)
Características
Volume
Velocidade
VariedadeVeracidade
Valor
Diz respeito às grandes
quantidades de dados que são
gerados a cada segundo
Rapidez com que os dados são
gerados, processados e
analisados.
Corresponde à gestão de vários
tipos de dados.
É importante a utilização de
processos que garantam a
consistência dos dados.
Num grande conjunto de dados
existem dados relevantes que
podem trazer valor económico.
Tipos de Dados
Dados Estruturados:
Dados Não Estruturados
Dados Semi-estruturados
São dados organizados, que podem ser inseridos e
recuperados de uma base de dados relacional. Possuem
uma estrutura rígida e podem ser encontados em
Sistemas de Gestão de Base de Dados (SGBD).
São dados que ainda não passaram por processos de
normalização e modelização, pelo que, ainda não
possuem uma estrutura reconhecível.
Não podem ser considerados totalmente não estruturados
nem são aptos para ser armazenados numa base de
dados relacional, contudo têm alguns atributos
organizacionais que facilitam a sua análise
Tipos de Big Data mais conhecidos
Redes Sociais
Sistemas Tradicionais
de Gestão
IoT - Internet das
Coisas
Técnicas para analisar Big Data
Data Mining Machine Learning
• Análise de Clusters - método estatístico
que procura identificar um padrão ou estrutura
num conjunto de dados diversificados.
Consiste num processo onde os objetos são
agrupados em n grupos, denominados de
clusters, em que cada um deles contem um
conjunto de objetos com características
análogas entre si.
• Natural Language Processing (NPL) -
conjunto de técnicas de machine learning e de
linguistics que permitem analisar a linguagem
(natural) dos humanos. Um exemplo deste
conjunto de técnicas é a utilização de
sentimentos nas redes sociais com o intuito de
determinar que potenciais clientes estão a reagir
às campanhas publicitárias.
Tecnologias para tratar Big Data
• Base de Dados NoSQL
- bases de dados não são construídas com uma estrutura relacional;
- utilizam o armazenamento em colunas, documentos, estruturas key-value ou
outro tipo de estruturas que sejam fáceis de gerir;
-oferecem uma arquitetura muito mais escalável e eficiente , facilitando o
armazenamento e as consultas de dados semi-estruturados e não estruturados;
- sãobastante económicas e possuem propriedades mais flexíveis.
Big Table
Tecnologias para tratar Big Data
• Hadoop
- solução open source de processamento de dados escrita em Java e destinada à
criação e execução de aplicações distribuídas que permitem processar dados de
elevado volume e variedade ;
- foi originalmente desenvolvido pelo Yahoo e agora é gerido como um projeto da
Apache Software Foundation;
- a sua implementação oferece um meio relativamente acessível para extrair
informações e fazer previsões a partir da compreensão dos dados da empresa.

Big Data

  • 1.
    UNIDADE CURRICULAR -GESTÃO DE DADOS DISCENTE: KHRYSTYNA KRUTS BIG DATA Mestrado em Métodos Quantitativos para Decisão Económica e Empresarial DOCENTE: CARLOS COSTA Ano Letivo 2017-2018
  • 2.
    Definição Big Data refletedados caracterizados por um enorme volume, velocidade e variedade que necessitam a utilização de técnicas e tecnologias específicas com o intuito de criação de valor. (De Mauro, Greco, & Grimaldi, 2016)
  • 3.
    Características Volume Velocidade VariedadeVeracidade Valor Diz respeito àsgrandes quantidades de dados que são gerados a cada segundo Rapidez com que os dados são gerados, processados e analisados. Corresponde à gestão de vários tipos de dados. É importante a utilização de processos que garantam a consistência dos dados. Num grande conjunto de dados existem dados relevantes que podem trazer valor económico.
  • 4.
    Tipos de Dados DadosEstruturados: Dados Não Estruturados Dados Semi-estruturados São dados organizados, que podem ser inseridos e recuperados de uma base de dados relacional. Possuem uma estrutura rígida e podem ser encontados em Sistemas de Gestão de Base de Dados (SGBD). São dados que ainda não passaram por processos de normalização e modelização, pelo que, ainda não possuem uma estrutura reconhecível. Não podem ser considerados totalmente não estruturados nem são aptos para ser armazenados numa base de dados relacional, contudo têm alguns atributos organizacionais que facilitam a sua análise
  • 5.
    Tipos de BigData mais conhecidos Redes Sociais Sistemas Tradicionais de Gestão IoT - Internet das Coisas
  • 6.
    Técnicas para analisarBig Data Data Mining Machine Learning • Análise de Clusters - método estatístico que procura identificar um padrão ou estrutura num conjunto de dados diversificados. Consiste num processo onde os objetos são agrupados em n grupos, denominados de clusters, em que cada um deles contem um conjunto de objetos com características análogas entre si. • Natural Language Processing (NPL) - conjunto de técnicas de machine learning e de linguistics que permitem analisar a linguagem (natural) dos humanos. Um exemplo deste conjunto de técnicas é a utilização de sentimentos nas redes sociais com o intuito de determinar que potenciais clientes estão a reagir às campanhas publicitárias.
  • 7.
    Tecnologias para tratarBig Data • Base de Dados NoSQL - bases de dados não são construídas com uma estrutura relacional; - utilizam o armazenamento em colunas, documentos, estruturas key-value ou outro tipo de estruturas que sejam fáceis de gerir; -oferecem uma arquitetura muito mais escalável e eficiente , facilitando o armazenamento e as consultas de dados semi-estruturados e não estruturados; - sãobastante económicas e possuem propriedades mais flexíveis. Big Table
  • 8.
    Tecnologias para tratarBig Data • Hadoop - solução open source de processamento de dados escrita em Java e destinada à criação e execução de aplicações distribuídas que permitem processar dados de elevado volume e variedade ; - foi originalmente desenvolvido pelo Yahoo e agora é gerido como um projeto da Apache Software Foundation; - a sua implementação oferece um meio relativamente acessível para extrair informações e fazer previsões a partir da compreensão dos dados da empresa.