SlideShare uma empresa Scribd logo
1 de 36
Baixar para ler offline
Contexto de Big Data, Ciência de
Dados e KDD
Fabrício J. Barth!
Disciplina de Modelagem Descritiva e Preditiva!
Pós-Graduação em Big Data e Analytics
quantidadedeinformações
10
100
1970 1980 1990 2000 2010 2020
Sempre houve:!
!
Produção de informação!
Geração de dados!
Geração de conteúdo
Sempre desejou-se: !
! sintetizar a informação!
! manter, disseminar, organizar, criar
conhecimento e tomar decisões mais!
assertivas com base nos dados.
Métodos, processos e ferramentas
✤ Gestão de Conhecimento, Sistemas Especialistas e Mineração de
Dados!
✤ Sistemas Especialistas e Projetos de Mineração de Dados (Processo de
Descoberta de Conhecimento) só funcionavam em cenários muito
bem delimitados e utilizando dados muito bem tratados e
estruturados.!
✤ Também, manipular dados diferentes dos dados não estruturados não
parecia ser algo relevante.
quantidadedeinformações
100
10000
1970 1980 1990 2000 2010 2020
O cenário mudou!
Gandour, F. O que muda com a computação cognitiva? Revista de ESPM, Set/Out de 2014.
✤ O cenário mudou!!
✤ Mas o desejo ainda continua:!
✤ sintetizar!
✤ manter!
✤ disseminar!
✤ organizar!
✤ encontrar!
✤ tomar decisões baseadas em ….
Mas o desafio mudou
✤ Ficou mais complexo devido as características dos dados, da forma
como eles são gerados e das novas necessidades dos usuários.!
✤ O volume de dados gerados é muito alto.!
✤ A velocidade com que eles são gerados e perdem a validade é
muito rápida.!
✤ A variedade das fontes é bem diversificada (estruturada + não
estruturada)!
✤ Aparentemente, os usuários não querem mais saber do passado. Estão
muito interessados no presente e futuro.
Alguns exemplos
Entrada: 13 milhões de registros históricos sobre crimes em LA.!
Saída: determinar quando um crime irá acontecer.
Entrada: rede de sensores que cobre todo o mundo!
Saída: determinar quando um terremoto irá
acontecer
Entrada: milhões de itens e milhões de usuários!
Saída: recomendar itens com acurácia alta para os usuários (clientes)
Criar rôbos que !
compram e vendem ações!
O que estes projetos têm em
comun?
✤ Manipulam grandes volumes de
informação!
✤ Outros exemplos de grandes volumes de informação:!
✤ A380: Heathrow - JFK: 640 TBs de log!
✤ Twitter: 12+ TBs of tweet every day!
✤ Facebook: 25+ TBs of log data every day
O que estes projetos têm em
comun?
✤ A origem dos dados é muito variada.
O que estes
projetos têm
em comun?
Queremos modelos preditivos
Outros exemplos
✤ Identificar comportamento anômalo (i.e., fraudes, falhas)!
✤ Sumarizar tendências de publicações de artigos e patentes sobre um
determinado tema.!
✤ Sumarizar e filtrar notícias relevantes.!
✤ Sumarizar a opinião expressa na Web sobre a sua empresa.!
✤ Identificar padrões de navegação em sites.!
✤ Identificar conteúdo impróprio em sites.
Ciência de Dados (Data Science)
Cientísta de Dados (Data Scientist)
✤ Data Scientist: The sexiest job of the 21st Century. Harvard Business
Review.!
✤ Data Scientist applies advanced analytical tools and algorithms to
generate predictive insights and new product innovations that are a
direct result of the data.
Processo de Descoberta de
Conhecimento
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
É possível classificar espécies do
gênero iris levando em consideração
apenas o tamanho das plantas?
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-processamento dos dados
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-processamento dos dados
Análise exploratória
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-processamento dos dados
Análise exploratória
Modelagem
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-processamento dos dados
Análise exploratória
Modelagem
Avaliação do modelo
Acurácia do modelo?!
Quantidade falsos positivos?!
Falsos negativos?
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-processamento dos dados
Análise exploratória
Modelagem
Avaliação do modelo
Entrega
Relatórios Estáticos
Aplicativos
Relatórios Dinâmicos
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-
processamento dos
dados
Análise exploratória
Modelagem
Avaliação do modelo
Entrega
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-
processamento dos
dados
Análise exploratória
Modelagem
Avaliação do modelo
Entrega
Processo de Descoberta de Conhecimento
(KDD - Knowledge Discovery in Databases)
Qual é a pergunta?
Aquisição e pré-
processamento dos
dados
Análise exploratória
Modelagem
Avaliação do modelo
Entrega
Este processo pode ser suportado por diversas ferramentas, entre elas: R,
SPSS, RapidMiner, Tableau, Weka, Matlab, Octave, Python, Julia,…
Leitura sugerida
✤ Capítulos 1, 2 e 3 do livro EMC Education Services, editor. Data
Science and Big Data Analytics: Discovering, Analysing, Visualizing
and Presenting Data. John Wiley & Sons, 2015.!
✤ Demais materiais da disciplina estão em: !
✤ http://fbarth.net.br/cursoBigData
Próximo assunto: compreender
melhor a etapa de modelagem
Qual é a pergunta?
Aquisição e pré-
processamento dos
dados
Análise exploratória
Modelagem
Avaliação do modelo
Entrega

Mais conteúdo relacionado

Mais procurados

Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e DesafiosFlávio Sousa
 
Relatos de experiência com a gestão de dados abertos e de pesquisa
Relatos de experiência com a gestão de dados abertos e de pesquisaRelatos de experiência com a gestão de dados abertos e de pesquisa
Relatos de experiência com a gestão de dados abertos e de pesquisaLiber UFPE
 
Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus ImpactosAlex Silva
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Data analysis open data
Data analysis open dataData analysis open data
Data analysis open dataLiber UFPE
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Boas práticas para publicação de dados na web
Boas práticas para publicação de dados na webBoas práticas para publicação de dados na web
Boas práticas para publicação de dados na webLiber UFPE
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieMarcos CAVALCANTI
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerDaniela Brauner
 
Introdução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisIntrodução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisSérgio Dias
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RNMarcos Luiz Lins Filho
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro WanderleyLeandro Couto
 

Mais procurados (20)

Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e Desafios
 
Big Data - uma visão executiva
Big Data - uma visão executivaBig Data - uma visão executiva
Big Data - uma visão executiva
 
Relatos de experiência com a gestão de dados abertos e de pesquisa
Relatos de experiência com a gestão de dados abertos e de pesquisaRelatos de experiência com a gestão de dados abertos e de pesquisa
Relatos de experiência com a gestão de dados abertos e de pesquisa
 
Big data
Big dataBig data
Big data
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus Impactos
 
Big Data e NoSQL
Big Data e NoSQLBig Data e NoSQL
Big Data e NoSQL
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Big data apresentacao
Big data apresentacaoBig data apresentacao
Big data apresentacao
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Data analysis open data
Data analysis open dataData analysis open data
Data analysis open data
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Boas práticas para publicação de dados na web
Boas práticas para publicação de dados na webBoas práticas para publicação de dados na web
Boas práticas para publicação de dados na web
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil Crie
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela Brauner
 
Introdução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisIntrodução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionais
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 

Destaque

Transparência em Belém: a hora é agora
Transparência em Belém: a hora é agora Transparência em Belém: a hora é agora
Transparência em Belém: a hora é agora Amarribo
 
Custos e controle social bh. 22.04.12
Custos e controle social  bh. 22.04.12Custos e controle social  bh. 22.04.12
Custos e controle social bh. 22.04.12ufumec
 
Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMGBig Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMGPetronio Candido
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...Igor Steinmacher
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???Alessandro Binhara
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreVivaldo Jose Breternitz
 
De dev para data scientist 3 coisas que aprendi
De dev para data scientist  3 coisas que aprendiDe dev para data scientist  3 coisas que aprendi
De dev para data scientist 3 coisas que aprendiRodrigo Vieira
 
Usabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webUsabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webRobson Santos
 
Palestra MVP living lab ms
Palestra MVP   living lab msPalestra MVP   living lab ms
Palestra MVP living lab msBonoBee
 
Primeiros passos com o Cassandra
 Primeiros passos com o Cassandra  Primeiros passos com o Cassandra
Primeiros passos com o Cassandra Otávio Santana
 
Mantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMatheus Pereira
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaJoão Gabriel Lima
 

Destaque (20)

Análise de Problemas Big Data
Análise de Problemas Big DataAnálise de Problemas Big Data
Análise de Problemas Big Data
 
Transparência em Belém: a hora é agora
Transparência em Belém: a hora é agora Transparência em Belém: a hora é agora
Transparência em Belém: a hora é agora
 
Custos e controle social bh. 22.04.12
Custos e controle social  bh. 22.04.12Custos e controle social  bh. 22.04.12
Custos e controle social bh. 22.04.12
 
Painel 00 01 - wesley - Análise de dados como ferramenta estratégica para o...
Painel 00   01 - wesley - Análise de dados como ferramenta estratégica para o...Painel 00   01 - wesley - Análise de dados como ferramenta estratégica para o...
Painel 00 01 - wesley - Análise de dados como ferramenta estratégica para o...
 
Data Mining
Data MiningData Mining
Data Mining
 
Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMGBig Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
 
La visión del ministerio de planificación- TCU
La visión del ministerio de planificación- TCULa visión del ministerio de planificación- TCU
La visión del ministerio de planificación- TCU
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
 
De dev para data scientist 3 coisas que aprendi
De dev para data scientist  3 coisas que aprendiDe dev para data scientist  3 coisas que aprendi
De dev para data scientist 3 coisas que aprendi
 
Control social 2016 - la visión de la cámara de diputados.
Control social 2016 -  la visión de la cámara de diputados.Control social 2016 -  la visión de la cámara de diputados.
Control social 2016 - la visión de la cámara de diputados.
 
Design thinking 2016 - Herramientas
Design thinking 2016 -  HerramientasDesign thinking 2016 -  Herramientas
Design thinking 2016 - Herramientas
 
Usabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webUsabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na web
 
Palestra MVP living lab ms
Palestra MVP   living lab msPalestra MVP   living lab ms
Palestra MVP living lab ms
 
Primeiros passos com o Cassandra
 Primeiros passos com o Cassandra  Primeiros passos com o Cassandra
Primeiros passos com o Cassandra
 
Mantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e Git
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e Weka
 

Semelhante a Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data

aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdfCyberboy11
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dadoscardoso80
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Demonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoDemonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoRafa Spoladore
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência ArtificialJoão Gabriel Lima
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas VertentesUnicamp
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Bruno Rocha
 
introdução a mineração de dados (noções )
introdução a mineração de dados (noções )introdução a mineração de dados (noções )
introdução a mineração de dados (noções )HelderPestana5
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de DadosJoão Pedro Albino
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 

Semelhante a Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data (20)

Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais
 
Data Mining
Data Mining Data Mining
Data Mining
 
Slide cebrap
Slide cebrapSlide cebrap
Slide cebrap
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Demonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoDemonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismo
 
Data mining
Data miningData mining
Data mining
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência Artificial
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas Vertentes
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
 
introdução a mineração de dados (noções )
introdução a mineração de dados (noções )introdução a mineração de dados (noções )
introdução a mineração de dados (noções )
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Data science
Data scienceData science
Data science
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de Dados
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 

Mais de Fabrício Barth

Mineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataMineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataFabrício Barth
 
Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataFabrício Barth
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataFabrício Barth
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataFabrício Barth
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoFabrício Barth
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity RecognitionFabrício Barth
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando RFabrício Barth
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comFabrício Barth
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestFabrício Barth
 
Web Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosWeb Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosFabrício Barth
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterFabrício Barth
 
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Fabrício Barth
 
Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaFabrício Barth
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataFabrício Barth
 
Uma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataUma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataFabrício Barth
 
Uma introdução à mineração de informações
Uma introdução à mineração de informaçõesUma introdução à mineração de informações
Uma introdução à mineração de informaçõesFabrício Barth
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web MiningFabrício Barth
 

Mais de Fabrício Barth (20)

Mineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataMineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big Data
 
Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big Data
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionado
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity Recognition
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando R
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.com
 
Web Data Mining com R
Web Data Mining com RWeb Data Mining com R
Web Data Mining com R
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random Forest
 
Web Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosWeb Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivos
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitter
 
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...
 
Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquina
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big Data
 
Uma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataUma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big Data
 
Projeto Simple Maps
Projeto Simple MapsProjeto Simple Maps
Projeto Simple Maps
 
Uma introdução à mineração de informações
Uma introdução à mineração de informaçõesUma introdução à mineração de informações
Uma introdução à mineração de informações
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web Mining
 

Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data

  • 1. Contexto de Big Data, Ciência de Dados e KDD Fabrício J. Barth! Disciplina de Modelagem Descritiva e Preditiva! Pós-Graduação em Big Data e Analytics
  • 2. quantidadedeinformações 10 100 1970 1980 1990 2000 2010 2020 Sempre houve:! ! Produção de informação! Geração de dados! Geração de conteúdo
  • 3. Sempre desejou-se: ! ! sintetizar a informação! ! manter, disseminar, organizar, criar conhecimento e tomar decisões mais! assertivas com base nos dados.
  • 4. Métodos, processos e ferramentas ✤ Gestão de Conhecimento, Sistemas Especialistas e Mineração de Dados! ✤ Sistemas Especialistas e Projetos de Mineração de Dados (Processo de Descoberta de Conhecimento) só funcionavam em cenários muito bem delimitados e utilizando dados muito bem tratados e estruturados.! ✤ Também, manipular dados diferentes dos dados não estruturados não parecia ser algo relevante.
  • 5.
  • 6. quantidadedeinformações 100 10000 1970 1980 1990 2000 2010 2020 O cenário mudou!
  • 7. Gandour, F. O que muda com a computação cognitiva? Revista de ESPM, Set/Out de 2014.
  • 8. ✤ O cenário mudou!! ✤ Mas o desejo ainda continua:! ✤ sintetizar! ✤ manter! ✤ disseminar! ✤ organizar! ✤ encontrar! ✤ tomar decisões baseadas em ….
  • 9. Mas o desafio mudou ✤ Ficou mais complexo devido as características dos dados, da forma como eles são gerados e das novas necessidades dos usuários.! ✤ O volume de dados gerados é muito alto.! ✤ A velocidade com que eles são gerados e perdem a validade é muito rápida.! ✤ A variedade das fontes é bem diversificada (estruturada + não estruturada)! ✤ Aparentemente, os usuários não querem mais saber do passado. Estão muito interessados no presente e futuro.
  • 11. Entrada: 13 milhões de registros históricos sobre crimes em LA.! Saída: determinar quando um crime irá acontecer.
  • 12. Entrada: rede de sensores que cobre todo o mundo! Saída: determinar quando um terremoto irá acontecer
  • 13. Entrada: milhões de itens e milhões de usuários! Saída: recomendar itens com acurácia alta para os usuários (clientes)
  • 14.
  • 15.
  • 16.
  • 17. Criar rôbos que ! compram e vendem ações!
  • 18. O que estes projetos têm em comun? ✤ Manipulam grandes volumes de informação! ✤ Outros exemplos de grandes volumes de informação:! ✤ A380: Heathrow - JFK: 640 TBs de log! ✤ Twitter: 12+ TBs of tweet every day! ✤ Facebook: 25+ TBs of log data every day
  • 19. O que estes projetos têm em comun? ✤ A origem dos dados é muito variada.
  • 20. O que estes projetos têm em comun?
  • 22. Outros exemplos ✤ Identificar comportamento anômalo (i.e., fraudes, falhas)! ✤ Sumarizar tendências de publicações de artigos e patentes sobre um determinado tema.! ✤ Sumarizar e filtrar notícias relevantes.! ✤ Sumarizar a opinião expressa na Web sobre a sua empresa.! ✤ Identificar padrões de navegação em sites.! ✤ Identificar conteúdo impróprio em sites.
  • 23. Ciência de Dados (Data Science)
  • 24. Cientísta de Dados (Data Scientist) ✤ Data Scientist: The sexiest job of the 21st Century. Harvard Business Review.! ✤ Data Scientist applies advanced analytical tools and algorithms to generate predictive insights and new product innovations that are a direct result of the data.
  • 25. Processo de Descoberta de Conhecimento
  • 26. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? É possível classificar espécies do gênero iris levando em consideração apenas o tamanho das plantas?
  • 27. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré-processamento dos dados
  • 28. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré-processamento dos dados Análise exploratória
  • 29. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré-processamento dos dados Análise exploratória Modelagem
  • 30. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré-processamento dos dados Análise exploratória Modelagem Avaliação do modelo Acurácia do modelo?! Quantidade falsos positivos?! Falsos negativos?
  • 31. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré-processamento dos dados Análise exploratória Modelagem Avaliação do modelo Entrega Relatórios Estáticos Aplicativos Relatórios Dinâmicos
  • 32. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré- processamento dos dados Análise exploratória Modelagem Avaliação do modelo Entrega
  • 33. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré- processamento dos dados Análise exploratória Modelagem Avaliação do modelo Entrega
  • 34. Processo de Descoberta de Conhecimento (KDD - Knowledge Discovery in Databases) Qual é a pergunta? Aquisição e pré- processamento dos dados Análise exploratória Modelagem Avaliação do modelo Entrega Este processo pode ser suportado por diversas ferramentas, entre elas: R, SPSS, RapidMiner, Tableau, Weka, Matlab, Octave, Python, Julia,…
  • 35. Leitura sugerida ✤ Capítulos 1, 2 e 3 do livro EMC Education Services, editor. Data Science and Big Data Analytics: Discovering, Analysing, Visualizing and Presenting Data. John Wiley & Sons, 2015.! ✤ Demais materiais da disciplina estão em: ! ✤ http://fbarth.net.br/cursoBigData
  • 36. Próximo assunto: compreender melhor a etapa de modelagem Qual é a pergunta? Aquisição e pré- processamento dos dados Análise exploratória Modelagem Avaliação do modelo Entrega