SlideShare uma empresa Scribd logo
1 de 36
Iniciativas em Big Data no 
VAGAS.com 
Fabrício J. Barth 
Data e Depto
Sumário 
• VAGAS.com 
• Big Data 
• Iniciativas de Big Data na VAGAS.com 
• Lições Aprendidas
VAGAS.com
VAGAS.com
VAGAS.com
VAGAS.com
O que é Big Data? 
Em TI sempre tivemos cenários parecidos com este: 
Processo, métodos, 
Processo, métodos, 
Dados brutos Sínteses para 
algoritmos e 
ferramentas para 
processamento de 
algoritmos e 
ferramentas para 
processamento de 
dados 
dados 
tomadas de 
decisão
O que é Big Data? 
Processo, métodos, 
Processo, métodos, 
algoritmos e 
ferramentas para 
processamento de 
algoritmos e 
ferramentas para 
processamento de 
dados 
dados 
Dados brutos 
Variedade 
Volume 
Velocidade 
Sínteses para 
tomadas de 
decisão
O que é Big Data? 
Processo, 
métodos, 
algoritmos e 
ferramentas para 
processamento de 
Processo, 
métodos, 
algoritmos e 
ferramentas para 
processamento de 
dados 
dados
O que é Big Data? 
Processo, métodos, 
Processo, métodos, 
algoritmos e 
ferramentas para 
processamento de 
algoritmos e 
ferramentas para 
processamento de 
dados 
dados 
Implicam em novas 
formas de síntese 
Implicam em novas 
formas de síntese 
Análises Descritivas 
Análises Descritivas 
(visualizações estáticas ou 
(visualizações estáticas ou 
interativas) 
interativas) 
Modelos 
Preditivos 
Modelos 
Preditivos 
Evolução da gestão 
baseada em dados 
Evolução da gestão 
baseada em dados
Análises Descritivas 
Tem como objetivo sintetizar ou sumarizar 
informações existentes em um conjunto de dados, 
geralmente, apresentando algum padrão oculto. 
Técnicas normalmente empregadas: 
•Algoritmos de agrupamento (clustering). 
•Regras de Associação.
Exemplo de clustering 
Pergunta: é possível identificar agrupamentos de 
usuários baseado na quantidade de candidaturas e 
quantidade de acessos realizados ao site?
Exemplo de clustering 
Pergunta: é possível identificar agrupamentos de 
usuários baseado na quantidade de candidaturas e 
quantidade de acessos realizados ao site? 
Aquisição e pré-processamento 
Aquisição e pré-processamento 
dos dados 
dos dados 
Cada candidato será representado pela: (i) 
quantidade de candidaturas; (ii) quantidade de 
dias desde o último acesso ao site; (iii) 
quantidade de dias desde a última atualização 
do CV, entre outros atributos.
Exemplo de clustering 
Pergunta: é possível identificar agrupamentos de 
usuários baseado na quantidade de candidaturas e 
quantidade de acessos realizados ao site? 
Aquisição e pré-processamento 
Aquisição e pré-processamento 
dos dados 
dos dados 
Análise descritiva dos 
Análise descritiva dos 
atributos 
atributos 
Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade 
de dias desde o último acesso ao site; (iii) quantidade de dias desde a última 
atualização do CV, entre outros atributos.
Exemplo de clustering 
Pergunta: é possível identificar agrupamentos de 
usuários baseado na quantidade de candidaturas e 
quantidade de acessos realizados ao site? 
Aquisição e pré-processamento 
Aquisição e pré-processamento 
dos dados 
dos dados 
Análise descritiva dos 
Análise descritiva dos 
atributos 
atributos 
MMooddeelalaggeemm 
Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade 
de dias desde o último acesso ao site; (iii) quantidade de dias desde a última 
atualização do CV, entre outros atributos. 
Vamos utilizar o algoritmo k-means com o 
método elbow para identificar o número 
de clusters ideal
Exemplo de clustering
Exemplo de clustering 
Pergunta: é possível identificar agrupamentos de 
usuários baseado na quantidade de candidaturas e 
quantidade de acessos realizados ao site? 
Aquisição e pré-processamento 
Aquisição e pré-processamento 
dos dados 
dos dados 
Análise descritiva dos 
Análise descritiva dos 
atributos 
atributos 
MMooddeelalaggeemm 
AAvvaalilaiaççããoo d doo m mooddeelolo 
EEnnttrreeggaa 
Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade 
de dias desde o último acesso ao site; (iii) quantidade de dias desde a última 
atualização do CV, entre outros atributos. 
Vamos utilizar o algoritmo k-means com o 
método elbow para identificar o número 
de clusters ideal 
Relatório 
Apresentação 
Discussão
Processo de descoberta de conhecimento 
DDeefifniniçiçããoo d doo e essccooppoo 
Aquisição e pré-processamento 
Aquisição e pré-processamento 
dos dados 
dos dados 
Análise descritiva dos 
Análise descritiva dos 
atributos 
atributos 
MMooddeelalaggeemm 
AAvvaalilaiaççããoo d doo m mooddeelolo 
EEnnttrreeggaa 
voltar para as outras etapas 
Se o modelo não está bom então podemos
Outro exemplo de análise descritiva 
Pergunta: é possível identificar o compartamento de 
movimentações das diversas profissões a partir do 
histórico profissional de uma base de CVs?
Outro exemplo de análise descritiva 
Pergunta: é possível identificar o compartamento de 
movimentações das diversas profissões a partir do 
histórico profissional de uma base de CVs? 
Aquisição e pré-processamento 
Aquisição e pré-processamento 
dos dados 
dos dados
Outro exemplo de análise descritiva 
Pergunta: é possível identificar o compartamento de 
movimentações das diversas profissões a partir do 
histórico profissional de uma base de CVs? 
Aquisição e pré-processamento 
Aquisição e pré-processamento 
dos dados 
dos dados 
Cargo 
Salário 
Setor da empresa 
Cargo 
Salário 
Setor da empresa 
Cargo 
Salário 
Setor da empresa
Outro exemplo de análise descritiva 
Pergunta: é possível identificar o compartamento de 
movimentações das diversas profissões a partir do 
histórico profissional de uma base de CVs? 
Aquisição e pré-processamento 
Aquisição e pré-processamento 
dos dados 
dos dados 
Análise descritiva dos 
Análise descritiva dos 
atributos 
atributos
Outro exemplo de análise descritiva 
Pergunta: é possível identificar o compartamento de 
movimentações das diversas profissões a partir do 
histórico profissional de uma base de CVs? 
Aquisição e pré-processamento 
Aquisição e pré-processamento 
dos dados 
dos dados 
Análise descritiva dos 
Análise descritiva dos 
atributos 
atributos 
MMooddeelalaggeemm
carreiras.vagas.com.br
carreiras.vagas.com.br 
Pergunta: é possível identificar o compartamento de movimentações das 
diversas profissões a partir do histórico profissional de uma base de 
CVs? 
EEnnttrreeggaa c coommoo s sooftftwwaarree
Modelos Preditivos 
A partir de dados históricos, 
criar modelos que realizam algum tipo de previsão 
(futuro) sobre valores: 
categóricos (classificação), ou; 
valores numéricos (regressão).
Modelos Preditivos 
Pergunta: é possível predizer a quantidade de 
visitas no site para os próximos dias? 
Aquisição e pré-processamento 
Aquisição e pré-processamento 
dos dados 
dos dados
Modelos Preditivos 
Pergunta: é possível predizer a quantidade de 
visitas no site para os próximos dias? 
Aquisição e pré-processamento 
dos dados 
MMooddeelalaggeemm Regressão linear onde a variável 
dependente é a quantidade de visitas 
por dia e as variáveis independentes 
são informações como: dia da semana, 
se é feriado ou não, entre outras 
informações 
Aquisição e pré-processamento 
dos dados
Modelos Preditivos 
Pergunta: é possível predizer a quantidade de 
visitas no site para os próximos dias? 
AAvvaalliiaaççããoo ddoo mmooddeelloo
Modelos Preditivos 
Pergunta: é possível predizer a quantidade de 
visitas no site para os próximos dias? 
Sim! 
Aplicações: 
•Prever demanda de acesso ao site 
•Identificar anomalias 
•Diagnosticar falhas
Modelos Preditivos 
Pergunta: é possível recomendar vagas, com alta 
acurácia, aos candidatos?
Modelos Preditivos 
Pergunta: é possível recomendar vagas, com alta 
acurácia, aos candidatos? 
Aquisição e pré-processamento 
dos dados 
Aquisição e pré-processamento 
dos dados 
Candidato Vaga Ação 
1111 aaaa Candidatura 
1111 bbbb Pageview 
2222 aaaa Pageview 
2222 cccc Pageview 
2222 dddd Candidatura
Modelos Preditivos 
Pergunta: é possível recomendar vagas, com alta 
acurácia, aos candidatos? 
MMooddeellaaggeemm 
Modelo Bayesiano (abordagem probabilística) 
Acurácia boa: 70%, fácil de implementar, mas não teve 
Acurácia boa: 70%, fácil de implementar, mas não teve 
um impacto muito alto no site. 
um impacto muito alto no site. 
Random Forest (classificador baseado em árvores de decisão) 
Acurácia excelente: 92%, mas muito difícil para colocar 
Acurácia excelente: 92%, mas muito difícil para colocar 
em ambiente de produção. 
em ambiente de produção. 
Algoritmo colaborativo baseado em grafos 
DDeesseemmppeennhhoo e exxcceelelennttee e e c coomm a altltoo g grraauu d dee i mimppaaccttoo n noo s sititee
Modelos Preditivos 
Pergunta: é possível recomendar vagas, com alta 
acurácia, aos candidatos? 
Avaliação em ambiente de 
Avaliação em ambiente de 
produção 
produção 
Algoritmo de recomendação 
colaborativo “quebrou” o modelo 
preditivo de visitas
Lições Aprendidas 
•Visualizações interativas parecem ser mais úteis que 
visualizações estáticos. 
•Todo projeto/equipe de Big Data (Data Analysis) deve estar 
preparado para falhar. 
•A dinâmica de projetos de Big Data é diferente da dinâmica de 
projetos de software. Projetos de Big Data estão muito mais 
próximos de projetos de pesquisa (científica) do que de projetos 
de software. 
•Como preparar organizações para este tipo de dinâmica?
fabricio.barth@vagas.com.br 
www.VAGAS.com.br 
(11) 4084-1111

Mais conteúdo relacionado

Destaque

Taking - Alocação, Hunting e PCD
Taking - Alocação, Hunting e PCDTaking - Alocação, Hunting e PCD
Taking - Alocação, Hunting e PCDTaking
 
Quadro de vagas_27-3-14
Quadro de vagas_27-3-14Quadro de vagas_27-3-14
Quadro de vagas_27-3-14Portal NE10
 
PCD S/A - Proposta
PCD S/A - PropostaPCD S/A - Proposta
PCD S/A - PropostaSanto Caos
 
Como elaborar um programa de inclusão de pessoas com deficiência
Como elaborar um programa de inclusão de pessoas com deficiênciaComo elaborar um programa de inclusão de pessoas com deficiência
Como elaborar um programa de inclusão de pessoas com deficiênciaCathoEmpresas
 
Apresentação sobre Programa Inclusão da Diversidade Pessoas com Deficiência -...
Apresentação sobre Programa Inclusão da Diversidade Pessoas com Deficiência -...Apresentação sobre Programa Inclusão da Diversidade Pessoas com Deficiência -...
Apresentação sobre Programa Inclusão da Diversidade Pessoas com Deficiência -...yvy karla abbade
 
Catho Empresas - inclusão de PcD no mercado de trabalho
Catho Empresas - inclusão de PcD no mercado de trabalhoCatho Empresas - inclusão de PcD no mercado de trabalho
Catho Empresas - inclusão de PcD no mercado de trabalhoLuís Testa
 
Case - Desenvolvendo uma Cultura de Reconhecimento
Case - Desenvolvendo uma Cultura de ReconhecimentoCase - Desenvolvendo uma Cultura de Reconhecimento
Case - Desenvolvendo uma Cultura de ReconhecimentoRodolfo Delphorno
 
Inclusão de Profissionais com Deficiência e Gestão por Indicadores
Inclusão de Profissionais com Deficiência e Gestão por IndicadoresInclusão de Profissionais com Deficiência e Gestão por Indicadores
Inclusão de Profissionais com Deficiência e Gestão por IndicadoresReinaldo Bulgarelli
 
Inovação na Tecnologia da Gestão Empresarial
Inovação na Tecnologia da Gestão EmpresarialInovação na Tecnologia da Gestão Empresarial
Inovação na Tecnologia da Gestão EmpresarialWilson Luconi
 
Inclusao de pessoas com deficiência
Inclusao de pessoas com deficiênciaInclusao de pessoas com deficiência
Inclusao de pessoas com deficiênciaUniversidade Unisinos
 

Destaque (13)

Certificado pcd (1)
Certificado pcd (1)Certificado pcd (1)
Certificado pcd (1)
 
Taking - Alocação, Hunting e PCD
Taking - Alocação, Hunting e PCDTaking - Alocação, Hunting e PCD
Taking - Alocação, Hunting e PCD
 
Quadro de vagas_27-3-14
Quadro de vagas_27-3-14Quadro de vagas_27-3-14
Quadro de vagas_27-3-14
 
PCD S/A - Proposta
PCD S/A - PropostaPCD S/A - Proposta
PCD S/A - Proposta
 
Como elaborar um programa de inclusão de pessoas com deficiência
Como elaborar um programa de inclusão de pessoas com deficiênciaComo elaborar um programa de inclusão de pessoas com deficiência
Como elaborar um programa de inclusão de pessoas com deficiência
 
Emprol RH
Emprol RHEmprol RH
Emprol RH
 
Apresentação sobre Programa Inclusão da Diversidade Pessoas com Deficiência -...
Apresentação sobre Programa Inclusão da Diversidade Pessoas com Deficiência -...Apresentação sobre Programa Inclusão da Diversidade Pessoas com Deficiência -...
Apresentação sobre Programa Inclusão da Diversidade Pessoas com Deficiência -...
 
Catho Empresas - inclusão de PcD no mercado de trabalho
Catho Empresas - inclusão de PcD no mercado de trabalhoCatho Empresas - inclusão de PcD no mercado de trabalho
Catho Empresas - inclusão de PcD no mercado de trabalho
 
Case - Desenvolvendo uma Cultura de Reconhecimento
Case - Desenvolvendo uma Cultura de ReconhecimentoCase - Desenvolvendo uma Cultura de Reconhecimento
Case - Desenvolvendo uma Cultura de Reconhecimento
 
Inclusão de Profissionais com Deficiência e Gestão por Indicadores
Inclusão de Profissionais com Deficiência e Gestão por IndicadoresInclusão de Profissionais com Deficiência e Gestão por Indicadores
Inclusão de Profissionais com Deficiência e Gestão por Indicadores
 
Inovação na Tecnologia da Gestão Empresarial
Inovação na Tecnologia da Gestão EmpresarialInovação na Tecnologia da Gestão Empresarial
Inovação na Tecnologia da Gestão Empresarial
 
Android - Conceito e Arquitetura
Android - Conceito e ArquiteturaAndroid - Conceito e Arquitetura
Android - Conceito e Arquitetura
 
Inclusao de pessoas com deficiência
Inclusao de pessoas com deficiênciaInclusao de pessoas com deficiência
Inclusao de pessoas com deficiência
 

Semelhante a Iniciativas em Big Data no VAGAS.com

Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)Jéssica Góis Scala
 
O que é Analytics?
O que é Analytics?O que é Analytics?
O que é Analytics?Bruno Michel
 
Cultura de Métricas para SEO (UaiSEO)
Cultura de Métricas para SEO (UaiSEO)Cultura de Métricas para SEO (UaiSEO)
Cultura de Métricas para SEO (UaiSEO)Leonardo Naressi
 
Banco de Dados, Integração e Qualidade de Dados
Banco de Dados, Integração e Qualidade de DadosBanco de Dados, Integração e Qualidade de Dados
Banco de Dados, Integração e Qualidade de DadosCeça Moraes
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCRenan Moreira de Oliveira
 
Projeto final v2 - Módulo Gerencial - Sistema de Recomendação
Projeto final v2 - Módulo Gerencial - Sistema de RecomendaçãoProjeto final v2 - Módulo Gerencial - Sistema de Recomendação
Projeto final v2 - Módulo Gerencial - Sistema de RecomendaçãoEdileusa Estéfani Prado
 
Desenvolvendosistemasgigantesnainternetcomarquiteturabaseada 190213231932 (1)
Desenvolvendosistemasgigantesnainternetcomarquiteturabaseada 190213231932 (1)Desenvolvendosistemasgigantesnainternetcomarquiteturabaseada 190213231932 (1)
Desenvolvendosistemasgigantesnainternetcomarquiteturabaseada 190213231932 (1)Paula Santana
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningJosias Oliveira
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftSQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftRodrigo Crespi
 
Machine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceMachine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceLuca Bastos
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Monitoracao Inteligente na Globo.com
Monitoracao Inteligente na Globo.comMonitoracao Inteligente na Globo.com
Monitoracao Inteligente na Globo.comDenis Vieira
 
P2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_tiP2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_tiCleber Oliveira
 
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...Deep Tech Brasil
 

Semelhante a Iniciativas em Big Data no VAGAS.com (20)

Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)
 
O que é Analytics?
O que é Analytics?O que é Analytics?
O que é Analytics?
 
Cultura de Métricas para SEO (UaiSEO)
Cultura de Métricas para SEO (UaiSEO)Cultura de Métricas para SEO (UaiSEO)
Cultura de Métricas para SEO (UaiSEO)
 
Webinar: Amazon Machine Learning
Webinar: Amazon Machine LearningWebinar: Amazon Machine Learning
Webinar: Amazon Machine Learning
 
Banco de Dados, Integração e Qualidade de Dados
Banco de Dados, Integração e Qualidade de DadosBanco de Dados, Integração e Qualidade de Dados
Banco de Dados, Integração e Qualidade de Dados
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDC
 
Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Projeto final v2 - Módulo Gerencial - Sistema de Recomendação
Projeto final v2 - Módulo Gerencial - Sistema de RecomendaçãoProjeto final v2 - Módulo Gerencial - Sistema de Recomendação
Projeto final v2 - Módulo Gerencial - Sistema de Recomendação
 
Desenvolvendosistemasgigantesnainternetcomarquiteturabaseada 190213231932 (1)
Desenvolvendosistemasgigantesnainternetcomarquiteturabaseada 190213231932 (1)Desenvolvendosistemasgigantesnainternetcomarquiteturabaseada 190213231932 (1)
Desenvolvendosistemasgigantesnainternetcomarquiteturabaseada 190213231932 (1)
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da MicrosoftSQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
SQL Saturday 469 Brasília - Oportunidades com a plataforma de dados da Microsoft
 
Machine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceMachine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ce
 
Data mining
Data miningData mining
Data mining
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Monitoracao Inteligente na Globo.com
Monitoracao Inteligente na Globo.comMonitoracao Inteligente na Globo.com
Monitoracao Inteligente na Globo.com
 
P2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_tiP2 gestao infraestrutura_de_ti
P2 gestao infraestrutura_de_ti
 
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
 

Mais de Fabrício Barth

Mineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataMineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataFabrício Barth
 
Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataFabrício Barth
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataFabrício Barth
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataFabrício Barth
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoFabrício Barth
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity RecognitionFabrício Barth
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando RFabrício Barth
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestFabrício Barth
 
Web Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosWeb Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosFabrício Barth
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterFabrício Barth
 
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Fabrício Barth
 
Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaFabrício Barth
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataFabrício Barth
 
Uma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataUma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataFabrício Barth
 
Uma introdução à mineração de informações
Uma introdução à mineração de informaçõesUma introdução à mineração de informações
Uma introdução à mineração de informaçõesFabrício Barth
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web MiningFabrício Barth
 
Ferramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de InformaçõesFerramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de InformaçõesFabrício Barth
 

Mais de Fabrício Barth (20)

Mineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataMineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big Data
 
Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big Data
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionado
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity Recognition
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando R
 
Web Data Mining com R
Web Data Mining com RWeb Data Mining com R
Web Data Mining com R
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random Forest
 
Web Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosWeb Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivos
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitter
 
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...
 
Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquina
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big Data
 
Uma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataUma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big Data
 
Projeto Simple Maps
Projeto Simple MapsProjeto Simple Maps
Projeto Simple Maps
 
Uma introdução à mineração de informações
Uma introdução à mineração de informaçõesUma introdução à mineração de informações
Uma introdução à mineração de informações
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web Mining
 
Ferramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de InformaçõesFerramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de Informações
 

Iniciativas em Big Data no VAGAS.com

  • 1. Iniciativas em Big Data no VAGAS.com Fabrício J. Barth Data e Depto
  • 2. Sumário • VAGAS.com • Big Data • Iniciativas de Big Data na VAGAS.com • Lições Aprendidas
  • 7. O que é Big Data? Em TI sempre tivemos cenários parecidos com este: Processo, métodos, Processo, métodos, Dados brutos Sínteses para algoritmos e ferramentas para processamento de algoritmos e ferramentas para processamento de dados dados tomadas de decisão
  • 8. O que é Big Data? Processo, métodos, Processo, métodos, algoritmos e ferramentas para processamento de algoritmos e ferramentas para processamento de dados dados Dados brutos Variedade Volume Velocidade Sínteses para tomadas de decisão
  • 9. O que é Big Data? Processo, métodos, algoritmos e ferramentas para processamento de Processo, métodos, algoritmos e ferramentas para processamento de dados dados
  • 10. O que é Big Data? Processo, métodos, Processo, métodos, algoritmos e ferramentas para processamento de algoritmos e ferramentas para processamento de dados dados Implicam em novas formas de síntese Implicam em novas formas de síntese Análises Descritivas Análises Descritivas (visualizações estáticas ou (visualizações estáticas ou interativas) interativas) Modelos Preditivos Modelos Preditivos Evolução da gestão baseada em dados Evolução da gestão baseada em dados
  • 11. Análises Descritivas Tem como objetivo sintetizar ou sumarizar informações existentes em um conjunto de dados, geralmente, apresentando algum padrão oculto. Técnicas normalmente empregadas: •Algoritmos de agrupamento (clustering). •Regras de Associação.
  • 12. Exemplo de clustering Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?
  • 13. Exemplo de clustering Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.
  • 14. Exemplo de clustering Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.
  • 15. Exemplo de clustering Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos MMooddeelalaggeemm Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos. Vamos utilizar o algoritmo k-means com o método elbow para identificar o número de clusters ideal
  • 17. Exemplo de clustering Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos MMooddeelalaggeemm AAvvaalilaiaççããoo d doo m mooddeelolo EEnnttrreeggaa Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos. Vamos utilizar o algoritmo k-means com o método elbow para identificar o número de clusters ideal Relatório Apresentação Discussão
  • 18. Processo de descoberta de conhecimento DDeefifniniçiçããoo d doo e essccooppoo Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos MMooddeelalaggeemm AAvvaalilaiaççããoo d doo m mooddeelolo EEnnttrreeggaa voltar para as outras etapas Se o modelo não está bom então podemos
  • 19. Outro exemplo de análise descritiva Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?
  • 20. Outro exemplo de análise descritiva Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados
  • 21. Outro exemplo de análise descritiva Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Cargo Salário Setor da empresa Cargo Salário Setor da empresa Cargo Salário Setor da empresa
  • 22. Outro exemplo de análise descritiva Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos
  • 23. Outro exemplo de análise descritiva Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos MMooddeelalaggeemm
  • 25. carreiras.vagas.com.br Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs? EEnnttrreeggaa c coommoo s sooftftwwaarree
  • 26. Modelos Preditivos A partir de dados históricos, criar modelos que realizam algum tipo de previsão (futuro) sobre valores: categóricos (classificação), ou; valores numéricos (regressão).
  • 27. Modelos Preditivos Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados
  • 28. Modelos Preditivos Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias? Aquisição e pré-processamento dos dados MMooddeelalaggeemm Regressão linear onde a variável dependente é a quantidade de visitas por dia e as variáveis independentes são informações como: dia da semana, se é feriado ou não, entre outras informações Aquisição e pré-processamento dos dados
  • 29. Modelos Preditivos Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias? AAvvaalliiaaççããoo ddoo mmooddeelloo
  • 30. Modelos Preditivos Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias? Sim! Aplicações: •Prever demanda de acesso ao site •Identificar anomalias •Diagnosticar falhas
  • 31. Modelos Preditivos Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?
  • 32. Modelos Preditivos Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos? Aquisição e pré-processamento dos dados Aquisição e pré-processamento dos dados Candidato Vaga Ação 1111 aaaa Candidatura 1111 bbbb Pageview 2222 aaaa Pageview 2222 cccc Pageview 2222 dddd Candidatura
  • 33. Modelos Preditivos Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos? MMooddeellaaggeemm Modelo Bayesiano (abordagem probabilística) Acurácia boa: 70%, fácil de implementar, mas não teve Acurácia boa: 70%, fácil de implementar, mas não teve um impacto muito alto no site. um impacto muito alto no site. Random Forest (classificador baseado em árvores de decisão) Acurácia excelente: 92%, mas muito difícil para colocar Acurácia excelente: 92%, mas muito difícil para colocar em ambiente de produção. em ambiente de produção. Algoritmo colaborativo baseado em grafos DDeesseemmppeennhhoo e exxcceelelennttee e e c coomm a altltoo g grraauu d dee i mimppaaccttoo n noo s sititee
  • 34. Modelos Preditivos Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos? Avaliação em ambiente de Avaliação em ambiente de produção produção Algoritmo de recomendação colaborativo “quebrou” o modelo preditivo de visitas
  • 35. Lições Aprendidas •Visualizações interativas parecem ser mais úteis que visualizações estáticos. •Todo projeto/equipe de Big Data (Data Analysis) deve estar preparado para falhar. •A dinâmica de projetos de Big Data é diferente da dinâmica de projetos de software. Projetos de Big Data estão muito mais próximos de projetos de pesquisa (científica) do que de projetos de software. •Como preparar organizações para este tipo de dinâmica?