Iniciativas em Big Data no VAGAS.com

392 visualizações

Publicada em

Esta apresentação foi realizada no Cloud Latam 2014 em São Paulo - Brasil. O objetivo desta apresentação foi descrever algumas iniciativas em Big Data no VAGAS.com

Publicada em: Internet
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
392
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
2
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Iniciativas em Big Data no VAGAS.com

  1. 1. Iniciativas em Big Data no VAGAS.com Fabrício J. Barth Data e Depto
  2. 2. Sumário • VAGAS.com • Big Data • Iniciativas de Big Data na VAGAS.com • Lições Aprendidas
  3. 3. VAGAS.com
  4. 4. VAGAS.com
  5. 5. VAGAS.com
  6. 6. VAGAS.com
  7. 7. O que é Big Data? Em TI sempre tivemos cenários parecidos com este: Processo, métodos, Processo, métodos, Dados brutos Sínteses para algoritmos e ferramentas para processamento de algoritmos e ferramentas para processamento de dados dados tomadas de decisão
  8. 8. O que é Big Data? Processo, métodos, Processo, métodos, algoritmos e ferramentas para processamento de algoritmos e ferramentas para processamento de dados dados Dados brutos Variedade Volume Velocidade Sínteses para tomadas de decisão
  9. 9. O que é Big Data? Processo, métodos, algoritmos e ferramentas para processamento de Processo, métodos, algoritmos e ferramentas para processamento de dados dados
  10. 10. O que é Big Data? Processo, métodos, Processo, métodos, algoritmos e ferramentas para processamento de algoritmos e ferramentas para processamento de dados dados Implicam em novas formas de síntese Implicam em novas formas de síntese Análises Descritivas Análises Descritivas (visualizações estáticas ou (visualizações estáticas ou interativas) interativas) Modelos Preditivos Modelos Preditivos Evolução da gestão baseada em dados Evolução da gestão baseada em dados
  11. 11. Análises Descritivas Tem como objetivo sintetizar ou sumarizar informações existentes em um conjunto de dados, geralmente, apresentando algum padrão oculto. Técnicas normalmente empregadas: •Algoritmos de agrupamento (clustering). •Regras de Associação.
  12. 12. Exemplo de clustering Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?
  13. 13. Exemplo de clustering Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.
  14. 14. Exemplo de clustering Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.
  15. 15. Exemplo de clustering Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos MMooddeelalaggeemm Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos. Vamos utilizar o algoritmo k-means com o método elbow para identificar o número de clusters ideal
  16. 16. Exemplo de clustering
  17. 17. Exemplo de clustering Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos MMooddeelalaggeemm AAvvaalilaiaççããoo d doo m mooddeelolo EEnnttrreeggaa Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos. Vamos utilizar o algoritmo k-means com o método elbow para identificar o número de clusters ideal Relatório Apresentação Discussão
  18. 18. Processo de descoberta de conhecimento DDeefifniniçiçããoo d doo e essccooppoo Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos MMooddeelalaggeemm AAvvaalilaiaççããoo d doo m mooddeelolo EEnnttrreeggaa voltar para as outras etapas Se o modelo não está bom então podemos
  19. 19. Outro exemplo de análise descritiva Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?
  20. 20. Outro exemplo de análise descritiva Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados
  21. 21. Outro exemplo de análise descritiva Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Cargo Salário Setor da empresa Cargo Salário Setor da empresa Cargo Salário Setor da empresa
  22. 22. Outro exemplo de análise descritiva Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos
  23. 23. Outro exemplo de análise descritiva Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados Análise descritiva dos Análise descritiva dos atributos atributos MMooddeelalaggeemm
  24. 24. carreiras.vagas.com.br
  25. 25. carreiras.vagas.com.br Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs? EEnnttrreeggaa c coommoo s sooftftwwaarree
  26. 26. Modelos Preditivos A partir de dados históricos, criar modelos que realizam algum tipo de previsão (futuro) sobre valores: categóricos (classificação), ou; valores numéricos (regressão).
  27. 27. Modelos Preditivos Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias? Aquisição e pré-processamento Aquisição e pré-processamento dos dados dos dados
  28. 28. Modelos Preditivos Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias? Aquisição e pré-processamento dos dados MMooddeelalaggeemm Regressão linear onde a variável dependente é a quantidade de visitas por dia e as variáveis independentes são informações como: dia da semana, se é feriado ou não, entre outras informações Aquisição e pré-processamento dos dados
  29. 29. Modelos Preditivos Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias? AAvvaalliiaaççããoo ddoo mmooddeelloo
  30. 30. Modelos Preditivos Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias? Sim! Aplicações: •Prever demanda de acesso ao site •Identificar anomalias •Diagnosticar falhas
  31. 31. Modelos Preditivos Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?
  32. 32. Modelos Preditivos Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos? Aquisição e pré-processamento dos dados Aquisição e pré-processamento dos dados Candidato Vaga Ação 1111 aaaa Candidatura 1111 bbbb Pageview 2222 aaaa Pageview 2222 cccc Pageview 2222 dddd Candidatura
  33. 33. Modelos Preditivos Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos? MMooddeellaaggeemm Modelo Bayesiano (abordagem probabilística) Acurácia boa: 70%, fácil de implementar, mas não teve Acurácia boa: 70%, fácil de implementar, mas não teve um impacto muito alto no site. um impacto muito alto no site. Random Forest (classificador baseado em árvores de decisão) Acurácia excelente: 92%, mas muito difícil para colocar Acurácia excelente: 92%, mas muito difícil para colocar em ambiente de produção. em ambiente de produção. Algoritmo colaborativo baseado em grafos DDeesseemmppeennhhoo e exxcceelelennttee e e c coomm a altltoo g grraauu d dee i mimppaaccttoo n noo s sititee
  34. 34. Modelos Preditivos Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos? Avaliação em ambiente de Avaliação em ambiente de produção produção Algoritmo de recomendação colaborativo “quebrou” o modelo preditivo de visitas
  35. 35. Lições Aprendidas •Visualizações interativas parecem ser mais úteis que visualizações estáticos. •Todo projeto/equipe de Big Data (Data Analysis) deve estar preparado para falhar. •A dinâmica de projetos de Big Data é diferente da dinâmica de projetos de software. Projetos de Big Data estão muito mais próximos de projetos de pesquisa (científica) do que de projetos de software. •Como preparar organizações para este tipo de dinâmica?
  36. 36. fabricio.barth@vagas.com.br www.VAGAS.com.br (11) 4084-1111

×