O documento discute o uso de florestas aleatórias para prever pontuações no IMDb usando características como número de atores premiados com Oscar, total de prêmios, duração do filme, tamanho do script, ano de lançamento e número de palavrões. Experimentos usando florestas aleatórias no Scikit-learn atingiram acurácia de 0,82 para filmes dos últimos 10 anos.
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Machine learning com random forests
1. Machine Learning com Random Forests
Domingos Soares
domingos.soares@bluedigital.com.br
2. Machine Learning
É a capacidade de um algoritmo A (que resolve um problema P) de,
tornar-se melhor com a experiência.
3. Machine Learning
É o ramo da computação que estuda o desenvolvimento de
algoritmos que resolvem problemas sem instruções específicas,
baseando-se apenas em experiências passadas (inferência).
22. ➔ Quais features podemos usar?
◆ Números de atores e atrizes premiados com o Oscar em ação?
23. ➔ Quais features podemos usar?
◆ Números de atores e atrizes premiados com o Oscar em ação?
● Somatório do total de prêmios (incluindo diretor, fotografia e
etc…)?
24. ➔ Quais features podemos usar?
◆ Números de atores e atrizes premiados com o Oscar em ação?
● Somatório do total de prêmios (incluindo diretor, fotografia e
etc…)?
◆ Duração do filme?
25. ➔ Quais features podemos usar?
◆ Números de atores e atrizes premiados com o Oscar em ação?
● Somatório do total de prêmios (incluindo diretor, fotografia e
etc…)?
◆ Duração do filme?
◆ Tamanho do script?
26. ➔ Quais features podemos usar?
◆ Números de atores e atrizes premiados com o Oscar em ação?
● Somatório do total de prêmios (incluindo diretor, fotografia e
etc…)?
◆ Duração do filme?
◆ Tamanho do script?
◆ Ano de lançamento?
◆ Total de palavrões no Script? (Tarantino? Spike Lee?)
27. ➔ Experimento desenvolvido em python
➔ Random forest classifier usando Scikit-learn
➔ Instância AWS m4.2xlarge
➔ Total de árvores (estimators) entre 10 e 100
➔ Profundidade máxima das árvores: entre 3 e ilimitado
➔ Fonte dos dados:
◆ Ganhadores do oscar: Wikipedia
◆ Casting, nomes dos atores, lista de filmes e rótulo (nota): IMDb API
◆ Scripts: IMDB (site)
28. ➔ Conclusões (draft):
◆ O tamanho do script é um péssimo estimador: pouco importa
◆ O número total de premiações é um excelente estimador
◆ A duração do filme é um estimador razoável
◆ O total de palavrões é um ótimo estimador para filmes lançados após
1980. Porém, é péssimo para filmes lançados antes desta data
(testar palavrões de época?)
◆ O Ano de lançamento é um excelente estimador (provavelmente em
razão da fórmula de cálculo do IMDb)
◆ A acurácia geral do modelo decai inversamente com a data de
lançamento (também pode ser em razão da fórmula do IMDb)
29. ➔ Conclusões (draft):
◆ A acurácia para filmes lançados nos últimos 10 anos bateu 0.82
◆ Novos experimentos são necessários para definir uma acurácia
máxima com maior confiança