Projeto de Aplicação - Marcos e Bruno

622 visualizações

Publicada em

Mineração de Dados sobre base de dados de jogos do Campeonato Brasileiro de Futebol

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
622
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
6
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Projeto de Aplicação - Marcos e Bruno

  1. 1. Descoberta de conhecimento em dados de partidas de futebol Bruno Rabello Monteiro Marcos Henrique Fonseca Ribeiro <ul><ul><li>“ O Futebol é uma caixinha de surpresas.” </li></ul></ul><ul><ul><li>Dito Popular </li></ul></ul>
  2. 2. Base de Dados <ul><li>Dados dos jogos do Campeonato Brasileiro da Série A (Primeira Divisão), de 2003 a 2008 </li></ul><ul><ul><li>Extraídos do site Bola N@ Área (http://www.bolanaarea.com)‏ </li></ul></ul><ul><ul><li>Contempla um total de 2706 jogos, organizados em 5412 registros, com 21 atributos disponíveis </li></ul></ul><ul><ul><li>Foram considerados, embora não incluídos, outros 861 jogos paralelas ao Brasileirão para o cálculo de distância viajada por uma equipe e tempo decorrido entre partidas. </li></ul></ul><ul><li>Acréscimo dos dados georreferenciados das cidades dos jogos, para estimativa de distância viajada </li></ul><ul><ul><li>Extraídos do site Wikipedia (http://pt.wikipedia.org)‏ </li></ul></ul><ul><ul><li>Dedução da coordenada: estádio -> cidade -> latitude, longitude </li></ul></ul>
  3. 3. Base Dados / Pré-processamento <ul><li>Objetivo do uso da informação geográfica: </li></ul><ul><ul><li>Calcular a distância (linha reta) entre a cidade de um jogo e a cidade do jogo anterior, para aproximar a distância de viagem. </li></ul></ul><ul><li>Foram gerados também alguns atributos como: </li></ul><ul><ul><li>Intervalo de tempo entre as partidas </li></ul></ul><ul><ul><li>Atributos qualitativos: tipo de resultado (vitória mandante, vitória visitante, empate), goleada, clássico, mando de campo, região da tabela de classificação, entre outros. </li></ul></ul>
  4. 4. Objetivo / Premissas <ul><li>Encontrar padrões nos jogos levando em consideração a distância percorrida anteriormente por cada um dos times e o intervalo de dias entre as partidas, além de outros atributos refletindo circunstâncias nas quais o jogo ocorreu. </li></ul><ul><li>Tentar encontrar modelos preditivos para resultados de jogos. </li></ul>
  5. 5. Ferramentas / Algoritmos <ul><li>Ferramentas Utilizadas </li></ul><ul><ul><li>PostgreSQL </li></ul></ul><ul><ul><li>Weka </li></ul></ul><ul><ul><li>Scripts PHP para extração e cálculos de dados </li></ul></ul><ul><li>Algoritmos usados (na Weka)‏ </li></ul><ul><ul><li>Apriori, J48, J48graft, Naïve Bayes, Naïve Bayes Updateable, Regressão Logística </li></ul></ul>
  6. 6. Exemplos de Regras de Associação encontradas
  7. 7. Exemplos de Regras de Associação encontradas
  8. 8. Conclusões – Tipos de Resultados <ul><li>Tentou-se minerar padrões de sequência, investigando se sequências de circunstâncias de jogos influenciam mais nos resultados das partidas que o que foi observado até então. </li></ul><ul><li>No entanto, após executar o algoritmo GeneralizedSequentialPatterns por mais de 5 horas, o algoritmo foi abortado sem realizar nenhuma saída. </li></ul><ul><li>Em trabalhos futuros, sugere-se a utilização de outros algoritmos ou de outros frameworks sobre a modelagem desta base para tentar a extração de padrões de seqüência. </li></ul>
  9. 9. Conclusões – Tipos de Resultados <ul><li>Não é comum ocorrer goleadas quando os intervalos de tempo entre jogos são regulares (entre 4 e 7 dias)‏ </li></ul><ul><li>Os experimentos trazem indícios de que há, de fato, como a cultura popular acredita, uma relação entre o mando de campo e o resultado da partida </li></ul><ul><ul><li>Em um cálculo estatístico básico, cerca de 52% de todos os resultados são relativos a vitória do mandante, com 25% de empates. </li></ul></ul><ul><ul><li>A maior probabilidade de vitória (54%) observada nos padrões é de quando um mandante enfrenta um adversário de meio de tabela. </li></ul></ul>
  10. 10. Conclusões – Dinâmica da Competição <ul><li>Com freqüência, pequenas distâncias viajadas estão associadas a jogos em casa, o que sugere que não existem muitas oportunidades para uma equipe aproveitar uma viagem feita para um jogo em que atuou como visitante e realizar outra partida em local mais próximo. </li></ul><ul><li>Quando um time joga após um intervalo de tempo curto (1 a 3 dias), geralmente seu adversário também realizou sua última partida no mesmo intervalo curto. </li></ul>
  11. 11. Conclusões <ul><li>Com um menor grau de correlação do que os resultados citados anteriormente, observa-se que um time que viajou pouco para o local de jogo tem maior probabilidade de vencer sua partida. </li></ul><ul><li>Foi observada, com a execução de alguns experimentos, dificuldade em se encontrar um bom modelo previsor para o resultado de uma partida. Em especial, para os empates. </li></ul>
  12. 12. Conclusões <ul><ul><li>Sugere-se, para estudos futuros, uma avaliação mais metódica, científica e ampla da variação dos valores dos parâmetros dos algoritmos de classificação utilizados, bem como testar outros algoritmos. </li></ul></ul>Valores de F-measure Técnica Vitória Empate Derrota Geral J48 0.59 0.019 0.593 0.45 J48graft 0.59 0.019 0.593 0.45 Naïve Bayes 0.586 0.027 0.584 0.447 Naïve Bayes Updateable 0.586 0.027 0.584 0.447 Regressão Logística 0.592 0.015 0.589 0.448

×