Descoberta de conhecimento em dados de partidas de futebol Bruno Rabello Monteiro Marcos Henrique Fonseca Ribeiro “ O Futebol é uma caixinha de surpresas.” Dito Popular
Base de Dados Dados dos jogos do Campeonato Brasileiro da Série A (Primeira Divisão), de 2003 a 2008 Extraídos do site Bola N@ Área (http://www.bolanaarea.com)‏ Contempla um total de 2706 jogos, organizados em 5412 registros, com 21 atributos disponíveis Foram considerados, embora não incluídos, outros 861 jogos paralelas ao Brasileirão para o cálculo de distância viajada por uma equipe e tempo decorrido entre partidas. Acréscimo dos dados georreferenciados das cidades dos jogos, para estimativa de distância viajada Extraídos do site Wikipedia (http://pt.wikipedia.org)‏ Dedução da coordenada: estádio -> cidade -> latitude, longitude
Base Dados / Pré-processamento Objetivo do uso da informação geográfica: Calcular a distância (linha reta)  entre a cidade de um jogo e a cidade do jogo anterior, para aproximar a distância de viagem. Foram gerados também alguns atributos como: Intervalo de tempo entre as partidas Atributos qualitativos: tipo de resultado (vitória mandante, vitória visitante, empate), goleada, clássico, mando de campo, região da tabela de classificação, entre outros.
Objetivo / Premissas Encontrar padrões nos jogos levando em consideração a distância percorrida anteriormente por cada um dos times e o intervalo de dias entre as partidas, além de outros atributos refletindo circunstâncias nas quais o jogo ocorreu. Tentar encontrar modelos preditivos para resultados de jogos.
Ferramentas / Algoritmos Ferramentas Utilizadas PostgreSQL Weka Scripts PHP para extração e cálculos de dados Algoritmos usados (na Weka)‏ Apriori, J48, J48graft, Naïve Bayes, Naïve Bayes Updateable, Regressão Logística
Exemplos de Regras de Associação encontradas
Exemplos de Regras de Associação encontradas
Conclusões – Tipos de Resultados Tentou-se minerar padrões de sequência, investigando se sequências de circunstâncias de jogos influenciam mais nos resultados das partidas que o que foi observado até então. No entanto, após executar o algoritmo  GeneralizedSequentialPatterns  por mais de 5 horas, o algoritmo foi abortado sem realizar nenhuma saída. Em trabalhos futuros, sugere-se a utilização de outros algoritmos ou de outros  frameworks  sobre a modelagem desta base para tentar a extração de padrões de seqüência.
Conclusões – Tipos de Resultados Não é comum ocorrer goleadas quando os intervalos de tempo entre jogos são regulares (entre 4 e 7 dias)‏ Os experimentos trazem indícios de que há, de fato, como a cultura popular acredita, uma relação entre o mando de campo e o resultado da partida Em um cálculo estatístico básico, cerca de 52% de todos os resultados são relativos a vitória do mandante, com 25% de empates. A maior probabilidade de vitória (54%) observada nos padrões é de quando um mandante enfrenta um adversário de meio de tabela.
Conclusões – Dinâmica da Competição Com freqüência,  pequenas distâncias viajadas estão associadas a jogos em casa, o que sugere que não existem muitas oportunidades para uma equipe aproveitar uma viagem feita para um jogo em que atuou como visitante e realizar outra partida em local mais próximo. Quando um time joga após um intervalo de tempo curto (1 a 3 dias), geralmente seu adversário também realizou sua última partida no mesmo intervalo curto.
Conclusões Com um menor grau de correlação do que os resultados citados anteriormente, observa-se que um time que viajou pouco para o local de jogo tem maior probabilidade de vencer sua partida. Foi observada, com a execução de alguns experimentos, dificuldade em se encontrar um bom modelo previsor para o resultado de uma partida. Em especial, para os empates.
Conclusões Sugere-se, para estudos futuros, uma avaliação mais metódica, científica e ampla da variação dos valores dos parâmetros dos algoritmos de classificação utilizados, bem como testar outros algoritmos. Valores de  F-measure Técnica Vitória Empate Derrota Geral J48 0.59 0.019 0.593 0.45 J48graft 0.59 0.019 0.593 0.45 Naïve Bayes 0.586 0.027 0.584 0.447 Naïve Bayes Updateable 0.586 0.027 0.584 0.447 Regressão Logística 0.592 0.015 0.589 0.448

Projeto de Aplicação - Marcos e Bruno

  • 1.
    Descoberta de conhecimentoem dados de partidas de futebol Bruno Rabello Monteiro Marcos Henrique Fonseca Ribeiro “ O Futebol é uma caixinha de surpresas.” Dito Popular
  • 2.
    Base de DadosDados dos jogos do Campeonato Brasileiro da Série A (Primeira Divisão), de 2003 a 2008 Extraídos do site Bola N@ Área (http://www.bolanaarea.com)‏ Contempla um total de 2706 jogos, organizados em 5412 registros, com 21 atributos disponíveis Foram considerados, embora não incluídos, outros 861 jogos paralelas ao Brasileirão para o cálculo de distância viajada por uma equipe e tempo decorrido entre partidas. Acréscimo dos dados georreferenciados das cidades dos jogos, para estimativa de distância viajada Extraídos do site Wikipedia (http://pt.wikipedia.org)‏ Dedução da coordenada: estádio -> cidade -> latitude, longitude
  • 3.
    Base Dados /Pré-processamento Objetivo do uso da informação geográfica: Calcular a distância (linha reta) entre a cidade de um jogo e a cidade do jogo anterior, para aproximar a distância de viagem. Foram gerados também alguns atributos como: Intervalo de tempo entre as partidas Atributos qualitativos: tipo de resultado (vitória mandante, vitória visitante, empate), goleada, clássico, mando de campo, região da tabela de classificação, entre outros.
  • 4.
    Objetivo / PremissasEncontrar padrões nos jogos levando em consideração a distância percorrida anteriormente por cada um dos times e o intervalo de dias entre as partidas, além de outros atributos refletindo circunstâncias nas quais o jogo ocorreu. Tentar encontrar modelos preditivos para resultados de jogos.
  • 5.
    Ferramentas / AlgoritmosFerramentas Utilizadas PostgreSQL Weka Scripts PHP para extração e cálculos de dados Algoritmos usados (na Weka)‏ Apriori, J48, J48graft, Naïve Bayes, Naïve Bayes Updateable, Regressão Logística
  • 6.
    Exemplos de Regrasde Associação encontradas
  • 7.
    Exemplos de Regrasde Associação encontradas
  • 8.
    Conclusões – Tiposde Resultados Tentou-se minerar padrões de sequência, investigando se sequências de circunstâncias de jogos influenciam mais nos resultados das partidas que o que foi observado até então. No entanto, após executar o algoritmo GeneralizedSequentialPatterns por mais de 5 horas, o algoritmo foi abortado sem realizar nenhuma saída. Em trabalhos futuros, sugere-se a utilização de outros algoritmos ou de outros frameworks sobre a modelagem desta base para tentar a extração de padrões de seqüência.
  • 9.
    Conclusões – Tiposde Resultados Não é comum ocorrer goleadas quando os intervalos de tempo entre jogos são regulares (entre 4 e 7 dias)‏ Os experimentos trazem indícios de que há, de fato, como a cultura popular acredita, uma relação entre o mando de campo e o resultado da partida Em um cálculo estatístico básico, cerca de 52% de todos os resultados são relativos a vitória do mandante, com 25% de empates. A maior probabilidade de vitória (54%) observada nos padrões é de quando um mandante enfrenta um adversário de meio de tabela.
  • 10.
    Conclusões – Dinâmicada Competição Com freqüência, pequenas distâncias viajadas estão associadas a jogos em casa, o que sugere que não existem muitas oportunidades para uma equipe aproveitar uma viagem feita para um jogo em que atuou como visitante e realizar outra partida em local mais próximo. Quando um time joga após um intervalo de tempo curto (1 a 3 dias), geralmente seu adversário também realizou sua última partida no mesmo intervalo curto.
  • 11.
    Conclusões Com ummenor grau de correlação do que os resultados citados anteriormente, observa-se que um time que viajou pouco para o local de jogo tem maior probabilidade de vencer sua partida. Foi observada, com a execução de alguns experimentos, dificuldade em se encontrar um bom modelo previsor para o resultado de uma partida. Em especial, para os empates.
  • 12.
    Conclusões Sugere-se, paraestudos futuros, uma avaliação mais metódica, científica e ampla da variação dos valores dos parâmetros dos algoritmos de classificação utilizados, bem como testar outros algoritmos. Valores de F-measure Técnica Vitória Empate Derrota Geral J48 0.59 0.019 0.593 0.45 J48graft 0.59 0.019 0.593 0.45 Naïve Bayes 0.586 0.027 0.584 0.447 Naïve Bayes Updateable 0.586 0.027 0.584 0.447 Regressão Logística 0.592 0.015 0.589 0.448