Este documento descreve um projeto de mineração de dados sobre acidentes de trânsito registrados pela PRF em Minas Gerais. Os objetivos eram classificar os acidentes e encontrar correlações entre atributos. A análise incluiu pré-processamento, agrupamento, classificação e regras de associação, identificando três tipos de acidentes e relações entre dias da semana e número de vítimas.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Projeto Aplicacao em Mineração de Dados
1. Mineração de dados Projeto de Aplicação Rafael Vieira Carvalho Mestrando Ciência da Computação DCC - UFMG
2.
3.
4.
5.
6.
7.
8.
Notas do Editor
Olá. Sou Rafael Vieira Carvalho, mestrando em ciência da computação pelo departamento de ciência da computação da UFMG e venho apresentar meu projeto de aplicação no contexto de mineração de dados
Neste trabalho, tentaremos encontrar padrões na relação de dados de acidentes registrados pela polícia rodoviária federal em Minas gerais durante o mes de marco de 2007. A base é composta por 1287 boletins de ocorrência, cada um com 112 atributos.
Trabalharemos visando três objetivos principais: -> O primeiro visa d escobrir um modelo que consiga classificar os acidentes de forma que possamos identificar os atributos que caracterizem cada classe de acidentes. -- Uma utilização disto é a melhor análise dos acidentes pela PRF, que poderá focar nos acidentes com maior o corrência ou com maior número de fatalidades. -> o segundo visa identificar atributos mais d i scriminativos e desconsiderar atributos menos d i scriminativos -- Este resultado pode agilizar os relatórios sem perda de informação. Além disto, podemos conseguir diminuir o nível de ruído no modelo e obter resultados mais semelhantes à realidade da base. -> o terceiro e ultimo é v erificar correlação entre atributos. Tentaremos Identificar atributos que , utilizados juntos , conseguem produzir melhores resultados. --Isto pode auxiliar na importância de alguns atributos que podem não ser muito significativos individualmente, mas que, em grupo , podem ser bem discriminativos .
Como passo inicial, realizamos o pre-processamento da base. Reduzimos o seu tamanho retirando atributos que não são utilizados. Logo depois, normalizamos os dados, utilizando a soma de informações ou a informação mais relevante no lugar de vários atributos que tinham a mesma informação. Por fim, codificamos os atributos numéricos como categóricos, para que possamos utilizar métricas como o apriori.
A fim de obter as características gerais da base e identificar os atributos que podem ser mais discriminativos, antes de tentar qualquer tipo de classificação, analizemos o resultado da operação de clustering. 3 clusters foram selecionados por validação cruzada utilizando o clustering EM da biblioteca Weka No 1o – foram agrupados Acidentes considerados rotineiros (76%) -- todo dia, ilesos No 2o - Acidentes considerados de nível médio (19%) – principalmente no fds, vitimas e mortos condutores, sintomas de enbriagues No 3o - Acidentes graves (1%) -- principalmente no fds, mortos condutores passageiros e pedestres
Agora, Utilizamos regras de associação com tres objetivos: Classificação por tipo de acidente, como Colisão, atropelamento, capotamento. Classificação por gravidade, em tres classes: Sem vítimas, com vítimas, com mortos. Classificação por dia de semana e estado de embriagues dos condutoes
Utilizamos o filtro atributeSelection do weka para usarmos apenas os atributos mais interessantes. Geramos regras de associacao para as classificações propostas (tipo de acidente, gravidade, dias de semana, estado de embriagues) e os atributos que mais foram utilizados nas regras foram: Dia da semana Numero de condutores (veículos envolvidos) Com mortos (ou Com condutores mortos)
Várias formas de classificação foram apresentadas A Relação entre fatalidades, numero de envolvidos e dia da semana foi comprovada. Cada tipo de classificação obteve um conjunto diferente de atributos mais discriminativos, porém, atributos como dia da semana, fatalidades e número de envolvidos sempre estavam presentes. A Base utilizada provou conter muita informação inútil para mineração Sugere-se obter maiores informações sobre o acidente para que se possa ter melhores previsoes sobre os acidentes e sua gravidade. Todas as operações foram realizadas sobre a biblioteca do Weka.