SlideShare uma empresa Scribd logo
1 de 46
Baixar para ler offline
1
Recife, 11 de Maio de 2023.
DIA #4
Head of Data, Data
Scientist, IA, Governance
& Data Quality
CLOVESROCHA.DIGITAL
2
Cloves Rocha
Consultor de Dados e Sistemas Inteligentes (IA)
Graduado em Gestão da Tecnologia da
Informação (GTI) pelo Centro Universitário
Guararapes (FG).
Mestre em Ciência da Computação pela
Universidade Federal de Pernambuco - UFPE, com
foco em Projetos de Data Science, IA, Engenharia de
Software e Métodos Ágeis.
Doutorando em Ciência da Computação pela
Universidade Federal de Pernambuco - UFPE, com
foco em Observatório de Projetos de Dados, IA,
Engenharia de Software e Métodos Ágeis.
3
Possuo diversas certificações no mercado, Analista de
Processos (BPMN com Gart Capote), Gerenciamento de
Riscos de TI | NRB ISO / IEC 27005, Lifelong Learning,
Scrum Foundation.
Professional Certificate, DevOps Essentials.
Professional Certificate, Six Sigma White Belt.
Certificado na Lei Geral de Proteção de Dados - LGPD.
Habilidades Digitais para Professor e Competências
Profissionais, Emocionais e Tecnológicas para Tempos de
Mudança.
Sólida experiência em diversos projetos na indústria
naval e petroquímica. Experiência na área educacional e
serviços de Tecnologia da Informação e Comunicação
com impacto direto no PIB brasileiro. Comunicação,
Proatividade e Transparência são minhas características
marcantes.
4
5
Para onde
Vamos?
Aprendizado
disruptivo!
6
Desafio:
(PREVER)
ACIDENTES
GRAVES
Equipe:
Cloves Rocha (...@cin.ufpe.br)
… (dados privados anonimizados)
Prof. PhD Paulo Adeodato
IN 1144
Mineração de Dados
Um Estudo de Caso Real
7
8
Desafios
Quais os três principais
desafios para minerar dados?
9
Desafios
10
Desafio #1
Prontos para trabalhar em equipe?
11
Tecnologias que usamos!
Desafio #2
METODOLOGIA - NUNCA DEIXE DE APLICAR!
FASE #1
Identificação
e Seleção
FASE #2
Pré-Processamento
Bases de dados
diversas
Bases de
dado alvo
Dados
Processados
Padrões
descobertos
Conhecimento
e/ou Inteligência
FASE #3
Mineração
FASE #4
Análise dos Resultados
Coleta
de
Dados
Limpeza
e
Transformação
Análise
e
Exploração
Análise
e
Exploração
by Prof. MSc. Cloves Rocha
Criação
de
Modelos
Interpretação
dos
Resultados
Desafio #3
13
Desafios
CONTEXTO
Os acidentes de trânsito com vítimas têm um
alto custo para a sociedade.
Fatores sociais:
? Perda da qualidade de vida devido a
ferimentos ou mutilações; e
? A perda temporária ou definitiva para a
família e comunidade do indivíduo.
(Masaeid, Mashakbeh e Qudah, 1999; Bastida, Aguilar e González, 2004; Connelly e Supangan, 2006)
14
CONTEXTO
Fatores econômicos (Custos):
? Perda de produtividade devido a indisponibilidade da vítima;
? Os custos de hospitalização e tratamento médico;
? Custos de reparo dos veículos; e
? Possíveis investigações criminais.
Somados, esses custos podem chegar a mais de 1% do produto
interno bruto (PIB) de um país.
OMS estimava em 2004 perdas anuais > US$ 500 bilhões de dólares.
(Masaeid, Mashakbeh e Qudah, 1999; Bastida, Aguilar e González, 2004; Connelly e Supangan, 2006)
15
OBJETIVO
Prever acidentes graves, mobilizando recursos para áreas e eventos de
maior probabilidade.
Específicos:
? Identificar quais fatores mais influenciam na ocorrência de
acidentes graves;
? Tentar antecipar a gravidade de um acidente devido às
condições em que ocorreu.
Acidentes graves: Acidentes com vítimas fatais e/ou que envolveu
motocicletas. 16
DIAGRAMA DO FLUXO DECISÓRIO
Gestor Público:
? Realizar priorização e/ou identificação de
pontos de alocação de recurso (financeiro,
físico e/ou de qualquer outra natureza);
? Identificar os locais com maior incidência de
acidentes graves, com o objetivo de prever.
17
ENTENDIMENTO DOS DADOS
Fontes de dados:
18
ENTENDIMENTO DOS DADOS
Pré-processamento:
1. Consolidar os dados de acidentes com e sem vítimas;
2. Buscar informações da EMLURB de chamados abertos na mesma
data e local do acidente;
3. Buscar os equipamentos de monitoramento de trânsito nos locais
dos acidentes;
4. Buscar históricos de velocidade a cada 10 km/h na mesma data e
local do acidente;
5. Identificar a quantidade de semáforos nos locais dos acidentes;
6. Inserir informações sobre a data (Se é feriado e/ou próximo de
algum feriado);
7. Inserir informações sobre a média pluviométrica (APAC);
19
ENTENDIMENTO DOS DADOS
Dados do Acidente:
?Bairro (Categorical) – Feature
?DataInString (Categorical) – Feature (Data em formato
String dd/mm/aaaa)
?Turno (Categorical) – Feature
?AcidentePotencialmenteGrave (Classificado através da
informação de vítimas fatais e/ou envolvimento com
motocicletas);
20
ENTENDIMENTO DOS DADOS
Dados da EMLURB (chamados na mesma data e local):
?Arborizacao (Categorical) – Feature
?CalcadasArvores (Categorical) – Feature
?Drenagem (Categorical) – Feature
?Macrodrenagem (Categorical) – Feature
?ManutencaoUrbana (Categorical) – Feature
?Pavimentacao (Categorical) – Feature
?Poste (Categorical) – Feature
?Terraplanagem (Categorical) – Feature
?Projetos (Categorical) – Feature
Dados sobre chamados abertos
na mesma data e local do
acidente.
21
ENTENDIMENTO DOS DADOS
Dados sobre os Fotossensores:
? Fotossensor – Usado para identificar, posteriormente, as informações sobre velocidades – Não
foi considerado para análise;
? possuiFotossensor (Categorical) – Feature;
? qtd_0a10km (Categorical) – Feature;
? qtd_11a20km (Categorical) – Feature;
? qtd_21a30km (Categorical) – Feature;
? qtd_31a40km (Categorical) – Feature;
? qtd_41a50km (Categorical) – Feature;
? qtd_51a60km (Categorical) – Feature;
? qtd_61a70km (Categorical) – Feature;
? qtd_71a80km (Categorical) – Feature;
? qtd_81a90km (Categorical) – Feature;
? qtd_91a100km (Categorical) – Feature;
? qtd_acimade100km(Categorical) – Feature;
Quantidade de carros que
passaram na mesma data e
local até a hora do acidente,
agrupando de 10 em 10 km/h.
22
ENTENDIMENTO DOS DADOS
Dados sobre os Semáforos:
? Semaforo (Categorical) – Feature (Se possui semáforo ou não);
? qntdSemaforos (Categorical) – Feature (A quantidade de semáforos na rua);
Dados sobre a média pluviométrica (APAC):
? MediaPluviometrica (Categorical) – Feature (A média pluviométrica,
proveniente da APAC. Média calculada para Recife);
Dados sobre Feriados:
? EFeriado (Categorical) – Feature (Verificação se a data do acidente caiu em
algum feriado);
? ProximoAFeriado (Categorical) – Feature (Verificação se a data do acidente
está próxima a algum feriado);
23
ENTENDIMENTO DOS DADOS
DataSet Final:
? Total de 39.381 linhas;
? 9483 acidentes potencialmente graves (24%);
24
ANÁLISE
1. Correlação entre as variáveis
2. Árvore de Decisão
3. Indução de Regras
4. Regressão Logística
25
ANÁLISE
1. Correlação entre as variáveis
2. Árvore de Decisão
3. Indução de Regras
4. Regressão Logística
26
CORRELAÇÕES
ENTRE AS
VARIÁVEIS
+0.050 qtd_21a30km qtd_acimade100km
+0.049 qtd_31a40km qtd_acimade100km
+0.047 qtd_61a70km qtd_acimade100km
+0.039 qtd_51a60km qtd_acimade100km
+0.033 qtd_41a50km qtd_acimade100km
+0.031 qntdSemaforos qtd_acimade100km
+0.027 QntVeiculosAcidente qntdSemaforos
+0.026 qntdSemaforos qtd_71a80km
+0.025 qtd_11a20km qtd_acimade100km
+0.021 MediaPluviometrica qtd_71a80km
-0.019 MediaPluviometrica QntVeiculosAcidente
+0.019 QntVeiculosAcidente qtd_41a50km
+0.018 QntVeiculosAcidente qtd_31a40km
+0.016 QntVeiculosAcidente qtd_11a20km
+0.015 MediaPluviometrica qtd_0a10km
+0.015 QntVeiculosAcidente qtd_51a60km
+0.015 QntVeiculosAcidente qtd_21a30km
+0.014 qntdSemaforos qtd_81a90km
+0.014 MediaPluviometrica qtd_61a70km
+0.013 MediaPluviometrica qtd_11a20km
+0.012 QntVeiculosAcidente qtd_61a70km
+0.012 MediaPluviometrica qtd_81a90km
+0.011 QntVeiculosAcidente qtd_0a10km
+0.010 MediaPluviometrica qtd_51a60km
+0.010 MediaPluviometrica qtd_31a40km
-0.009 MediaPluviometrica qntdSemaforos
+0.008 MediaPluviometrica qtd_41a50km
+0.007 QntVeiculosAcidente qtd_71a80km
+0.006 MediaPluviometrica qtd_21a30km
-0.005 QntVeiculosAcidente qtd_acimade100km
+0.004 QntVeiculosAcidente qtd_81a90km
-0.004 MediaPluviometrica qtd_acimade100km
Nota-se que as variáveis relacionadas
com as velocidades (de 10 em 10 km/h)
aparecem na maioria das correlações.
Foi possível notar também que algumas
variáveis relacionada com a média
pluviométrica e/ou a quantidade de
veículos no acidente também aparecem
com diversas relações.
Por fim, a quantidade de semáforos
aparece, também, algumas vezes.
27
ANÁLISE
1. Correlação entre as variáveis
2. Árvore de Decisão
3. Indução de Regras
4. Regressão Logística
28
24% da base de dados possui acidentes graves (de um total de 39.381 registros).
29
ÁRVORE DE DECISÃO
Quando não há proximidade de feriado, o aumento de veículos envolvidos no acidente, e o
aumento da média pluviométrica incidem em pontos de atenção para a ocorrência de acidentes
graves. Velocidades mais altas e a quantidade de semáforos também podem ser decisivos.
30
ÁRVORE DE DECISÃO
Quanto maior o número de veículos envolvidos no acidente, maior
a chance do acidente ser grave.
31
ÁRVORE DE DECISÃO
Quando há uma menor incidência de chuva (menor média pluviométrica),
há uma chance maior de acidente potencialmente grave quando o turno
é noturno, e há também uma diferença de veículos parados e outros com
deslocamento (ainda que leve).
32
ÁRVORE DE DECISÃO
ÁRVORE DE DECISÃO
Por outro lado, quando há uma combinação de veículos lentos, outros
em velocidades superiores, pode ocorrer uma incidência maior de
acidentes graves.
Destacando que, neste caso, a quantidade de semáforos na via
influência (provavelmente em casos de vias longas, com grande
engarrafamento, e veículos mais rápidos).
33
Nos casos de uma maior incidência de chuva (média pluviométrica maior), a quantidade de
veículos envolvidos no acidente também influenciou. Neste caso, a diferença de velocidades
entre os veículos mostrou uma grande influência. Destaque para os casos em que há carros
lentos, e outros acima de 100 km/h e/ou entre 41 a 50 km/h.
34
ÁRVORE DE DECISÃO
ANÁLISE
1. Correlação entre as variáveis
2. Árvore de Decisão
3. Indução de Regras
4. Regressão Logística
35
INDUÇÃO DE REGRAS
36
ANÁLISE
1. Correlação entre as variáveis
2. Árvore de Decisão
3. Indução de Regras
4. Regressão Logística
37
REGRESSÃO
LOGÍSTICA
Method
AURO
C
CA F1 Precision Recall
LogLos
s
Neural Network 0.651 0.757 0.664 0.681 0.757 0.514
Logistic Regression 0.614 0.757 0.656 0.628 0.757 0.53
Avaliação
38
REGRESSÃO
LOGÍSTICA
Curva ROC
39
REGRESSÃO LOGÍSTICA
Variáveis mais relevantes:
40
DISCUSSÃO SOBRE OS RESULTADOS
Forte presença das variáveis (Em todas as
análises):
?Turno;
?Quantidade de veículos envolvidos;
?Presença ou ausência de fotossensores e semáforos.
Na árvore de decisão e na Indução de Regras:
?Concentrações de carros em cada faixa de velocidade nas
vias (ex.: Quantidade de carros entre 0 e 10 km/h).
41
DISCUSSÃO SOBRE OS RESULTADOS
Regressão logística:
?Presença da variável relacionada ao Chamado de
para reparo na drenagem da via (proveniente da
EMLURB);
42
AMEAÇAS À VALIDADE
?Dificuldade de disponibilidade das bases de dados,
restritas principalmente aos dados disponíveis na
base de dados abertos da prefeitura do Recife.
?As variáveis não foram as mais importantes
encontradas na revisão da literatura, mas as
disponíveis.
?... Por isso: Foram utilizadas três técnicas diferentes
para análise dos dados: árvore de decisão, indução de
regras e regressão logística.
43
CONCLUSÕES E TRABALHOS FUTUROS
? Quanto mais veículos envolvidos no acidente, maior a
influência na possibilidade do acidente ter sido grave.
? Existe a necessidade de um atendimento mais rápido por
parte de órgãos relacionados ao atendimento hospitalar,
a exemplo do SAMU (Serviço de Atendimento Médico de
Urgência)
? A quantidade de sinais e foto-sensores nas vias podem ter
influência para a diminuição da gravidade dos acidentes.
? Grande concentração de carros em uma velocidade baixa,
enquanto outros vários carros estão em velocidades
maiores aumenta a chance de acidente grave.
44
CONCLUSÕES E TRABALHOS FUTUROS
Possíveis recomendações:
i. Aumento de foto-sensores, buscando uma maior quantidade
de informações em tempo real;
ii. Instalação de painéis de alerta para alertar em trechos com
concentração de carros em diferentes faixas de velocidade
(principalmente com uma grande diferença);
iii. Estudo para a distribuição dos sinais de trânsito, ao longo
das vias da cidade e sua região metropolitana.
45
+55 81 99742 3301
linktr.ee/clovesrocha
Obrigado!
Thank you!
Perguntas?
Vamos tomar um café!
46

Mais conteúdo relacionado

Mais procurados

História e evolução da informática
História e evolução da informáticaHistória e evolução da informática
História e evolução da informática
Fabiano Santos
 
Regras do projeto final
Regras do projeto finalRegras do projeto final
Regras do projeto final
Pacc UAB
 
1ª aula introdução a informática
1ª aula introdução a informática1ª aula introdução a informática
1ª aula introdução a informática
socrahn
 
Apresentação de Introdução à Engenharia de Produção
Apresentação de Introdução à Engenharia de ProduçãoApresentação de Introdução à Engenharia de Produção
Apresentação de Introdução à Engenharia de Produção
Marcel Gois
 

Mais procurados (20)

Apostila de Excel para crianças (pequeninos)
Apostila de Excel para crianças (pequeninos)Apostila de Excel para crianças (pequeninos)
Apostila de Excel para crianças (pequeninos)
 
Princípios de Design de Interação
Princípios de Design de InteraçãoPrincípios de Design de Interação
Princípios de Design de Interação
 
Informática Básica - Aula 01 - Introdução
Informática Básica - Aula 01 - IntroduçãoInformática Básica - Aula 01 - Introdução
Informática Básica - Aula 01 - Introdução
 
Aula 1 Farmacovigilância Introdução, conceitos, dados estatísticos
Aula 1 Farmacovigilância   Introdução, conceitos, dados estatísticosAula 1 Farmacovigilância   Introdução, conceitos, dados estatísticos
Aula 1 Farmacovigilância Introdução, conceitos, dados estatísticos
 
Apostila Aplicativos informatizados
Apostila Aplicativos informatizadosApostila Aplicativos informatizados
Apostila Aplicativos informatizados
 
Aplicativos Informatizados - Profª Alessandra
Aplicativos Informatizados - Profª AlessandraAplicativos Informatizados - Profª Alessandra
Aplicativos Informatizados - Profª Alessandra
 
História e evolução da informática
História e evolução da informáticaHistória e evolução da informática
História e evolução da informática
 
Uso indiscriminado de medicamentos
Uso indiscriminado de medicamentosUso indiscriminado de medicamentos
Uso indiscriminado de medicamentos
 
Folder hipertensão 2
Folder  hipertensão 2Folder  hipertensão 2
Folder hipertensão 2
 
Aula Lógica de Programação - cap1
Aula Lógica de Programação - cap1 Aula Lógica de Programação - cap1
Aula Lógica de Programação - cap1
 
Palestra Mobilidade - Computação móvel, Dispositivos e Aplicativos 2013
Palestra Mobilidade - Computação móvel, Dispositivos e Aplicativos 2013Palestra Mobilidade - Computação móvel, Dispositivos e Aplicativos 2013
Palestra Mobilidade - Computação móvel, Dispositivos e Aplicativos 2013
 
Linguagem de programacao
Linguagem de programacaoLinguagem de programacao
Linguagem de programacao
 
Apostila excel 2016
Apostila excel 2016Apostila excel 2016
Apostila excel 2016
 
Técnicas de produção e estratégias de conteúdo digital - aula 01 - 08 e 09-07...
Técnicas de produção e estratégias de conteúdo digital - aula 01 - 08 e 09-07...Técnicas de produção e estratégias de conteúdo digital - aula 01 - 08 e 09-07...
Técnicas de produção e estratégias de conteúdo digital - aula 01 - 08 e 09-07...
 
Regras do projeto final
Regras do projeto finalRegras do projeto final
Regras do projeto final
 
ENCOAD 2017 - Preparando o Profissional do Futuro para a Indústria 4.0
ENCOAD 2017 - Preparando o Profissional do Futuro para a Indústria 4.0ENCOAD 2017 - Preparando o Profissional do Futuro para a Indústria 4.0
ENCOAD 2017 - Preparando o Profissional do Futuro para a Indústria 4.0
 
1ª aula introdução a informática
1ª aula introdução a informática1ª aula introdução a informática
1ª aula introdução a informática
 
Introducao a farmacologia
Introducao a farmacologiaIntroducao a farmacologia
Introducao a farmacologia
 
Apresentação de Introdução à Engenharia de Produção
Apresentação de Introdução à Engenharia de ProduçãoApresentação de Introdução à Engenharia de Produção
Apresentação de Introdução à Engenharia de Produção
 
Oficina de Iniciação a Informática
Oficina de Iniciação a InformáticaOficina de Iniciação a Informática
Oficina de Iniciação a Informática
 

Semelhante a Mineração de Dados Um Estudo de Caso Real.pdf

Sergio Alfredo Rosa da Silva: Ferramentas de Guerra na redução de Riscos Urbanos
Sergio Alfredo Rosa da Silva: Ferramentas de Guerra na redução de Riscos UrbanosSergio Alfredo Rosa da Silva: Ferramentas de Guerra na redução de Riscos Urbanos
Sergio Alfredo Rosa da Silva: Ferramentas de Guerra na redução de Riscos Urbanos
inovaDay .
 
Marta Alves
Marta AlvesMarta Alves
Marta Alves
DetranRS
 
Palestra I Encontro Violência e SaúDe Slide Share
Palestra I Encontro Violência e SaúDe Slide SharePalestra I Encontro Violência e SaúDe Slide Share
Palestra I Encontro Violência e SaúDe Slide Share
Paul Nobre
 
O POTENCIAL DO MERCADO DE RASTREAMENTO E GESTÃO DE FROTAS
O POTENCIAL DO MERCADO DE RASTREAMENTO E GESTÃO DE FROTASO POTENCIAL DO MERCADO DE RASTREAMENTO E GESTÃO DE FROTAS
O POTENCIAL DO MERCADO DE RASTREAMENTO E GESTÃO DE FROTAS
Avelino ROCHA Neto
 
Matosinhos Valoriza - ar
Matosinhos Valoriza - arMatosinhos Valoriza - ar
Matosinhos Valoriza - ar
Paulo Cabral
 

Semelhante a Mineração de Dados Um Estudo de Caso Real.pdf (20)

Sergio Alfredo Rosa da Silva: Ferramentas de Guerra na redução de Riscos Urbanos
Sergio Alfredo Rosa da Silva: Ferramentas de Guerra na redução de Riscos UrbanosSergio Alfredo Rosa da Silva: Ferramentas de Guerra na redução de Riscos Urbanos
Sergio Alfredo Rosa da Silva: Ferramentas de Guerra na redução de Riscos Urbanos
 
Análise Espacial dos Acidentes Rodoviários no Concelho de Rio Maior
Análise Espacial dos Acidentes Rodoviários no Concelho de Rio MaiorAnálise Espacial dos Acidentes Rodoviários no Concelho de Rio Maior
Análise Espacial dos Acidentes Rodoviários no Concelho de Rio Maior
 
Palestrante Aline Freitas - DRM/RJ
Palestrante Aline Freitas - DRM/RJPalestrante Aline Freitas - DRM/RJ
Palestrante Aline Freitas - DRM/RJ
 
Tecnologia a Serviço da Defesa civil: Monitorando Riscos e Desastres
Tecnologia a Serviço da Defesa civil: Monitorando Riscos e DesastresTecnologia a Serviço da Defesa civil: Monitorando Riscos e Desastres
Tecnologia a Serviço da Defesa civil: Monitorando Riscos e Desastres
 
2018 - Uso do software livre para geoinformação na Embrapa: Aplicações, desen...
2018 - Uso do software livre para geoinformação na Embrapa: Aplicações, desen...2018 - Uso do software livre para geoinformação na Embrapa: Aplicações, desen...
2018 - Uso do software livre para geoinformação na Embrapa: Aplicações, desen...
 
Insurance Service Meeting 2016 – Ricardo Lachac
Insurance Service Meeting 2016 – Ricardo LachacInsurance Service Meeting 2016 – Ricardo Lachac
Insurance Service Meeting 2016 – Ricardo Lachac
 
Analise Espacial de Acidentes de Transito de São Carlos - SP
Analise Espacial de Acidentes de Transito de São Carlos - SPAnalise Espacial de Acidentes de Transito de São Carlos - SP
Analise Espacial de Acidentes de Transito de São Carlos - SP
 
Marta Alves
Marta AlvesMarta Alves
Marta Alves
 
Palestra I Encontro Violência e SaúDe Slide Share
Palestra I Encontro Violência e SaúDe Slide SharePalestra I Encontro Violência e SaúDe Slide Share
Palestra I Encontro Violência e SaúDe Slide Share
 
Geotecnologias avançadas - Estudos de Caso
Geotecnologias avançadas - Estudos de CasoGeotecnologias avançadas - Estudos de Caso
Geotecnologias avançadas - Estudos de Caso
 
Aula Geoprocessamento
Aula GeoprocessamentoAula Geoprocessamento
Aula Geoprocessamento
 
S2 id curso-de-capacitacao-para-usuários-do-s2id-modulos-de-registro-e-de-rec...
S2 id curso-de-capacitacao-para-usuários-do-s2id-modulos-de-registro-e-de-rec...S2 id curso-de-capacitacao-para-usuários-do-s2id-modulos-de-registro-e-de-rec...
S2 id curso-de-capacitacao-para-usuários-do-s2id-modulos-de-registro-e-de-rec...
 
O POTENCIAL DO MERCADO DE RASTREAMENTO E GESTÃO DE FROTAS
O POTENCIAL DO MERCADO DE RASTREAMENTO E GESTÃO DE FROTASO POTENCIAL DO MERCADO DE RASTREAMENTO E GESTÃO DE FROTAS
O POTENCIAL DO MERCADO DE RASTREAMENTO E GESTÃO DE FROTAS
 
ABNT NBR ISO 39001 - Sistema de Gestão da Segurança Viária
ABNT NBR ISO 39001 - Sistema de Gestão da Segurança ViáriaABNT NBR ISO 39001 - Sistema de Gestão da Segurança Viária
ABNT NBR ISO 39001 - Sistema de Gestão da Segurança Viária
 
Revista ab2
Revista ab2Revista ab2
Revista ab2
 
Estudo e análise da dispersão de poluentes
Estudo e análise da dispersão depoluentesEstudo e análise da dispersão depoluentes
Estudo e análise da dispersão de poluentes
 
ANUÁRIO NACIONAL DE SEGURANÇA VIÁRIA
ANUÁRIO NACIONAL DE SEGURANÇA VIÁRIAANUÁRIO NACIONAL DE SEGURANÇA VIÁRIA
ANUÁRIO NACIONAL DE SEGURANÇA VIÁRIA
 
ANUÁRIO NACIONAL DE SEGURANÇA VIÁRIA
ANUÁRIO NACIONAL DE SEGURANÇA VIÁRIAANUÁRIO NACIONAL DE SEGURANÇA VIÁRIA
ANUÁRIO NACIONAL DE SEGURANÇA VIÁRIA
 
Matosinhos Valoriza - ar
Matosinhos Valoriza - arMatosinhos Valoriza - ar
Matosinhos Valoriza - ar
 
Manula dnit
Manula dnitManula dnit
Manula dnit
 

Mais de Cloves da Rocha

Introdução à Engenharia de Testes de Software
Introdução à Engenharia de Testes de SoftwareIntrodução à Engenharia de Testes de Software
Introdução à Engenharia de Testes de Software
Cloves da Rocha
 

Mais de Cloves da Rocha (20)

Live: Inteligência Artificial (IA) para pequenas e médias empresas
Live: Inteligência Artificial (IA) para pequenas e médias empresasLive: Inteligência Artificial (IA) para pequenas e médias empresas
Live: Inteligência Artificial (IA) para pequenas e médias empresas
 
Introdução a Machine Learning na Prática
Introdução a Machine Learning na PráticaIntrodução a Machine Learning na Prática
Introdução a Machine Learning na Prática
 
II JEDI 2019 - OUP e OPS
II JEDI 2019 - OUP e OPS II JEDI 2019 - OUP e OPS
II JEDI 2019 - OUP e OPS
 
Café.COM - OUP | Observatório de Projetos de Software (OPS) com ênfase em da...
Café.COM - OUP | Observatório de Projetos de Software (OPS)  com ênfase em da...Café.COM - OUP | Observatório de Projetos de Software (OPS)  com ênfase em da...
Café.COM - OUP | Observatório de Projetos de Software (OPS) com ênfase em da...
 
Introdução à Engenharia de Testes de Software
Introdução à Engenharia de Testes de SoftwareIntrodução à Engenharia de Testes de Software
Introdução à Engenharia de Testes de Software
 
Observatório de Projetos de Software com ênfase em dados abertos
Observatório de Projetos de Software com ênfase em dados abertosObservatório de Projetos de Software com ênfase em dados abertos
Observatório de Projetos de Software com ênfase em dados abertos
 
Gestão de Riscos em Processos de Negócios
Gestão de Riscos em Processos de NegóciosGestão de Riscos em Processos de Negócios
Gestão de Riscos em Processos de Negócios
 
Palestra GEOMARKETING
Palestra GEOMARKETINGPalestra GEOMARKETING
Palestra GEOMARKETING
 
Utilização de Ferramenta Para Monitoração de Desempenho Baseada em Métodos Ág...
Utilização de Ferramenta Para Monitoração de Desempenho Baseada em Métodos Ág...Utilização de Ferramenta Para Monitoração de Desempenho Baseada em Métodos Ág...
Utilização de Ferramenta Para Monitoração de Desempenho Baseada em Métodos Ág...
 
Aula 04 - Estudo de Caso Atacadão
Aula 04 - Estudo de Caso AtacadãoAula 04 - Estudo de Caso Atacadão
Aula 04 - Estudo de Caso Atacadão
 
Café com André Menelau
Café com André MenelauCafé com André Menelau
Café com André Menelau
 
Engenharia de Requisitos
Engenharia de RequisitosEngenharia de Requisitos
Engenharia de Requisitos
 
APRESENTAÇÃO DO PROFESSOR - By Prof. Cloves Rocha
APRESENTAÇÃO DO PROFESSOR - By Prof. Cloves RochaAPRESENTAÇÃO DO PROFESSOR - By Prof. Cloves Rocha
APRESENTAÇÃO DO PROFESSOR - By Prof. Cloves Rocha
 
Principais Certificações em TIC - ITIL
Principais Certificações em TIC - ITILPrincipais Certificações em TIC - ITIL
Principais Certificações em TIC - ITIL
 
Principais Certificações em TIC
Principais Certificações em TIC Principais Certificações em TIC
Principais Certificações em TIC
 
I Café ETE PORTO DIGITAL | EDUCAÇÃO PARA O SÉCULO 21
I Café ETE PORTO DIGITAL | EDUCAÇÃO PARA O SÉCULO 21I Café ETE PORTO DIGITAL | EDUCAÇÃO PARA O SÉCULO 21
I Café ETE PORTO DIGITAL | EDUCAÇÃO PARA O SÉCULO 21
 
XII Café e CODE - Provocações do Mestre
XII Café e CODE - Provocações do MestreXII Café e CODE - Provocações do Mestre
XII Café e CODE - Provocações do Mestre
 
Padrões de Projeto de Software Orientado a Objetos
Padrões de Projeto de Software Orientado a ObjetosPadrões de Projeto de Software Orientado a Objetos
Padrões de Projeto de Software Orientado a Objetos
 
XI Café e CODE - Provocações do Mestre
XI Café e CODE - Provocações do MestreXI Café e CODE - Provocações do Mestre
XI Café e CODE - Provocações do Mestre
 
Introdução à Qualidade de Software
Introdução à Qualidade de SoftwareIntrodução à Qualidade de Software
Introdução à Qualidade de Software
 

Mineração de Dados Um Estudo de Caso Real.pdf

  • 1. 1 Recife, 11 de Maio de 2023. DIA #4
  • 2. Head of Data, Data Scientist, IA, Governance & Data Quality CLOVESROCHA.DIGITAL 2
  • 3. Cloves Rocha Consultor de Dados e Sistemas Inteligentes (IA) Graduado em Gestão da Tecnologia da Informação (GTI) pelo Centro Universitário Guararapes (FG). Mestre em Ciência da Computação pela Universidade Federal de Pernambuco - UFPE, com foco em Projetos de Data Science, IA, Engenharia de Software e Métodos Ágeis. Doutorando em Ciência da Computação pela Universidade Federal de Pernambuco - UFPE, com foco em Observatório de Projetos de Dados, IA, Engenharia de Software e Métodos Ágeis. 3
  • 4. Possuo diversas certificações no mercado, Analista de Processos (BPMN com Gart Capote), Gerenciamento de Riscos de TI | NRB ISO / IEC 27005, Lifelong Learning, Scrum Foundation. Professional Certificate, DevOps Essentials. Professional Certificate, Six Sigma White Belt. Certificado na Lei Geral de Proteção de Dados - LGPD. Habilidades Digitais para Professor e Competências Profissionais, Emocionais e Tecnológicas para Tempos de Mudança. Sólida experiência em diversos projetos na indústria naval e petroquímica. Experiência na área educacional e serviços de Tecnologia da Informação e Comunicação com impacto direto no PIB brasileiro. Comunicação, Proatividade e Transparência são minhas características marcantes. 4
  • 5. 5
  • 7. Desafio: (PREVER) ACIDENTES GRAVES Equipe: Cloves Rocha (...@cin.ufpe.br) … (dados privados anonimizados) Prof. PhD Paulo Adeodato IN 1144 Mineração de Dados Um Estudo de Caso Real 7
  • 8. 8 Desafios Quais os três principais desafios para minerar dados?
  • 10. 10 Desafio #1 Prontos para trabalhar em equipe?
  • 12. METODOLOGIA - NUNCA DEIXE DE APLICAR! FASE #1 Identificação e Seleção FASE #2 Pré-Processamento Bases de dados diversas Bases de dado alvo Dados Processados Padrões descobertos Conhecimento e/ou Inteligência FASE #3 Mineração FASE #4 Análise dos Resultados Coleta de Dados Limpeza e Transformação Análise e Exploração Análise e Exploração by Prof. MSc. Cloves Rocha Criação de Modelos Interpretação dos Resultados Desafio #3
  • 14. CONTEXTO Os acidentes de trânsito com vítimas têm um alto custo para a sociedade. Fatores sociais: ? Perda da qualidade de vida devido a ferimentos ou mutilações; e ? A perda temporária ou definitiva para a família e comunidade do indivíduo. (Masaeid, Mashakbeh e Qudah, 1999; Bastida, Aguilar e González, 2004; Connelly e Supangan, 2006) 14
  • 15. CONTEXTO Fatores econômicos (Custos): ? Perda de produtividade devido a indisponibilidade da vítima; ? Os custos de hospitalização e tratamento médico; ? Custos de reparo dos veículos; e ? Possíveis investigações criminais. Somados, esses custos podem chegar a mais de 1% do produto interno bruto (PIB) de um país. OMS estimava em 2004 perdas anuais > US$ 500 bilhões de dólares. (Masaeid, Mashakbeh e Qudah, 1999; Bastida, Aguilar e González, 2004; Connelly e Supangan, 2006) 15
  • 16. OBJETIVO Prever acidentes graves, mobilizando recursos para áreas e eventos de maior probabilidade. Específicos: ? Identificar quais fatores mais influenciam na ocorrência de acidentes graves; ? Tentar antecipar a gravidade de um acidente devido às condições em que ocorreu. Acidentes graves: Acidentes com vítimas fatais e/ou que envolveu motocicletas. 16
  • 17. DIAGRAMA DO FLUXO DECISÓRIO Gestor Público: ? Realizar priorização e/ou identificação de pontos de alocação de recurso (financeiro, físico e/ou de qualquer outra natureza); ? Identificar os locais com maior incidência de acidentes graves, com o objetivo de prever. 17
  • 19. ENTENDIMENTO DOS DADOS Pré-processamento: 1. Consolidar os dados de acidentes com e sem vítimas; 2. Buscar informações da EMLURB de chamados abertos na mesma data e local do acidente; 3. Buscar os equipamentos de monitoramento de trânsito nos locais dos acidentes; 4. Buscar históricos de velocidade a cada 10 km/h na mesma data e local do acidente; 5. Identificar a quantidade de semáforos nos locais dos acidentes; 6. Inserir informações sobre a data (Se é feriado e/ou próximo de algum feriado); 7. Inserir informações sobre a média pluviométrica (APAC); 19
  • 20. ENTENDIMENTO DOS DADOS Dados do Acidente: ?Bairro (Categorical) – Feature ?DataInString (Categorical) – Feature (Data em formato String dd/mm/aaaa) ?Turno (Categorical) – Feature ?AcidentePotencialmenteGrave (Classificado através da informação de vítimas fatais e/ou envolvimento com motocicletas); 20
  • 21. ENTENDIMENTO DOS DADOS Dados da EMLURB (chamados na mesma data e local): ?Arborizacao (Categorical) – Feature ?CalcadasArvores (Categorical) – Feature ?Drenagem (Categorical) – Feature ?Macrodrenagem (Categorical) – Feature ?ManutencaoUrbana (Categorical) – Feature ?Pavimentacao (Categorical) – Feature ?Poste (Categorical) – Feature ?Terraplanagem (Categorical) – Feature ?Projetos (Categorical) – Feature Dados sobre chamados abertos na mesma data e local do acidente. 21
  • 22. ENTENDIMENTO DOS DADOS Dados sobre os Fotossensores: ? Fotossensor – Usado para identificar, posteriormente, as informações sobre velocidades – Não foi considerado para análise; ? possuiFotossensor (Categorical) – Feature; ? qtd_0a10km (Categorical) – Feature; ? qtd_11a20km (Categorical) – Feature; ? qtd_21a30km (Categorical) – Feature; ? qtd_31a40km (Categorical) – Feature; ? qtd_41a50km (Categorical) – Feature; ? qtd_51a60km (Categorical) – Feature; ? qtd_61a70km (Categorical) – Feature; ? qtd_71a80km (Categorical) – Feature; ? qtd_81a90km (Categorical) – Feature; ? qtd_91a100km (Categorical) – Feature; ? qtd_acimade100km(Categorical) – Feature; Quantidade de carros que passaram na mesma data e local até a hora do acidente, agrupando de 10 em 10 km/h. 22
  • 23. ENTENDIMENTO DOS DADOS Dados sobre os Semáforos: ? Semaforo (Categorical) – Feature (Se possui semáforo ou não); ? qntdSemaforos (Categorical) – Feature (A quantidade de semáforos na rua); Dados sobre a média pluviométrica (APAC): ? MediaPluviometrica (Categorical) – Feature (A média pluviométrica, proveniente da APAC. Média calculada para Recife); Dados sobre Feriados: ? EFeriado (Categorical) – Feature (Verificação se a data do acidente caiu em algum feriado); ? ProximoAFeriado (Categorical) – Feature (Verificação se a data do acidente está próxima a algum feriado); 23
  • 24. ENTENDIMENTO DOS DADOS DataSet Final: ? Total de 39.381 linhas; ? 9483 acidentes potencialmente graves (24%); 24
  • 25. ANÁLISE 1. Correlação entre as variáveis 2. Árvore de Decisão 3. Indução de Regras 4. Regressão Logística 25
  • 26. ANÁLISE 1. Correlação entre as variáveis 2. Árvore de Decisão 3. Indução de Regras 4. Regressão Logística 26
  • 27. CORRELAÇÕES ENTRE AS VARIÁVEIS +0.050 qtd_21a30km qtd_acimade100km +0.049 qtd_31a40km qtd_acimade100km +0.047 qtd_61a70km qtd_acimade100km +0.039 qtd_51a60km qtd_acimade100km +0.033 qtd_41a50km qtd_acimade100km +0.031 qntdSemaforos qtd_acimade100km +0.027 QntVeiculosAcidente qntdSemaforos +0.026 qntdSemaforos qtd_71a80km +0.025 qtd_11a20km qtd_acimade100km +0.021 MediaPluviometrica qtd_71a80km -0.019 MediaPluviometrica QntVeiculosAcidente +0.019 QntVeiculosAcidente qtd_41a50km +0.018 QntVeiculosAcidente qtd_31a40km +0.016 QntVeiculosAcidente qtd_11a20km +0.015 MediaPluviometrica qtd_0a10km +0.015 QntVeiculosAcidente qtd_51a60km +0.015 QntVeiculosAcidente qtd_21a30km +0.014 qntdSemaforos qtd_81a90km +0.014 MediaPluviometrica qtd_61a70km +0.013 MediaPluviometrica qtd_11a20km +0.012 QntVeiculosAcidente qtd_61a70km +0.012 MediaPluviometrica qtd_81a90km +0.011 QntVeiculosAcidente qtd_0a10km +0.010 MediaPluviometrica qtd_51a60km +0.010 MediaPluviometrica qtd_31a40km -0.009 MediaPluviometrica qntdSemaforos +0.008 MediaPluviometrica qtd_41a50km +0.007 QntVeiculosAcidente qtd_71a80km +0.006 MediaPluviometrica qtd_21a30km -0.005 QntVeiculosAcidente qtd_acimade100km +0.004 QntVeiculosAcidente qtd_81a90km -0.004 MediaPluviometrica qtd_acimade100km Nota-se que as variáveis relacionadas com as velocidades (de 10 em 10 km/h) aparecem na maioria das correlações. Foi possível notar também que algumas variáveis relacionada com a média pluviométrica e/ou a quantidade de veículos no acidente também aparecem com diversas relações. Por fim, a quantidade de semáforos aparece, também, algumas vezes. 27
  • 28. ANÁLISE 1. Correlação entre as variáveis 2. Árvore de Decisão 3. Indução de Regras 4. Regressão Logística 28
  • 29. 24% da base de dados possui acidentes graves (de um total de 39.381 registros). 29 ÁRVORE DE DECISÃO
  • 30. Quando não há proximidade de feriado, o aumento de veículos envolvidos no acidente, e o aumento da média pluviométrica incidem em pontos de atenção para a ocorrência de acidentes graves. Velocidades mais altas e a quantidade de semáforos também podem ser decisivos. 30 ÁRVORE DE DECISÃO
  • 31. Quanto maior o número de veículos envolvidos no acidente, maior a chance do acidente ser grave. 31 ÁRVORE DE DECISÃO
  • 32. Quando há uma menor incidência de chuva (menor média pluviométrica), há uma chance maior de acidente potencialmente grave quando o turno é noturno, e há também uma diferença de veículos parados e outros com deslocamento (ainda que leve). 32 ÁRVORE DE DECISÃO
  • 33. ÁRVORE DE DECISÃO Por outro lado, quando há uma combinação de veículos lentos, outros em velocidades superiores, pode ocorrer uma incidência maior de acidentes graves. Destacando que, neste caso, a quantidade de semáforos na via influência (provavelmente em casos de vias longas, com grande engarrafamento, e veículos mais rápidos). 33
  • 34. Nos casos de uma maior incidência de chuva (média pluviométrica maior), a quantidade de veículos envolvidos no acidente também influenciou. Neste caso, a diferença de velocidades entre os veículos mostrou uma grande influência. Destaque para os casos em que há carros lentos, e outros acima de 100 km/h e/ou entre 41 a 50 km/h. 34 ÁRVORE DE DECISÃO
  • 35. ANÁLISE 1. Correlação entre as variáveis 2. Árvore de Decisão 3. Indução de Regras 4. Regressão Logística 35
  • 37. ANÁLISE 1. Correlação entre as variáveis 2. Árvore de Decisão 3. Indução de Regras 4. Regressão Logística 37
  • 38. REGRESSÃO LOGÍSTICA Method AURO C CA F1 Precision Recall LogLos s Neural Network 0.651 0.757 0.664 0.681 0.757 0.514 Logistic Regression 0.614 0.757 0.656 0.628 0.757 0.53 Avaliação 38
  • 41. DISCUSSÃO SOBRE OS RESULTADOS Forte presença das variáveis (Em todas as análises): ?Turno; ?Quantidade de veículos envolvidos; ?Presença ou ausência de fotossensores e semáforos. Na árvore de decisão e na Indução de Regras: ?Concentrações de carros em cada faixa de velocidade nas vias (ex.: Quantidade de carros entre 0 e 10 km/h). 41
  • 42. DISCUSSÃO SOBRE OS RESULTADOS Regressão logística: ?Presença da variável relacionada ao Chamado de para reparo na drenagem da via (proveniente da EMLURB); 42
  • 43. AMEAÇAS À VALIDADE ?Dificuldade de disponibilidade das bases de dados, restritas principalmente aos dados disponíveis na base de dados abertos da prefeitura do Recife. ?As variáveis não foram as mais importantes encontradas na revisão da literatura, mas as disponíveis. ?... Por isso: Foram utilizadas três técnicas diferentes para análise dos dados: árvore de decisão, indução de regras e regressão logística. 43
  • 44. CONCLUSÕES E TRABALHOS FUTUROS ? Quanto mais veículos envolvidos no acidente, maior a influência na possibilidade do acidente ter sido grave. ? Existe a necessidade de um atendimento mais rápido por parte de órgãos relacionados ao atendimento hospitalar, a exemplo do SAMU (Serviço de Atendimento Médico de Urgência) ? A quantidade de sinais e foto-sensores nas vias podem ter influência para a diminuição da gravidade dos acidentes. ? Grande concentração de carros em uma velocidade baixa, enquanto outros vários carros estão em velocidades maiores aumenta a chance de acidente grave. 44
  • 45. CONCLUSÕES E TRABALHOS FUTUROS Possíveis recomendações: i. Aumento de foto-sensores, buscando uma maior quantidade de informações em tempo real; ii. Instalação de painéis de alerta para alertar em trechos com concentração de carros em diferentes faixas de velocidade (principalmente com uma grande diferença); iii. Estudo para a distribuição dos sinais de trânsito, ao longo das vias da cidade e sua região metropolitana. 45
  • 46. +55 81 99742 3301 linktr.ee/clovesrocha Obrigado! Thank you! Perguntas? Vamos tomar um café! 46