Setembro 2015
Análise de Cobranças Suspeitas
de Consultas Médicas
Utilizando o Algoritmo K-means
Introdução / Contexto
Metodologia
Entendimento do Negócio
Entendimento e Preparação
dos Dados
Modelagem e Avaliação
Implem...
Aumento de custos de saúde
~10 – 20% do PIB (Brasil / EUA)
Dificuldades em avaliar dados de cobranças
3
Inconsistências, D...
Objetivo Principal
4
Detectar cobranças excessivas oriundas de prestadores de serviços
assistenciais
• Foco: Consultas méd...
Clusterização - K-Means
Agrupamento de objetos por semelhança (distância)
A
Exemplo: 3 Clusters (K = centróides)
B
C
D
E
F...
A
6
Alternativa: Método do “cotovelo” / (Soma de erros)
A
C1
C2
D
E
F
B
C
C3
D
E
F
B
C
C1
C2
“Soma” das distâncias entre o...
7
Entendimento do Negócio
Possível abuso: Serviços não prestados – “dia impossível”
Ausência de controles:
Qtde. de presta...
Conjunto de dados inicial
Variáveis iniciais
8
Entendimento e Preparação dos Dados (1 de 3)
~1 milhão de registros
~ 13.00...
9
Entendimento e Preparação dos Dados (2 de 3)
Conjunto de dados inicial
Variáveis iniciais
~1 milhão de registros
~ 13.00...
10
Entendimento e Preparação dos Dados (3 de 3)
Distribuição de “Qtde. de consultas por dia”
~99% de registros < 1% de reg...
11
Entendimento do negócio (novamente)
Consulta aos especialistas:
Quantidade máxima de consultas por dia?
~ 15 mins. por ...
Limite
Cobrança incorreta, porém justificável
12
Entendimento do negócio – Problemas!
Falsos Positivos
Falsos Negativos
13
Entendimento do negócio – Problemas!
Limite
Limite
Frequência: Qtde. de dias com atendimentos no mês
Alerta: Qtde. de visitas distintas
em um único dia
Volume:
Qtde. de paci...
15
Preparação dos dados – Novas variáveis
Variáveis iniciais
Novas variáveis
Alerta FrequênciaVolume
16
Preparação dos dados – Novas variáveis
Variáveis iniciais
17
Modelagem – Novas Variáveis
Clusterização de registros cuja variável “QTDE POR
DIA” se encontram mais distantes da médi...
18
Modelagem – Clusterização do Novo Subconjunto via K-Means (i)
19
Modelagem – Clusterização do Novo Subconjunto via K-Means (ii)
Qtde. de registros e prestadores em cada cluster
20
Evaluation – Means and S.D. for variables in each cluster
Qtde. de registros e prestadores em cada cluster
Análise: Méd...
21
Simulação: Probabilidade que registros com características do Cluster 03 (média e DP)
seriam encontrados nos Clusters 0...
22
Implantação – Resultados / Conclusões (i)
Foco: Clusters com menos registros, maior
probabilidade de cobranças abusivas...
23
Suspeitos confirmados = monitoramento / possível descredenciamento
Implantação – Resultados / Conclusões (ii)
Vantagens...
Setembro 2015
Obrigado!
Tiago Pereira Hillerman
MPCA UnB – Computação Aplicada, Universidade de Brasília
t_hillerman@yahoo...
25
26
Definindo o número de clusters
Métricas NbClust
• Índices de eficiência para cada n número de clusters
Exemplos:
Dunn’s...
27
Média, desvio padrão
Próximos SlideShares
Carregando em…5
×

Painel 01 01 - tiago hillermam - Análise de Cobranças Suspeitas de Consultas Médicas Utilizando o Algoritmo K-means

150 visualizações

Publicada em

Brasil 100% Digital - O evento teve como principal objetivo a troca de experiências relacionadas ao uso de técnicas avançadas de análise de dados como instrumento para melhoria da gestão e do controle de entidades e políticas públicas. Espera-se que os debates contribuam para que as instituições participantes possam iniciar ou intensificar a adoção de tais técnicas, de modo a obter maior eficiência e efetividade em suas atividades.

Publicada em: Tecnologia
  • Seja o primeiro a comentar

Painel 01 01 - tiago hillermam - Análise de Cobranças Suspeitas de Consultas Médicas Utilizando o Algoritmo K-means

  1. 1. Setembro 2015 Análise de Cobranças Suspeitas de Consultas Médicas Utilizando o Algoritmo K-means
  2. 2. Introdução / Contexto Metodologia Entendimento do Negócio Entendimento e Preparação dos Dados Modelagem e Avaliação Implementação Conclusões e Aplicações Futuras 2 Agenda
  3. 3. Aumento de custos de saúde ~10 – 20% do PIB (Brasil / EUA) Dificuldades em avaliar dados de cobranças 3 Inconsistências, Desperdícios e Abusos Estimativa: 10-15% das despesas, dependendo do país • Cobranças excessivas • Procedimentos / materiais / medicamentos desnecessários • Despesas com serviços não prestados • Volume de registros • Regras de negócio para cada procedimento • Ausência de análise comportamental de cobranças de prestadores Introdução CONTEXTO
  4. 4. Objetivo Principal 4 Detectar cobranças excessivas oriundas de prestadores de serviços assistenciais • Foco: Consultas médicas • Hipótese: “Dia impossível” Metodologia CRISP-DM Fonte: CHAPMAN et. al., 2000 Detecção de anomalias Clusterização K-means Abordagem não supervisionada
  5. 5. Clusterização - K-Means Agrupamento de objetos por semelhança (distância) A Exemplo: 3 Clusters (K = centróides) B C D E F 1. Centróides iniciais aleatórios C1 C2 C3 2. Vinculação de pontos mais próximos 3. Atualização de centróides 4. Nova vinculação F C1 C2 C3 A B C D E F C1 C2 C3 A C1 C2 C3 A B C D E D E F B C A B C D E F 5 Lloyd (1957), Hartigan and Wong (1975)
  6. 6. A 6 Alternativa: Método do “cotovelo” / (Soma de erros) A C1 C2 D E F B C C3 D E F B C C1 C2 “Soma” das distâncias entre os pontos e seus centróides, Considerando diferentes quantidades de clusters Menor erro = “melhor” representação K = 2 K = 3 Definindo o número de agrupamentos (clusters)
  7. 7. 7 Entendimento do Negócio Possível abuso: Serviços não prestados – “dia impossível” Ausência de controles: Qtde. de prestadores/procedimento por paciente, por dia (Ex. coparticipação) Qtde. de pacientes por prestador, por dia Comportamento de prestadores em relação aos pares Instituição avaliada Operadora de planos de saúde - Autogestão Despesas em 2014 – aprox. R$ 3 bilhões Rede de Prestadores: Pessoas Jurídicas: Hospitais, clínicas, laboratórios (maioria) Pessoas Físicas: Médicos, especialistas, terapeutas
  8. 8. Conjunto de dados inicial Variáveis iniciais 8 Entendimento e Preparação dos Dados (1 de 3) ~1 milhão de registros ~ 13.000 prestadores ~ R$ 65.000.000,00 Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo
  9. 9. 9 Entendimento e Preparação dos Dados (2 de 3) Conjunto de dados inicial Variáveis iniciais ~1 milhão de registros ~ 13.000 prestadores ~ R$ 65.000.000,00 Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo Manipulação: R Studio
  10. 10. 10 Entendimento e Preparação dos Dados (3 de 3) Distribuição de “Qtde. de consultas por dia” ~99% de registros < 1% de registros Máx. = 93 consultas por dia
  11. 11. 11 Entendimento do negócio (novamente) Consulta aos especialistas: Quantidade máxima de consultas por dia? ~ 15 mins. por consulta 08 horas por dia (x) 60mins = 480 mins. 480/15 = 32 consultas por dia 18 prestadores Valor envolvido: R$ 600.000,00
  12. 12. Limite Cobrança incorreta, porém justificável 12 Entendimento do negócio – Problemas! Falsos Positivos
  13. 13. Falsos Negativos 13 Entendimento do negócio – Problemas! Limite Limite
  14. 14. Frequência: Qtde. de dias com atendimentos no mês Alerta: Qtde. de visitas distintas em um único dia Volume: Qtde. de pacientes atendidos no mês 14 Entendimento do negócio – Novas variáveis
  15. 15. 15 Preparação dos dados – Novas variáveis Variáveis iniciais
  16. 16. Novas variáveis Alerta FrequênciaVolume 16 Preparação dos dados – Novas variáveis Variáveis iniciais
  17. 17. 17 Modelagem – Novas Variáveis Clusterização de registros cuja variável “QTDE POR DIA” se encontram mais distantes da média (Média + (6 * Desv.Padrão)) = 10.6 consultas por dia Novo subconjunto: ~2.000 registros
  18. 18. 18 Modelagem – Clusterização do Novo Subconjunto via K-Means (i)
  19. 19. 19 Modelagem – Clusterização do Novo Subconjunto via K-Means (ii) Qtde. de registros e prestadores em cada cluster
  20. 20. 20 Evaluation – Means and S.D. for variables in each cluster Qtde. de registros e prestadores em cada cluster Análise: Média e D.P. de cada variável, em cada cluster
  21. 21. 21 Simulação: Probabilidade que registros com características do Cluster 03 (média e DP) seriam encontrados nos Clusters 01, 02, 04 Evaluation – Simulated distrbution – Means and S.D. for variables in Cluster 03
  22. 22. 22 Implantação – Resultados / Conclusões (i) Foco: Clusters com menos registros, maior probabilidade de cobranças abusivas Necessário verificar novos prestadores (54)
  23. 23. 23 Suspeitos confirmados = monitoramento / possível descredenciamento Implantação – Resultados / Conclusões (ii) Vantagens / Trabalhos Futuros • Sem necessidade de estabelecer limites por procedimentos • Pode ser ajustado para diminuir incidência de falsos positivos (importante para outros tipos de procedimento) • Comportamento de “verdadeiros positivos” pode servir como padrão para investigações futuras (e para criação de controles de sistema) • Expansão para outros procedimentos e tipos de prestador Confirmação por meio de análise de guias físicias e entrevistas
  24. 24. Setembro 2015 Obrigado! Tiago Pereira Hillerman MPCA UnB – Computação Aplicada, Universidade de Brasília t_hillerman@yahoo.com.br / 61 9339 0000
  25. 25. 25
  26. 26. 26 Definindo o número de clusters Métricas NbClust • Índices de eficiência para cada n número de clusters Exemplos: Dunn’s index: “qualidade” baseada na distância entre clusters e diâmetro de cada cluster Silhouette: calcula “semelhança” (baseada em distância) de objetos em cada cluster, comparada com a semelhança nos demais clusters. É utilizada como indicador a média do conjunto de agrupamentos.
  27. 27. 27 Média, desvio padrão

×