Setembro 2015
Análise de Cobranças Suspeitas
de Consultas Médicas
Utilizando o Algoritmo K-means
Introdução / Contexto
Metodologia
Entendimento do Negócio
Entendimento e Preparação
dos Dados
Modelagem e Avaliação
Implementação
Conclusões e
Aplicações
Futuras
2
Agenda
Aumento de custos de saúde
~10 – 20% do PIB (Brasil / EUA)
Dificuldades em avaliar dados de cobranças
3
Inconsistências, Desperdícios e Abusos
Estimativa: 10-15% das despesas, dependendo do país
• Cobranças excessivas
• Procedimentos / materiais / medicamentos desnecessários
• Despesas com serviços não prestados
• Volume de registros
• Regras de negócio para cada procedimento
• Ausência de análise comportamental de
cobranças de prestadores
Introdução
CONTEXTO
Objetivo Principal
4
Detectar cobranças excessivas oriundas de prestadores de serviços
assistenciais
• Foco: Consultas médicas
• Hipótese: “Dia impossível”
Metodologia
CRISP-DM
Fonte: CHAPMAN et. al., 2000
Detecção de anomalias
Clusterização K-means
Abordagem não supervisionada
Clusterização - K-Means
Agrupamento de objetos por semelhança (distância)
A
Exemplo: 3 Clusters (K = centróides)
B
C
D
E
F
1.
Centróides
iniciais
aleatórios
C1
C2
C3
2.
Vinculação de
pontos mais
próximos
3.
Atualização
de centróides
4.
Nova
vinculação
F
C1
C2
C3
A
B
C
D
E
F
C1
C2
C3
A
C1
C2
C3
A
B
C
D
E
D
E
F
B
C
A
B
C
D
E
F
5
Lloyd (1957), Hartigan and Wong (1975)
A
6
Alternativa: Método do “cotovelo” / (Soma de erros)
A
C1
C2
D
E
F
B
C
C3
D
E
F
B
C
C1
C2
“Soma” das distâncias entre os pontos e seus centróides,
Considerando diferentes quantidades de clusters
Menor erro = “melhor” representação
K = 2 K = 3
Definindo o número de agrupamentos (clusters)
7
Entendimento do Negócio
Possível abuso: Serviços não prestados – “dia impossível”
Ausência de controles:
Qtde. de prestadores/procedimento por paciente, por dia
(Ex. coparticipação)
Qtde. de pacientes por prestador, por dia
Comportamento de prestadores em relação aos pares
Instituição avaliada
Operadora de planos de saúde - Autogestão
Despesas em 2014 – aprox. R$ 3 bilhões
Rede de Prestadores:
Pessoas Jurídicas: Hospitais, clínicas, laboratórios
(maioria) Pessoas Físicas: Médicos, especialistas, terapeutas
Conjunto de dados inicial
Variáveis iniciais
8
Entendimento e Preparação dos Dados (1 de 3)
~1 milhão de registros
~ 13.000 prestadores
~ R$ 65.000.000,00
Extração Inicial
- Origem – Sistema de cobranças (Base SQL)
- Período: jan-dez 2013
- Filtros: Pessoas físicas, consultas, autorizador externo
9
Entendimento e Preparação dos Dados (2 de 3)
Conjunto de dados inicial
Variáveis iniciais
~1 milhão de registros
~ 13.000 prestadores
~ R$ 65.000.000,00
Extração Inicial
- Origem – Sistema de cobranças (Base SQL)
- Período: jan-dez 2013
- Filtros: Pessoas físicas, consultas, autorizador externo
Manipulação: R Studio
10
Entendimento e Preparação dos Dados (3 de 3)
Distribuição de “Qtde. de consultas por dia”
~99% de registros < 1% de registros
Máx. = 93
consultas
por dia
11
Entendimento do negócio (novamente)
Consulta aos especialistas:
Quantidade máxima de consultas por dia?
~ 15 mins. por consulta
08 horas por dia (x) 60mins = 480 mins.
480/15 = 32 consultas por dia
18 prestadores
Valor envolvido:
R$ 600.000,00
Limite
Cobrança incorreta, porém justificável
12
Entendimento do negócio – Problemas!
Falsos Positivos
Falsos Negativos
13
Entendimento do negócio – Problemas!
Limite
Limite
Frequência: Qtde. de dias com atendimentos no mês
Alerta: Qtde. de visitas distintas
em um único dia
Volume:
Qtde. de pacientes
atendidos no mês
14
Entendimento do negócio – Novas variáveis
15
Preparação dos dados – Novas variáveis
Variáveis iniciais
Novas variáveis
Alerta FrequênciaVolume
16
Preparação dos dados – Novas variáveis
Variáveis iniciais
17
Modelagem – Novas Variáveis
Clusterização de registros cuja variável “QTDE POR
DIA” se encontram mais distantes da média
(Média + (6 * Desv.Padrão)) = 10.6 consultas por dia
Novo subconjunto: ~2.000 registros
18
Modelagem – Clusterização do Novo Subconjunto via K-Means (i)
19
Modelagem – Clusterização do Novo Subconjunto via K-Means (ii)
Qtde. de registros e prestadores em cada cluster
20
Evaluation – Means and S.D. for variables in each cluster
Qtde. de registros e prestadores em cada cluster
Análise: Média e D.P. de cada variável, em cada cluster
21
Simulação: Probabilidade que registros com características do Cluster 03 (média e DP)
seriam encontrados nos Clusters 01, 02, 04
Evaluation – Simulated distrbution –
Means and S.D. for variables in Cluster 03
22
Implantação – Resultados / Conclusões (i)
Foco: Clusters com menos registros, maior
probabilidade de cobranças abusivas
Necessário verificar novos prestadores (54)
23
Suspeitos confirmados = monitoramento / possível descredenciamento
Implantação – Resultados / Conclusões (ii)
Vantagens / Trabalhos Futuros
• Sem necessidade de estabelecer limites por procedimentos
• Pode ser ajustado para diminuir incidência de falsos positivos
(importante para outros tipos de procedimento)
• Comportamento de “verdadeiros positivos” pode servir como padrão para
investigações futuras (e para criação de controles de sistema)
• Expansão para outros procedimentos e tipos de prestador
Confirmação por meio de análise de guias físicias e entrevistas
Setembro 2015
Obrigado!
Tiago Pereira Hillerman
MPCA UnB – Computação Aplicada, Universidade de Brasília
t_hillerman@yahoo.com.br / 61 9339 0000
25
26
Definindo o número de clusters
Métricas NbClust
• Índices de eficiência para cada n número de clusters
Exemplos:
Dunn’s index: “qualidade” baseada na distância entre clusters e
diâmetro de cada cluster
Silhouette: calcula “semelhança” (baseada em distância) de objetos
em cada cluster, comparada com a semelhança nos demais clusters.
É utilizada como indicador a média do conjunto de agrupamentos.
27
Média, desvio padrão

Painel 01 01 - tiago hillermam - Análise de Cobranças Suspeitas de Consultas Médicas Utilizando o Algoritmo K-means

  • 1.
    Setembro 2015 Análise deCobranças Suspeitas de Consultas Médicas Utilizando o Algoritmo K-means
  • 2.
    Introdução / Contexto Metodologia Entendimentodo Negócio Entendimento e Preparação dos Dados Modelagem e Avaliação Implementação Conclusões e Aplicações Futuras 2 Agenda
  • 3.
    Aumento de custosde saúde ~10 – 20% do PIB (Brasil / EUA) Dificuldades em avaliar dados de cobranças 3 Inconsistências, Desperdícios e Abusos Estimativa: 10-15% das despesas, dependendo do país • Cobranças excessivas • Procedimentos / materiais / medicamentos desnecessários • Despesas com serviços não prestados • Volume de registros • Regras de negócio para cada procedimento • Ausência de análise comportamental de cobranças de prestadores Introdução CONTEXTO
  • 4.
    Objetivo Principal 4 Detectar cobrançasexcessivas oriundas de prestadores de serviços assistenciais • Foco: Consultas médicas • Hipótese: “Dia impossível” Metodologia CRISP-DM Fonte: CHAPMAN et. al., 2000 Detecção de anomalias Clusterização K-means Abordagem não supervisionada
  • 5.
    Clusterização - K-Means Agrupamentode objetos por semelhança (distância) A Exemplo: 3 Clusters (K = centróides) B C D E F 1. Centróides iniciais aleatórios C1 C2 C3 2. Vinculação de pontos mais próximos 3. Atualização de centróides 4. Nova vinculação F C1 C2 C3 A B C D E F C1 C2 C3 A C1 C2 C3 A B C D E D E F B C A B C D E F 5 Lloyd (1957), Hartigan and Wong (1975)
  • 6.
    A 6 Alternativa: Método do“cotovelo” / (Soma de erros) A C1 C2 D E F B C C3 D E F B C C1 C2 “Soma” das distâncias entre os pontos e seus centróides, Considerando diferentes quantidades de clusters Menor erro = “melhor” representação K = 2 K = 3 Definindo o número de agrupamentos (clusters)
  • 7.
    7 Entendimento do Negócio Possívelabuso: Serviços não prestados – “dia impossível” Ausência de controles: Qtde. de prestadores/procedimento por paciente, por dia (Ex. coparticipação) Qtde. de pacientes por prestador, por dia Comportamento de prestadores em relação aos pares Instituição avaliada Operadora de planos de saúde - Autogestão Despesas em 2014 – aprox. R$ 3 bilhões Rede de Prestadores: Pessoas Jurídicas: Hospitais, clínicas, laboratórios (maioria) Pessoas Físicas: Médicos, especialistas, terapeutas
  • 8.
    Conjunto de dadosinicial Variáveis iniciais 8 Entendimento e Preparação dos Dados (1 de 3) ~1 milhão de registros ~ 13.000 prestadores ~ R$ 65.000.000,00 Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo
  • 9.
    9 Entendimento e Preparaçãodos Dados (2 de 3) Conjunto de dados inicial Variáveis iniciais ~1 milhão de registros ~ 13.000 prestadores ~ R$ 65.000.000,00 Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo Manipulação: R Studio
  • 10.
    10 Entendimento e Preparaçãodos Dados (3 de 3) Distribuição de “Qtde. de consultas por dia” ~99% de registros < 1% de registros Máx. = 93 consultas por dia
  • 11.
    11 Entendimento do negócio(novamente) Consulta aos especialistas: Quantidade máxima de consultas por dia? ~ 15 mins. por consulta 08 horas por dia (x) 60mins = 480 mins. 480/15 = 32 consultas por dia 18 prestadores Valor envolvido: R$ 600.000,00
  • 12.
    Limite Cobrança incorreta, porémjustificável 12 Entendimento do negócio – Problemas! Falsos Positivos
  • 13.
    Falsos Negativos 13 Entendimento donegócio – Problemas! Limite Limite
  • 14.
    Frequência: Qtde. dedias com atendimentos no mês Alerta: Qtde. de visitas distintas em um único dia Volume: Qtde. de pacientes atendidos no mês 14 Entendimento do negócio – Novas variáveis
  • 15.
    15 Preparação dos dados– Novas variáveis Variáveis iniciais
  • 16.
    Novas variáveis Alerta FrequênciaVolume 16 Preparaçãodos dados – Novas variáveis Variáveis iniciais
  • 17.
    17 Modelagem – NovasVariáveis Clusterização de registros cuja variável “QTDE POR DIA” se encontram mais distantes da média (Média + (6 * Desv.Padrão)) = 10.6 consultas por dia Novo subconjunto: ~2.000 registros
  • 18.
    18 Modelagem – Clusterizaçãodo Novo Subconjunto via K-Means (i)
  • 19.
    19 Modelagem – Clusterizaçãodo Novo Subconjunto via K-Means (ii) Qtde. de registros e prestadores em cada cluster
  • 20.
    20 Evaluation – Meansand S.D. for variables in each cluster Qtde. de registros e prestadores em cada cluster Análise: Média e D.P. de cada variável, em cada cluster
  • 21.
    21 Simulação: Probabilidade queregistros com características do Cluster 03 (média e DP) seriam encontrados nos Clusters 01, 02, 04 Evaluation – Simulated distrbution – Means and S.D. for variables in Cluster 03
  • 22.
    22 Implantação – Resultados/ Conclusões (i) Foco: Clusters com menos registros, maior probabilidade de cobranças abusivas Necessário verificar novos prestadores (54)
  • 23.
    23 Suspeitos confirmados =monitoramento / possível descredenciamento Implantação – Resultados / Conclusões (ii) Vantagens / Trabalhos Futuros • Sem necessidade de estabelecer limites por procedimentos • Pode ser ajustado para diminuir incidência de falsos positivos (importante para outros tipos de procedimento) • Comportamento de “verdadeiros positivos” pode servir como padrão para investigações futuras (e para criação de controles de sistema) • Expansão para outros procedimentos e tipos de prestador Confirmação por meio de análise de guias físicias e entrevistas
  • 24.
    Setembro 2015 Obrigado! Tiago PereiraHillerman MPCA UnB – Computação Aplicada, Universidade de Brasília t_hillerman@yahoo.com.br / 61 9339 0000
  • 25.
  • 26.
    26 Definindo o númerode clusters Métricas NbClust • Índices de eficiência para cada n número de clusters Exemplos: Dunn’s index: “qualidade” baseada na distância entre clusters e diâmetro de cada cluster Silhouette: calcula “semelhança” (baseada em distância) de objetos em cada cluster, comparada com a semelhança nos demais clusters. É utilizada como indicador a média do conjunto de agrupamentos.
  • 27.