Modelação estatística para risco de crédito emanuel de jesus ramos correia ...
Livro risco de credito
1. Modelagem Estat´
ıstica
Para Risco de Cr´dito
e
Carlos Diniz
Francisco Louzada
ABE - Associa¸˜o Brasileira de Estat´
ca ıstica
20o SINAPE
Julho / 2012
2. Modelagem Estat´
ıstica
Para Risco de Cr´dito
e
Carlos Diniz
DEs–UFSCar
Francisco Louzada
ICMC–USP
Colaboradores
H´lio J. Abreu
e
Nat´lia M. Ferreira
a
Paulo H. Ferreira
Ricardo F. Rocha
Agatha S. Rodrigues
Fernanda N. Scacabarozi
Anderson L. de Sousa
20o SINAPE
Simp´sio Nacional de Probabilidade e Estat´
o ıstica
30/07 a 03/08 – 2012
Hotel Tamba´, Jo˜o Pessoa-PB
u a
3. Pref´cio
a
Historicamente, os modelos de Credit Scoring compreendem uma
das principais ferramentas de suporte a concess˜o de cr´dito. O desenvol-
` a e
vimento de tais modelos baseia-se, geralmente, na constru¸ao de um pro-
c˜
cedimento formal para descrever quais caracter´ ısticas dos clientes est˜o,a
efetivamente, relacionadas com o seu risco de cr´dito e qual a intensidade
e
e dire¸˜o desse relacionamento. A id´ia central consiste na gera¸˜o de
ca e ca
um escore ou de um grupo de escores atrav´s dos quais clientes potenci-
e
ais possam ser ordenados segundo a sua chance de inadimplˆncia. Nestee
livro apresentamos os procedimentos estat´ ısticos comumente utilizados
na modelagem de Credit Scoring.
O presente livro tem como base cinco disserta¸˜es de mestrado,
co
defendidas no Programa de P´s-gradua¸˜o em Estat´
o ca ıstica da UFSCar,
um trabalho de conclus˜o de curso do Bacharelado em Estat´
a ıstica da
UFSCar e um trabalho de Inicia¸ao Cient´
c˜ ıfica. Trata-se das disserta¸oes c˜
de Fernanda Nanci Scacabarozi, intitulada Modelagem de Eventos Raros:
Uma Compara¸ao e de Nat´lia Manduca Ferreira, intitulada Presen¸a de
c a c
Dados Missing em Modelos de Regress˜o Log´stica, as quais foram orien-
a ı
tadas pelo Prof. Carlos Diniz; as disserta¸oes de H´lio Jos´ de Abreu, in-
c˜ e e
titulada Aplica¸˜o de An´lise de Sobrevivˆncia em um Problema de Cre-
ca a e
dit Scoring e Compara¸˜o com a Regress˜o Log´stica, de Ricardo Ferreira
ca a ı
da Rocha, intitulada Combina¸˜o de Classificadores para Inferˆncia dos
ca e
Rejeitados e de Anderson Lu´ de Sousa, intitulada Redes Probabil´sticas
ıs ı
de k-Dependˆncia para Problemas de Classifica¸˜o Bin´ria, os quais fo-
e ca a
ram orientados pelo Prof. Francisco Louzada; o trabalho de conclus˜o de a
curso de Agatha Sacramento Rodrigues, intitulado Regress˜o Log´stica a ı
com Erro de Medida, orientada pelo Prof. Carlos Diniz e o trabalho de
Inicia¸ao Cient´
c˜ ıfica de Paulo Henrique Ferreira da Silva, intitulado Me-
didas do Valor Preditivo de Modelos de Classifica¸˜o Aplicados a Dados
ca
de Cr´dito, orientado pelo Prof. Francisco Louzada.
e
O livro ´ composto por 9 cap´
e ıtulos. No Cap´ ıtulo 1 apresentamos
as principais etapas de desenvolvimento de um modelo de Credit Sco-
ring. No Cap´ ıtulo 2 apresentamos a metodologia usualmente utilizada
no contexto de risco de cr´dito, ou seja, modelo de regress˜o log´
e a ıstica e
4. abordamos tamb´m regress˜o log´
e a ıstica com erro de medida. No Cap´ ıtulo
3 apresentamos os principais modelos que podem ser utilizados em si-
tua¸oes de eventos raros, tais como fraude e n˜o pagamento da primeira
c˜ a
fatura. No Cap´ ıtulo 4 apresentamos algumas das t´cnicas associadas `
e a
inferˆncia dos rejeitados. No Cap´
e ıtulo 5 apresentamos t´cnicas de com-
e
bina¸ao de modelos para dados financeiros. O Cap´
c˜ ıtulo 6 trata de an´lise
a
de dados financeiros com a presen¸a de dados missing. Modelos alterna-
c
tivos aos modelos usuais de cr´dito s˜o apresentados nos Cap´
e a ıtulos 7 a 9.
No Cap´ ıtulo 7 apresentamos a metodologia de redes probabil´ ısticas. Nos
Cap´ ıtulos 8 e 9 apresentamos a metodologia de an´lise de sobrevivˆncia
a e
e modelos de longa dura¸˜o, respectivamente.
ca
Agradecemos aos alunos do Programa de Doutorado em Estat´ ıs-
tica, DEs -UFSCar, Rubiane Maria Pires, Carolina Costa Mota Para´ e ıba
Vitor Alex Alves de Marchi, a ex-aluna do Programa de Mestrado Simone
Cristina Obage e aos colegas de Departamento Teresa Cristina Martins
Dias, M´rcio Luis Lanfredi Viola e Luis Ernesto Bueno Salasar, pela
a
leitura minuciosa e pelas valiosas cr´ ıticas e sugest˜es que contribu´
o ıram
para o enriquecimento do texto. Agradecemos tamb´m ` Associa¸˜o
e a ca
o
Brasileira de Estat´ ıstica (ABE) e a Comiss˜o Organizadora do 20 SI-
` a
NAPE pela oportunidade que nos foi proporcionada para ministrarmos
este minicurso.
S˜o Carlos, 20 de abril de 2012.
a
Carlos Diniz e Francisco Louzada
ii
5. Sum´rio
a
1 Introdu¸˜o ` Modelagem de Credit Scoring
ca a 1
1.1 Etapas de Desenvolvimento . . . . . . . . . . . . . . . . 3
1.2 Planejamento Amostral . . . . . . . . . . . . . . . . . . . 3
1.2.1 Descri¸˜o de um problema - Credit Scoring
ca . . . . 8
1.3 Determina¸˜o da Pontua¸ao de Escore . . . . . .
ca c˜ . . . . 9
1.3.1 Transforma¸˜o e sele¸˜o de vari´veis . . .
ca ca a . . . . 11
1.3.2 Regress˜o log´
a ıstica . . . . . . . . . . . . . . . . . 12
1.4 Valida¸ao e Compara¸ao dos Modelos . . . . . . .
c˜ c˜ . . . . 15
1.4.1 A estat´
ıstica de Kolmogorov-Smirnov (KS) . . . . 16
1.4.2 Curva ROC . . . . . . . . . . . . . . . . . . . . . 19
1.4.3 Capacidade de acerto dos modelos . . . . . . . . . 22
2 Regress˜o Log´
a ıstica 25
2.1 Estima¸ao dos Coeficientes . . . . . . . . . . . . .
c˜ . . . . 26
2.2 Intervalos de Confian¸a e Sele¸ao de Vari´veis . .
c c˜ a . . . . 28
2.3 Interpreta¸˜o dos Coeficientes do Modelo . . . . .
ca . . . . 30
2.4 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . .
c˜ . . . . 31
2.5 Amostras State-Dependent . . . . . . . . . . . . . . . . . 34
2.5.1 M´todo de corre¸˜o a priori . . . . . . . .
e ca . . . . 36
2.6 Estudo de Compara¸ao . . . . . . . . . . . . . . .
c˜ . . . . 37
2.6.1 Medidas de desempenho . . . . . . . . . . . . . . 37
2.6.2 Probabilidades de inadimplˆncia estimadas
e . . . . 38
2.7 Regress˜o Log´
a ıstica com Erro de Medida . . . . . . . . . 39
2.7.1 Fun¸ao de verossimilhan¸a . . . . . . . . .
c˜ c . . . . 41
2.7.2 M´todos de estima¸˜o . . . . . . . . . . .
e ca . . . . 42
2.7.3 Renda presumida . . . . . . . . . . . . . . . . . . 43
iii
9. Cap´
ıtulo 1
Introdu¸˜o ` Modelagem de
ca a
Credit Scoring
A partir de 1933, ano da publica¸ao do primeiro volume da re-
c˜
vista Econometrica, intensificou-se o desenvolvimento de m´todos es-e
tat´ısticos para, dentre outros objetivos, testar teorias econˆmicas, avaliar
o
e implementar pol´ ıticas comerciais, estimar rela¸oes econˆmicas e dar su-
c˜ o
porte ` concess˜o de cr´dito.
a a e
Os primeiros modelos de Credit Scoring foram desenvolvidos en-
tre os anos 40 e 50 e a metodologia b´sica, aplicada a esse tipo de pro-
a
blema, era orientada por m´todos de discrimina¸ao produzidos por Fisher
e c˜
(1936). Podemos dizer que foi de Durand (1941) o primeiro trabalho co-
nhecido que utilizou an´lise discriminante para um problema de cr´dito,
a e
em que as t´cnicas desenvolvidas por Fisher foram empregadas para dis-
e
criminar bons e maus empr´stimos.
e
Henry Markowitz (Markowitz, 1952) foi um dos pioneiros na
cria¸ao de um modelo estat´
c˜ ıstico para o uso financeiro, o qual foi uti-
lizado para medir o efeito da diversifica¸ao no risco total de uma carteira
c˜
de ativos.
Fischer Black e Myron Scholes (Black & Scholes, 1973) desenvol-
veram um modelo cl´ssico para a precifica¸˜o de uma op¸˜o, uma das
a ca ca
mais importantes f´rmulas usadas no mercado financeiro.
o
Diretores do Citicorp, em 1984, lan¸aram o livro Risco e Recom-
c
pensa: O Neg´cio de Cr´dito ao Consumidor, com as primeiras men¸oes
o e c˜
1
10. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
ao modelo de Credit Scoring, que ´ um tipo de modelo de escore, baseado
e
em dados cadastrais dos clientes, e ´ utilizado nas decis˜es de aceita¸˜o
e o ca
de proponentes a cr´ditos; ao modelo de Behaviour Scoring, que ´ um
e e
modelo de escore, baseado em dados transacionais, utilizado nas decis˜es o
de manuten¸ao ou renova¸ao de linhas e produtos para os j´ clientes e ao
c˜ c˜ a
modelo Collection Scoring, que ´ tamb´m um modelo de escore, baseado
e e
em dados transacionais de clientes inadimplentes, utilizado nas decis˜es o
de prioriza¸ao de estrat´gias de cobran¸as. Estes e v´rios outros mo-
c˜ e c a
delos s˜o utilizados como uma das principais ferramentas de suporte a
a `
concess˜o de cr´dito em in´meras institui¸˜es financeiras no mundo.
a e u co
Na realidade, os modelos estat´ ısticos passaram a ser um impor-
tante instrumento para ajudar os gestores de risco, gestores de fundos,
bancos de investimento, gestores de cr´ditos e gestores de cobran¸a a
e c
tomarem decis˜es corretas e, por esta raz˜o, as institui¸˜es financeiras
o a co
passaram a aprimor´-los continuamente. Em especial, a concess˜o de
a a
cr´dito ganhou for¸a na rentabilidade das empresas do setor financeiro,
e c
se tornando uma das principais fontes de receita e, por isso, rapidamente,
este setor percebeu a necessidade de se aumentar o volume de recursos
concedidos sem perder a agilidade e a qualidade dos empr´stimos, e nesse
e
ponto a contribui¸ao da modelagem estat´
c˜ ıstica foi essencial.
Diferentes tipos de modelos s˜o utilizados no problema de cr´dito,
a e
com o intuito de alcan¸ar melhorias na redu¸˜o do risco e/ou no aumento
c ca
da rentabilidade. Entre os quais, podemos citar, a regress˜o log´ a ıstica e
linear, an´lise de sobrevivˆncia, redes probabil´
a e ısticas, arvores de classi-
´
fica¸ao, algoritmos gen´ticos e redes neurais. Neste livro tratamos de
c˜ e
diferentes problemas presentes na constru¸ao de modelos de regress˜o
c˜ a
log´ ıstica para Credit Scoring e sugerimos metodologias estat´ ısticas para
resolvˆ-los. Al´m disso, apresentamos metodologias alternativas de an´lise
e e a
de sobrevivˆncia e redes probabil´
e ısticas.
O processo de desenvolvimento de um modelo de cr´dito envolve
e
v´rias etapas, entre as quais Planejamento Amostral, Determina¸˜o da
a ca
Pontua¸˜o de Escore e Valida¸˜o e Compara¸˜o de Modelos. Apresenta-
ca ca ca
mos nas pr´ximas se¸˜es discuss˜es sobre algumas destas etapas.
o co o
2
11. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
1.1 Etapas de Desenvolvimento
O desenvolvimento de um modelo de Credit Scoring consiste, de
uma forma geral, em determinar uma fun¸ao das vari´veis cadastrais
c˜ a
dos clientes que possa auxiliar na tomada de decis˜o para aprova¸˜o de
a ca
cr´dito, envolvendo cart˜es de cr´ditos, cheque especial, atribui¸ao de
e o e c˜
limite, financiamento de ve´ıculo, imobili´rio e varejo.
a
Normalmente esses modelos s˜o desenvolvidos a partir de ba-
a
ses hist´ricas de performance de cr´dito dos clientes e tamb´m de in-
o e e
forma¸oes pertinentes ao produto. O desenvolvimento de um modelo de
c˜
Credit Scoring (Sics´, 1998) compreende nas seguintes etapas:
u
i) Planejamento e defini¸oes;
c˜
ii) Identifica¸ao de vari´veis potenciais;
c˜ a
iii) Planejamento amostral;
iv) Determina¸ao do escore: aplica¸ao da metodologia estat´
c˜ c˜ ıstica;
v) Valida¸ao e verifica¸˜o de performance do modelo estat´
c˜ ca ıstico;
vi) Determina¸ao do ponto de corte ou faixas de escore;
c˜
vii) Determina¸˜o de regra de decis˜o.
ca a
As etapas iii), iv) e v), por estarem associadas a modelagem, s˜o
` a
apresentadas com mais detalhes nas pr´ximas se¸oes.
o c˜
1.2 Planejamento Amostral
Para a obten¸˜o da amostra, na constru¸˜o de um modelo de
ca ca
Credit Scoring, ´ importante que defini¸˜es como, para qual produto ou
e co
fam´ de produtos e para qual ou quais mercados o modelo ser´ desen-
ılia a
volvido, sejam levadas em considera¸ao. A base de dados utilizada para
c˜
a constru¸ao de um modelo ´ formada por clientes cujos cr´ditos foram
c˜ e e
concedidos e seus desempenhos foram observados durante um per´ ıodo de
tempo no passado. Esse passado, cujas informa¸oes s˜o retiradas, deve
c˜ a
3
12. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
ser o mais recente poss´ a fim de que n˜o se trabalhe com opera¸oes
ıvel a c˜
de cr´dito remotas que n˜o sejam representativas da realidade atual.
e a
Uma premissa fundamental na constru¸˜o de modelos de Credit
ca
Scoring, e preditivos em geral, ´ que a forma como as vari´veis cadastrais
e a
se relacionaram com o desempenho de cr´dito no passado, seja similar
e
no futuro.
Um fator importante a ser considerado na constru¸˜o do modelo ´
ca e
o horizonte de previs˜o, sendo necess´rio estabelecer um espa¸o de tempo
a a c
para a previs˜o do Credit Scoring, ou seja, o intervalo entre a solicita¸˜o
a ca
do cr´dito e a classifica¸ao como bom ou mau cliente. Esse ser´ tamb´m
e c˜ a e
o intervalo para o qual o modelo permitir´ fazer as previs˜es de quais
a o
indiv´ ıduos ser˜o mais ou menos prov´veis de se tornarem inadimplentes
a a
ou de serem menos rent´veis. A regra ´ de 12 a 18 meses, por´m na
a e e
pr´tica observamos que um intervalo de 12 meses ´ o mais utilizado.
a e
Thomas et al. (2002) tamb´m prop˜e um per´
e o ıodo de 12 meses
para modelos de Credit Scoring, sugerindo que a taxa de inadimplˆncia e
dos clientes das empresas financeiras em fun¸ao do tempo aumenta no
c˜
in´
ıcio, estabilizando somente ap´s 12 meses. Assim, qualquer horizonte
o
mais breve do que esse pode n˜o refletir de forma real o percentual de
a
maus clientes prejudicando uma poss´ associa¸ao entre as caracter´
ıvel c˜ ıs-
ticas dos indiv´ ıduos e o evento de interesse modelado, no caso, a ina-
dimplˆncia. Por outro lado, a escolha de um intervalo de tempo muito
e
longo para o horizonte de previs˜o tamb´m pode n˜o trazer benef´
a e a ıcios, fa-
zendo com que a efic´cia do modelo diminua, uma vez que, pela distˆncia
a a
temporal, os eventos se tornam pouco correlacionados com potenciais
vari´veis cadastrais, normalmente, obtidas no momento da solicita¸˜o do
a ca
cr´dito.
e
O fator tempo tem uma importˆncia fundamental na constru¸ao
a c˜
de modelos preditivos e, de forma geral, tem trˆs importantes etapas,
e
como mostra a Figura 1.1. O passado ´ composto pelas opera¸oes para
e c˜
as quais j´ foram observados os desempenhos de cr´dito durante um
a e
horizonte de previs˜o adotado. As informa¸˜es cadastrais dos clientes
a co
no momento da concess˜o do cr´dito, levantadas no passado mais dis-
a e
tante, s˜o utilizadas como vari´veis de entrada para o desenvolvimento
a a
do modelo e os dados do passado mais recente, as observa¸oes dos de-
c˜
4
13. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
sempenhos de cr´dito dos clientes, default ou n˜o default, inadimplentes
e a
ou adimplentes, s˜o utilizados para a determina¸ao da vari´vel resposta.
a c˜ a
Figura 1.1: Estrutura temporal das informa¸oes para constru¸ao de mo-
c˜ c˜
delos preditivos.
´
E importante ressaltar que as vari´veis de entrada para a cons-
a
tru¸ao do modelo sejam baseadas em informa¸oes, que necessariamente,
c˜ c˜
ocorreram antes de qualquer informa¸ao utilizada para gerar a vari´vel
c˜ a
resposta de interesse. Se dividirmos o passado em per´ ıodos de observa¸˜o
ca
e desempenho. O per´ ıodo de observa¸˜o compreende o per´
ca ıodo de tempo
no qual s˜o obtidas e observadas as informa¸˜es potencialmente relevan-
a co
tes para o evento de interesse, ou seja, o per´ ıodo em que se constr´io
e obt´m as vari´veis explanat´rias. Em um modelo de Credit Scoring
e a o
esse per´ıodo compreende na realidade um unico instante, sendo o mo-
´
mento em que um cliente busca obter um produto de cr´dito, podendo
e
ser chamado de ponto de observa¸˜o. O per´
ca ıodo de desempenho ´ o in-
e
tervalo de tempo em que ´ observado a ocorrˆncia ou n˜o do evento de
e e a
interesse. Esse per´ ıodo corresponde a um intervalo de tempo do mesmo
tamanho do horizonte de previs˜o adotado para a constru¸˜o do modelo.
a ca
O presente corresponde ao per´ ıodo de desenvolvimento do modelo em
que, normalmente, as informa¸oes referentes a esse per´
c˜ ıodo ainda n˜oa
est˜o dispon´
a ıveis, uma vez que est˜o sendo geradas pelos sistemas das
a
institui¸oes. O futuro ´ o per´
c˜ e ıodo de tempo para o qual ser˜o feitas as
a
predi¸oes, utilizando-se de informa¸˜es do presente, do passado e das
c˜ co
rela¸oes entre estas, que foram determinadas na constru¸ao do modelo.
c˜ c˜
Um alerta importante ´ que modelos preditivos, constru´
e ıdos a
5
14. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
partir de dados hist´ricos, podem se ajustar bem no passado, possuindo
o
uma boa capacidade preditiva. Por´m, o mesmo n˜o ocorre quando apli-
e a
cados a dados mais recentes. A performance desses modelos pode ser
afetada tamb´m pela raridade do evento modelado, em que existe difi-
e
culdade em encontrar indiv´ ıduos com o atributo de interesse. No con-
texto de Credit Scoring isso pode ocorrer quando a amostra ´ selecionada
e
pontualmente, em um unico mˆs, semana etc, n˜o havendo n´mero de
´ e a u
indiv´ıduos suficientes para encontrar as diferen¸as de padr˜es desejadas
c o
entre bons e maus pagadores. Dessa forma, o dimensionamento da amos-
tra ´ um fator extremamente relevante no desenvolvimento de modelos
e
de Credit Scoring.
A utiliza¸˜o de um tratamento estat´
ca ıstico formal para determinar
o tamanho da amostra seria complexa, dependendo de v´rios fatores a
como o n´mero e o tipo de vari´veis envolvidas no estudo.
u a
Dividir a amostra em duas partes, treinamento (ou desenvol-
vimento) e teste (ou valida¸ao), ´ conveniente e resulta em benef´
c˜ e ıcios
t´cnicos. Isto ´ feito para que possamos verificar o desempenho e com-
e e
parar os dispon´ ´
ıveis modelos. E interessante que a amostra seja sufici-
entemente grande de forma que permita uma poss´ divis˜o desse tipo.
ıvel a
Por´m, sempre que poss´
e ıvel, essa divis˜o jamais deve substituir a va-
a
lida¸ao de modelos em um conjunto de dados mais recente. Lewis (1994)
c˜
sugere que, em geral, amostras com tamanhos menores de 1500 clientes
bons e 1500 maus, podem inviabilizar a constru¸˜o de modelos com ca-
ca
pacidade preditiva aceit´vel para um modelo de Credit Scoring, al´m de
a e
n˜o permitir a sua divis˜o.
a a
Em grande parte das aplica¸oes de modelagem com vari´vel res-
c˜ a
posta bin´ria, um desbalanceamento significativo, muitas vezes da ordem
a
de 20 bons para 1 mau, ´ observado entre o n´mero de bons e maus paga-
e u
dores nas bases de clientes das institui¸oes. Essa situa¸ao pode prejudi-
c˜ c˜
car o desenvolvimento do modelo, uma vez que o n´mero de maus pode
u
ser muito pequeno e insuficiente para estabelecer perfis com rela¸ao as c˜ `
vari´veis explanat´rias e tamb´m para observar poss´
a o e ıveis diferen¸as em
c
rela¸ao aos bons cliente. Dessa forma, uma amostragem aleat´ria sim-
c˜ o
ples nem sempre ´ indicada para essa situa¸ao, sendo necess´ria a uti-
e c˜ a
liza¸ao de uma metodologia denominada Oversampling ou State Depen-
c˜
6
15. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
dent, que consiste em aumentar a propor¸˜o do evento raro, ou, mesmo
ca
n˜o sendo t˜o raro, da categoria que menos aparece na amostra. Esta
a a
t´cnica trabalha com diferentes propor¸oes de cada categoria, sendo co-
e c˜
nhecida tamb´m como amostra aleat´ria estratificada. Mais detalhes a
e o
respeito da t´cnica State Dependent s˜o apresentados no Cap´
e a ıtulo 2.
Berry & Linoff (2000) expressam, em um problema com a vari´vel a
resposta assumindo dois resultados poss´ ıveis, a id´ia de se ter na amos-
e
tra de desenvolvimento para a categoria mais rara ou menos frequente
entre 10% e 40% dos indiv´ ıduos. Thomas et al. (2002) sugere que as
amostras em um modelo de Credit Scoring tendem a estar em uma pro-
por¸ao de 1:1, de bons e maus clientes, ou algo em torno desse valor.
c˜
Uma situa¸ao t´
c˜ ıpica de ocorrer ´ selecionar todos os maus pagadores
e
poss´ıveis juntamente com uma amostra de mesmo tamanho de bons pa-
gadores para o desenvolvimento do modelo. Nos casos em que a vari´vel a
resposta de interesse possui distribui¸˜o dicotˆmica extremamente des-
ca o
balanceada, algo em torno de 3% ou menos de eventos, comum quando
o evento de interesse ´ fraude, existem alguns estudos que revelam que o
e
modelo de regress˜o log´
a ıstica usual subestima a probabilidade do evento
de interesse (King & Zeng, 2001). Al´m disso, os estimadores de m´xima
e a
verossimilhan¸a dos parˆmetros do modelo de regress˜o log´
c a a ıstica s˜o vi-
a
ciados nestes casos. O Cap´ ıtulo 3 apresenta uma metodologia espec´ ıfica
para situa¸ao de eventos raros.
c˜
A sazonalidade na ocorrˆncia do evento modelado ´ um outro fa-
e e
tor a ser considerado no planejamento amostral. Por exemplo, a sele¸ao c˜
da amostra envolvendo momentos espec´ ıficos no tempo em que o com-
portamento do evento ´ at´
e ıpico, pode afetar e comprometer diretamente
o desempenho do modelo. Outro aspecto n˜o menos importante ´ com
a e
rela¸ao a variabilidade da ocorrˆncia do evento, uma vez que pode estar
c˜ e
sujeito a fatores externos e n˜o-control´veis, como por exemplo a conjun-
a a
tura econˆmica, que faz com que a sele¸ao da amostra envolva cen´rios
o c˜ a
de n˜o-representatividade da mesma com rela¸˜o ao evento e assim uma
a ca
maior instabilidade do modelo.
Uma alternativa de delineamento amostral que minimiza o efeito
desses fatores descritos, que podem causar instabilidade nos modelos,
´ compor a amostra de forma que os clientes possam ser selecionados
e
7
16. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
em v´rios pontos ao longo do tempo, comumente chamado de safras de
a
clientes. Por exemplo, no contexto de Credit Scoring a escolha de 12
safras ao longo de um ano minimiza consideravelmente a instabilidade
do modelo provocada pelos fatores descritos. A Figura 1.2 mostra um
delineamento com 12 safras para um horizonte de previs˜o tamb´m de
a e
12 meses.
Figura 1.2: Delineamento amostral com horizonte de previs˜o 12 meses
a
e 12 safras de clientes.
Por fim, podemos salientar que a defini¸˜o do delineamento amos-
ca
tral est´ intimamente relacionado tamb´m com o volume de dados his-
a e
t´ricos e a estrutura de armazenamento dessas informa¸˜es encontradas
o co
nas empresas e institui¸oes financeiras, as quais podem permitir ou n˜o
c˜ a
que a modelagem do evento de interesse se aproxime mais ou menos da
realidade observada.
1.2.1 Descri¸˜o de um problema - Credit Scoring
ca
Em problemas de Credit Scoring, as informa¸˜es dispon´
co ıveis para
correlacionar com a inadimplˆncia do produto de cr´dito utilizado s˜o as
e e a
pr´prias caracter´
o ısticas dos clientes e, algumas vezes, do produto. Dessa
forma, um modelo de Credit Scoring consiste em avaliar quais fatores
est˜o associados ao risco de cr´dito dos clientes, assim como a intensidade
a e
e a dire¸ao de cada um desses fatores, gerando um escore final, os quais
c˜
8
17. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
potenciais clientes possam ser ordenados e/ou classificados, segundo uma
probabilidade de inadimplˆncia.
e
Como mencionado, uma situa¸˜o comum em problemas de Credit
ca
Scoring ´ a presen¸a do desbalanceamento entre bons e maus clientes.
e c
Considere, por exemplo, uma base constitu´ de 600 mil clientes que
ıda
adquiriram um produto de cr´dito durante 6 meses, envolvendo, assim, 6
e
safras de clientes, com 594 mil bons e 6 mil maus pagadores. A descri¸ao c˜
das vari´veis presentes no conjunto de dados ´ apresentada na Tabela
a e
1.1. Estas vari´veis representam as caracter´
a ısticas cadastrais dos clientes,
os valores referentes aos cr´ditos concedidos juntamente com um flag
e
descrevendo seus desempenhos de pagamento nos 12 meses seguintes ao
da concess˜o do cr´dito e informa¸˜o do instante da ocorrˆncia de algum
a e ca e
problema de pagamento do cr´dito. Essas informa¸˜es s˜o referentes aos
e co a
clientes para os quais j´ foram observados os desempenhos de pagamento
a
do cr´dito adquirido e servir˜o para a constru¸ao dos modelos preditivos a
e a c˜
partir das metodologias regress˜o log´
a ıstica e/ou an´lise de sobrevivˆncia.
a e
Estes modelos ser˜o aplicadas em futuros potenciais clientes, nos quais
a
ser˜o ordenados segundo uma “probabilidade” de inadimplˆncia e a partir
a e
da qual as pol´ıticas de cr´dito das institui¸oes possam ser definidas.
e c˜
Na constru¸ao dos modelos para este problema, de acordo com a
c˜
Figura 1.3, uma amostra de treinamento ´ selecionada utilizando a meto-
e
dologia de Oversampling. Isto pode ser feito considerando uma amostra
balanceada com 50% de bons clientes e 50% de maus clientes. A partir
dessa amostra buscamos atender as quantidades m´ ınimas sugeridas por
Lewis (1994) de 1.500 indiv´ ıduos para cada uma das categorias.
1.3 Determina¸˜o da Pontua¸˜o de Escore
ca ca
Uma vez determinado o planejamento amostral e obtidas as in-
forma¸oes necess´rias para o desenvolvimento do modelo, o pr´ximo
c˜ a o
passo ´ estabelecer qual t´cnica estat´
e e ıstica ou matem´tica ser´ utilizada
a a
para a determina¸ao dos escores. Por´m, antes disso, alguns tratamentos
c˜ e
explorat´rios devem sempre ser realizados para que uma maior familia-
o
9
18. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
Tabela 1.1: Vari´veis dispon´
a ıveis no banco de dados.
Vari´veis
a Descri¸ao
c˜
ESTCIVIL Estado civil: solteiro / casado/ divorciado / vi´vo
u
TP CLIENTE Tipo de cliente
SEXO Sexo do cliente: Masc./ Fem.
SIT RESID Residˆncia: pr´pria / alugada
e o
P CARTAO Possui Cart˜o? (Sim / N˜o)
a a
IDADE Idade do cliente (em anos)
TEMPORES Tempo de residˆncia (em anos)
e
TPEMPREG Tempo de empregol (em meses)
TEL COMERC Declarou telefone comercial?
OP CORRESP Correspondˆncia: Residencial / Comercial
e
COMP RENDA Uso da renda: < 10% / 10%-20% / > 20%;
LIM CRED Valor do Cr´dito Concedido
e
CEP COM CEP Comercial (2 posi¸˜es)
co
CEP RES CEP Residencial (2 posi¸˜es)
co
G PROF Grupo de profiss˜o a
REGIAO Regi˜o do Cliente
a
STATUS Flag: Bom ou Mau
TEMPO Tempo at´ observar o evento inadimplˆncia
e e
riza¸ao com os dados possa ser obtida. Isto permite uma melhor defini¸˜o
c˜ ca
da t´cnica que ser´ utilizada e, consequentemente, um aprimoramento do
e a
desenvolvimento do modelo. Essa an´lise inicial tem alguns objetivos,
a
dentre os quais, destacam-se:
• identifica¸˜o de eventuais inconsistˆncias e presen¸a de outliers;
ca e c
• compara¸ao dos comportamentos das covari´veis, no caso de um
c˜ a
Credit Scoring, entre a amostra de bons e maus pagadores, iden-
tificando, assim, potenciais vari´veis correlacionadas com o evento
a
modelado;
• defini¸ao de poss´
c˜ ıveis transforma¸˜es de vari´veis e a cria¸˜o de
co a ca
novas a serem utilizadas nos modelos.
10
19. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
Figura 1.3: Amostra de Desenvolvimento Balanceada - 50% - bons x
50% maus.
1.3.1 Transforma¸˜o e sele¸˜o de vari´veis
ca ca a
Uma pr´tica muito comum, quando se desenvolve modelos de
a
Credit Scoring, ´ tratar as vari´veis como categ´ricas, independente da
e a o
natureza cont´ınua ou discreta, buscando, sempre que poss´ ıvel, a simpli-
cidade na interpreta¸ao dos resultados obtidos. Thomas et al. (2002)
c˜
sugere que essa categoriza¸ao ou reagrupamento deve ser feito tanto
c˜
para vari´veis originalmente cont´
a ınuas como para as categ´ricas. Para as
o
vari´veis de origem categ´rica, a id´ia ´ que se construa categorias com
a o e e
n´meros suficientes de indiv´
u ıduos para que se fa¸a uma an´lise robusta,
c a
principalmente, quando o n´mero de categorias ´ originalmente elevado
u e
e, em algumas, a frequˆncia ´ bastante pequena. As vari´veis cont´
e e a ınuas,
uma vez transformadas em categorias, ganham com rela¸˜o a interpreta-
ca
bilidade dos parˆmetros. Gruenstein (1998) e Thomas et al. (2002) rela-
a
tam que esse tipo de transforma¸ao nas vari´veis cont´
c˜ a ınuas pode trazer
ganhos tamb´m no poder preditivo do modelo, principalmente quando a
e
covari´vel em quest˜o se relaciona de forma n˜o-linear com o evento de
a a a
interesse, como por exemplo, no caso de um Credit Scoring.
Uma forma bastante utilizada para a transforma¸˜o de vari´veis
ca a
cont´ınuas em categ´ricas, ou a recategoriza¸˜o de uma vari´vel discreta,
o ca a
11
20. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
´ atrav´s da t´cnica CHAID (Chi-Squared Automatic Interaction Detec-
e e e
tor), a qual divide a amostra em grupos menores, a partir da associa¸ao de c˜
uma ou mais covari´veis com a vari´vel resposta. A cria¸ao de categorias
a a c˜
para as covari´veis de natureza cont´
a ınua ou o reagrupamento das discre-
tas ´ baseada no teste de associa¸ao Qui-Quadrado, buscando a melhor
e c˜
categoriza¸ao da amostra com rela¸˜o a cada uma dessas covari´veis ou
c˜ ca a
conjunto delas. Estas “novas” covari´veis podem, ent˜o, ser utilizadas na
a a
constru¸ao dos modelos, sendo ou n˜o selecionadas, por algum m´todo de
c˜ a e
sele¸ao de vari´veis, para compor o modelo final. Um m´todo de sele¸˜o
c˜ a e ca
de vari´veis muitas vezes utilizado ´ o stepwise. Este m´todo permite
a e e
determinar um conjunto de vari´veis estatisticamente significantes para
a
a ocorrˆncia de problemas de cr´dito dos clientes, atrav´s de entradas
e e e
e sa´ıdas das vari´veis potenciais utilizando o teste da raz˜o de veros-
a a
similhan¸a. Os n´
c ıveis de significˆncia de entrada e sa´ das vari´veis
a ıda a
utilizados pelo m´todo stepwise podem ser valores inferiores a 5%, a fim
e
de que a entrada e a permanˆncia de vari´veis “sem efeito pr´tico” sejam
e a a
minimizadas. Outro aspecto a ser considerado na sele¸ao de vari´veis,
c˜ a
al´m do crit´rio estat´
e e ıstico, ´ que a experiˆncia de especialistas da area
e e ´
de cr´dito juntamente com o bom senso na interpreta¸ao dos parˆmetros
e c˜ a
sejam, sempre que poss´ ıvel, utilizados.
Na constru¸ao de um modelo de Credit Scoring ´ fundamental
c˜ e
que este seja simples com rela¸ao ` clareza de sua interpreta¸˜o e que
c˜ a ca
ainda mantenha um bom ajuste. Esse fato pode ser um ponto chave
para que ocorra um melhor entendimento, n˜o apenas da area de desen-
a ´
volvimento dos modelos como tamb´m das demais ´reas das empresas,
e a
resultando, assim, no sucesso da utiliza¸˜o dessa ferramenta.
ca
1.3.2 Regress˜o log´
a ıstica
Um modelo de regress˜o log´
a ıstica, com vari´vel resposta, Y , di-
a
cotˆmica, pode ser utilizado para descrever a rela¸ao entre a ocorrˆncia
o c˜ e
ou n˜o de um evento de interesse e um conjunto de covari´veis. No
a a
contexto de Credit Scoring, o vetor de observa¸oes do cliente envolve
c˜
seu desempenho credit´ durante um determinado per´
ıcio ıodo de tempo,
normalmente de 12 meses, um conjunto de caracter´ ısticas observadas no
12
21. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
momento da solicita¸ao do cr´dito e, as vezes, informa¸oes ` respeito do
c˜ e ` c˜ a
pr´prio produto de cr´dito a ser utilizado, como por exemplo, n´mero de
o e u
parcelas, finalidade, valor do cr´dito entre outros.
e
Aplicando a metodologia apresentada na amostra de treinamento
e adotando um horizonte de previs˜o de 12 meses, considere como vari´vel
a a
resposta a ocorrˆncia de falta de pagamento, maus clientes, y = 1, den-
e
tro desse per´ıodo, n˜o importando o momento exato da ocorrˆncia da
a e
inadimplˆncia. Para um cliente que apresentou algum problema de pa-
e
gamento do cr´dito no in´ desses 12 meses de desempenho, digamos
e ıcio
o
no 3 mˆs, e um outro para o qual foi observado no final desse per´
e ıodo,
o o
no 10 ou 12 , por exemplo, ambos s˜o considerados da mesma forma
a
como maus pagadores, n˜o importando o tempo decorrido para o acon-
a
tecimento do evento. Por outro lado, os clientes para os quais n˜o foi a
observada a inadimplˆncia, durante os 12 meses do per´
e ıodo de desempe-
nho do cr´dito, s˜o considerados como bons pagadores para a constru¸ao
e a c˜
o
do modelo, mesmo aqueles que no 13 mˆs vierem a apresentar a falta de
e
pagamento.
´
E importante ressaltar que adotamos neste livro como evento de
interesse o cliente ser mau pagador. O mercado financeiro, geralmente,
trata como evento de interesse o cliente ser bom pagador.
O modelo ajustado, a partir da amostra de treinamento, utili-
zando a regress˜o log´
a ıstica, fornece escores tal que, quanto maior o valor
obtido para os clientes, pior o desempenho de cr´dito esperado para eles,
e
uma vez que o mau pagador foi considerado como o evento de interesse.
Como mencionado, ´ comum no mercado definir como evento de interesse
e
o bom pagador, de forma que, quanto maior o escore, melhor ´ o cliente.
e
O modelo de regress˜o log´
a ıstica ´ determinado pela rela¸ao
e c˜
pi
log = β0 + β1 x1 + . . . + βp xp ,
1 − pi
em que pi denota a probabilidade de um cliente com o perfil definido
pelas p covariadas, x1 , x2 , . . . , xp , ser um mau pagador. Estas covari´veis
a
s˜o obtidas atrav´s de transforma¸oes, como descritas na se¸ao ante-
a e c˜ c˜
rior, sendo portanto consideradas e tratadas como dummies. Os valores
utilizados como escores finais dos clientes s˜o obtidos, geralmente, mul-
a
13
22. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
tiplicando por 1.000 os valores estimados das probabilidades de sucesso,
pi .
ˆ
O modelo final obtido atrav´s da regress˜o log´
e a ıstica para a amos-
tra balanceada encontra-se na Tabela 1.2. No Cap´ ıtulo 2 apresentamos
uma nova an´lise de dados em que o modelo de regress˜o log´
a a ıstica usual,
sem considerar amostras balanceadas, ´ comparado ao modelo de re-
e
gress˜o log´
a ıstica com sele¸˜o de amostras state-dependent.
ca
Tabela 1.2 - Regress˜o log´
a ıstica - amostra de treinamento.
O odds ratio, no contexto de Credit Scoring, ´ uma m´trica que
e e
representa o qu˜o mais prov´vel ´ de se observar a inadimplˆncia, para
a a e e
um indiv´ıduo em uma categoria espec´ ıfica da covari´vel em rela¸˜o a
a ca
categoria de referˆncia, analisando os resultados do modelo obtido para
e
a amostra de treinamento, podemos observar:
- P CARTAO: o fato do cliente j´ possuir um outro produto
a
de cr´dito reduz sensivelmente a chance de apresentar algum problema
e
de cr´dito com a institui¸˜o financeira. O valor do odds ratio de 0,369
e ca
indica que a chance de se observar algum problema para os clientes que
possuem um outro produto de cr´dito ´ 36,9% da chance de clientes que
e e
n˜o possuem;
a
- ESTADO CIVIL=vi´vo: essa categoria contribui para o au-
u
mento da chance de se observar algum problema de inadimplˆncia dee
14
23. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
cr´dito. O valor 1,36 indica que a chance de ocorrer problema aumenta
e
em 36% nesta categoria em rela¸˜o as demais;
ca `
- CLI ANT: o fato do cliente j´ possuir um relacionamento an-
a
terior com a institui¸ao faz com que chance de ocorrer problema seja
c˜
reduzida. O valor do odds ratio de 0,655 indica que a chance de se ob-
servar algum problema para um cliente que j´ possui um relacionamento
a
anterior ´ 65,5% da chance dos que s˜o de primeiro relacionamento;
e a
- IDADE: para essa vari´vel, fica evidenciado que quanto menor
a
a idade dos clientes maior a chance de inadimplˆncia;
e
- TEMPO DE EMPREGO: pode-se notar que quanto menor o
tempo que o cliente tem no emprego atual maior a chance de ocorrer
problema de inadimplˆncia;
e
- TELEFONE COMERCIAL: a declara¸˜o do telefone comer-
ca
cial pelos clientes indica uma chance menor de ocorrer problema de ina-
dimplˆncia;
e
- LIM CRED: essa covari´vel mostra que quanto menor o valor
a
concedido maior a chance de inadimplˆncia, sendo que os clientes com
e
valores abaixo de R$410,00 apresentam cerca de 22,5% a mais de chance
de ocorrer problemas do que aqueles com valores acima desse valor;
˜
- CEP RESIDENCIAL, COMERCIAL e PROFISSAO: os CEP´s
indicaram algumas regi˜es de maior chance de problema, o mesmo ocor-
o
rendo para as profiss˜es.
o
1.4 Valida¸˜o e Compara¸˜o dos Modelos
ca ca
Com o modelo de Credit Scoring constru´ ıdo, surge a seguinte
quest˜o: “Qual a qualidade deste modelo?”. A resposta para essa per-
a
gunta est´ relacionada com o quanto o escore produzido pelo modelo
a
consegue distinguir os eventos bons e maus pagadores, uma vez que de-
sejamos identificar previamente esses grupos e trat´-los de forma distinta
a
atrav´s de diferentes pol´
e ıticas de cr´dito.
e
Uma das id´ias envolvidas em medir o desempenho dos modelos
e
est´ em saber o qu˜o bem estes classificam os clientes. A l´gica e a
a a o
pr´tica sugerem que a avalia¸˜o do modelo na pr´pria amostra, usada
a ca o
para o seu desenvolvimento, indica resultados melhores do que se testado
15
24. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
em uma outra amostra, uma vez que o modelo incorpora peculiaridades
inerentes da amostra utilizada para sua constru¸ao. Por isso, sugerimos,
c˜
quando o tamanho da amostra permitir e sempre que poss´ ıvel, que o
desempenho do modelo seja verificado em uma amostra distinta de seu
desenvolvimento.
No contexto de Credit Scoring, muitas vezes o tamanho da amos-
tra, na ordem de milhares de registros, permite que uma nova amostra
seja obtida para a valida¸˜o dos modelos. Um aspecto importante na va-
ca
lida¸ao dos modelos ´ o temporal, em que a situa¸˜o ideal para se testar
c˜ e ca
um modelo ´ a obten¸˜o de amostras mais recentes. Isto permite que
e ca
uma medida de desempenho mais pr´xima da real e atual utiliza¸˜o do
o ca
modelo possa ser alcan¸ada.
c
Em Estat´ıstica existem alguns m´todos padr˜es para descrever
e o
o quanto duas popula¸˜es s˜o diferentes com rela¸ao a alguma carac-
co a c˜ `
ter´
ıstica medida e observada. Esses m´todos s˜o utilizados no contexto
e a
de Credit Scoring com o objetivo de descrever o quanto os grupos de
bons e maus pagadores s˜o diferentes com rela¸ao aos escores produzidos
a c˜
por um modelo constru´ e que necessita ser avaliado. Dessa forma,
ıdo
esses m´todos medem o qu˜o bem os escores separam os dois grupos e
e a
uma medida de separa¸ao muito utilizada para avaliar um modelo de
c˜
Credit Scoring ´ a estat´
e ıstica de Kolmogorov-Smirnov (KS). Os modelos
podem tamb´m ser avaliados e comparados atrav´s da curva ROC (Re-
e e
ceiver Operating Characteristic), a qual permite comparar o desempenho
de modelos atrav´s da escolha de crit´rios de classifica¸ao dos clientes
e e c˜
em bons e maus pagadores, de acordo com a escolha de diferentes pontos
de corte ao longo das amplitudes dos escores observadas para os modelos
obtidos. Por´m, muitas vezes o interesse est´ em avaliar o desempenho
e a
dos modelos em um unico ponto de corte escolhido, e assim medidas da
´
capacidade preditiva dos mesmos podem ser tamb´m consideradas.
e
1.4.1 A estat´
ıstica de Kolmogorov-Smirnov (KS)
Essa estat´
ıstica tem origem no teste de hip´tese n˜o-param´trico
o a e
de Kolmogorov-Smirnov em que se deseja, a partir de duas amostras
retiradas de popula¸oes possivelmente distintas, testar se duas fun¸˜es
c˜ co
16
25. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
de distribui¸oes associadas `s duas popula¸˜es s˜o idˆnticas ou n˜o.
c˜ a co a e a
A estat´
ıstica KS mede o quanto est˜o separadas as fun¸oes de
a c˜
distribui¸oes emp´
c˜ ıricas dos escores dos grupos de bons e maus pagado-
res. Sendo FB (e) = x≤ e FB (x) e FM (e) = x≤ e FM (x) a fun¸˜o deca
distribui¸ao emp´
c˜ ırica dos bons e maus pagadores, respectivamente, a es-
tat´
ıstica de Kolmogorov-Smirnov ´ dada por
e
KS = m´x | FB (e) − FM (e) |,
a
em que FB (e) e FM (e) correspondem as propor¸˜es de clientes bons e
` co
maus com escore menor ou igual a e. A estat´ ıstica KS ´ obtida atrav´s
e e
da distˆncia m´xima entre essas duas propor¸oes acumuladas ao longo
a a c˜
dos escores obtidos pelos modelos, representada na Figura 1.4.
Figura 1.4: Fun¸oes distribui¸oes emp´
c˜ c˜ ıricas para os bons e maus clientes
e a estat´
ıstica KS.
O valor dessa estat´ıstica pode variar de 0% a 100%, sendo que
o valor m´ximo indica uma separa¸ao total dos escores dos bons e maus
a c˜
clientes e o valor m´ınimo sugere uma sobreposi¸ao total das distribui¸˜es
c˜ co
dos escores dos dois grupos. Na pr´tica, obviamente, os modelos fornecem
a
valores intermedi´rios entre esses dois extremos. A representa¸˜o da
a ca
interpreta¸˜o dessa estat´
ca ıstica pode ser vista na Figura 1.5.
17
26. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
Figura 1.5: Interpreta¸ao da estat´
c˜ ıstica KS.
O valor m´dio da estat´
e ıstica KS para 30 amostras testes com
aproximadamente 200 mil clientes retirados aleatoriamente da base total
de clientes foi 32,26% para a regress˜o log´
a ıstica.
No mercado, o KS tamb´m ´ utilizado para verificar se o modelo,
e e
desenvolvido com um p´blico do passado, pode continuar a ser aplicado
u
para os novos entrantes. Dois diferentes KS s˜o calculados. O KS1
a
analisa se o perfil dos novos clientes (ou o perfil dos clientes da base de
teste) ´ semelhante ao perfil dos clientes da base de desenvolvimento do
e
modelo. Esse ´ ındice ´ usado para comparar a distribui¸˜o acumulada dos
e ca
escores dos clientes utilizados para o desenvolvimento do modelo com a
distribui¸ao acumulada dos escores dos novos entrantes (ou dos clientes
c˜
da base de teste). Quanto menor o valor do KS1 mais semelhante ´ o e
perfil do p´blico do desenvolvimento com o perfil dos novos clientes. O
u
KS2 avalia a performance do modelo. Ou seja, mede, para uma dada
safra, a m´xima distˆncia entre a distribui¸ao de frequˆncia acumulada
a a c˜ e
dos bons clientes em rela¸˜o a distribui¸ao de frequˆncia acumulada dos
ca ` c˜ e
maus clientes.
A interpreta¸˜o do ´
ca ındice para modelos de Credit Scoring segue,
em algumas institui¸˜es, a seguinte regra:
co
18
27. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
• KS < 10%: indica que n˜o h´ discrimina¸˜o entre os perfis de bons
a a ca
e maus clientes;
• 10% < KS < 20%: indica que a discrimina¸ao ´ baixa;
c˜ e
• KS > 20%: indica que o modelo discrimina o perfil de bons e maus.
1.4.2 Curva ROC
Os escores obtidos para os modelos de Credit Scoring devem,
normalmente, ser correlacionados com a ocorrˆncia de algum evento de
e
interesse, como por exemplo, a inadimplˆncia, permitindo assim, fazer
e
previs˜es a respeito da ocorrˆncia desse evento para que pol´
o e ıticas de
cr´dito diferenciadas possam ser adotadas pelo n´
e ıvel de escore obtido
para os indiv´ıduos.
Uma forma de se fazer previs˜es ´ estabelecer um ponto de corte
o e
no escore produzido pelos modelos. Clientes com valores iguais ou mai-
ores a esse ponto s˜o classificados, por exemplo, como bons e abaixo
a
desse valor como maus pagadores. Para estabelecer e visualizar o c´lculo
a
dessas medidas podemos utilizar uma tabela 2x2 denominada matriz de
confus˜o, representada na Figura 1.6
a
Figura 1.6: Matriz de Confus˜o.
a
em que:
n : n´mero total de clientes na amostra;
u
bB : n´mero de bons clientes que foram classificados como Bons
u
(acerto);
19
28. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
mM : n´mero de maus clientes que foram classificados como Maus
u
(acerto);
mB : n´mero de bons clientes que foram classificados como Maus
u
(erro);
bM : n´mero de maus clientes que foram classificados como Bons
u
(erro);
B : n´mero total de bons clientes na amostra;
u
M : n´mero total de maus clientes na amostra;
u
b : n´mero total de clientes classificados como bons na amostra;
u
m : n´mero total de clientes classificados como maus na amostra;
u
Na area m´dica, duas medidas muito comuns e bastante utiliza-
´ e
das s˜o a sensibilidade e a especificidade. Essas medidas, adaptadas ao
a
contexto de Credit Scoring, considerando o mau cliente como a categoria
de interesse, s˜o definidas da seguinte forma:
a
Sensibilidade: probabilidade de um indiv´ ıduo ser classificado como
mau pagador, dado que realmente ´ mau;
e
Especificidade: probabilidade de um indiv´ ıduo ser classificado como
bom pagador, dado que realmente ´ bom;
e
Utilizando as frequˆncias mostradas na matriz de confus˜o, te-
e a
mM bB
mos que a Sensibilidade ´ dada por M e a Especificidade por B .
e
A curva ROC (Zweig & Campbell, 1993) ´ constru´ variando
e ıda
os pontos de corte, cut-off, ao longo da amplitude dos escores fornecidos
pelos modelos, a fim de se obter as diferentes classifica¸˜es dos indiv´
co ıduos
e obtendo, consequentemente, os respectivos valores para as medidas
de Sensibilidade e Especificidade para cada ponto de corte estabelecido.
Assim, a curva ROC, ilustrada na Figura 1.7, ´ obtida tendo no seu
e
eixo horizontal os valores de (1-Especificidade), ou seja, a propor¸˜o de
ca
bons clientes que s˜o classificados como maus clientes pelo modelo, e no
a
eixo vertical a Sensibilidade, que ´ a propor¸ao de maus clientes que s˜o
e c˜ a
classificados realmente como maus. Uma curva ROC obtida ao longo da
diagonal principal corresponde a uma classifica¸ao obtida sem a utiliza¸ao
c˜ c˜
de qualquer ferramenta preditiva, ou seja, sem a presen¸a de modelos.
c
Consequentemente, a curva ROC deve ser interpretada de forma que
quanto mais a curva estiver distante da diagonal principal, melhor o
desempenho do modelo em quest˜o. Esse fato sugere que quanto maior
a
20
29. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
for a area entre a curva ROC produzida e a diagonal principal, melhor o
´
desempenho global do modelo.
Figura 1.7: Exemplos de curva ROC.
Os pontos de corte ao longo dos escores fornecidos pelos mode-
los que apresentam bom poder discriminat´rio concentram-se no canto
o
superior esquerdo da curva ROC. A curva ROC apresenta sempre um con-
trabalan¸o entre a Sensibildade e a Especificidade ao se variar os pontos
c
de corte ao longo dos escores e pode ser usada para auxiliar na decis˜o de
a
determinar o melhor ponto de corte. Em geral, o melhor cut-off ao longo
dos escores produz valores para as medidas de Sensibildade e Especifici-
dade que se localiza no “ombro” da curva, ou pr´ximo desse, ou seja, no
o
ponto mais a esquerda e superior poss´ ıvel, o qual ´ obtido considerando
e
como ponto de corte o escore que fornece a separa¸ao m´xima no teste
c˜ a
KS. Vale destacar que em problemas de Credit Scoring, normalmente,
crit´rios financeiros s˜o utilizados na determina¸˜o desse melhor ponto,
e a ca
sendo que valores como o quanto se perde em m´dia ao aprovar um cli-
e
ente que traz problemas de cr´dito e tamb´m o quanto se deixa de ganhar
e e
ao n˜o aprovar o cr´dito para um cliente que n˜o traria problemas para
a e a
a institui¸ao podem e devem ser considerados.
c˜
A partir da curva ROC temos a id´ia do desempenho do modelo
e
21
30. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
ao longo de toda amplitude dos escores produzidos pelos modelos.
1.4.3 Capacidade de acerto dos modelos
Em um modelo com vari´vel resposta bin´ria, como ocorre nor-
a a
malmente no caso de um Credit Scoring, temos o interesse em classificar
os indiv´ıduos em uma das duas categorias, bons ou maus clientes, e ob-
ter um bom grau de acerto nestas classifica¸oes. Como, geralmente, nas
c˜
amostras testes, em que os modelos s˜o avaliados, se conhece a resposta
a
dos clientes em rela¸˜o a sua condi¸˜o de cr´dito, e estabelecendo crit´rios
ca ca e e
para classificar estes clientes em bons e maus, torna-se poss´ comparar
ıvel
a classifica¸ao obtida com a verdadeira condi¸˜o credit´ dos clientes.
c˜ ca ıcia
A forma utilizada para estabelecer a matriz de confus˜o, Figura
a
1.6, ´ determinar um ponto de corte (cutoff ) no escore final dos modelos
e
tal que, indiv´ ıduos com pontua¸ao acima desse cutoff s˜o classificados
c˜ a
como bons, por exemplo, e abaixo desse valor como maus clientes e com-
parando essa classifica¸ao com a situa¸˜o real de cada indiv´
c˜ ca ıduo. Essa
matriz descreve, portanto, uma tabula¸ao cruzada entre a classifica¸˜o
c˜ ca
predita atrav´s de um unico ponto de corte e a condi¸˜o real e conhe-
e ´ ca
cida de cada indiv´ ıduo, em que a diagonal principal representa as clas-
sifica¸oes corretas e valores fora dessa diagonal correspondem a erros de
c˜ `
classifica¸ao.
c˜
A partir da matriz de confus˜o determinada por um ponto de
a
corte espec´ ıfico e representada pela Figura 1.6, algumas medidas de ca-
pacidade de acerto dos modelos s˜o definidas a seguir:
a
bB +mM
• Capacidade de Acerto Total (CAT)= n
mM
• Capacidade de Acerto dos Maus Clientes (CAM)= M
(Especifici-
dade)
bB
• Capacidade de Acerto dos Bons Clientes (CAB)= B
(Sensibili-
dade)
bB
• Valor Preditivo Positivo (VPP)= bB +bM
mB
• Valor Preditivo Negativo (VPN) = mB +mM
22
31. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
bB +mB
• Prevalˆncia (PVL) =
e n
bB mM −bM mB
• Correla¸ao de Mathews (MCC) = √
c˜
(bB +bM )(bB +mB )(mM +bM )(mM +mB )
A Prevalˆncia, propor¸ao de observa¸oes propensas a caracte-
e c˜ c˜
r´
ıstica de interesse ou a probabilidade de uma observa¸˜o apresentar a
ca
caracter´ıstica de interesse antes do modelo ser ajustado, ´ um medida de
e
extrema importˆncia, principalmente quando tratamos de eventos raros.
a
A Capacidade de Acerto Total ´ tamb´m conhecida como Acur´-
e e a
cia ou Propor¸ao de Acertos de um Modelo de Classifica¸ao. Esta medida
c˜ c˜
tamb´m pode ser vista como uma m´dia ponderada da sensibilidade e
e e
da especificidade em rela¸ao ao n´mero de observa¸oes que apresentam
c˜ u c˜
ou n˜o a caracter´
a ca ´
ıstica de interesse de uma determinada popula¸˜o. E
importante ressaltar que a acur´cia n˜o ´ uma medida que deve ser ana-
a a e
lisada isoladamente na escolha de um modelo, pois ´ influenciada pela
e
sensibilidade, especificidade e prevalˆncia. Al´m disso, dois modelos com
e e
sensibilidade e especificidade muito diferentes podem produzir valores se-
melhantes de acur´cia, se forem aplicados a popula¸oes com prevalˆncias
a c˜ e
muito diferentes.
Para ilustrar o efeito da prevalˆncia na acur´cia de um modelo,
e a
podemos supor uma popula¸ao que apresente 5% de seus integrantes com
c˜
a caracter´ıstica de interesse. Se um modelo classificar todos os indiv´
ıduos
como n˜o portadores da caracter´
a ıstica, temos um percentual de acerto
de 95%, ou seja, a acur´cia ´ alta e o modelo ´ pouco informativo.
a e e
O Valor Preditivo Positivo (VPP) de um modelo ´ a propor¸˜o
e ca
de observa¸˜es representando o evento de interesse dentre os indiv´
co ıduos
que o modelo identificou como evento. J´ o Valor Preditivo Negativo
a
(VPN) ´ a propor¸˜o de indiv´
e ca ıduos que representam n˜o evento dentre
a
os identificados como n˜o evento pelo modelo. Estas medidas devem
a
ser interpretadas com cautela, pois sofrem a influˆncia da prevalˆncia
e e
populacional.
Caso as estimativas da sensibilidade e da especificidade sejam
confi´veis, o valor preditivo positivo (VPP) pode ser estimado via Teo-
a
rema de Bayes, utilizando uma estimativa da prevalˆncia (Linnet, 1998)
e
23
32. Introdu¸˜o ` Modelagem de Credit Scoring
ca a
SENS × PVL
V PP = ,
SENS × PVL + (1 − SPEC) × (1 − PVL)
com SENS usado para Sensibilidade e SPEC para Especificidade. Da
mesma forma, o valor preditivo negativo (VPN) pode ser estimado por
SPEC × (1 − PVL)
V PN = .
SPEC × (1 − PVL) + SENS × PVL
O MCC, proposto por Matthews (1975), ´ uma medida de desem-
e
´
penho que pode ser utilizada no caso de prevalˆncias extremas. E uma
e
adapta¸ao do Coeficiente de Correla¸˜o de Pearson e mede o quanto as
c˜ ca
vari´veis que indicam a classifica¸ao original da resposta de interesse e
a c˜
a que corresponde a classifica¸ao do modelo obtida por meio do ponto
c˜
de corte adotado, ambas vari´veis assumindo valores 0 e 1, tendem a
a
apresentar o mesmo sinal de magnitude ap´s serem padronizadas (Baldi
o
et al., 2000).
O MCC retorna um valor entre -1 e +1. O valor 1 representa
uma previs˜o perfeita, um acordo total, o valor 0 representa uma pre-
a
vis˜o completamente aleat´ria e -1 uma previs˜o inversa, ou seja, total
a o a
desacordo. Observe que o MCC utiliza as 4 medidas apresentadas na
matriz de confus˜o (bB , bM , mB , mM ).
a
O Custo Relativo, baseado em uma medida apresentada em Ben-
sic et al. (2005), ´ definido por CR = αC1 P1 + (1 − α)C2 P2 , em que α
e
representa a probabilidade de um proponente ser mau pagador, C1 ´ e
o custo de aceitar um mau pagador, C2 ´ o custo de rejeitar um bom
e
pagador, P1 ´ a probabilidade de ocorrer um falso negativo e P2 ´ a
e e
probabilidade de ocorrer um falso positivo.
Como na pr´tica n˜o ´ f´cil obter as estimativas de C1 e C2 , o
a a e a
custo ´ calculado considerando diversas propor¸oes entre C1 e C2 , com
e c˜
a restri¸˜o C1 > C2 , ou seja, a perda em aceitar um mau pagador ´
ca e
maior do que o lucro perdido ao rejeitar um bom pagador. Bensic et
al. (2005) considera α como a prevalˆncia amostral, isto ´, sup˜e que
e e o
a prevalˆncia de maus pagadores nos portf´lios representa a prevalˆncia
e o e
real da popula¸˜o de interesse.
ca
24
33. Cap´
ıtulo 2
Regress˜o Log´
a ıstica
Os modelos de regress˜o s˜o utilizados para estudar e estabe-
a a
lecer uma rela¸ao entre uma vari´vel de interesse, denominada vari´vel
c˜ a a
resposta, e um conjunto de fatores ou atributos referentes a cada cliente,
geralmente encontrados na proposta de cr´dito, denominados covari´veis.
e a
No contexto de Credit Scoring, como a vari´vel de interesse ´
a e
bin´ria, a regress˜o log´
a a ıstica ´ um dos m´todos estat´
e e ısticos utilizado com
bastante frequˆncia. Para uma vari´vel resposta dicotˆmica, o interesse ´
e a o e
modelar a propor¸ao de resposta de uma das duas categorias, em fun¸˜o
c˜ ca
das covari´veis. E
a ´ comum adotarmos o valor 1 para a resposta de maior
interesse, denominada “sucesso”, o qual pode ser utilizado no caso de um
proponente ao cr´dito ser um bom ou um mau pagador.
e
Normalmente, quando constru´ ımos um modelo de Credit Sco-
ring, a amostra de desenvolvimento ´ formada pela sele¸˜o dos clientes
e ca
contratados durante um per´ ıodo de tempo espec´ ıfico, sendo observado
o desempenho de pagamento desses clientes ao longo de um per´ ıodo de
tempo posterior e pr´-determinado, correspondente ao horizonte de pre-
e
vis˜o. Esse tempo ´ escolhido arbitrariamente entre 12 e 18 meses, sendo
a e
na pr´tica 12 meses o intervalo mais utilizado, como j´ mencionado no
a a
Cap´ ıtulo 1, em que a vari´vel resposta de interesse ´ classificada, por
a e
exemplo, em bons (y = 0) e maus (y = 1) pagadores, de acordo com a
e a e ´
ocorrˆncia ou n˜o de problemas de cr´dito nesse intervalo. E importante
chamar a aten¸ao que ambos os per´
c˜ ıodos — de sele¸˜o da amostra e de
ca
desempenho de pagamento — est˜o no passado, portanto a ocorrˆncia
a e
25
34. Regress˜o Log´
a ıstica
ou n˜o do evento modelado j´ deve ter sido observada.
a a
Sejam x = (x1 , x2 , . . . , xk ) o vetor de valores de atributos que
caracterizam um cliente e π(x) a propor¸ao de maus pagadores em fun¸ao
c˜ c˜
do perfil dos clientes, definido e caracterizado por x. Neste caso, o modelo
log´
ıstico ´ adequado para definir uma rela¸˜o entre a probabilidade de
e ca
um cliente ser mau pagador e um conjunto de fatores ou atributos que
o caracterizam. Esta rela¸ao ´ definida pela fun¸ao ou transforma¸ao
c˜ e c˜ c˜
logito dada pela express˜oa
π(x)
log = β0 + β1 x1 + . . . + βk xk ,
1 − π(x)
em que π(x) ´ definido como
e
exp(β0 + β1 x1 + . . . + βk xk )
π(x) = ,
1 + exp(β0 + β1 x1 + . . . + βk xk )
e pode ser interpretado como a probabilidade de um proponente ao
cr´dito ser um mau pagador dado as caracter´
e ısticas que possui, repre-
sentadas por x. No caso da atribui¸ao da categoria bom pagador, as
c˜
interpreta¸˜es s˜o an´logas.
co a a
2.1 Estima¸˜o dos Coeficientes
ca
Dada uma amostra de n clientes (yi , xi ), sendo yi a vari´vel res-
a
posta — bons e maus pagadores — e xi = (xi1 , xi2 , . . . , xik ) , em que
xi1 , xi2 , . . . , xik s˜o os valores dos k atributos observados do i-´simo cli-
a e
ente, i = 1, . . . , n, o ajuste do modelo log´ ıstico consiste em estimar os
parˆmetros βj , j = 1, 2, . . . , k, os quais definem π(x).
a
Os parˆmetros s˜o geralmente estimados pelo m´todo de m´xi-
a a e a
ma verossimilhan¸a (Hosmer & Lemeshow, 2000). Por este m´todo, os
c e
coeficientes s˜o estimados de maneira a maximizar a probabilidade de se
a
obter o conjunto de dados observados a partir do modelo proposto. Para
o m´todo ser aplicado, primeiramente constru´
e ımos a fun¸ao de verossimi-
c˜
lhan¸a que expressa a probabilidade dos dados observados, como fun¸˜o
c ca
26