Livro risco de credito

Modelagem Estat´
ıstica
Para Risco de Cr´dito
e

Carlos Diniz
Francisco Louzada

ABE - Associa¸˜o Brasileira de Estat´
ca ıstica

20o SINAPE
Julho / 2012

Modelagem Estat´
ıstica
Para Risco de Cr´dito
e

Carlos Diniz
DEs–UFSCar

Francisco Louzada
ICMC–USP

Colaboradores

H´lio J. Abreu
e
Nat´lia M. Ferreira
a
Paulo H. Ferreira
Ricardo F. Rocha
Agatha S. Rodrigues
Fernanda N. Scacabarozi
Anderson L. de Sousa

20o SINAPE
Simp´sio Nacional de Probabilidade e Estat´
o ıstica
30/07 a 03/08 – 2012
Hotel Tamba´, Jo˜o Pessoa-PB
u a

Prefćio
a
Historicamente, os modelos de Credit Scoring compreendem uma
das principais ferramentas de suporte a concessõ de cr´dito. O desenvol-
` a e
vimento de tais modelos baseia-se, geralmente, na constru¸ao de um pro-
c˜
cedimento formal para descrever quais caracter´ ısticas dos clientes estõ,a
efetivamente, relacionadas com o seu risco de cr´dito e qual a intensidade
e
e dire¸õ desse relacionamento. A idía central consiste na gera¸õ de
ca e ca
um escore ou de um grupo de escores atrav´s dos quais clientes potenci-
e
ais possam ser ordenados segundo a sua chance de inadimplˆncia. Nestee
livro apresentamos os procedimentos estat´ ısticos comumente utilizados
na modelagem de Credit Scoring.
O presente livro tem como base cinco disserta¸˜es de mestrado,
co
defendidas no Programa de P´s-gradua¸õ em Estat´
o ca ıstica da UFSCar,
um trabalho de conclusõ de curso do Bacharelado em Estat´
a ıstica da
UFSCar e um trabalho de Inicia¸ao Cient´
c˜ ıfica. Trata-se das disserta¸oes c˜
de Fernanda Nanci Scacabarozi, intitulada Modelagem de Eventos Raros:
Uma Compara¸ao e de Nat´lia Manduca Ferreira, intitulada Presen¸a de
c a c
Dados Missing em Modelos de Regressõ Log´stica, as quais foram orien-
a ı
tadas pelo Prof. Carlos Diniz; as disserta¸oes de H´lio Jos´ de Abreu, in-
c˜ e e
titulada Aplica¸õ de An´lise de Sobrevivˆncia em um Problema de Cre-
ca a e
dit Scoring e Compara¸õ com a Regressõ Log´stica, de Ricardo Ferreira
ca a ı
da Rocha, intitulada Combina¸õ de Classificadores para Inferˆncia dos
ca e
Rejeitados e de Anderson Lu´ de Sousa, intitulada Redes Probabil´sticas
ıs ı
de k-Dependˆncia para Problemas de Classifica¸õ Bin´ria, os quais fo-
e ca a
ram orientados pelo Prof. Francisco Louzada; o trabalho de conclusõ de a
curso de Agatha Sacramento Rodrigues, intitulado Regressõ Log´stica a ı
com Erro de Medida, orientada pelo Prof. Carlos Diniz e o trabalho de
Inicia¸ao Cient´
c˜ ıfica de Paulo Henrique Ferreira da Silva, intitulado Me-
didas do Valor Preditivo de Modelos de Classifica¸õ Aplicados a Dados
ca
de Cr´dito, orientado pelo Prof. Francisco Louzada.
e
O livro ´ composto por 9 cap´
e ıtulos. No Cap´ ıtulo 1 apresentamos
as principais etapas de desenvolvimento de um modelo de Credit Sco-
ring. No Cap´ ıtulo 2 apresentamos a metodologia usualmente utilizada
no contexto de risco de cr´dito, ou seja, modelo de regressõ log´
e a ıstica e

abordamos tamb´m regressõ log´
e a ıstica com erro de medida. No Cap´ ıtulo
3 apresentamos os principais modelos que podem ser utilizados em si-
tua¸oes de eventos raros, tais como fraude e nõ pagamento da primeira
c˜ a
fatura. No Cap´ ıtulo 4 apresentamos algumas das tćnicas associadas `
e a
inferˆncia dos rejeitados. No Cap´
e ıtulo 5 apresentamos tćnicas de com-
e
bina¸ao de modelos para dados financeiros. O Cap´
c˜ ıtulo 6 trata de an´lise
a
de dados financeiros com a presen¸a de dados missing. Modelos alterna-
c
tivos aos modelos usuais de cr´dito sõ apresentados nos Cap´
e a ıtulos 7 a 9.
No Cap´ ıtulo 7 apresentamos a metodologia de redes probabil´ ısticas. Nos
Cap´ ıtulos 8 e 9 apresentamos a metodologia de an´lise de sobrevivˆncia
a e
e modelos de longa dura¸õ, respectivamente.
ca
Agradecemos aos alunos do Programa de Doutorado em Estat´ ıs-
tica, DEs -UFSCar, Rubiane Maria Pires, Carolina Costa Mota Para´ e ıba
Vitor Alex Alves de Marchi, a ex-aluna do Programa de Mestrado Simone
Cristina Obage e aos colegas de Departamento Teresa Cristina Martins
Dias, M´rcio Luis Lanfredi Viola e Luis Ernesto Bueno Salasar, pela
a
leitura minuciosa e pelas valiosas cr´ ıticas e sugest˜es que contribu´
o ıram
para o enriquecimento do texto. Agradecemos tamb´m ` Associa¸õ
e a ca
o
Brasileira de Estat´ ıstica (ABE) e a Comissõ Organizadora do 20 SI-
` a
NAPE pela oportunidade que nos foi proporcionada para ministrarmos
este minicurso.

Sõ Carlos, 20 de abril de 2012.
a

Carlos Diniz e Francisco Louzada

ii

Sum´rio
a

1 Introdu¸õ ` Modelagem de Credit Scoring
ca a 1
1.1 Etapas de Desenvolvimento . . . . . . . . . . . . . . . . 3
1.2 Planejamento Amostral . . . . . . . . . . . . . . . . . . . 3
1.2.1 Descri¸õ de um problema - Credit Scoring
ca . . . . 8
1.3 Determina¸õ da Pontua¸ao de Escore . . . . . .
ca c˜ . . . . 9
1.3.1 Transforma¸õ e sele¸õ de vari´veis . . .
ca ca a . . . . 11
1.3.2 Regressõ log´
a ıstica . . . . . . . . . . . . . . . . . 12
1.4 Valida¸ao e Compara¸ao dos Modelos . . . . . . .
c˜ c˜ . . . . 15
1.4.1 A estat´
ıstica de Kolmogorov-Smirnov (KS) . . . . 16
1.4.2 Curva ROC . . . . . . . . . . . . . . . . . . . . . 19
1.4.3 Capacidade de acerto dos modelos . . . . . . . . . 22

2 Regressõ Log´
a ıstica 25
2.1 Estima¸ao dos Coeficientes . . . . . . . . . . . . .
c˜ . . . . 26
2.2 Intervalos de Confian¸a e Sele¸ao de Vari´veis . .
c c˜ a . . . . 28
2.3 Interpreta¸õ dos Coeficientes do Modelo . . . . .
ca . . . . 30
2.4 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . .
c˜ . . . . 31
2.5 Amostras State-Dependent . . . . . . . . . . . . . . . . . 34
2.5.1 M´todo de corre¸õ a priori . . . . . . . .
e ca . . . . 36
2.6 Estudo de Compara¸ao . . . . . . . . . . . . . . .
c˜ . . . . 37
2.6.1 Medidas de desempenho . . . . . . . . . . . . . . 37
2.6.2 Probabilidades de inadimplˆncia estimadas
e . . . . 38
2.7 Regressõ Log´
a ıstica com Erro de Medida . . . . . . . . . 39
2.7.1 Fun¸ao de verossimilhan¸a . . . . . . . . .
c˜ c . . . . 41
2.7.2 M´todos de estima¸õ . . . . . . . . . . .
e ca . . . . 42
2.7.3 Renda presumida . . . . . . . . . . . . . . . . . . 43

iii

´
SUMARIO

3 Modelagem Para Eventos Raros 45
3.1 Estimadores KZ para o Modelo de Regressõ Log´
a ıstica . 46
3.1.1 Corre¸õ nos parˆmetros . . . . . . . . . . . . .
ca a . 47
3.1.2 Corre¸õ nas probabilidades estimadas . . . . .
ca . 48
3.2 Modelo Logito Limitado . . . . . . . . . . . . . . . . . . 50
3.2.1 Estima¸õ . . . . . . . . . . . . . . . . . . . . .
ca . 51
3.2.2 M´todo BFGS . . . . . . . . . . . . . . . . . . .
e . 52
3.3 Modelo Logito Generalizado . . . . . . . . . . . . . . . . 53
3.3.1 Estima¸õ . . . . . . . . . . . . . . . . . . . . .
ca . 55
3.4 Modelo Logito com Resposta de Origem . . . . . . . . . 57
3.4.1 Modelo normal . . . . . . . . . . . . . . . . . . . 57
3.4.2 Modelo exponencial . . . . . . . . . . . . . . . . . 59
3.4.3 Modelo lognormal . . . . . . . . . . . . . . . . . . 59
3.4.4 Estudo de simula¸ao . . . . . . . . . . . . . . .
c˜ . 60
3.5 An´lise de Dados Reais . . . . . . . . . . . . . . . . . .
a . 63

4 Credit Scoring com Inferˆncia dos Rejeitados
e 67
4.1 M´todos de Inferˆncia dos Rejeitados . . . .
e e . . . . . . . 68
4.1.1 M´todo da reclassifica¸õ . . . . . . .
e ca . . . . . . . 68
4.1.2 M´todo da pondera¸ao . . . . . . . .
e c˜ . . . . . . . 69
4.1.3 M´todo do parcelamento . . . . . . .
e . . . . . . . 70
4.1.4 Outros m´todos . . . . . . . . . . . .
e . . . . . . . 71
4.2 Aplica¸ao . . . . . . . . . . . . . . . . . . .
c˜ . . . . . . . 72

5 Combina¸õ de Modelos de Credit Scoring
ca 76
5.1 Bagging de Modelos . . . . . . . . . . . . . . . . . . . . . 76
5.2 M´todos de Combina¸õ . . . . . . . . . .
e ca . . . . . . . . 78
5.2.1 Combina¸ao via m´dia . . . . . . .
c˜ e . . . . . . . . 78
5.2.2 Combina¸ao via voto . . . . . . . .
c˜ . . . . . . . . 79
5.2.3 Combina¸ao via regressõ log´
c˜ a ıstica . . . . . . . . 80
5.3 Aplica¸ao . . . . . . . . . . . . . . . . . .
c˜ . . . . . . . . 80

6 Dados Missing em Modelos de Credit Scoring 85
6.1 Dados Missing . . . . . . . . . . . . . . . . . . . . . . . 86
6.2 Modelos e Mecanismos Missing . . . . . . . . . . . . . . 87
6.2.1 Modelos de valores missing . . . . . . . . . . . . 88

iv

´
SUMARIO

6.2.2 Mecanismos de valores missing . . . . . . . . . . 90
6.3 Modelo Log´ıstico com Missing . . . . . . . . . . . . . . . 93
6.3.1 Estima¸õ de m´xima verossimilhan¸a
ca a c . . . . . . 94
6.3.2 Caso completo . . . . . . . . . . . . . . . . . . . . 97
6.3.3 Caso completo corrigido . . . . . . . . . . . . . . 98
6.3.4 Imputa¸˜es simples e m´ltipla . . . . .
co u . . . . . . 99
6.4 Uso da Quadratura Gaussiana . . . . . . . . . . . . . . . 99
6.5 Estudo de Simula¸ao . . . . . . . . . . . . . .
c˜ . . . . . . 101
6.5.1 Dados completos . . . . . . . . . . . . . . . . . . 102
6.5.2 M´todo EMVG . . . . . . . . . . . . .
e . . . . . . 104
6.5.3 Resultados . . . . . . . . . . . . . . . . . . . . . . 107

7 Redes Probabil´ ısticas 115
7.1 Conceitos Probabil´ ısticos . . . . . . . . . . . . . . . . . . 115
7.1.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . 116
7.1.2 Distribui¸˜es multinomial e Dirichlet . . .
co . . . . 116
7.1.3 Distribui¸õ normal - uni e multivariada .
ca . . . . 118
7.1.4 Entropia . . . . . . . . . . . . . . . . . . . . . . . 118
7.1.5 Informa¸õ m´tua . . . . . . . . . . . . .
ca u . . . . 119
7.2 Redes Probabil´ısticas . . . . . . . . . . . . . . . . . . . . 121
7.2.1 Elementos b´sicos . . . . . . . . . . . . . .
a . . . . 121
7.2.2 Estruturas de teoria de grafos . . . . . . . . . . . 121
7.2.3 Exemplo b´sico de uma rede probabil´
a ıstica . . . . 123
7.2.4 Constru¸õ de uma rede probabil´
ca ıstica . . . . . . 124
7.3 Inferˆncia . . . . . . . . . . . . . . . . . . . . . .
e . . . . 125
7.3.1 Estima¸õ de estruturas de classifica¸ao .
ca c˜ . . . . 125
7.3.2 Estima¸õ de parˆmetros . . . . . . . . . .
ca a . . . . 131
7.4 Compara¸õ entre os m´todos de classifica¸ao . .
ca e c˜ . . . . 132

8 An´lise de Sobrevivˆncia
a e 137
8.1 Algumas Defini¸oes Usuais . . . . . . . . . . . . . . . . .
c˜ 138
8.2 Modelo de Cox . . . . . . . . . . . . . . . . . . . . . . . 142
8.2.1 Modelo para compara¸ao de dois perfis de clientes
c˜ 143
8.2.2 A generaliza¸õ do modelo de riscos proporcionais
ca 144
8.2.3 Ajuste de um modelo de riscos proporcionais . . . 146

v

´
SUMARIO

8.2.4 Tratamento de empates . . . . . . . . . . . . . . . 151
8.3 Intervalos de Confian¸a e Sele¸ao de Vari´veis
c c˜ a . . . . . . 154
8.4 Estima¸ao da Fun¸ao de Risco e Sobrevivˆncia
c˜ c˜ e . . . . . . 155
8.5 Interpreta¸õ dos Coeficientes . . . . . . . . .
ca . . . . . . 157
8.6 Aplica¸ao . . . . . . . . . . . . . . . . . . . .
c˜ . . . . . . 159

9 Modelo de Longa Dura¸õ ca 163
9.1 Modelo de Mistura Geral . . . . . . . . . . . . . . . . . . 163
9.2 Estima¸ao do modelo longa dura¸ao geral . . . . . . . . . 165
c˜ c˜
9.3 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . 167
c˜

vi

Cap´
ıtulo 1

Introdu¸õ ` Modelagem de
ca a
Credit Scoring

A partir de 1933, ano da publica¸ao do primeiro volume da re-
c˜
vista Econometrica, intensificou-se o desenvolvimento de m´todos es-e
tat´ısticos para, dentre outros objetivos, testar teorias econˆmicas, avaliar
o
e implementar pol´ ıticas comerciais, estimar rela¸oes econˆmicas e dar su-
c˜ o
porte ` concessõ de cr´dito.
a a e
Os primeiros modelos de Credit Scoring foram desenvolvidos en-
tre os anos 40 e 50 e a metodologia b´sica, aplicada a esse tipo de pro-
a
blema, era orientada por m´todos de discrimina¸ao produzidos por Fisher
e c˜
(1936). Podemos dizer que foi de Durand (1941) o primeiro trabalho co-
nhecido que utilizou an´lise discriminante para um problema de cr´dito,
a e
em que as tćnicas desenvolvidas por Fisher foram empregadas para dis-
e
criminar bons e maus empr´stimos.
e
Henry Markowitz (Markowitz, 1952) foi um dos pioneiros na
cria¸ao de um modelo estat´
c˜ ıstico para o uso financeiro, o qual foi uti-
lizado para medir o efeito da diversifica¸ao no risco total de uma carteira
c˜
de ativos.
Fischer Black e Myron Scholes (Black & Scholes, 1973) desenvol-
veram um modelo cl´ssico para a precifica¸õ de uma op¸õ, uma das
a ca ca
mais importantes f´rmulas usadas no mercado financeiro.
o
Diretores do Citicorp, em 1984, lan¸aram o livro Risco e Recom-
c
pensa: O Negćio de Cr´dito ao Consumidor, com as primeiras men¸oes
o e c˜

1

Introdu¸õ ` Modelagem de Credit Scoring
ca a

ao modelo de Credit Scoring, que ´ um tipo de modelo de escore, baseado
e
em dados cadastrais dos clientes, e ´ utilizado nas decis˜es de aceita¸õ
e o ca
de proponentes a cr´ditos; ao modelo de Behaviour Scoring, que ´ um
e e
modelo de escore, baseado em dados transacionais, utilizado nas decis˜es o
de manuten¸ao ou renova¸ao de linhas e produtos para os j´ clientes e ao
c˜ c˜ a
modelo Collection Scoring, que ´ tamb´m um modelo de escore, baseado
e e
em dados transacionais de clientes inadimplentes, utilizado nas decis˜es o
de prioriza¸ao de estrat´gias de cobran¸as. Estes e v´rios outros mo-
c˜ e c a
delos sõ utilizados como uma das principais ferramentas de suporte a
a `
concessõ de cr´dito em in´meras institui¸˜es financeiras no mundo.
a e u co
Na realidade, os modelos estat´ ısticos passaram a ser um impor-
tante instrumento para ajudar os gestores de risco, gestores de fundos,
bancos de investimento, gestores de cr´ditos e gestores de cobran¸a a
e c
tomarem decis˜es corretas e, por esta razõ, as institui¸˜es financeiras
o a co
passaram a aprimor´-los continuamente. Em especial, a concessõ de
a a
cr´dito ganhou for¸a na rentabilidade das empresas do setor financeiro,
e c
se tornando uma das principais fontes de receita e, por isso, rapidamente,
este setor percebeu a necessidade de se aumentar o volume de recursos
concedidos sem perder a agilidade e a qualidade dos empr´stimos, e nesse
e
ponto a contribui¸ao da modelagem estat´
c˜ ıstica foi essencial.
Diferentes tipos de modelos sõ utilizados no problema de cr´dito,
a e
com o intuito de alcan¸ar melhorias na redu¸õ do risco e/ou no aumento
c ca
da rentabilidade. Entre os quais, podemos citar, a regressõ log´ a ıstica e
linear, an´lise de sobrevivˆncia, redes probabil´
a e ısticas, arvores de classi-
´
fica¸ao, algoritmos gen´ticos e redes neurais. Neste livro tratamos de
c˜ e
diferentes problemas presentes na constru¸ao de modelos de regressõ
c˜ a
log´ ıstica para Credit Scoring e sugerimos metodologias estat´ ısticas para
resolvˆ-los. Al´m disso, apresentamos metodologias alternativas de an´lise
e e a
de sobrevivˆncia e redes probabil´
e ısticas.
O processo de desenvolvimento de um modelo de cr´dito envolve
e
v´rias etapas, entre as quais Planejamento Amostral, Determina¸õ da
a ca
Pontua¸õ de Escore e Valida¸õ e Compara¸õ de Modelos. Apresenta-
ca ca ca
mos nas pr´ximas se¸˜es discuss˜es sobre algumas destas etapas.
o co o

2

ca a

1.1 Etapas de Desenvolvimento
O desenvolvimento de um modelo de Credit Scoring consiste, de
uma forma geral, em determinar uma fun¸ao das vari´veis cadastrais
c˜ a
dos clientes que possa auxiliar na tomada de decisõ para aprova¸õ de
a ca
cr´dito, envolvendo cart˜es de cr´ditos, cheque especial, atribui¸ao de
e o e c˜
limite, financiamento de ve´ıculo, imobili´rio e varejo.
a
Normalmente esses modelos sõ desenvolvidos a partir de ba-
a
ses hist´ricas de performance de cr´dito dos clientes e tamb´m de in-
o e e
forma¸oes pertinentes ao produto. O desenvolvimento de um modelo de
c˜
Credit Scoring (Sics´, 1998) compreende nas seguintes etapas:
u

i) Planejamento e defini¸oes;
c˜

ii) Identifica¸ao de vari´veis potenciais;
c˜ a

iii) Planejamento amostral;

iv) Determina¸ao do escore: aplica¸ao da metodologia estat´
c˜ c˜ ıstica;

v) Valida¸ao e verifica¸õ de performance do modelo estat´
c˜ ca ıstico;

vi) Determina¸ao do ponto de corte ou faixas de escore;
c˜

vii) Determina¸õ de regra de decisõ.
ca a

As etapas iii), iv) e v), por estarem associadas a modelagem, sõ
` a
apresentadas com mais detalhes nas pr´ximas se¸oes.
o c˜

1.2 Planejamento Amostral
Para a obten¸õ da amostra, na constru¸õ de um modelo de
ca ca
Credit Scoring, ´ importante que defini¸˜es como, para qual produto ou
e co
fam´ de produtos e para qual ou quais mercados o modelo ser´ desen-
ılia a
volvido, sejam levadas em considera¸ao. A base de dados utilizada para
c˜
a constru¸ao de um modelo ´ formada por clientes cujos cr´ditos foram
c˜ e e
concedidos e seus desempenhos foram observados durante um per´ ıodo de
tempo no passado. Esse passado, cujas informa¸oes sõ retiradas, deve
c˜ a

3

ca a

ser o mais recente poss´ a fim de que nõ se trabalhe com opera¸oes
ıvel a c˜
de cr´dito remotas que nõ sejam representativas da realidade atual.
e a
Uma premissa fundamental na constru¸õ de modelos de Credit
ca
Scoring, e preditivos em geral, ´ que a forma como as vari´veis cadastrais
e a
se relacionaram com o desempenho de cr´dito no passado, seja similar
e
no futuro.
Um fator importante a ser considerado na constru¸õ do modelo ´
ca e
o horizonte de previsõ, sendo necess´rio estabelecer um espa¸o de tempo
a a c
para a previsõ do Credit Scoring, ou seja, o intervalo entre a solicita¸õ
a ca
do cr´dito e a classifica¸ao como bom ou mau cliente. Esse ser´ tamb´m
e c˜ a e
o intervalo para o qual o modelo permitir´ fazer as previs˜es de quais
a o
indiv´ ıduos serõ mais ou menos prov´veis de se tornarem inadimplentes
a a
ou de serem menos rent´veis. A regra ´ de 12 a 18 meses, por´m na
a e e
pr´tica observamos que um intervalo de 12 meses ´ o mais utilizado.
a e
Thomas et al. (2002) tamb´m prop˜e um per´
e o ıodo de 12 meses
para modelos de Credit Scoring, sugerindo que a taxa de inadimplˆncia e
dos clientes das empresas financeiras em fun¸ao do tempo aumenta no
c˜
in´
ıcio, estabilizando somente ap´s 12 meses. Assim, qualquer horizonte
o
mais breve do que esse pode nõ refletir de forma real o percentual de
a
maus clientes prejudicando uma poss´ associa¸ao entre as caracter´
ıvel c˜ ıs-
ticas dos indiv´ ıduos e o evento de interesse modelado, no caso, a ina-
dimplˆncia. Por outro lado, a escolha de um intervalo de tempo muito
e
longo para o horizonte de previsõ tamb´m pode nõ trazer benef´
a e a ıcios, fa-
zendo com que a eficćia do modelo diminua, uma vez que, pela distˆncia
a a
temporal, os eventos se tornam pouco correlacionados com potenciais
vari´veis cadastrais, normalmente, obtidas no momento da solicita¸õ do
a ca
cr´dito.
e
O fator tempo tem uma importˆncia fundamental na constru¸ao
a c˜
de modelos preditivos e, de forma geral, tem trˆs importantes etapas,
e
como mostra a Figura 1.1. O passado ´ composto pelas opera¸oes para
e c˜
as quais j´ foram observados os desempenhos de cr´dito durante um
a e
horizonte de previsõ adotado. As informa¸˜es cadastrais dos clientes
a co
no momento da concessõ do cr´dito, levantadas no passado mais dis-
a e
tante, sõ utilizadas como vari´veis de entrada para o desenvolvimento
a a
do modelo e os dados do passado mais recente, as observa¸oes dos de-
c˜

4

ca a

sempenhos de cr´dito dos clientes, default ou nõ default, inadimplentes
e a
ou adimplentes, sõ utilizados para a determina¸ao da vari´vel resposta.
a c˜ a

Figura 1.1: Estrutura temporal das informa¸oes para constru¸ao de mo-
c˜ c˜
delos preditivos.

´
E importante ressaltar que as vari´veis de entrada para a cons-
a
tru¸ao do modelo sejam baseadas em informa¸oes, que necessariamente,
c˜ c˜
ocorreram antes de qualquer informa¸ao utilizada para gerar a vari´vel
c˜ a
resposta de interesse. Se dividirmos o passado em per´ ıodos de observa¸õ
ca
e desempenho. O per´ ıodo de observa¸õ compreende o per´
ca ıodo de tempo
no qual sõ obtidas e observadas as informa¸˜es potencialmente relevan-
a co
tes para o evento de interesse, ou seja, o per´ ıodo em que se constrío
e obt´m as vari´veis explanat´rias. Em um modelo de Credit Scoring
e a o
esse per´ıodo compreende na realidade um unico instante, sendo o mo-
´
mento em que um cliente busca obter um produto de cr´dito, podendo
e
ser chamado de ponto de observa¸õ. O per´
ca ıodo de desempenho ´ o in-
e
tervalo de tempo em que ´ observado a ocorrˆncia ou nõ do evento de
e e a
interesse. Esse per´ ıodo corresponde a um intervalo de tempo do mesmo
tamanho do horizonte de previsõ adotado para a constru¸õ do modelo.
a ca
O presente corresponde ao per´ ıodo de desenvolvimento do modelo em
que, normalmente, as informa¸oes referentes a esse per´
c˜ ıodo ainda nõa
estõ dispon´
a ıveis, uma vez que estõ sendo geradas pelos sistemas das
a
institui¸oes. O futuro ´ o per´
c˜ e ıodo de tempo para o qual serõ feitas as
a
predi¸oes, utilizando-se de informa¸˜es do presente, do passado e das
c˜ co
rela¸oes entre estas, que foram determinadas na constru¸ao do modelo.
c˜ c˜
Um alerta importante ´ que modelos preditivos, constru´
e ıdos a

5

ca a

partir de dados hist´ricos, podem se ajustar bem no passado, possuindo
o
uma boa capacidade preditiva. Por´m, o mesmo nõ ocorre quando apli-
e a
cados a dados mais recentes. A performance desses modelos pode ser
afetada tamb´m pela raridade do evento modelado, em que existe difi-
e
culdade em encontrar indiv´ ıduos com o atributo de interesse. No con-
texto de Credit Scoring isso pode ocorrer quando a amostra ´ selecionada
e
pontualmente, em um unico mˆs, semana etc, nõ havendo n´mero de
´ e a u
indiv´ıduos suficientes para encontrar as diferen¸as de padr˜es desejadas
c o
entre bons e maus pagadores. Dessa forma, o dimensionamento da amos-
tra ´ um fator extremamente relevante no desenvolvimento de modelos
e
de Credit Scoring.
A utiliza¸õ de um tratamento estat´
ca ıstico formal para determinar
o tamanho da amostra seria complexa, dependendo de v´rios fatores a
como o n´mero e o tipo de vari´veis envolvidas no estudo.
u a
Dividir a amostra em duas partes, treinamento (ou desenvol-
vimento) e teste (ou valida¸ao), ´ conveniente e resulta em benef´
c˜ e ıcios
tćnicos. Isto ´ feito para que possamos verificar o desempenho e com-
e e
parar os dispon´ ´
ıveis modelos. E interessante que a amostra seja sufici-
entemente grande de forma que permita uma poss´ divisõ desse tipo.
ıvel a
Por´m, sempre que poss´
e ıvel, essa divisõ jamais deve substituir a va-
a
lida¸ao de modelos em um conjunto de dados mais recente. Lewis (1994)
c˜
sugere que, em geral, amostras com tamanhos menores de 1500 clientes
bons e 1500 maus, podem inviabilizar a constru¸õ de modelos com ca-
ca
pacidade preditiva aceit´vel para um modelo de Credit Scoring, al´m de
a e
nõ permitir a sua divisõ.
a a
Em grande parte das aplica¸oes de modelagem com vari´vel res-
c˜ a
posta bin´ria, um desbalanceamento significativo, muitas vezes da ordem
a
de 20 bons para 1 mau, ´ observado entre o n´mero de bons e maus paga-
e u
dores nas bases de clientes das institui¸oes. Essa situa¸ao pode prejudi-
c˜ c˜
car o desenvolvimento do modelo, uma vez que o n´mero de maus pode
u
ser muito pequeno e insuficiente para estabelecer perfis com rela¸ao as c˜ `
vari´veis explanat´rias e tamb´m para observar poss´
a o e ıveis diferen¸as em
c
rela¸ao aos bons cliente. Dessa forma, uma amostragem aleat´ria sim-
c˜ o
ples nem sempre ´ indicada para essa situa¸ao, sendo necess´ria a uti-
e c˜ a
liza¸ao de uma metodologia denominada Oversampling ou State Depen-
c˜

6

ca a

dent, que consiste em aumentar a propor¸õ do evento raro, ou, mesmo
ca
nõ sendo tõ raro, da categoria que menos aparece na amostra. Esta
a a
tćnica trabalha com diferentes propor¸oes de cada categoria, sendo co-
e c˜
nhecida tamb´m como amostra aleat´ria estratificada. Mais detalhes a
e o
respeito da tćnica State Dependent sõ apresentados no Cap´
e a ıtulo 2.
Berry & Linoff (2000) expressam, em um problema com a vari´vel a
resposta assumindo dois resultados poss´ ıveis, a idía de se ter na amos-
e
tra de desenvolvimento para a categoria mais rara ou menos frequente
entre 10% e 40% dos indiv´ ıduos. Thomas et al. (2002) sugere que as
amostras em um modelo de Credit Scoring tendem a estar em uma pro-
por¸ao de 1:1, de bons e maus clientes, ou algo em torno desse valor.
c˜
Uma situa¸ao t´
c˜ ıpica de ocorrer ´ selecionar todos os maus pagadores
e
poss´ıveis juntamente com uma amostra de mesmo tamanho de bons pa-
gadores para o desenvolvimento do modelo. Nos casos em que a vari´vel a
resposta de interesse possui distribui¸õ dicotˆmica extremamente des-
ca o
balanceada, algo em torno de 3% ou menos de eventos, comum quando
o evento de interesse ´ fraude, existem alguns estudos que revelam que o
e
modelo de regressõ log´
a ıstica usual subestima a probabilidade do evento
de interesse (King & Zeng, 2001). Al´m disso, os estimadores de m´xima
e a
verossimilhan¸a dos parˆmetros do modelo de regressõ log´
c a a ıstica sõ vi-
a
ciados nestes casos. O Cap´ ıtulo 3 apresenta uma metodologia espec´ ıfica
para situa¸ao de eventos raros.
c˜
A sazonalidade na ocorrˆncia do evento modelado ´ um outro fa-
e e
tor a ser considerado no planejamento amostral. Por exemplo, a sele¸ao c˜
da amostra envolvendo momentos espec´ ıficos no tempo em que o com-
portamento do evento ´ at´
e ıpico, pode afetar e comprometer diretamente
o desempenho do modelo. Outro aspecto nõ menos importante ´ com
a e
rela¸ao a variabilidade da ocorrˆncia do evento, uma vez que pode estar
c˜ e
sujeito a fatores externos e nõ-control´veis, como por exemplo a conjun-
a a
tura econˆmica, que faz com que a sele¸ao da amostra envolva cen´rios
o c˜ a
de nõ-representatividade da mesma com rela¸õ ao evento e assim uma
a ca
maior instabilidade do modelo.
Uma alternativa de delineamento amostral que minimiza o efeito
desses fatores descritos, que podem causar instabilidade nos modelos,
´ compor a amostra de forma que os clientes possam ser selecionados
e

7

ca a

em v´rios pontos ao longo do tempo, comumente chamado de safras de
a
clientes. Por exemplo, no contexto de Credit Scoring a escolha de 12
safras ao longo de um ano minimiza consideravelmente a instabilidade
do modelo provocada pelos fatores descritos. A Figura 1.2 mostra um
delineamento com 12 safras para um horizonte de previsõ tamb´m de
a e
12 meses.

Figura 1.2: Delineamento amostral com horizonte de previsõ 12 meses
a
e 12 safras de clientes.

Por fim, podemos salientar que a defini¸õ do delineamento amos-
ca
tral est´ intimamente relacionado tamb´m com o volume de dados his-
a e
t´ricos e a estrutura de armazenamento dessas informa¸˜es encontradas
o co
nas empresas e institui¸oes financeiras, as quais podem permitir ou nõ
c˜ a
que a modelagem do evento de interesse se aproxime mais ou menos da
realidade observada.

1.2.1 Descri¸õ de um problema - Credit Scoring
ca
Em problemas de Credit Scoring, as informa¸˜es dispon´
co ıveis para
correlacionar com a inadimplˆncia do produto de cr´dito utilizado sõ as
e e a
pr´prias caracter´
o ısticas dos clientes e, algumas vezes, do produto. Dessa
forma, um modelo de Credit Scoring consiste em avaliar quais fatores
estõ associados ao risco de cr´dito dos clientes, assim como a intensidade
a e
e a dire¸ao de cada um desses fatores, gerando um escore final, os quais
c˜

8

ca a

potenciais clientes possam ser ordenados e/ou classificados, segundo uma
probabilidade de inadimplˆncia.
e
Como mencionado, uma situa¸õ comum em problemas de Credit
ca
Scoring ´ a presen¸a do desbalanceamento entre bons e maus clientes.
e c
Considere, por exemplo, uma base constitu´ de 600 mil clientes que
ıda
adquiriram um produto de cr´dito durante 6 meses, envolvendo, assim, 6
e
safras de clientes, com 594 mil bons e 6 mil maus pagadores. A descri¸ao c˜
das vari´veis presentes no conjunto de dados ´ apresentada na Tabela
a e
1.1. Estas vari´veis representam as caracter´
a ısticas cadastrais dos clientes,
os valores referentes aos cr´ditos concedidos juntamente com um flag
e
descrevendo seus desempenhos de pagamento nos 12 meses seguintes ao
da concessõ do cr´dito e informa¸õ do instante da ocorrˆncia de algum
a e ca e
problema de pagamento do cr´dito. Essas informa¸˜es sõ referentes aos
e co a
clientes para os quais j´ foram observados os desempenhos de pagamento
a
do cr´dito adquirido e servirõ para a constru¸ao dos modelos preditivos a
e a c˜
partir das metodologias regressõ log´
a ıstica e/ou an´lise de sobrevivˆncia.
a e
Estes modelos serõ aplicadas em futuros potenciais clientes, nos quais
a
serõ ordenados segundo uma “probabilidade” de inadimplˆncia e a partir
a e
da qual as pol´ıticas de cr´dito das institui¸oes possam ser definidas.
e c˜
Na constru¸ao dos modelos para este problema, de acordo com a
c˜
Figura 1.3, uma amostra de treinamento ´ selecionada utilizando a meto-
e
dologia de Oversampling. Isto pode ser feito considerando uma amostra
balanceada com 50% de bons clientes e 50% de maus clientes. A partir
dessa amostra buscamos atender as quantidades m´ ınimas sugeridas por
Lewis (1994) de 1.500 indiv´ ıduos para cada uma das categorias.

1.3 Determina¸õ da Pontua¸õ de Escore
ca ca
Uma vez determinado o planejamento amostral e obtidas as in-
forma¸oes necess´rias para o desenvolvimento do modelo, o pr´ximo
c˜ a o
passo ´ estabelecer qual tćnica estat´
e e ıstica ou matem´tica ser´ utilizada
a a
para a determina¸ao dos escores. Por´m, antes disso, alguns tratamentos
c˜ e
explorat´rios devem sempre ser realizados para que uma maior familia-
o

9

ca a

Tabela 1.1: Vari´veis dispon´
a ıveis no banco de dados.
Vari´veis
a Descri¸ao
c˜
ESTCIVIL Estado civil: solteiro / casado/ divorciado / vi´vo
u
TP CLIENTE Tipo de cliente
SEXO Sexo do cliente: Masc./ Fem.
SIT RESID Residˆncia: pr´pria / alugada
e o
P CARTAO Possui Cartõ? (Sim / Nõ)
a a
IDADE Idade do cliente (em anos)
TEMPORES Tempo de residˆncia (em anos)
e
TPEMPREG Tempo de empregol (em meses)
TEL COMERC Declarou telefone comercial?
OP CORRESP Correspondˆncia: Residencial / Comercial
e
COMP RENDA Uso da renda: < 10% / 10%-20% / > 20%;
LIM CRED Valor do Cr´dito Concedido
e
CEP COM CEP Comercial (2 posi¸˜es)
co
CEP RES CEP Residencial (2 posi¸˜es)
co
G PROF Grupo de profissõ a
REGIAO Regiõ do Cliente
a
STATUS Flag: Bom ou Mau
TEMPO Tempo at´ observar o evento inadimplˆncia
e e

riza¸ao com os dados possa ser obtida. Isto permite uma melhor defini¸õ
c˜ ca
da tćnica que ser´ utilizada e, consequentemente, um aprimoramento do
e a
desenvolvimento do modelo. Essa an´lise inicial tem alguns objetivos,
a
dentre os quais, destacam-se:

• identifica¸õ de eventuais inconsistˆncias e presen¸a de outliers;
ca e c

• compara¸ao dos comportamentos das covari´veis, no caso de um
c˜ a
Credit Scoring, entre a amostra de bons e maus pagadores, iden-
tificando, assim, potenciais vari´veis correlacionadas com o evento
a
modelado;

• defini¸ao de poss´
c˜ ıveis transforma¸˜es de vari´veis e a cria¸õ de
co a ca
novas a serem utilizadas nos modelos.

10

ca a

Figura 1.3: Amostra de Desenvolvimento Balanceada - 50% - bons x
50% maus.

1.3.1 Transforma¸õ e sele¸õ de vari´veis
ca ca a
Uma pr´tica muito comum, quando se desenvolve modelos de
a
Credit Scoring, ´ tratar as vari´veis como categ´ricas, independente da
e a o
natureza cont´ınua ou discreta, buscando, sempre que poss´ ıvel, a simpli-
cidade na interpreta¸ao dos resultados obtidos. Thomas et al. (2002)
c˜
sugere que essa categoriza¸ao ou reagrupamento deve ser feito tanto
c˜
para vari´veis originalmente cont´
a ınuas como para as categ´ricas. Para as
o
vari´veis de origem categ´rica, a idía ´ que se construa categorias com
a o e e
n´meros suficientes de indiv´
u ıduos para que se fa¸a uma an´lise robusta,
c a
principalmente, quando o n´mero de categorias ´ originalmente elevado
u e
e, em algumas, a frequˆncia ´ bastante pequena. As vari´veis cont´
e e a ınuas,
uma vez transformadas em categorias, ganham com rela¸õ a interpreta-
ca
bilidade dos parˆmetros. Gruenstein (1998) e Thomas et al. (2002) rela-
a
tam que esse tipo de transforma¸ao nas vari´veis cont´
c˜ a ınuas pode trazer
ganhos tamb´m no poder preditivo do modelo, principalmente quando a
e
covari´vel em questõ se relaciona de forma nõ-linear com o evento de
a a a
interesse, como por exemplo, no caso de um Credit Scoring.
Uma forma bastante utilizada para a transforma¸õ de vari´veis
ca a
cont´ınuas em categ´ricas, ou a recategoriza¸õ de uma vari´vel discreta,
o ca a

11

ca a

´ atrav´s da tćnica CHAID (Chi-Squared Automatic Interaction Detec-
e e e
tor), a qual divide a amostra em grupos menores, a partir da associa¸ao de c˜
uma ou mais covari´veis com a vari´vel resposta. A cria¸ao de categorias
a a c˜
para as covari´veis de natureza cont´
a ınua ou o reagrupamento das discre-
tas ´ baseada no teste de associa¸ao Qui-Quadrado, buscando a melhor
e c˜
categoriza¸ao da amostra com rela¸õ a cada uma dessas covari´veis ou
c˜ ca a
conjunto delas. Estas “novas” covari´veis podem, entõ, ser utilizadas na
a a
constru¸ao dos modelos, sendo ou nõ selecionadas, por algum m´todo de
c˜ a e
sele¸ao de vari´veis, para compor o modelo final. Um m´todo de sele¸õ
c˜ a e ca
de vari´veis muitas vezes utilizado ´ o stepwise. Este m´todo permite
a e e
determinar um conjunto de vari´veis estatisticamente significantes para
a
a ocorrˆncia de problemas de cr´dito dos clientes, atrav´s de entradas
e e e
e sa´ıdas das vari´veis potenciais utilizando o teste da razõ de veros-
a a
similhan¸a. Os n´
c ıveis de significˆncia de entrada e sa´ das vari´veis
a ıda a
utilizados pelo m´todo stepwise podem ser valores inferiores a 5%, a fim
e
de que a entrada e a permanˆncia de vari´veis “sem efeito pr´tico” sejam
e a a
minimizadas. Outro aspecto a ser considerado na sele¸ao de vari´veis,
c˜ a
al´m do crit´rio estat´
e e ıstico, ´ que a experiˆncia de especialistas da area
e e ´
de cr´dito juntamente com o bom senso na interpreta¸ao dos parˆmetros
e c˜ a
sejam, sempre que poss´ ıvel, utilizados.
Na constru¸ao de um modelo de Credit Scoring ´ fundamental
c˜ e
que este seja simples com rela¸ao ` clareza de sua interpreta¸õ e que
c˜ a ca
ainda mantenha um bom ajuste. Esse fato pode ser um ponto chave
para que ocorra um melhor entendimento, nõ apenas da area de desen-
a ´
volvimento dos modelos como tamb´m das demais ´reas das empresas,
e a
resultando, assim, no sucesso da utiliza¸õ dessa ferramenta.
ca

1.3.2 Regressõ log´
a ıstica
Um modelo de regressõ log´
a ıstica, com vari´vel resposta, Y , di-
a
cotˆmica, pode ser utilizado para descrever a rela¸ao entre a ocorrˆncia
o c˜ e
ou nõ de um evento de interesse e um conjunto de covari´veis. No
a a
contexto de Credit Scoring, o vetor de observa¸oes do cliente envolve
c˜
seu desempenho credit´ durante um determinado per´
ıcio ıodo de tempo,
normalmente de 12 meses, um conjunto de caracter´ ısticas observadas no

12

ca a

momento da solicita¸ao do cr´dito e, as vezes, informa¸oes ` respeito do
c˜ e ` c˜ a
pr´prio produto de cr´dito a ser utilizado, como por exemplo, n´mero de
o e u
parcelas, finalidade, valor do cr´dito entre outros.
e
Aplicando a metodologia apresentada na amostra de treinamento
e adotando um horizonte de previsõ de 12 meses, considere como vari´vel
a a
resposta a ocorrˆncia de falta de pagamento, maus clientes, y = 1, den-
e
tro desse per´ıodo, nõ importando o momento exato da ocorrˆncia da
a e
inadimplˆncia. Para um cliente que apresentou algum problema de pa-
e
gamento do cr´dito no in´ desses 12 meses de desempenho, digamos
e ıcio
o
no 3 mˆs, e um outro para o qual foi observado no final desse per´
e ıodo,
o o
no 10 ou 12 , por exemplo, ambos sõ considerados da mesma forma
a
como maus pagadores, nõ importando o tempo decorrido para o acon-
a
tecimento do evento. Por outro lado, os clientes para os quais nõ foi a
observada a inadimplˆncia, durante os 12 meses do per´
e ıodo de desempe-
nho do cr´dito, sõ considerados como bons pagadores para a constru¸ao
e a c˜
o
do modelo, mesmo aqueles que no 13 mˆs vierem a apresentar a falta de
e
pagamento.
´
E importante ressaltar que adotamos neste livro como evento de
interesse o cliente ser mau pagador. O mercado financeiro, geralmente,
trata como evento de interesse o cliente ser bom pagador.
O modelo ajustado, a partir da amostra de treinamento, utili-
zando a regressõ log´
a ıstica, fornece escores tal que, quanto maior o valor
obtido para os clientes, pior o desempenho de cr´dito esperado para eles,
e
uma vez que o mau pagador foi considerado como o evento de interesse.
Como mencionado, ´ comum no mercado definir como evento de interesse
e
o bom pagador, de forma que, quanto maior o escore, melhor ´ o cliente.
e
O modelo de regressõ log´
a ıstica ´ determinado pela rela¸ao
e c˜

pi
log = β0 + β1 x1 + . . . + βp xp ,
1 − pi

em que pi denota a probabilidade de um cliente com o perfil definido
pelas p covariadas, x1 , x2 , . . . , xp , ser um mau pagador. Estas covari´veis
a
sõ obtidas atrav´s de transforma¸oes, como descritas na se¸ao ante-
a e c˜ c˜
rior, sendo portanto consideradas e tratadas como dummies. Os valores
utilizados como escores finais dos clientes sõ obtidos, geralmente, mul-
a

13

ca a

tiplicando por 1.000 os valores estimados das probabilidades de sucesso,
pi .
ˆ
O modelo final obtido atrav´s da regressõ log´
e a ıstica para a amos-
tra balanceada encontra-se na Tabela 1.2. No Cap´ ıtulo 2 apresentamos
uma nova an´lise de dados em que o modelo de regressõ log´
a a ıstica usual,
sem considerar amostras balanceadas, ´ comparado ao modelo de re-
e
gressõ log´
a ıstica com sele¸õ de amostras state-dependent.
ca

Tabela 1.2 - Regressõ log´
a ıstica - amostra de treinamento.

O odds ratio, no contexto de Credit Scoring, ´ uma m´trica que
e e
representa o quõ mais prov´vel ´ de se observar a inadimplˆncia, para
a a e e
um indiv´ıduo em uma categoria espec´ ıfica da covari´vel em rela¸õ a
a ca
categoria de referˆncia, analisando os resultados do modelo obtido para
e
a amostra de treinamento, podemos observar:
- P CARTAO: o fato do cliente j´ possuir um outro produto
a
de cr´dito reduz sensivelmente a chance de apresentar algum problema
e
de cr´dito com a institui¸õ financeira. O valor do odds ratio de 0,369
e ca
indica que a chance de se observar algum problema para os clientes que
possuem um outro produto de cr´dito ´ 36,9% da chance de clientes que
e e
nõ possuem;
a
- ESTADO CIVIL=vi´vo: essa categoria contribui para o au-
u
mento da chance de se observar algum problema de inadimplˆncia dee

14

ca a

cr´dito. O valor 1,36 indica que a chance de ocorrer problema aumenta
e
em 36% nesta categoria em rela¸õ as demais;
ca `
- CLI ANT: o fato do cliente j´ possuir um relacionamento an-
a
terior com a institui¸ao faz com que chance de ocorrer problema seja
c˜
reduzida. O valor do odds ratio de 0,655 indica que a chance de se ob-
servar algum problema para um cliente que j´ possui um relacionamento
a
anterior ´ 65,5% da chance dos que sõ de primeiro relacionamento;
e a
- IDADE: para essa vari´vel, fica evidenciado que quanto menor
a
a idade dos clientes maior a chance de inadimplˆncia;
e
- TEMPO DE EMPREGO: pode-se notar que quanto menor o
tempo que o cliente tem no emprego atual maior a chance de ocorrer
problema de inadimplˆncia;
e
- TELEFONE COMERCIAL: a declara¸õ do telefone comer-
ca
cial pelos clientes indica uma chance menor de ocorrer problema de ina-
dimplˆncia;
e
- LIM CRED: essa covari´vel mostra que quanto menor o valor
a
concedido maior a chance de inadimplˆncia, sendo que os clientes com
e
valores abaixo de R$410,00 apresentam cerca de 22,5% a mais de chance
de ocorrer problemas do que aqueles com valores acima desse valor;
˜
- CEP RESIDENCIAL, COMERCIAL e PROFISSAO: os CEP´s
indicaram algumas regi˜es de maior chance de problema, o mesmo ocor-
o
rendo para as profiss˜es.
o

1.4 Valida¸õ e Compara¸õ dos Modelos
ca ca
Com o modelo de Credit Scoring constru´ ıdo, surge a seguinte
questõ: “Qual a qualidade deste modelo?”. A resposta para essa per-
a
gunta est´ relacionada com o quanto o escore produzido pelo modelo
a
consegue distinguir os eventos bons e maus pagadores, uma vez que de-
sejamos identificar previamente esses grupos e trat´-los de forma distinta
a
atrav´s de diferentes pol´
e ıticas de cr´dito.
e
Uma das idías envolvidas em medir o desempenho dos modelos
e
est´ em saber o quõ bem estes classificam os clientes. A l´gica e a
a a o
pr´tica sugerem que a avalia¸õ do modelo na pr´pria amostra, usada
a ca o
para o seu desenvolvimento, indica resultados melhores do que se testado

15

ca a

em uma outra amostra, uma vez que o modelo incorpora peculiaridades
inerentes da amostra utilizada para sua constru¸ao. Por isso, sugerimos,
c˜
quando o tamanho da amostra permitir e sempre que poss´ ıvel, que o
desempenho do modelo seja verificado em uma amostra distinta de seu
desenvolvimento.
No contexto de Credit Scoring, muitas vezes o tamanho da amos-
tra, na ordem de milhares de registros, permite que uma nova amostra
seja obtida para a valida¸õ dos modelos. Um aspecto importante na va-
ca
lida¸ao dos modelos ´ o temporal, em que a situa¸õ ideal para se testar
c˜ e ca
um modelo ´ a obten¸õ de amostras mais recentes. Isto permite que
e ca
uma medida de desempenho mais pr´xima da real e atual utiliza¸õ do
o ca
modelo possa ser alcan¸ada.
c
Em Estat´ıstica existem alguns m´todos padr˜es para descrever
e o
o quanto duas popula¸˜es sõ diferentes com rela¸ao a alguma carac-
co a c˜ `
ter´
ıstica medida e observada. Esses m´todos sõ utilizados no contexto
e a
de Credit Scoring com o objetivo de descrever o quanto os grupos de
bons e maus pagadores sõ diferentes com rela¸ao aos escores produzidos
a c˜
por um modelo constru´ e que necessita ser avaliado. Dessa forma,
ıdo
esses m´todos medem o quõ bem os escores separam os dois grupos e
e a
uma medida de separa¸ao muito utilizada para avaliar um modelo de
c˜
Credit Scoring ´ a estat´
e ıstica de Kolmogorov-Smirnov (KS). Os modelos
podem tamb´m ser avaliados e comparados atrav´s da curva ROC (Re-
e e
ceiver Operating Characteristic), a qual permite comparar o desempenho
de modelos atrav´s da escolha de crit´rios de classifica¸ao dos clientes
e e c˜
em bons e maus pagadores, de acordo com a escolha de diferentes pontos
de corte ao longo das amplitudes dos escores observadas para os modelos
obtidos. Por´m, muitas vezes o interesse est´ em avaliar o desempenho
e a
dos modelos em um unico ponto de corte escolhido, e assim medidas da
´
capacidade preditiva dos mesmos podem ser tamb´m consideradas.
e

1.4.1 A estat´
ıstica de Kolmogorov-Smirnov (KS)
Essa estat´
ıstica tem origem no teste de hip´tese nõ-param´trico
o a e
de Kolmogorov-Smirnov em que se deseja, a partir de duas amostras
retiradas de popula¸oes possivelmente distintas, testar se duas fun¸˜es
c˜ co

16

ca a

de distribui¸oes associadas `s duas popula¸˜es sõ idˆnticas ou nõ.
c˜ a co a e a
A estat´
ıstica KS mede o quanto estõ separadas as fun¸oes de
a c˜
distribui¸oes emp´
c˜ ıricas dos escores dos grupos de bons e maus pagado-
res. Sendo FB (e) = x≤ e FB (x) e FM (e) = x≤ e FM (x) a fun¸õ deca
distribui¸ao emp´
c˜ ırica dos bons e maus pagadores, respectivamente, a es-
tat´
ıstica de Kolmogorov-Smirnov ´ dada por
e

KS = m´x | FB (e) − FM (e) |,
a

em que FB (e) e FM (e) correspondem as propor¸˜es de clientes bons e
` co
maus com escore menor ou igual a e. A estat´ ıstica KS ´ obtida atrav´s
e e
da distˆncia m´xima entre essas duas propor¸oes acumuladas ao longo
a a c˜
dos escores obtidos pelos modelos, representada na Figura 1.4.

Figura 1.4: Fun¸oes distribui¸oes emp´
c˜ c˜ ıricas para os bons e maus clientes
e a estat´
ıstica KS.

O valor dessa estat´ıstica pode variar de 0% a 100%, sendo que
o valor m´ximo indica uma separa¸ao total dos escores dos bons e maus
a c˜
clientes e o valor m´ınimo sugere uma sobreposi¸ao total das distribui¸˜es
c˜ co
dos escores dos dois grupos. Na pr´tica, obviamente, os modelos fornecem
a
valores intermedi´rios entre esses dois extremos. A representa¸õ da
a ca
interpreta¸õ dessa estat´
ca ıstica pode ser vista na Figura 1.5.

17

ca a

Figura 1.5: Interpreta¸ao da estat´
c˜ ıstica KS.

O valor m´dio da estat´
e ıstica KS para 30 amostras testes com
aproximadamente 200 mil clientes retirados aleatoriamente da base total
de clientes foi 32,26% para a regressõ log´
a ıstica.
No mercado, o KS tamb´m ´ utilizado para verificar se o modelo,
e e
desenvolvido com um p´blico do passado, pode continuar a ser aplicado
u
para os novos entrantes. Dois diferentes KS sõ calculados. O KS1
a
analisa se o perfil dos novos clientes (ou o perfil dos clientes da base de
teste) ´ semelhante ao perfil dos clientes da base de desenvolvimento do
e
modelo. Esse ´ ındice ´ usado para comparar a distribui¸õ acumulada dos
e ca
escores dos clientes utilizados para o desenvolvimento do modelo com a
distribui¸ao acumulada dos escores dos novos entrantes (ou dos clientes
c˜
da base de teste). Quanto menor o valor do KS1 mais semelhante ´ o e
perfil do p´blico do desenvolvimento com o perfil dos novos clientes. O
u
KS2 avalia a performance do modelo. Ou seja, mede, para uma dada
safra, a m´xima distˆncia entre a distribui¸ao de frequˆncia acumulada
a a c˜ e
dos bons clientes em rela¸õ a distribui¸ao de frequˆncia acumulada dos
ca ` c˜ e
maus clientes.
A interpreta¸õ do ´
ca ındice para modelos de Credit Scoring segue,
em algumas institui¸˜es, a seguinte regra:
co

18

ca a

• KS < 10%: indica que nõ h´ discrimina¸õ entre os perfis de bons
a a ca
e maus clientes;

• 10% < KS < 20%: indica que a discrimina¸ao ´ baixa;
c˜ e

• KS > 20%: indica que o modelo discrimina o perfil de bons e maus.

1.4.2 Curva ROC
Os escores obtidos para os modelos de Credit Scoring devem,
normalmente, ser correlacionados com a ocorrˆncia de algum evento de
e
interesse, como por exemplo, a inadimplˆncia, permitindo assim, fazer
e
previs˜es a respeito da ocorrˆncia desse evento para que pol´
o e ıticas de
cr´dito diferenciadas possam ser adotadas pelo n´
e ıvel de escore obtido
para os indiv´ıduos.
Uma forma de se fazer previs˜es ´ estabelecer um ponto de corte
o e
no escore produzido pelos modelos. Clientes com valores iguais ou mai-
ores a esse ponto sõ classificados, por exemplo, como bons e abaixo
a
desse valor como maus pagadores. Para estabelecer e visualizar o c´lculo
a
dessas medidas podemos utilizar uma tabela 2x2 denominada matriz de
confusõ, representada na Figura 1.6
a

Figura 1.6: Matriz de Confusõ.
a

em que:
n : n´mero total de clientes na amostra;
u
bB : n´mero de bons clientes que foram classificados como Bons
u
(acerto);

19

ca a

mM : n´mero de maus clientes que foram classificados como Maus
u
(acerto);
mB : n´mero de bons clientes que foram classificados como Maus
u
(erro);
bM : n´mero de maus clientes que foram classificados como Bons
u
(erro);
B : n´mero total de bons clientes na amostra;
u
M : n´mero total de maus clientes na amostra;
u
b : n´mero total de clientes classificados como bons na amostra;
u
m : n´mero total de clientes classificados como maus na amostra;
u
Na area m´dica, duas medidas muito comuns e bastante utiliza-
´ e
das sõ a sensibilidade e a especificidade. Essas medidas, adaptadas ao
a
contexto de Credit Scoring, considerando o mau cliente como a categoria
de interesse, sõ definidas da seguinte forma:
a
Sensibilidade: probabilidade de um indiv´ ıduo ser classificado como
mau pagador, dado que realmente ´ mau;
e
Especificidade: probabilidade de um indiv´ ıduo ser classificado como
bom pagador, dado que realmente ´ bom;
e
Utilizando as frequˆncias mostradas na matriz de confusõ, te-
e a
mM bB
mos que a Sensibilidade ´ dada por M e a Especificidade por B .
e
A curva ROC (Zweig & Campbell, 1993) ´ constru´ variando
e ıda
os pontos de corte, cut-off, ao longo da amplitude dos escores fornecidos
pelos modelos, a fim de se obter as diferentes classifica¸˜es dos indiv´
co ıduos
e obtendo, consequentemente, os respectivos valores para as medidas
de Sensibilidade e Especificidade para cada ponto de corte estabelecido.
Assim, a curva ROC, ilustrada na Figura 1.7, ´ obtida tendo no seu
e
eixo horizontal os valores de (1-Especificidade), ou seja, a propor¸õ de
ca
bons clientes que sõ classificados como maus clientes pelo modelo, e no
a
eixo vertical a Sensibilidade, que ´ a propor¸ao de maus clientes que sõ
e c˜ a
classificados realmente como maus. Uma curva ROC obtida ao longo da
diagonal principal corresponde a uma classifica¸ao obtida sem a utiliza¸ao
c˜ c˜
de qualquer ferramenta preditiva, ou seja, sem a presen¸a de modelos.
c
Consequentemente, a curva ROC deve ser interpretada de forma que
quanto mais a curva estiver distante da diagonal principal, melhor o
desempenho do modelo em questõ. Esse fato sugere que quanto maior
a

20

ca a

for a area entre a curva ROC produzida e a diagonal principal, melhor o
´
desempenho global do modelo.

Figura 1.7: Exemplos de curva ROC.

Os pontos de corte ao longo dos escores fornecidos pelos mode-
los que apresentam bom poder discriminat´rio concentram-se no canto
o
superior esquerdo da curva ROC. A curva ROC apresenta sempre um con-
trabalan¸o entre a Sensibildade e a Especificidade ao se variar os pontos
c
de corte ao longo dos escores e pode ser usada para auxiliar na decisõ de
a
determinar o melhor ponto de corte. Em geral, o melhor cut-off ao longo
dos escores produz valores para as medidas de Sensibildade e Especifici-
dade que se localiza no “ombro” da curva, ou pr´ximo desse, ou seja, no
o
ponto mais a esquerda e superior poss´ ıvel, o qual ´ obtido considerando
e
como ponto de corte o escore que fornece a separa¸ao m´xima no teste
c˜ a
KS. Vale destacar que em problemas de Credit Scoring, normalmente,
crit´rios financeiros sõ utilizados na determina¸õ desse melhor ponto,
e a ca
sendo que valores como o quanto se perde em m´dia ao aprovar um cli-
e
ente que traz problemas de cr´dito e tamb´m o quanto se deixa de ganhar
e e
ao nõ aprovar o cr´dito para um cliente que nõ traria problemas para
a e a
a institui¸ao podem e devem ser considerados.
c˜
A partir da curva ROC temos a idía do desempenho do modelo
e

21

ca a

ao longo de toda amplitude dos escores produzidos pelos modelos.

1.4.3 Capacidade de acerto dos modelos
Em um modelo com vari´vel resposta bin´ria, como ocorre nor-
a a
malmente no caso de um Credit Scoring, temos o interesse em classificar
os indiv´ıduos em uma das duas categorias, bons ou maus clientes, e ob-
ter um bom grau de acerto nestas classifica¸oes. Como, geralmente, nas
c˜
amostras testes, em que os modelos sõ avaliados, se conhece a resposta
a
dos clientes em rela¸õ a sua condi¸õ de cr´dito, e estabelecendo crit´rios
ca ca e e
para classificar estes clientes em bons e maus, torna-se poss´ comparar
ıvel
a classifica¸ao obtida com a verdadeira condi¸õ credit´ dos clientes.
c˜ ca ıcia
A forma utilizada para estabelecer a matriz de confusõ, Figura
a
1.6, ´ determinar um ponto de corte (cutoff ) no escore final dos modelos
e
tal que, indiv´ ıduos com pontua¸ao acima desse cutoff sõ classificados
c˜ a
como bons, por exemplo, e abaixo desse valor como maus clientes e com-
parando essa classifica¸ao com a situa¸õ real de cada indiv´
c˜ ca ıduo. Essa
matriz descreve, portanto, uma tabula¸ao cruzada entre a classifica¸õ
c˜ ca
predita atrav´s de um unico ponto de corte e a condi¸õ real e conhe-
e ´ ca
cida de cada indiv´ ıduo, em que a diagonal principal representa as clas-
sifica¸oes corretas e valores fora dessa diagonal correspondem a erros de
c˜ `
classifica¸ao.
c˜
A partir da matriz de confusõ determinada por um ponto de
a
corte espec´ ıfico e representada pela Figura 1.6, algumas medidas de ca-
pacidade de acerto dos modelos sõ definidas a seguir:
a
bB +mM
• Capacidade de Acerto Total (CAT)= n

mM
• Capacidade de Acerto dos Maus Clientes (CAM)= M
(Especifici-
dade)
bB
• Capacidade de Acerto dos Bons Clientes (CAB)= B
(Sensibili-
dade)
bB
• Valor Preditivo Positivo (VPP)= bB +bM

mB
• Valor Preditivo Negativo (VPN) = mB +mM

22

ca a

bB +mB
• Prevalˆncia (PVL) =
e n

bB mM −bM mB
• Correla¸ao de Mathews (MCC) = √
c˜
(bB +bM )(bB +mB )(mM +bM )(mM +mB )

A Prevalˆncia, propor¸ao de observa¸oes propensas a caracte-
e c˜ c˜
r´
ıstica de interesse ou a probabilidade de uma observa¸õ apresentar a
ca
caracter´ıstica de interesse antes do modelo ser ajustado, ´ um medida de
e
extrema importˆncia, principalmente quando tratamos de eventos raros.
a
A Capacidade de Acerto Total ´ tamb´m conhecida como Acur´-
e e a
cia ou Propor¸ao de Acertos de um Modelo de Classifica¸ao. Esta medida
c˜ c˜
tamb´m pode ser vista como uma m´dia ponderada da sensibilidade e
e e
da especificidade em rela¸ao ao n´mero de observa¸oes que apresentam
c˜ u c˜
ou nõ a caracter´
a ca ´
ıstica de interesse de uma determinada popula¸õ. E
importante ressaltar que a acurćia nõ ´ uma medida que deve ser ana-
a a e
lisada isoladamente na escolha de um modelo, pois ´ influenciada pela
e
sensibilidade, especificidade e prevalˆncia. Al´m disso, dois modelos com
e e
sensibilidade e especificidade muito diferentes podem produzir valores se-
melhantes de acurćia, se forem aplicados a popula¸oes com prevalˆncias
a c˜ e
muito diferentes.
Para ilustrar o efeito da prevalˆncia na acurćia de um modelo,
e a
podemos supor uma popula¸ao que apresente 5% de seus integrantes com
c˜
a caracter´ıstica de interesse. Se um modelo classificar todos os indiv´
ıduos
como nõ portadores da caracter´
a ıstica, temos um percentual de acerto
de 95%, ou seja, a acurćia ´ alta e o modelo ´ pouco informativo.
a e e
O Valor Preditivo Positivo (VPP) de um modelo ´ a propor¸õ
e ca
de observa¸˜es representando o evento de interesse dentre os indiv´
co ıduos
que o modelo identificou como evento. J´ o Valor Preditivo Negativo
a
(VPN) ´ a propor¸õ de indiv´
e ca ıduos que representam nõ evento dentre
a
os identificados como nõ evento pelo modelo. Estas medidas devem
a
ser interpretadas com cautela, pois sofrem a influˆncia da prevalˆncia
e e
populacional.
Caso as estimativas da sensibilidade e da especificidade sejam
confi´veis, o valor preditivo positivo (VPP) pode ser estimado via Teo-
a
rema de Bayes, utilizando uma estimativa da prevalˆncia (Linnet, 1998)
e

23

ca a

SENS × PVL
V PP = ,
SENS × PVL + (1 − SPEC) × (1 − PVL)
com SENS usado para Sensibilidade e SPEC para Especificidade. Da
mesma forma, o valor preditivo negativo (VPN) pode ser estimado por

SPEC × (1 − PVL)
V PN = .
SPEC × (1 − PVL) + SENS × PVL
O MCC, proposto por Matthews (1975), ´ uma medida de desem-
e
´
penho que pode ser utilizada no caso de prevalˆncias extremas. E uma
e
adapta¸ao do Coeficiente de Correla¸õ de Pearson e mede o quanto as
c˜ ca
vari´veis que indicam a classifica¸ao original da resposta de interesse e
a c˜
a que corresponde a classifica¸ao do modelo obtida por meio do ponto
c˜
de corte adotado, ambas vari´veis assumindo valores 0 e 1, tendem a
a
apresentar o mesmo sinal de magnitude ap´s serem padronizadas (Baldi
o
et al., 2000).
O MCC retorna um valor entre -1 e +1. O valor 1 representa
uma previsõ perfeita, um acordo total, o valor 0 representa uma pre-
a
visõ completamente aleat´ria e -1 uma previsõ inversa, ou seja, total
a o a
desacordo. Observe que o MCC utiliza as 4 medidas apresentadas na
matriz de confusõ (bB , bM , mB , mM ).
a
O Custo Relativo, baseado em uma medida apresentada em Ben-
sic et al. (2005), ´ definido por CR = αC1 P1 + (1 − α)C2 P2 , em que α
e
representa a probabilidade de um proponente ser mau pagador, C1 ´ e
o custo de aceitar um mau pagador, C2 ´ o custo de rejeitar um bom
e
pagador, P1 ´ a probabilidade de ocorrer um falso negativo e P2 ´ a
e e
probabilidade de ocorrer um falso positivo.
Como na pr´tica nõ ´ fćil obter as estimativas de C1 e C2 , o
a a e a
custo ´ calculado considerando diversas propor¸oes entre C1 e C2 , com
e c˜
a restri¸õ C1 > C2 , ou seja, a perda em aceitar um mau pagador ´
ca e
maior do que o lucro perdido ao rejeitar um bom pagador. Bensic et
al. (2005) considera α como a prevalˆncia amostral, isto ´, sup˜e que
e e o
a prevalˆncia de maus pagadores nos portf´lios representa a prevalˆncia
e o e
real da popula¸õ de interesse.
ca

24

Cap´
ıtulo 2

Regressõ Log´
a ıstica

Os modelos de regressõ sõ utilizados para estudar e estabe-
a a
lecer uma rela¸ao entre uma vari´vel de interesse, denominada vari´vel
c˜ a a
resposta, e um conjunto de fatores ou atributos referentes a cada cliente,
geralmente encontrados na proposta de cr´dito, denominados covari´veis.
e a
No contexto de Credit Scoring, como a vari´vel de interesse ´
a e
bin´ria, a regressõ log´
a a ıstica ´ um dos m´todos estat´
e e ısticos utilizado com
bastante frequˆncia. Para uma vari´vel resposta dicotˆmica, o interesse ´
e a o e
modelar a propor¸ao de resposta de uma das duas categorias, em fun¸õ
c˜ ca
das covari´veis. E
a ´ comum adotarmos o valor 1 para a resposta de maior
interesse, denominada “sucesso”, o qual pode ser utilizado no caso de um
proponente ao cr´dito ser um bom ou um mau pagador.
e
Normalmente, quando constru´ ımos um modelo de Credit Sco-
ring, a amostra de desenvolvimento ´ formada pela sele¸õ dos clientes
e ca
contratados durante um per´ ıodo de tempo espec´ ıfico, sendo observado
o desempenho de pagamento desses clientes ao longo de um per´ ıodo de
tempo posterior e pr´-determinado, correspondente ao horizonte de pre-
e
visõ. Esse tempo ´ escolhido arbitrariamente entre 12 e 18 meses, sendo
a e
na pr´tica 12 meses o intervalo mais utilizado, como j´ mencionado no
a a
Cap´ ıtulo 1, em que a vari´vel resposta de interesse ´ classificada, por
a e
exemplo, em bons (y = 0) e maus (y = 1) pagadores, de acordo com a
e a e ´
ocorrˆncia ou nõ de problemas de cr´dito nesse intervalo. E importante
chamar a aten¸ao que ambos os per´
c˜ ıodos — de sele¸õ da amostra e de
ca
desempenho de pagamento — estõ no passado, portanto a ocorrˆncia
a e

25

Regressõ Log´
a ıstica

ou nõ do evento modelado j´ deve ter sido observada.
a a
Sejam x = (x1 , x2 , . . . , xk ) o vetor de valores de atributos que
caracterizam um cliente e π(x) a propor¸ao de maus pagadores em fun¸ao
c˜ c˜
do perfil dos clientes, definido e caracterizado por x. Neste caso, o modelo
log´
ıstico ´ adequado para definir uma rela¸õ entre a probabilidade de
e ca
um cliente ser mau pagador e um conjunto de fatores ou atributos que
o caracterizam. Esta rela¸ao ´ definida pela fun¸ao ou transforma¸ao
c˜ e c˜ c˜
logito dada pela expressõa

π(x)
log = β0 + β1 x1 + . . . + βk xk ,
1 − π(x)

em que π(x) ´ definido como
e

exp(β0 + β1 x1 + . . . + βk xk )
π(x) = ,
1 + exp(β0 + β1 x1 + . . . + βk xk )

e pode ser interpretado como a probabilidade de um proponente ao
cr´dito ser um mau pagador dado as caracter´
e ısticas que possui, repre-
sentadas por x. No caso da atribui¸ao da categoria bom pagador, as
c˜
interpreta¸˜es sõ an´logas.
co a a

2.1 Estima¸õ dos Coeficientes
ca
Dada uma amostra de n clientes (yi , xi ), sendo yi a vari´vel res-
a
posta — bons e maus pagadores — e xi = (xi1 , xi2 , . . . , xik ) , em que
xi1 , xi2 , . . . , xik sõ os valores dos k atributos observados do i-´simo cli-
a e
ente, i = 1, . . . , n, o ajuste do modelo log´ ıstico consiste em estimar os
parˆmetros βj , j = 1, 2, . . . , k, os quais definem π(x).
a
Os parˆmetros sõ geralmente estimados pelo m´todo de m´xi-
a a e a
ma verossimilhan¸a (Hosmer & Lemeshow, 2000). Por este m´todo, os
c e
coeficientes sõ estimados de maneira a maximizar a probabilidade de se
a
obter o conjunto de dados observados a partir do modelo proposto. Para
o m´todo ser aplicado, primeiramente constru´
e ımos a fun¸ao de verossimi-
c˜
lhan¸a que expressa a probabilidade dos dados observados, como fun¸õ
c ca

26

Livro risco de credito

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (7)

Semelhante a Livro risco de credito

Semelhante a Livro risco de credito (20)

Livro risco de credito