Livro risco de credito

2.483 visualizações

Publicada em

0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
2.483
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
109
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Livro risco de credito

  1. 1. Modelagem Estat´ ıstica Para Risco de Cr´dito e Carlos Diniz Francisco LouzadaABE - Associa¸˜o Brasileira de Estat´ ca ıstica 20o SINAPE Julho / 2012
  2. 2. Modelagem Estat´ ıstica Para Risco de Cr´dito e Carlos Diniz DEs–UFSCar Francisco Louzada ICMC–USP Colaboradores H´lio J. Abreu e Nat´lia M. Ferreira a Paulo H. Ferreira Ricardo F. Rocha Agatha S. Rodrigues Fernanda N. Scacabarozi Anderson L. de Sousa 20o SINAPESimp´sio Nacional de Probabilidade e Estat´ o ıstica 30/07 a 03/08 – 2012 Hotel Tamba´, Jo˜o Pessoa-PB u a
  3. 3. Pref´cio a Historicamente, os modelos de Credit Scoring compreendem umadas principais ferramentas de suporte a concess˜o de cr´dito. O desenvol- ` a evimento de tais modelos baseia-se, geralmente, na constru¸ao de um pro- c˜cedimento formal para descrever quais caracter´ ısticas dos clientes est˜o,aefetivamente, relacionadas com o seu risco de cr´dito e qual a intensidade ee dire¸˜o desse relacionamento. A id´ia central consiste na gera¸˜o de ca e caum escore ou de um grupo de escores atrav´s dos quais clientes potenci- eais possam ser ordenados segundo a sua chance de inadimplˆncia. Nesteelivro apresentamos os procedimentos estat´ ısticos comumente utilizadosna modelagem de Credit Scoring. O presente livro tem como base cinco disserta¸˜es de mestrado, codefendidas no Programa de P´s-gradua¸˜o em Estat´ o ca ıstica da UFSCar,um trabalho de conclus˜o de curso do Bacharelado em Estat´ a ıstica daUFSCar e um trabalho de Inicia¸ao Cient´ c˜ ıfica. Trata-se das disserta¸oes c˜de Fernanda Nanci Scacabarozi, intitulada Modelagem de Eventos Raros:Uma Compara¸ao e de Nat´lia Manduca Ferreira, intitulada Presen¸a de c a cDados Missing em Modelos de Regress˜o Log´stica, as quais foram orien- a ıtadas pelo Prof. Carlos Diniz; as disserta¸oes de H´lio Jos´ de Abreu, in- c˜ e etitulada Aplica¸˜o de An´lise de Sobrevivˆncia em um Problema de Cre- ca a edit Scoring e Compara¸˜o com a Regress˜o Log´stica, de Ricardo Ferreira ca a ıda Rocha, intitulada Combina¸˜o de Classificadores para Inferˆncia dos ca eRejeitados e de Anderson Lu´ de Sousa, intitulada Redes Probabil´sticas ıs ıde k-Dependˆncia para Problemas de Classifica¸˜o Bin´ria, os quais fo- e ca aram orientados pelo Prof. Francisco Louzada; o trabalho de conclus˜o de acurso de Agatha Sacramento Rodrigues, intitulado Regress˜o Log´stica a ıcom Erro de Medida, orientada pelo Prof. Carlos Diniz e o trabalho deInicia¸ao Cient´ c˜ ıfica de Paulo Henrique Ferreira da Silva, intitulado Me-didas do Valor Preditivo de Modelos de Classifica¸˜o Aplicados a Dados cade Cr´dito, orientado pelo Prof. Francisco Louzada. e O livro ´ composto por 9 cap´ e ıtulos. No Cap´ ıtulo 1 apresentamosas principais etapas de desenvolvimento de um modelo de Credit Sco-ring. No Cap´ ıtulo 2 apresentamos a metodologia usualmente utilizadano contexto de risco de cr´dito, ou seja, modelo de regress˜o log´ e a ıstica e
  4. 4. abordamos tamb´m regress˜o log´ e a ıstica com erro de medida. No Cap´ ıtulo3 apresentamos os principais modelos que podem ser utilizados em si-tua¸oes de eventos raros, tais como fraude e n˜o pagamento da primeira c˜ afatura. No Cap´ ıtulo 4 apresentamos algumas das t´cnicas associadas ` e ainferˆncia dos rejeitados. No Cap´ e ıtulo 5 apresentamos t´cnicas de com- ebina¸ao de modelos para dados financeiros. O Cap´ c˜ ıtulo 6 trata de an´lise ade dados financeiros com a presen¸a de dados missing. Modelos alterna- ctivos aos modelos usuais de cr´dito s˜o apresentados nos Cap´ e a ıtulos 7 a 9.No Cap´ ıtulo 7 apresentamos a metodologia de redes probabil´ ısticas. NosCap´ ıtulos 8 e 9 apresentamos a metodologia de an´lise de sobrevivˆncia a ee modelos de longa dura¸˜o, respectivamente. ca Agradecemos aos alunos do Programa de Doutorado em Estat´ ıs-tica, DEs -UFSCar, Rubiane Maria Pires, Carolina Costa Mota Para´ e ıbaVitor Alex Alves de Marchi, a ex-aluna do Programa de Mestrado SimoneCristina Obage e aos colegas de Departamento Teresa Cristina MartinsDias, M´rcio Luis Lanfredi Viola e Luis Ernesto Bueno Salasar, pela aleitura minuciosa e pelas valiosas cr´ ıticas e sugest˜es que contribu´ o ırampara o enriquecimento do texto. Agradecemos tamb´m ` Associa¸˜o e a ca oBrasileira de Estat´ ıstica (ABE) e a Comiss˜o Organizadora do 20 SI- ` aNAPE pela oportunidade que nos foi proporcionada para ministrarmoseste minicurso.S˜o Carlos, 20 de abril de 2012. aCarlos Diniz e Francisco Louzada ii
  5. 5. Sum´rio a1 Introdu¸˜o ` Modelagem de Credit Scoring ca a 1 1.1 Etapas de Desenvolvimento . . . . . . . . . . . . . . . . 3 1.2 Planejamento Amostral . . . . . . . . . . . . . . . . . . . 3 1.2.1 Descri¸˜o de um problema - Credit Scoring ca . . . . 8 1.3 Determina¸˜o da Pontua¸ao de Escore . . . . . . ca c˜ . . . . 9 1.3.1 Transforma¸˜o e sele¸˜o de vari´veis . . . ca ca a . . . . 11 1.3.2 Regress˜o log´ a ıstica . . . . . . . . . . . . . . . . . 12 1.4 Valida¸ao e Compara¸ao dos Modelos . . . . . . . c˜ c˜ . . . . 15 1.4.1 A estat´ ıstica de Kolmogorov-Smirnov (KS) . . . . 16 1.4.2 Curva ROC . . . . . . . . . . . . . . . . . . . . . 19 1.4.3 Capacidade de acerto dos modelos . . . . . . . . . 222 Regress˜o Log´ a ıstica 25 2.1 Estima¸ao dos Coeficientes . . . . . . . . . . . . . c˜ . . . . 26 2.2 Intervalos de Confian¸a e Sele¸ao de Vari´veis . . c c˜ a . . . . 28 2.3 Interpreta¸˜o dos Coeficientes do Modelo . . . . . ca . . . . 30 2.4 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . . c˜ . . . . 31 2.5 Amostras State-Dependent . . . . . . . . . . . . . . . . . 34 2.5.1 M´todo de corre¸˜o a priori . . . . . . . . e ca . . . . 36 2.6 Estudo de Compara¸ao . . . . . . . . . . . . . . . c˜ . . . . 37 2.6.1 Medidas de desempenho . . . . . . . . . . . . . . 37 2.6.2 Probabilidades de inadimplˆncia estimadas e . . . . 38 2.7 Regress˜o Log´ a ıstica com Erro de Medida . . . . . . . . . 39 2.7.1 Fun¸ao de verossimilhan¸a . . . . . . . . . c˜ c . . . . 41 2.7.2 M´todos de estima¸˜o . . . . . . . . . . . e ca . . . . 42 2.7.3 Renda presumida . . . . . . . . . . . . . . . . . . 43 iii
  6. 6. ´SUMARIO3 Modelagem Para Eventos Raros 45 3.1 Estimadores KZ para o Modelo de Regress˜o Log´ a ıstica . 46 3.1.1 Corre¸˜o nos parˆmetros . . . . . . . . . . . . . ca a . 47 3.1.2 Corre¸˜o nas probabilidades estimadas . . . . . ca . 48 3.2 Modelo Logito Limitado . . . . . . . . . . . . . . . . . . 50 3.2.1 Estima¸˜o . . . . . . . . . . . . . . . . . . . . . ca . 51 3.2.2 M´todo BFGS . . . . . . . . . . . . . . . . . . . e . 52 3.3 Modelo Logito Generalizado . . . . . . . . . . . . . . . . 53 3.3.1 Estima¸˜o . . . . . . . . . . . . . . . . . . . . . ca . 55 3.4 Modelo Logito com Resposta de Origem . . . . . . . . . 57 3.4.1 Modelo normal . . . . . . . . . . . . . . . . . . . 57 3.4.2 Modelo exponencial . . . . . . . . . . . . . . . . . 59 3.4.3 Modelo lognormal . . . . . . . . . . . . . . . . . . 59 3.4.4 Estudo de simula¸ao . . . . . . . . . . . . . . . c˜ . 60 3.5 An´lise de Dados Reais . . . . . . . . . . . . . . . . . . a . 634 Credit Scoring com Inferˆncia dos Rejeitados e 67 4.1 M´todos de Inferˆncia dos Rejeitados . . . . e e . . . . . . . 68 4.1.1 M´todo da reclassifica¸˜o . . . . . . . e ca . . . . . . . 68 4.1.2 M´todo da pondera¸ao . . . . . . . . e c˜ . . . . . . . 69 4.1.3 M´todo do parcelamento . . . . . . . e . . . . . . . 70 4.1.4 Outros m´todos . . . . . . . . . . . . e . . . . . . . 71 4.2 Aplica¸ao . . . . . . . . . . . . . . . . . . . c˜ . . . . . . . 725 Combina¸˜o de Modelos de Credit Scoring ca 76 5.1 Bagging de Modelos . . . . . . . . . . . . . . . . . . . . . 76 5.2 M´todos de Combina¸˜o . . . . . . . . . . e ca . . . . . . . . 78 5.2.1 Combina¸ao via m´dia . . . . . . . c˜ e . . . . . . . . 78 5.2.2 Combina¸ao via voto . . . . . . . . c˜ . . . . . . . . 79 5.2.3 Combina¸ao via regress˜o log´ c˜ a ıstica . . . . . . . . 80 5.3 Aplica¸ao . . . . . . . . . . . . . . . . . . c˜ . . . . . . . . 806 Dados Missing em Modelos de Credit Scoring 85 6.1 Dados Missing . . . . . . . . . . . . . . . . . . . . . . . 86 6.2 Modelos e Mecanismos Missing . . . . . . . . . . . . . . 87 6.2.1 Modelos de valores missing . . . . . . . . . . . . 88 iv
  7. 7. ´SUMARIO 6.2.2 Mecanismos de valores missing . . . . . . . . . . 90 6.3 Modelo Log´ıstico com Missing . . . . . . . . . . . . . . . 93 6.3.1 Estima¸˜o de m´xima verossimilhan¸a ca a c . . . . . . 94 6.3.2 Caso completo . . . . . . . . . . . . . . . . . . . . 97 6.3.3 Caso completo corrigido . . . . . . . . . . . . . . 98 6.3.4 Imputa¸˜es simples e m´ltipla . . . . . co u . . . . . . 99 6.4 Uso da Quadratura Gaussiana . . . . . . . . . . . . . . . 99 6.5 Estudo de Simula¸ao . . . . . . . . . . . . . . c˜ . . . . . . 101 6.5.1 Dados completos . . . . . . . . . . . . . . . . . . 102 6.5.2 M´todo EMVG . . . . . . . . . . . . . e . . . . . . 104 6.5.3 Resultados . . . . . . . . . . . . . . . . . . . . . . 1077 Redes Probabil´ ısticas 115 7.1 Conceitos Probabil´ ısticos . . . . . . . . . . . . . . . . . . 115 7.1.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . 116 7.1.2 Distribui¸˜es multinomial e Dirichlet . . . co . . . . 116 7.1.3 Distribui¸˜o normal - uni e multivariada . ca . . . . 118 7.1.4 Entropia . . . . . . . . . . . . . . . . . . . . . . . 118 7.1.5 Informa¸˜o m´tua . . . . . . . . . . . . . ca u . . . . 119 7.2 Redes Probabil´ısticas . . . . . . . . . . . . . . . . . . . . 121 7.2.1 Elementos b´sicos . . . . . . . . . . . . . . a . . . . 121 7.2.2 Estruturas de teoria de grafos . . . . . . . . . . . 121 7.2.3 Exemplo b´sico de uma rede probabil´ a ıstica . . . . 123 7.2.4 Constru¸˜o de uma rede probabil´ ca ıstica . . . . . . 124 7.3 Inferˆncia . . . . . . . . . . . . . . . . . . . . . . e . . . . 125 7.3.1 Estima¸˜o de estruturas de classifica¸ao . ca c˜ . . . . 125 7.3.2 Estima¸˜o de parˆmetros . . . . . . . . . . ca a . . . . 131 7.4 Compara¸˜o entre os m´todos de classifica¸ao . . ca e c˜ . . . . 1328 An´lise de Sobrevivˆncia a e 137 8.1 Algumas Defini¸oes Usuais . . . . . . . . . . . . . . . . . c˜ 138 8.2 Modelo de Cox . . . . . . . . . . . . . . . . . . . . . . . 142 8.2.1 Modelo para compara¸ao de dois perfis de clientes c˜ 143 8.2.2 A generaliza¸˜o do modelo de riscos proporcionais ca 144 8.2.3 Ajuste de um modelo de riscos proporcionais . . . 146 v
  8. 8. ´SUMARIO 8.2.4 Tratamento de empates . . . . . . . . . . . . . . . 151 8.3 Intervalos de Confian¸a e Sele¸ao de Vari´veis c c˜ a . . . . . . 154 8.4 Estima¸ao da Fun¸ao de Risco e Sobrevivˆncia c˜ c˜ e . . . . . . 155 8.5 Interpreta¸˜o dos Coeficientes . . . . . . . . . ca . . . . . . 157 8.6 Aplica¸ao . . . . . . . . . . . . . . . . . . . . c˜ . . . . . . 1599 Modelo de Longa Dura¸˜o ca 163 9.1 Modelo de Mistura Geral . . . . . . . . . . . . . . . . . . 163 9.2 Estima¸ao do modelo longa dura¸ao geral . . . . . . . . . 165 c˜ c˜ 9.3 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . 167 c˜ vi
  9. 9. Cap´ ıtulo 1Introdu¸˜o ` Modelagem de ca aCredit Scoring A partir de 1933, ano da publica¸ao do primeiro volume da re- c˜vista Econometrica, intensificou-se o desenvolvimento de m´todos es-etat´ısticos para, dentre outros objetivos, testar teorias econˆmicas, avaliar oe implementar pol´ ıticas comerciais, estimar rela¸oes econˆmicas e dar su- c˜ oporte ` concess˜o de cr´dito. a a e Os primeiros modelos de Credit Scoring foram desenvolvidos en-tre os anos 40 e 50 e a metodologia b´sica, aplicada a esse tipo de pro- ablema, era orientada por m´todos de discrimina¸ao produzidos por Fisher e c˜(1936). Podemos dizer que foi de Durand (1941) o primeiro trabalho co-nhecido que utilizou an´lise discriminante para um problema de cr´dito, a eem que as t´cnicas desenvolvidas por Fisher foram empregadas para dis- ecriminar bons e maus empr´stimos. e Henry Markowitz (Markowitz, 1952) foi um dos pioneiros nacria¸ao de um modelo estat´ c˜ ıstico para o uso financeiro, o qual foi uti-lizado para medir o efeito da diversifica¸ao no risco total de uma carteira c˜de ativos. Fischer Black e Myron Scholes (Black & Scholes, 1973) desenvol-veram um modelo cl´ssico para a precifica¸˜o de uma op¸˜o, uma das a ca camais importantes f´rmulas usadas no mercado financeiro. o Diretores do Citicorp, em 1984, lan¸aram o livro Risco e Recom- cpensa: O Neg´cio de Cr´dito ao Consumidor, com as primeiras men¸oes o e c˜ 1
  10. 10. Introdu¸˜o ` Modelagem de Credit Scoring ca aao modelo de Credit Scoring, que ´ um tipo de modelo de escore, baseado eem dados cadastrais dos clientes, e ´ utilizado nas decis˜es de aceita¸˜o e o cade proponentes a cr´ditos; ao modelo de Behaviour Scoring, que ´ um e emodelo de escore, baseado em dados transacionais, utilizado nas decis˜es ode manuten¸ao ou renova¸ao de linhas e produtos para os j´ clientes e ao c˜ c˜ amodelo Collection Scoring, que ´ tamb´m um modelo de escore, baseado e eem dados transacionais de clientes inadimplentes, utilizado nas decis˜es ode prioriza¸ao de estrat´gias de cobran¸as. Estes e v´rios outros mo- c˜ e c adelos s˜o utilizados como uma das principais ferramentas de suporte a a `concess˜o de cr´dito em in´meras institui¸˜es financeiras no mundo. a e u co Na realidade, os modelos estat´ ısticos passaram a ser um impor-tante instrumento para ajudar os gestores de risco, gestores de fundos,bancos de investimento, gestores de cr´ditos e gestores de cobran¸a a e ctomarem decis˜es corretas e, por esta raz˜o, as institui¸˜es financeiras o a copassaram a aprimor´-los continuamente. Em especial, a concess˜o de a acr´dito ganhou for¸a na rentabilidade das empresas do setor financeiro, e cse tornando uma das principais fontes de receita e, por isso, rapidamente,este setor percebeu a necessidade de se aumentar o volume de recursosconcedidos sem perder a agilidade e a qualidade dos empr´stimos, e nesse eponto a contribui¸ao da modelagem estat´ c˜ ıstica foi essencial. Diferentes tipos de modelos s˜o utilizados no problema de cr´dito, a ecom o intuito de alcan¸ar melhorias na redu¸˜o do risco e/ou no aumento c cada rentabilidade. Entre os quais, podemos citar, a regress˜o log´ a ıstica elinear, an´lise de sobrevivˆncia, redes probabil´ a e ısticas, arvores de classi- ´fica¸ao, algoritmos gen´ticos e redes neurais. Neste livro tratamos de c˜ ediferentes problemas presentes na constru¸ao de modelos de regress˜o c˜ alog´ ıstica para Credit Scoring e sugerimos metodologias estat´ ısticas pararesolvˆ-los. Al´m disso, apresentamos metodologias alternativas de an´lise e e ade sobrevivˆncia e redes probabil´ e ısticas. O processo de desenvolvimento de um modelo de cr´dito envolve ev´rias etapas, entre as quais Planejamento Amostral, Determina¸˜o da a caPontua¸˜o de Escore e Valida¸˜o e Compara¸˜o de Modelos. Apresenta- ca ca camos nas pr´ximas se¸˜es discuss˜es sobre algumas destas etapas. o co o 2
  11. 11. Introdu¸˜o ` Modelagem de Credit Scoring ca a1.1 Etapas de Desenvolvimento O desenvolvimento de um modelo de Credit Scoring consiste, deuma forma geral, em determinar uma fun¸ao das vari´veis cadastrais c˜ ados clientes que possa auxiliar na tomada de decis˜o para aprova¸˜o de a cacr´dito, envolvendo cart˜es de cr´ditos, cheque especial, atribui¸ao de e o e c˜limite, financiamento de ve´ıculo, imobili´rio e varejo. a Normalmente esses modelos s˜o desenvolvidos a partir de ba- ases hist´ricas de performance de cr´dito dos clientes e tamb´m de in- o e eforma¸oes pertinentes ao produto. O desenvolvimento de um modelo de c˜Credit Scoring (Sics´, 1998) compreende nas seguintes etapas: u i) Planejamento e defini¸oes; c˜ ii) Identifica¸ao de vari´veis potenciais; c˜ a iii) Planejamento amostral; iv) Determina¸ao do escore: aplica¸ao da metodologia estat´ c˜ c˜ ıstica; v) Valida¸ao e verifica¸˜o de performance do modelo estat´ c˜ ca ıstico; vi) Determina¸ao do ponto de corte ou faixas de escore; c˜ vii) Determina¸˜o de regra de decis˜o. ca a As etapas iii), iv) e v), por estarem associadas a modelagem, s˜o ` aapresentadas com mais detalhes nas pr´ximas se¸oes. o c˜1.2 Planejamento Amostral Para a obten¸˜o da amostra, na constru¸˜o de um modelo de ca caCredit Scoring, ´ importante que defini¸˜es como, para qual produto ou e cofam´ de produtos e para qual ou quais mercados o modelo ser´ desen- ılia avolvido, sejam levadas em considera¸ao. A base de dados utilizada para c˜a constru¸ao de um modelo ´ formada por clientes cujos cr´ditos foram c˜ e econcedidos e seus desempenhos foram observados durante um per´ ıodo detempo no passado. Esse passado, cujas informa¸oes s˜o retiradas, deve c˜ a 3
  12. 12. Introdu¸˜o ` Modelagem de Credit Scoring ca aser o mais recente poss´ a fim de que n˜o se trabalhe com opera¸oes ıvel a c˜de cr´dito remotas que n˜o sejam representativas da realidade atual. e a Uma premissa fundamental na constru¸˜o de modelos de Credit caScoring, e preditivos em geral, ´ que a forma como as vari´veis cadastrais e ase relacionaram com o desempenho de cr´dito no passado, seja similar eno futuro. Um fator importante a ser considerado na constru¸˜o do modelo ´ ca eo horizonte de previs˜o, sendo necess´rio estabelecer um espa¸o de tempo a a cpara a previs˜o do Credit Scoring, ou seja, o intervalo entre a solicita¸˜o a cado cr´dito e a classifica¸ao como bom ou mau cliente. Esse ser´ tamb´m e c˜ a eo intervalo para o qual o modelo permitir´ fazer as previs˜es de quais a oindiv´ ıduos ser˜o mais ou menos prov´veis de se tornarem inadimplentes a aou de serem menos rent´veis. A regra ´ de 12 a 18 meses, por´m na a e epr´tica observamos que um intervalo de 12 meses ´ o mais utilizado. a e Thomas et al. (2002) tamb´m prop˜e um per´ e o ıodo de 12 mesespara modelos de Credit Scoring, sugerindo que a taxa de inadimplˆncia edos clientes das empresas financeiras em fun¸ao do tempo aumenta no c˜in´ ıcio, estabilizando somente ap´s 12 meses. Assim, qualquer horizonte omais breve do que esse pode n˜o refletir de forma real o percentual de amaus clientes prejudicando uma poss´ associa¸ao entre as caracter´ ıvel c˜ ıs-ticas dos indiv´ ıduos e o evento de interesse modelado, no caso, a ina-dimplˆncia. Por outro lado, a escolha de um intervalo de tempo muito elongo para o horizonte de previs˜o tamb´m pode n˜o trazer benef´ a e a ıcios, fa-zendo com que a efic´cia do modelo diminua, uma vez que, pela distˆncia a atemporal, os eventos se tornam pouco correlacionados com potenciaisvari´veis cadastrais, normalmente, obtidas no momento da solicita¸˜o do a cacr´dito. e O fator tempo tem uma importˆncia fundamental na constru¸ao a c˜de modelos preditivos e, de forma geral, tem trˆs importantes etapas, ecomo mostra a Figura 1.1. O passado ´ composto pelas opera¸oes para e c˜as quais j´ foram observados os desempenhos de cr´dito durante um a ehorizonte de previs˜o adotado. As informa¸˜es cadastrais dos clientes a cono momento da concess˜o do cr´dito, levantadas no passado mais dis- a etante, s˜o utilizadas como vari´veis de entrada para o desenvolvimento a ado modelo e os dados do passado mais recente, as observa¸oes dos de- c˜ 4
  13. 13. Introdu¸˜o ` Modelagem de Credit Scoring ca asempenhos de cr´dito dos clientes, default ou n˜o default, inadimplentes e aou adimplentes, s˜o utilizados para a determina¸ao da vari´vel resposta. a c˜ aFigura 1.1: Estrutura temporal das informa¸oes para constru¸ao de mo- c˜ c˜delos preditivos. ´ E importante ressaltar que as vari´veis de entrada para a cons- atru¸ao do modelo sejam baseadas em informa¸oes, que necessariamente, c˜ c˜ocorreram antes de qualquer informa¸ao utilizada para gerar a vari´vel c˜ aresposta de interesse. Se dividirmos o passado em per´ ıodos de observa¸˜o cae desempenho. O per´ ıodo de observa¸˜o compreende o per´ ca ıodo de tempono qual s˜o obtidas e observadas as informa¸˜es potencialmente relevan- a cotes para o evento de interesse, ou seja, o per´ ıodo em que se constr´ioe obt´m as vari´veis explanat´rias. Em um modelo de Credit Scoring e a oesse per´ıodo compreende na realidade um unico instante, sendo o mo- ´mento em que um cliente busca obter um produto de cr´dito, podendo eser chamado de ponto de observa¸˜o. O per´ ca ıodo de desempenho ´ o in- etervalo de tempo em que ´ observado a ocorrˆncia ou n˜o do evento de e e ainteresse. Esse per´ ıodo corresponde a um intervalo de tempo do mesmotamanho do horizonte de previs˜o adotado para a constru¸˜o do modelo. a caO presente corresponde ao per´ ıodo de desenvolvimento do modelo emque, normalmente, as informa¸oes referentes a esse per´ c˜ ıodo ainda n˜oaest˜o dispon´ a ıveis, uma vez que est˜o sendo geradas pelos sistemas das ainstitui¸oes. O futuro ´ o per´ c˜ e ıodo de tempo para o qual ser˜o feitas as apredi¸oes, utilizando-se de informa¸˜es do presente, do passado e das c˜ corela¸oes entre estas, que foram determinadas na constru¸ao do modelo. c˜ c˜ Um alerta importante ´ que modelos preditivos, constru´ e ıdos a 5
  14. 14. Introdu¸˜o ` Modelagem de Credit Scoring ca apartir de dados hist´ricos, podem se ajustar bem no passado, possuindo ouma boa capacidade preditiva. Por´m, o mesmo n˜o ocorre quando apli- e acados a dados mais recentes. A performance desses modelos pode serafetada tamb´m pela raridade do evento modelado, em que existe difi- eculdade em encontrar indiv´ ıduos com o atributo de interesse. No con-texto de Credit Scoring isso pode ocorrer quando a amostra ´ selecionada epontualmente, em um unico mˆs, semana etc, n˜o havendo n´mero de ´ e a uindiv´ıduos suficientes para encontrar as diferen¸as de padr˜es desejadas c oentre bons e maus pagadores. Dessa forma, o dimensionamento da amos-tra ´ um fator extremamente relevante no desenvolvimento de modelos ede Credit Scoring. A utiliza¸˜o de um tratamento estat´ ca ıstico formal para determinaro tamanho da amostra seria complexa, dependendo de v´rios fatores acomo o n´mero e o tipo de vari´veis envolvidas no estudo. u a Dividir a amostra em duas partes, treinamento (ou desenvol-vimento) e teste (ou valida¸ao), ´ conveniente e resulta em benef´ c˜ e ıciost´cnicos. Isto ´ feito para que possamos verificar o desempenho e com- e eparar os dispon´ ´ ıveis modelos. E interessante que a amostra seja sufici-entemente grande de forma que permita uma poss´ divis˜o desse tipo. ıvel aPor´m, sempre que poss´ e ıvel, essa divis˜o jamais deve substituir a va- alida¸ao de modelos em um conjunto de dados mais recente. Lewis (1994) c˜sugere que, em geral, amostras com tamanhos menores de 1500 clientesbons e 1500 maus, podem inviabilizar a constru¸˜o de modelos com ca- capacidade preditiva aceit´vel para um modelo de Credit Scoring, al´m de a en˜o permitir a sua divis˜o. a a Em grande parte das aplica¸oes de modelagem com vari´vel res- c˜ aposta bin´ria, um desbalanceamento significativo, muitas vezes da ordem ade 20 bons para 1 mau, ´ observado entre o n´mero de bons e maus paga- e udores nas bases de clientes das institui¸oes. Essa situa¸ao pode prejudi- c˜ c˜car o desenvolvimento do modelo, uma vez que o n´mero de maus pode user muito pequeno e insuficiente para estabelecer perfis com rela¸ao as c˜ `vari´veis explanat´rias e tamb´m para observar poss´ a o e ıveis diferen¸as em crela¸ao aos bons cliente. Dessa forma, uma amostragem aleat´ria sim- c˜ oples nem sempre ´ indicada para essa situa¸ao, sendo necess´ria a uti- e c˜ aliza¸ao de uma metodologia denominada Oversampling ou State Depen- c˜ 6
  15. 15. Introdu¸˜o ` Modelagem de Credit Scoring ca adent, que consiste em aumentar a propor¸˜o do evento raro, ou, mesmo can˜o sendo t˜o raro, da categoria que menos aparece na amostra. Esta a at´cnica trabalha com diferentes propor¸oes de cada categoria, sendo co- e c˜nhecida tamb´m como amostra aleat´ria estratificada. Mais detalhes a e orespeito da t´cnica State Dependent s˜o apresentados no Cap´ e a ıtulo 2. Berry & Linoff (2000) expressam, em um problema com a vari´vel aresposta assumindo dois resultados poss´ ıveis, a id´ia de se ter na amos- etra de desenvolvimento para a categoria mais rara ou menos frequenteentre 10% e 40% dos indiv´ ıduos. Thomas et al. (2002) sugere que asamostras em um modelo de Credit Scoring tendem a estar em uma pro-por¸ao de 1:1, de bons e maus clientes, ou algo em torno desse valor. c˜Uma situa¸ao t´ c˜ ıpica de ocorrer ´ selecionar todos os maus pagadores eposs´ıveis juntamente com uma amostra de mesmo tamanho de bons pa-gadores para o desenvolvimento do modelo. Nos casos em que a vari´vel aresposta de interesse possui distribui¸˜o dicotˆmica extremamente des- ca obalanceada, algo em torno de 3% ou menos de eventos, comum quandoo evento de interesse ´ fraude, existem alguns estudos que revelam que o emodelo de regress˜o log´ a ıstica usual subestima a probabilidade do eventode interesse (King & Zeng, 2001). Al´m disso, os estimadores de m´xima e averossimilhan¸a dos parˆmetros do modelo de regress˜o log´ c a a ıstica s˜o vi- aciados nestes casos. O Cap´ ıtulo 3 apresenta uma metodologia espec´ ıficapara situa¸ao de eventos raros. c˜ A sazonalidade na ocorrˆncia do evento modelado ´ um outro fa- e etor a ser considerado no planejamento amostral. Por exemplo, a sele¸ao c˜da amostra envolvendo momentos espec´ ıficos no tempo em que o com-portamento do evento ´ at´ e ıpico, pode afetar e comprometer diretamenteo desempenho do modelo. Outro aspecto n˜o menos importante ´ com a erela¸ao a variabilidade da ocorrˆncia do evento, uma vez que pode estar c˜ esujeito a fatores externos e n˜o-control´veis, como por exemplo a conjun- a atura econˆmica, que faz com que a sele¸ao da amostra envolva cen´rios o c˜ ade n˜o-representatividade da mesma com rela¸˜o ao evento e assim uma a camaior instabilidade do modelo. Uma alternativa de delineamento amostral que minimiza o efeitodesses fatores descritos, que podem causar instabilidade nos modelos,´ compor a amostra de forma que os clientes possam ser selecionadose 7
  16. 16. Introdu¸˜o ` Modelagem de Credit Scoring ca aem v´rios pontos ao longo do tempo, comumente chamado de safras de aclientes. Por exemplo, no contexto de Credit Scoring a escolha de 12safras ao longo de um ano minimiza consideravelmente a instabilidadedo modelo provocada pelos fatores descritos. A Figura 1.2 mostra umdelineamento com 12 safras para um horizonte de previs˜o tamb´m de a e12 meses.Figura 1.2: Delineamento amostral com horizonte de previs˜o 12 meses ae 12 safras de clientes. Por fim, podemos salientar que a defini¸˜o do delineamento amos- catral est´ intimamente relacionado tamb´m com o volume de dados his- a et´ricos e a estrutura de armazenamento dessas informa¸˜es encontradas o conas empresas e institui¸oes financeiras, as quais podem permitir ou n˜o c˜ aque a modelagem do evento de interesse se aproxime mais ou menos darealidade observada.1.2.1 Descri¸˜o de um problema - Credit Scoring ca Em problemas de Credit Scoring, as informa¸˜es dispon´ co ıveis paracorrelacionar com a inadimplˆncia do produto de cr´dito utilizado s˜o as e e apr´prias caracter´ o ısticas dos clientes e, algumas vezes, do produto. Dessaforma, um modelo de Credit Scoring consiste em avaliar quais fatoresest˜o associados ao risco de cr´dito dos clientes, assim como a intensidade a ee a dire¸ao de cada um desses fatores, gerando um escore final, os quais c˜ 8
  17. 17. Introdu¸˜o ` Modelagem de Credit Scoring ca apotenciais clientes possam ser ordenados e/ou classificados, segundo umaprobabilidade de inadimplˆncia. e Como mencionado, uma situa¸˜o comum em problemas de Credit caScoring ´ a presen¸a do desbalanceamento entre bons e maus clientes. e cConsidere, por exemplo, uma base constitu´ de 600 mil clientes que ıdaadquiriram um produto de cr´dito durante 6 meses, envolvendo, assim, 6 esafras de clientes, com 594 mil bons e 6 mil maus pagadores. A descri¸ao c˜das vari´veis presentes no conjunto de dados ´ apresentada na Tabela a e1.1. Estas vari´veis representam as caracter´ a ısticas cadastrais dos clientes,os valores referentes aos cr´ditos concedidos juntamente com um flag edescrevendo seus desempenhos de pagamento nos 12 meses seguintes aoda concess˜o do cr´dito e informa¸˜o do instante da ocorrˆncia de algum a e ca eproblema de pagamento do cr´dito. Essas informa¸˜es s˜o referentes aos e co aclientes para os quais j´ foram observados os desempenhos de pagamento ado cr´dito adquirido e servir˜o para a constru¸ao dos modelos preditivos a e a c˜partir das metodologias regress˜o log´ a ıstica e/ou an´lise de sobrevivˆncia. a eEstes modelos ser˜o aplicadas em futuros potenciais clientes, nos quais aser˜o ordenados segundo uma “probabilidade” de inadimplˆncia e a partir a eda qual as pol´ıticas de cr´dito das institui¸oes possam ser definidas. e c˜ Na constru¸ao dos modelos para este problema, de acordo com a c˜Figura 1.3, uma amostra de treinamento ´ selecionada utilizando a meto- edologia de Oversampling. Isto pode ser feito considerando uma amostrabalanceada com 50% de bons clientes e 50% de maus clientes. A partirdessa amostra buscamos atender as quantidades m´ ınimas sugeridas porLewis (1994) de 1.500 indiv´ ıduos para cada uma das categorias.1.3 Determina¸˜o da Pontua¸˜o de Escore ca ca Uma vez determinado o planejamento amostral e obtidas as in-forma¸oes necess´rias para o desenvolvimento do modelo, o pr´ximo c˜ a opasso ´ estabelecer qual t´cnica estat´ e e ıstica ou matem´tica ser´ utilizada a apara a determina¸ao dos escores. Por´m, antes disso, alguns tratamentos c˜ eexplorat´rios devem sempre ser realizados para que uma maior familia- o 9
  18. 18. Introdu¸˜o ` Modelagem de Credit Scoring ca a Tabela 1.1: Vari´veis dispon´ a ıveis no banco de dados. Vari´veis a Descri¸ao c˜ ESTCIVIL Estado civil: solteiro / casado/ divorciado / vi´vo u TP CLIENTE Tipo de cliente SEXO Sexo do cliente: Masc./ Fem. SIT RESID Residˆncia: pr´pria / alugada e o P CARTAO Possui Cart˜o? (Sim / N˜o) a a IDADE Idade do cliente (em anos) TEMPORES Tempo de residˆncia (em anos) e TPEMPREG Tempo de empregol (em meses) TEL COMERC Declarou telefone comercial? OP CORRESP Correspondˆncia: Residencial / Comercial e COMP RENDA Uso da renda: < 10% / 10%-20% / > 20%; LIM CRED Valor do Cr´dito Concedido e CEP COM CEP Comercial (2 posi¸˜es) co CEP RES CEP Residencial (2 posi¸˜es) co G PROF Grupo de profiss˜o a REGIAO Regi˜o do Cliente a STATUS Flag: Bom ou Mau TEMPO Tempo at´ observar o evento inadimplˆncia e eriza¸ao com os dados possa ser obtida. Isto permite uma melhor defini¸˜o c˜ cada t´cnica que ser´ utilizada e, consequentemente, um aprimoramento do e adesenvolvimento do modelo. Essa an´lise inicial tem alguns objetivos, adentre os quais, destacam-se: • identifica¸˜o de eventuais inconsistˆncias e presen¸a de outliers; ca e c • compara¸ao dos comportamentos das covari´veis, no caso de um c˜ a Credit Scoring, entre a amostra de bons e maus pagadores, iden- tificando, assim, potenciais vari´veis correlacionadas com o evento a modelado; • defini¸ao de poss´ c˜ ıveis transforma¸˜es de vari´veis e a cria¸˜o de co a ca novas a serem utilizadas nos modelos. 10
  19. 19. Introdu¸˜o ` Modelagem de Credit Scoring ca aFigura 1.3: Amostra de Desenvolvimento Balanceada - 50% - bons x50% maus.1.3.1 Transforma¸˜o e sele¸˜o de vari´veis ca ca a Uma pr´tica muito comum, quando se desenvolve modelos de aCredit Scoring, ´ tratar as vari´veis como categ´ricas, independente da e a onatureza cont´ınua ou discreta, buscando, sempre que poss´ ıvel, a simpli-cidade na interpreta¸ao dos resultados obtidos. Thomas et al. (2002) c˜sugere que essa categoriza¸ao ou reagrupamento deve ser feito tanto c˜para vari´veis originalmente cont´ a ınuas como para as categ´ricas. Para as ovari´veis de origem categ´rica, a id´ia ´ que se construa categorias com a o e en´meros suficientes de indiv´ u ıduos para que se fa¸a uma an´lise robusta, c aprincipalmente, quando o n´mero de categorias ´ originalmente elevado u ee, em algumas, a frequˆncia ´ bastante pequena. As vari´veis cont´ e e a ınuas,uma vez transformadas em categorias, ganham com rela¸˜o a interpreta- cabilidade dos parˆmetros. Gruenstein (1998) e Thomas et al. (2002) rela- atam que esse tipo de transforma¸ao nas vari´veis cont´ c˜ a ınuas pode trazerganhos tamb´m no poder preditivo do modelo, principalmente quando a ecovari´vel em quest˜o se relaciona de forma n˜o-linear com o evento de a a ainteresse, como por exemplo, no caso de um Credit Scoring. Uma forma bastante utilizada para a transforma¸˜o de vari´veis ca acont´ınuas em categ´ricas, ou a recategoriza¸˜o de uma vari´vel discreta, o ca a 11
  20. 20. Introdu¸˜o ` Modelagem de Credit Scoring ca a´ atrav´s da t´cnica CHAID (Chi-Squared Automatic Interaction Detec-e e etor), a qual divide a amostra em grupos menores, a partir da associa¸ao de c˜uma ou mais covari´veis com a vari´vel resposta. A cria¸ao de categorias a a c˜para as covari´veis de natureza cont´ a ınua ou o reagrupamento das discre-tas ´ baseada no teste de associa¸ao Qui-Quadrado, buscando a melhor e c˜categoriza¸ao da amostra com rela¸˜o a cada uma dessas covari´veis ou c˜ ca aconjunto delas. Estas “novas” covari´veis podem, ent˜o, ser utilizadas na a aconstru¸ao dos modelos, sendo ou n˜o selecionadas, por algum m´todo de c˜ a esele¸ao de vari´veis, para compor o modelo final. Um m´todo de sele¸˜o c˜ a e cade vari´veis muitas vezes utilizado ´ o stepwise. Este m´todo permite a e edeterminar um conjunto de vari´veis estatisticamente significantes para aa ocorrˆncia de problemas de cr´dito dos clientes, atrav´s de entradas e e ee sa´ıdas das vari´veis potenciais utilizando o teste da raz˜o de veros- a asimilhan¸a. Os n´ c ıveis de significˆncia de entrada e sa´ das vari´veis a ıda autilizados pelo m´todo stepwise podem ser valores inferiores a 5%, a fim ede que a entrada e a permanˆncia de vari´veis “sem efeito pr´tico” sejam e a aminimizadas. Outro aspecto a ser considerado na sele¸ao de vari´veis, c˜ aal´m do crit´rio estat´ e e ıstico, ´ que a experiˆncia de especialistas da area e e ´de cr´dito juntamente com o bom senso na interpreta¸ao dos parˆmetros e c˜ asejam, sempre que poss´ ıvel, utilizados. Na constru¸ao de um modelo de Credit Scoring ´ fundamental c˜ eque este seja simples com rela¸ao ` clareza de sua interpreta¸˜o e que c˜ a caainda mantenha um bom ajuste. Esse fato pode ser um ponto chavepara que ocorra um melhor entendimento, n˜o apenas da area de desen- a ´volvimento dos modelos como tamb´m das demais ´reas das empresas, e aresultando, assim, no sucesso da utiliza¸˜o dessa ferramenta. ca1.3.2 Regress˜o log´ a ıstica Um modelo de regress˜o log´ a ıstica, com vari´vel resposta, Y , di- acotˆmica, pode ser utilizado para descrever a rela¸ao entre a ocorrˆncia o c˜ eou n˜o de um evento de interesse e um conjunto de covari´veis. No a acontexto de Credit Scoring, o vetor de observa¸oes do cliente envolve c˜seu desempenho credit´ durante um determinado per´ ıcio ıodo de tempo,normalmente de 12 meses, um conjunto de caracter´ ısticas observadas no 12
  21. 21. Introdu¸˜o ` Modelagem de Credit Scoring ca amomento da solicita¸ao do cr´dito e, as vezes, informa¸oes ` respeito do c˜ e ` c˜ apr´prio produto de cr´dito a ser utilizado, como por exemplo, n´mero de o e uparcelas, finalidade, valor do cr´dito entre outros. e Aplicando a metodologia apresentada na amostra de treinamentoe adotando um horizonte de previs˜o de 12 meses, considere como vari´vel a aresposta a ocorrˆncia de falta de pagamento, maus clientes, y = 1, den- etro desse per´ıodo, n˜o importando o momento exato da ocorrˆncia da a einadimplˆncia. Para um cliente que apresentou algum problema de pa- egamento do cr´dito no in´ desses 12 meses de desempenho, digamos e ıcio ono 3 mˆs, e um outro para o qual foi observado no final desse per´ e ıodo, o ono 10 ou 12 , por exemplo, ambos s˜o considerados da mesma forma acomo maus pagadores, n˜o importando o tempo decorrido para o acon- atecimento do evento. Por outro lado, os clientes para os quais n˜o foi aobservada a inadimplˆncia, durante os 12 meses do per´ e ıodo de desempe-nho do cr´dito, s˜o considerados como bons pagadores para a constru¸ao e a c˜ odo modelo, mesmo aqueles que no 13 mˆs vierem a apresentar a falta de epagamento. ´ E importante ressaltar que adotamos neste livro como evento deinteresse o cliente ser mau pagador. O mercado financeiro, geralmente,trata como evento de interesse o cliente ser bom pagador. O modelo ajustado, a partir da amostra de treinamento, utili-zando a regress˜o log´ a ıstica, fornece escores tal que, quanto maior o valorobtido para os clientes, pior o desempenho de cr´dito esperado para eles, euma vez que o mau pagador foi considerado como o evento de interesse.Como mencionado, ´ comum no mercado definir como evento de interesse eo bom pagador, de forma que, quanto maior o escore, melhor ´ o cliente. e O modelo de regress˜o log´ a ıstica ´ determinado pela rela¸ao e c˜ pi log = β0 + β1 x1 + . . . + βp xp , 1 − piem que pi denota a probabilidade de um cliente com o perfil definidopelas p covariadas, x1 , x2 , . . . , xp , ser um mau pagador. Estas covari´veis as˜o obtidas atrav´s de transforma¸oes, como descritas na se¸ao ante- a e c˜ c˜rior, sendo portanto consideradas e tratadas como dummies. Os valoresutilizados como escores finais dos clientes s˜o obtidos, geralmente, mul- a 13
  22. 22. Introdu¸˜o ` Modelagem de Credit Scoring ca atiplicando por 1.000 os valores estimados das probabilidades de sucesso,pi .ˆ O modelo final obtido atrav´s da regress˜o log´ e a ıstica para a amos-tra balanceada encontra-se na Tabela 1.2. No Cap´ ıtulo 2 apresentamosuma nova an´lise de dados em que o modelo de regress˜o log´ a a ıstica usual,sem considerar amostras balanceadas, ´ comparado ao modelo de re- egress˜o log´ a ıstica com sele¸˜o de amostras state-dependent. ca Tabela 1.2 - Regress˜o log´ a ıstica - amostra de treinamento. O odds ratio, no contexto de Credit Scoring, ´ uma m´trica que e erepresenta o qu˜o mais prov´vel ´ de se observar a inadimplˆncia, para a a e eum indiv´ıduo em uma categoria espec´ ıfica da covari´vel em rela¸˜o a a cacategoria de referˆncia, analisando os resultados do modelo obtido para ea amostra de treinamento, podemos observar: - P CARTAO: o fato do cliente j´ possuir um outro produto ade cr´dito reduz sensivelmente a chance de apresentar algum problema ede cr´dito com a institui¸˜o financeira. O valor do odds ratio de 0,369 e caindica que a chance de se observar algum problema para os clientes quepossuem um outro produto de cr´dito ´ 36,9% da chance de clientes que e en˜o possuem; a - ESTADO CIVIL=vi´vo: essa categoria contribui para o au- umento da chance de se observar algum problema de inadimplˆncia dee 14
  23. 23. Introdu¸˜o ` Modelagem de Credit Scoring ca acr´dito. O valor 1,36 indica que a chance de ocorrer problema aumenta eem 36% nesta categoria em rela¸˜o as demais; ca ` - CLI ANT: o fato do cliente j´ possuir um relacionamento an- aterior com a institui¸ao faz com que chance de ocorrer problema seja c˜reduzida. O valor do odds ratio de 0,655 indica que a chance de se ob-servar algum problema para um cliente que j´ possui um relacionamento aanterior ´ 65,5% da chance dos que s˜o de primeiro relacionamento; e a - IDADE: para essa vari´vel, fica evidenciado que quanto menor aa idade dos clientes maior a chance de inadimplˆncia; e - TEMPO DE EMPREGO: pode-se notar que quanto menor otempo que o cliente tem no emprego atual maior a chance de ocorrerproblema de inadimplˆncia; e - TELEFONE COMERCIAL: a declara¸˜o do telefone comer- cacial pelos clientes indica uma chance menor de ocorrer problema de ina-dimplˆncia; e - LIM CRED: essa covari´vel mostra que quanto menor o valor aconcedido maior a chance de inadimplˆncia, sendo que os clientes com evalores abaixo de R$410,00 apresentam cerca de 22,5% a mais de chancede ocorrer problemas do que aqueles com valores acima desse valor; ˜ - CEP RESIDENCIAL, COMERCIAL e PROFISSAO: os CEP´sindicaram algumas regi˜es de maior chance de problema, o mesmo ocor- orendo para as profiss˜es. o1.4 Valida¸˜o e Compara¸˜o dos Modelos ca ca Com o modelo de Credit Scoring constru´ ıdo, surge a seguintequest˜o: “Qual a qualidade deste modelo?”. A resposta para essa per- agunta est´ relacionada com o quanto o escore produzido pelo modelo aconsegue distinguir os eventos bons e maus pagadores, uma vez que de-sejamos identificar previamente esses grupos e trat´-los de forma distinta aatrav´s de diferentes pol´ e ıticas de cr´dito. e Uma das id´ias envolvidas em medir o desempenho dos modelos eest´ em saber o qu˜o bem estes classificam os clientes. A l´gica e a a a opr´tica sugerem que a avalia¸˜o do modelo na pr´pria amostra, usada a ca opara o seu desenvolvimento, indica resultados melhores do que se testado 15
  24. 24. Introdu¸˜o ` Modelagem de Credit Scoring ca aem uma outra amostra, uma vez que o modelo incorpora peculiaridadesinerentes da amostra utilizada para sua constru¸ao. Por isso, sugerimos, c˜quando o tamanho da amostra permitir e sempre que poss´ ıvel, que odesempenho do modelo seja verificado em uma amostra distinta de seudesenvolvimento. No contexto de Credit Scoring, muitas vezes o tamanho da amos-tra, na ordem de milhares de registros, permite que uma nova amostraseja obtida para a valida¸˜o dos modelos. Um aspecto importante na va- calida¸ao dos modelos ´ o temporal, em que a situa¸˜o ideal para se testar c˜ e caum modelo ´ a obten¸˜o de amostras mais recentes. Isto permite que e cauma medida de desempenho mais pr´xima da real e atual utiliza¸˜o do o camodelo possa ser alcan¸ada. c Em Estat´ıstica existem alguns m´todos padr˜es para descrever e oo quanto duas popula¸˜es s˜o diferentes com rela¸ao a alguma carac- co a c˜ `ter´ ıstica medida e observada. Esses m´todos s˜o utilizados no contexto e ade Credit Scoring com o objetivo de descrever o quanto os grupos debons e maus pagadores s˜o diferentes com rela¸ao aos escores produzidos a c˜por um modelo constru´ e que necessita ser avaliado. Dessa forma, ıdoesses m´todos medem o qu˜o bem os escores separam os dois grupos e e auma medida de separa¸ao muito utilizada para avaliar um modelo de c˜Credit Scoring ´ a estat´ e ıstica de Kolmogorov-Smirnov (KS). Os modelospodem tamb´m ser avaliados e comparados atrav´s da curva ROC (Re- e eceiver Operating Characteristic), a qual permite comparar o desempenhode modelos atrav´s da escolha de crit´rios de classifica¸ao dos clientes e e c˜em bons e maus pagadores, de acordo com a escolha de diferentes pontosde corte ao longo das amplitudes dos escores observadas para os modelosobtidos. Por´m, muitas vezes o interesse est´ em avaliar o desempenho e ados modelos em um unico ponto de corte escolhido, e assim medidas da ´capacidade preditiva dos mesmos podem ser tamb´m consideradas. e1.4.1 A estat´ ıstica de Kolmogorov-Smirnov (KS) Essa estat´ ıstica tem origem no teste de hip´tese n˜o-param´trico o a ede Kolmogorov-Smirnov em que se deseja, a partir de duas amostrasretiradas de popula¸oes possivelmente distintas, testar se duas fun¸˜es c˜ co 16
  25. 25. Introdu¸˜o ` Modelagem de Credit Scoring ca ade distribui¸oes associadas `s duas popula¸˜es s˜o idˆnticas ou n˜o. c˜ a co a e a A estat´ ıstica KS mede o quanto est˜o separadas as fun¸oes de a c˜distribui¸oes emp´ c˜ ıricas dos escores dos grupos de bons e maus pagado-res. Sendo FB (e) = x≤ e FB (x) e FM (e) = x≤ e FM (x) a fun¸˜o decadistribui¸ao emp´ c˜ ırica dos bons e maus pagadores, respectivamente, a es-tat´ ıstica de Kolmogorov-Smirnov ´ dada por e KS = m´x | FB (e) − FM (e) |, aem que FB (e) e FM (e) correspondem as propor¸˜es de clientes bons e ` comaus com escore menor ou igual a e. A estat´ ıstica KS ´ obtida atrav´s e eda distˆncia m´xima entre essas duas propor¸oes acumuladas ao longo a a c˜dos escores obtidos pelos modelos, representada na Figura 1.4.Figura 1.4: Fun¸oes distribui¸oes emp´ c˜ c˜ ıricas para os bons e maus clientese a estat´ ıstica KS. O valor dessa estat´ıstica pode variar de 0% a 100%, sendo queo valor m´ximo indica uma separa¸ao total dos escores dos bons e maus a c˜clientes e o valor m´ınimo sugere uma sobreposi¸ao total das distribui¸˜es c˜ codos escores dos dois grupos. Na pr´tica, obviamente, os modelos fornecem avalores intermedi´rios entre esses dois extremos. A representa¸˜o da a cainterpreta¸˜o dessa estat´ ca ıstica pode ser vista na Figura 1.5. 17
  26. 26. Introdu¸˜o ` Modelagem de Credit Scoring ca a Figura 1.5: Interpreta¸ao da estat´ c˜ ıstica KS. O valor m´dio da estat´ e ıstica KS para 30 amostras testes comaproximadamente 200 mil clientes retirados aleatoriamente da base totalde clientes foi 32,26% para a regress˜o log´ a ıstica. No mercado, o KS tamb´m ´ utilizado para verificar se o modelo, e edesenvolvido com um p´blico do passado, pode continuar a ser aplicado upara os novos entrantes. Dois diferentes KS s˜o calculados. O KS1 aanalisa se o perfil dos novos clientes (ou o perfil dos clientes da base deteste) ´ semelhante ao perfil dos clientes da base de desenvolvimento do emodelo. Esse ´ ındice ´ usado para comparar a distribui¸˜o acumulada dos e caescores dos clientes utilizados para o desenvolvimento do modelo com adistribui¸ao acumulada dos escores dos novos entrantes (ou dos clientes c˜da base de teste). Quanto menor o valor do KS1 mais semelhante ´ o eperfil do p´blico do desenvolvimento com o perfil dos novos clientes. O uKS2 avalia a performance do modelo. Ou seja, mede, para uma dadasafra, a m´xima distˆncia entre a distribui¸ao de frequˆncia acumulada a a c˜ edos bons clientes em rela¸˜o a distribui¸ao de frequˆncia acumulada dos ca ` c˜ emaus clientes. A interpreta¸˜o do ´ ca ındice para modelos de Credit Scoring segue,em algumas institui¸˜es, a seguinte regra: co 18
  27. 27. Introdu¸˜o ` Modelagem de Credit Scoring ca a • KS < 10%: indica que n˜o h´ discrimina¸˜o entre os perfis de bons a a ca e maus clientes; • 10% < KS < 20%: indica que a discrimina¸ao ´ baixa; c˜ e • KS > 20%: indica que o modelo discrimina o perfil de bons e maus.1.4.2 Curva ROC Os escores obtidos para os modelos de Credit Scoring devem,normalmente, ser correlacionados com a ocorrˆncia de algum evento de einteresse, como por exemplo, a inadimplˆncia, permitindo assim, fazer eprevis˜es a respeito da ocorrˆncia desse evento para que pol´ o e ıticas decr´dito diferenciadas possam ser adotadas pelo n´ e ıvel de escore obtidopara os indiv´ıduos. Uma forma de se fazer previs˜es ´ estabelecer um ponto de corte o eno escore produzido pelos modelos. Clientes com valores iguais ou mai-ores a esse ponto s˜o classificados, por exemplo, como bons e abaixo adesse valor como maus pagadores. Para estabelecer e visualizar o c´lculo adessas medidas podemos utilizar uma tabela 2x2 denominada matriz deconfus˜o, representada na Figura 1.6 a Figura 1.6: Matriz de Confus˜o. a em que: n : n´mero total de clientes na amostra; u bB : n´mero de bons clientes que foram classificados como Bons u(acerto); 19
  28. 28. Introdu¸˜o ` Modelagem de Credit Scoring ca a mM : n´mero de maus clientes que foram classificados como Maus u(acerto); mB : n´mero de bons clientes que foram classificados como Maus u(erro); bM : n´mero de maus clientes que foram classificados como Bons u(erro); B : n´mero total de bons clientes na amostra; u M : n´mero total de maus clientes na amostra; u b : n´mero total de clientes classificados como bons na amostra; u m : n´mero total de clientes classificados como maus na amostra; u Na area m´dica, duas medidas muito comuns e bastante utiliza- ´ edas s˜o a sensibilidade e a especificidade. Essas medidas, adaptadas ao acontexto de Credit Scoring, considerando o mau cliente como a categoriade interesse, s˜o definidas da seguinte forma: a Sensibilidade: probabilidade de um indiv´ ıduo ser classificado comomau pagador, dado que realmente ´ mau; e Especificidade: probabilidade de um indiv´ ıduo ser classificado comobom pagador, dado que realmente ´ bom; e Utilizando as frequˆncias mostradas na matriz de confus˜o, te- e a mM bBmos que a Sensibilidade ´ dada por M e a Especificidade por B . e A curva ROC (Zweig & Campbell, 1993) ´ constru´ variando e ıdaos pontos de corte, cut-off, ao longo da amplitude dos escores fornecidospelos modelos, a fim de se obter as diferentes classifica¸˜es dos indiv´ co ıduose obtendo, consequentemente, os respectivos valores para as medidasde Sensibilidade e Especificidade para cada ponto de corte estabelecido.Assim, a curva ROC, ilustrada na Figura 1.7, ´ obtida tendo no seu eeixo horizontal os valores de (1-Especificidade), ou seja, a propor¸˜o de cabons clientes que s˜o classificados como maus clientes pelo modelo, e no aeixo vertical a Sensibilidade, que ´ a propor¸ao de maus clientes que s˜o e c˜ aclassificados realmente como maus. Uma curva ROC obtida ao longo dadiagonal principal corresponde a uma classifica¸ao obtida sem a utiliza¸ao c˜ c˜de qualquer ferramenta preditiva, ou seja, sem a presen¸a de modelos. cConsequentemente, a curva ROC deve ser interpretada de forma quequanto mais a curva estiver distante da diagonal principal, melhor odesempenho do modelo em quest˜o. Esse fato sugere que quanto maior a 20
  29. 29. Introdu¸˜o ` Modelagem de Credit Scoring ca afor a area entre a curva ROC produzida e a diagonal principal, melhor o ´desempenho global do modelo. Figura 1.7: Exemplos de curva ROC. Os pontos de corte ao longo dos escores fornecidos pelos mode-los que apresentam bom poder discriminat´rio concentram-se no canto osuperior esquerdo da curva ROC. A curva ROC apresenta sempre um con-trabalan¸o entre a Sensibildade e a Especificidade ao se variar os pontos cde corte ao longo dos escores e pode ser usada para auxiliar na decis˜o de adeterminar o melhor ponto de corte. Em geral, o melhor cut-off ao longodos escores produz valores para as medidas de Sensibildade e Especifici-dade que se localiza no “ombro” da curva, ou pr´ximo desse, ou seja, no oponto mais a esquerda e superior poss´ ıvel, o qual ´ obtido considerando ecomo ponto de corte o escore que fornece a separa¸ao m´xima no teste c˜ aKS. Vale destacar que em problemas de Credit Scoring, normalmente,crit´rios financeiros s˜o utilizados na determina¸˜o desse melhor ponto, e a casendo que valores como o quanto se perde em m´dia ao aprovar um cli- eente que traz problemas de cr´dito e tamb´m o quanto se deixa de ganhar e eao n˜o aprovar o cr´dito para um cliente que n˜o traria problemas para a e aa institui¸ao podem e devem ser considerados. c˜ A partir da curva ROC temos a id´ia do desempenho do modelo e 21
  30. 30. Introdu¸˜o ` Modelagem de Credit Scoring ca aao longo de toda amplitude dos escores produzidos pelos modelos.1.4.3 Capacidade de acerto dos modelos Em um modelo com vari´vel resposta bin´ria, como ocorre nor- a amalmente no caso de um Credit Scoring, temos o interesse em classificaros indiv´ıduos em uma das duas categorias, bons ou maus clientes, e ob-ter um bom grau de acerto nestas classifica¸oes. Como, geralmente, nas c˜amostras testes, em que os modelos s˜o avaliados, se conhece a resposta ados clientes em rela¸˜o a sua condi¸˜o de cr´dito, e estabelecendo crit´rios ca ca e epara classificar estes clientes em bons e maus, torna-se poss´ comparar ıvela classifica¸ao obtida com a verdadeira condi¸˜o credit´ dos clientes. c˜ ca ıcia A forma utilizada para estabelecer a matriz de confus˜o, Figura a1.6, ´ determinar um ponto de corte (cutoff ) no escore final dos modelos etal que, indiv´ ıduos com pontua¸ao acima desse cutoff s˜o classificados c˜ acomo bons, por exemplo, e abaixo desse valor como maus clientes e com-parando essa classifica¸ao com a situa¸˜o real de cada indiv´ c˜ ca ıduo. Essamatriz descreve, portanto, uma tabula¸ao cruzada entre a classifica¸˜o c˜ capredita atrav´s de um unico ponto de corte e a condi¸˜o real e conhe- e ´ cacida de cada indiv´ ıduo, em que a diagonal principal representa as clas-sifica¸oes corretas e valores fora dessa diagonal correspondem a erros de c˜ `classifica¸ao. c˜ A partir da matriz de confus˜o determinada por um ponto de acorte espec´ ıfico e representada pela Figura 1.6, algumas medidas de ca-pacidade de acerto dos modelos s˜o definidas a seguir: a bB +mM • Capacidade de Acerto Total (CAT)= n mM • Capacidade de Acerto dos Maus Clientes (CAM)= M (Especifici- dade) bB • Capacidade de Acerto dos Bons Clientes (CAB)= B (Sensibili- dade) bB • Valor Preditivo Positivo (VPP)= bB +bM mB • Valor Preditivo Negativo (VPN) = mB +mM 22
  31. 31. Introdu¸˜o ` Modelagem de Credit Scoring ca a bB +mB • Prevalˆncia (PVL) = e n bB mM −bM mB • Correla¸ao de Mathews (MCC) = √ c˜ (bB +bM )(bB +mB )(mM +bM )(mM +mB ) A Prevalˆncia, propor¸ao de observa¸oes propensas a caracte- e c˜ c˜r´ ıstica de interesse ou a probabilidade de uma observa¸˜o apresentar a cacaracter´ıstica de interesse antes do modelo ser ajustado, ´ um medida de eextrema importˆncia, principalmente quando tratamos de eventos raros. a A Capacidade de Acerto Total ´ tamb´m conhecida como Acur´- e e acia ou Propor¸ao de Acertos de um Modelo de Classifica¸ao. Esta medida c˜ c˜tamb´m pode ser vista como uma m´dia ponderada da sensibilidade e e eda especificidade em rela¸ao ao n´mero de observa¸oes que apresentam c˜ u c˜ou n˜o a caracter´ a ca ´ ıstica de interesse de uma determinada popula¸˜o. Eimportante ressaltar que a acur´cia n˜o ´ uma medida que deve ser ana- a a elisada isoladamente na escolha de um modelo, pois ´ influenciada pela esensibilidade, especificidade e prevalˆncia. Al´m disso, dois modelos com e esensibilidade e especificidade muito diferentes podem produzir valores se-melhantes de acur´cia, se forem aplicados a popula¸oes com prevalˆncias a c˜ emuito diferentes. Para ilustrar o efeito da prevalˆncia na acur´cia de um modelo, e apodemos supor uma popula¸ao que apresente 5% de seus integrantes com c˜a caracter´ıstica de interesse. Se um modelo classificar todos os indiv´ ıduoscomo n˜o portadores da caracter´ a ıstica, temos um percentual de acertode 95%, ou seja, a acur´cia ´ alta e o modelo ´ pouco informativo. a e e O Valor Preditivo Positivo (VPP) de um modelo ´ a propor¸˜o e cade observa¸˜es representando o evento de interesse dentre os indiv´ co ıduosque o modelo identificou como evento. J´ o Valor Preditivo Negativo a(VPN) ´ a propor¸˜o de indiv´ e ca ıduos que representam n˜o evento dentre aos identificados como n˜o evento pelo modelo. Estas medidas devem aser interpretadas com cautela, pois sofrem a influˆncia da prevalˆncia e epopulacional. Caso as estimativas da sensibilidade e da especificidade sejamconfi´veis, o valor preditivo positivo (VPP) pode ser estimado via Teo- arema de Bayes, utilizando uma estimativa da prevalˆncia (Linnet, 1998) e 23
  32. 32. Introdu¸˜o ` Modelagem de Credit Scoring ca a SENS × PVL V PP = , SENS × PVL + (1 − SPEC) × (1 − PVL)com SENS usado para Sensibilidade e SPEC para Especificidade. Damesma forma, o valor preditivo negativo (VPN) pode ser estimado por SPEC × (1 − PVL) V PN = . SPEC × (1 − PVL) + SENS × PVL O MCC, proposto por Matthews (1975), ´ uma medida de desem- e ´penho que pode ser utilizada no caso de prevalˆncias extremas. E uma eadapta¸ao do Coeficiente de Correla¸˜o de Pearson e mede o quanto as c˜ cavari´veis que indicam a classifica¸ao original da resposta de interesse e a c˜a que corresponde a classifica¸ao do modelo obtida por meio do ponto c˜de corte adotado, ambas vari´veis assumindo valores 0 e 1, tendem a aapresentar o mesmo sinal de magnitude ap´s serem padronizadas (Baldi oet al., 2000). O MCC retorna um valor entre -1 e +1. O valor 1 representauma previs˜o perfeita, um acordo total, o valor 0 representa uma pre- avis˜o completamente aleat´ria e -1 uma previs˜o inversa, ou seja, total a o adesacordo. Observe que o MCC utiliza as 4 medidas apresentadas namatriz de confus˜o (bB , bM , mB , mM ). a O Custo Relativo, baseado em uma medida apresentada em Ben-sic et al. (2005), ´ definido por CR = αC1 P1 + (1 − α)C2 P2 , em que α erepresenta a probabilidade de um proponente ser mau pagador, C1 ´ eo custo de aceitar um mau pagador, C2 ´ o custo de rejeitar um bom epagador, P1 ´ a probabilidade de ocorrer um falso negativo e P2 ´ a e eprobabilidade de ocorrer um falso positivo. Como na pr´tica n˜o ´ f´cil obter as estimativas de C1 e C2 , o a a e acusto ´ calculado considerando diversas propor¸oes entre C1 e C2 , com e c˜a restri¸˜o C1 > C2 , ou seja, a perda em aceitar um mau pagador ´ ca emaior do que o lucro perdido ao rejeitar um bom pagador. Bensic etal. (2005) considera α como a prevalˆncia amostral, isto ´, sup˜e que e e oa prevalˆncia de maus pagadores nos portf´lios representa a prevalˆncia e o ereal da popula¸˜o de interesse. ca 24
  33. 33. Cap´ ıtulo 2Regress˜o Log´ a ıstica Os modelos de regress˜o s˜o utilizados para estudar e estabe- a alecer uma rela¸ao entre uma vari´vel de interesse, denominada vari´vel c˜ a aresposta, e um conjunto de fatores ou atributos referentes a cada cliente,geralmente encontrados na proposta de cr´dito, denominados covari´veis. e a No contexto de Credit Scoring, como a vari´vel de interesse ´ a ebin´ria, a regress˜o log´ a a ıstica ´ um dos m´todos estat´ e e ısticos utilizado combastante frequˆncia. Para uma vari´vel resposta dicotˆmica, o interesse ´ e a o emodelar a propor¸ao de resposta de uma das duas categorias, em fun¸˜o c˜ cadas covari´veis. E a ´ comum adotarmos o valor 1 para a resposta de maiorinteresse, denominada “sucesso”, o qual pode ser utilizado no caso de umproponente ao cr´dito ser um bom ou um mau pagador. e Normalmente, quando constru´ ımos um modelo de Credit Sco-ring, a amostra de desenvolvimento ´ formada pela sele¸˜o dos clientes e cacontratados durante um per´ ıodo de tempo espec´ ıfico, sendo observadoo desempenho de pagamento desses clientes ao longo de um per´ ıodo detempo posterior e pr´-determinado, correspondente ao horizonte de pre- evis˜o. Esse tempo ´ escolhido arbitrariamente entre 12 e 18 meses, sendo a ena pr´tica 12 meses o intervalo mais utilizado, como j´ mencionado no a aCap´ ıtulo 1, em que a vari´vel resposta de interesse ´ classificada, por a eexemplo, em bons (y = 0) e maus (y = 1) pagadores, de acordo com a e a e ´ocorrˆncia ou n˜o de problemas de cr´dito nesse intervalo. E importantechamar a aten¸ao que ambos os per´ c˜ ıodos — de sele¸˜o da amostra e de cadesempenho de pagamento — est˜o no passado, portanto a ocorrˆncia a e 25
  34. 34. Regress˜o Log´ a ısticaou n˜o do evento modelado j´ deve ter sido observada. a a Sejam x = (x1 , x2 , . . . , xk ) o vetor de valores de atributos quecaracterizam um cliente e π(x) a propor¸ao de maus pagadores em fun¸ao c˜ c˜do perfil dos clientes, definido e caracterizado por x. Neste caso, o modelolog´ ıstico ´ adequado para definir uma rela¸˜o entre a probabilidade de e caum cliente ser mau pagador e um conjunto de fatores ou atributos queo caracterizam. Esta rela¸ao ´ definida pela fun¸ao ou transforma¸ao c˜ e c˜ c˜logito dada pela express˜oa π(x) log = β0 + β1 x1 + . . . + βk xk , 1 − π(x)em que π(x) ´ definido como e exp(β0 + β1 x1 + . . . + βk xk ) π(x) = , 1 + exp(β0 + β1 x1 + . . . + βk xk )e pode ser interpretado como a probabilidade de um proponente aocr´dito ser um mau pagador dado as caracter´ e ısticas que possui, repre-sentadas por x. No caso da atribui¸ao da categoria bom pagador, as c˜interpreta¸˜es s˜o an´logas. co a a2.1 Estima¸˜o dos Coeficientes ca Dada uma amostra de n clientes (yi , xi ), sendo yi a vari´vel res- aposta — bons e maus pagadores — e xi = (xi1 , xi2 , . . . , xik ) , em quexi1 , xi2 , . . . , xik s˜o os valores dos k atributos observados do i-´simo cli- a eente, i = 1, . . . , n, o ajuste do modelo log´ ıstico consiste em estimar osparˆmetros βj , j = 1, 2, . . . , k, os quais definem π(x). a Os parˆmetros s˜o geralmente estimados pelo m´todo de m´xi- a a e ama verossimilhan¸a (Hosmer & Lemeshow, 2000). Por este m´todo, os c ecoeficientes s˜o estimados de maneira a maximizar a probabilidade de se aobter o conjunto de dados observados a partir do modelo proposto. Parao m´todo ser aplicado, primeiramente constru´ e ımos a fun¸ao de verossimi- c˜lhan¸a que expressa a probabilidade dos dados observados, como fun¸˜o c ca 26

×