1. Data Mining
2011/2012
Modelo de segmentação na
Indústria Elétrica
Índice
Lisboa, 9 de Dezembro de 2011
Hugo Rodrigues hugo.rodrigues@gmail.com
2. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 2
Introdução ..............................................................................................................41.
Criação de Projeto e Diagrama......................................................................................42.
Importação da ABT ...................................................................................................53.
Exploração das variáveis .............................................................................................64.
Filtros ....................................................................................................................75.
Valores omissos........................................................................................................76.
Criar/Transformar variáveis..........................................................................................97.
Desenvolvimento dos Clusters .................................................................................... 108.
Análise de Perfil dos Segmentos.................................................................................. 139.
Comparação de Perfis .............................................................................................. 1510.
Estratégias de Marketing........................................................................................... 1611.
Scorização............................................................................................................. 1712.
Anexos................................................................................................................. 2013.
3. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 3
Tabela de Imagens
Fig 1 – Criação de um diagrama ............................................................................. 4
Fig 2 – Criação do projeto inicial, criando uma libname ............................................. 5
Fig 3 – Propriedades da ABT disponibilizada ............................................................. 5
Fig 4 – Resultado da importação: variáveis existentes e respectivo papel .................... 5
Fig 5 – Variáveis rejeitadas.................................................................................... 6
Fig 6 – Resultado da ABT após o tratamento de variáveis .......................................... 6
Fig 7 – Node do tipo SAS Code para tratamento da variável data_nasc ...................... 6
Fig 8 – Resultado da nova variável Idade com anos ................................................. 7
Fig 9 – Filter Node ............................................................................................... 7
Fig 10 – Correção de Outliers ................................................................................ 7
Fig 11 – Stat Explore Node ................................................................................... 7
Fig 12 – Missing Values identificados nas variáveis .................................................. 8
Fig 13 –Missing Values Node ................................................................................. 8
Fig 14 – Metadata Node........................................................................................ 9
Fig 15 – Variáveis Tratadas................................................................................... 9
Fig 16 – Transform Variables Node ........................................................................ 9
Fig 17 – Métodos de transformação de variáveis...................................................... 9
Fig 18 – Variáveis alvo de transformação...............................................................10
Fig 19 – Variáveis transformadas..........................................................................10
Fig 20 – Cluster Node..........................................................................................10
Fig 21 – Variáveis não utilizadas para os clusters....................................................10
Fig 22 – Cluster Plot (não hierárquico) ..................................................................11
Fig 23 – Dimensão dos Clusters............................................................................11
Fig 24 – Valor das Variáveis.................................................................................11
Fig 25 – Análise dos Segmentos ...........................................................................12
Fig 26 – Análise do Consumo por Segmento...........................................................12
Fig 27 – Análise da Potência Contratada por Segmento ...........................................12
Fig 28 – Análise da Faturação por Segmento..........................................................13
Fig 29 – Análise da Classe de Conta por Segmento .................................................13
Fig 30 –Segment Profile Node ..............................................................................13
Fig 31 – Segment Size ........................................................................................14
Fig 32 – Variable Worth.......................................................................................14
Fig 33 – Segment Profile .....................................................................................15
Fig 34 –Score Node.............................................................................................17
Fig 35 –SAS Code...............................................................................................17
Fig 36 –Scorização de 2011 .................................................................................18
Fig 37 –Aplicação do modelo Scoring ....................................................................18
Fig 38 –Resultado do Scoring ...............................................................................19
4. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 4
Introdução1.
No âmbito da cadeira de Data Mining foi proposto a elaboração de um trabalho que é o
desenvolvimento de um modelo de segmentação na indústria eléctrica.
Para uma leitura simples decidimos modelar o trabalho segmentado, ou seja segmentar
os vários perfis a serem utilizados. Este tipo de operação são de um enorme relevo
porque isto permite aos gestores analisar a sua organização,
bem como analisar a nível segmentar dos vários produtos e
serviços, face a isso também compreender melhor os vários
serviços que os seus concorrentes diretos fornecem e até
mesmo possíveis concorrentes num futuro próximo.
Pelo conhecimento aplicado nas aulas, podemos alinhar o modelo de segmentação de
clientes em 5 fases:
Análise dos vários perfis utilizados
Planeamento do modelo analítico
Implementação do modelo proposto
Tabela ABT
o Caso de exclusão
Oportunidades identificadas nos vários grupos
Criação de Projeto e Diagrama2.
Recorrendo a aplicação SAS Enterprise Miner Workstation 7.1 efetuámos a criação de
um novo projeto:
Fig 1 – Criação de um diagrama
5. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 5
Importação da ABT3.
Foi necessário adicionar uma opção para ignorar a validação das variáveis para
podermos carregar a ABT disponibilizada:
Fig 2 – Criação do projeto inicial, criando uma libname
Efetuámos o seguinte procedimento para importação da ABT RAW para o projeto:
Fig 3 – Propriedades da ABT disponibilizada
Conseguimos observar que os dados que vão ser utilizados têm como base uma tabela
com 17 variáveis e 288890 observações.
Esta ABT vai ser utilizada para efetuarmos a exploração de dados para o projeto.
Fig 4 – Resultado da importação: variáveis existentes e respectivo papel
6. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 6
Exploração das variáveis4.
Explorando os dados da ABT disponibilizada, concluímos que existem variáveis que não
são relevantes para a nossa análise.
As variáveis Ntelefone, Tel_alternativo e n_contrib não acrescentam valor que
diferencie a segmentação por ou todos terem, ou por não fazer sentido (ter ou não ter
telefone alternativo quando já têm Telefone).
Fig 5 – Variáveis rejeitadas
Também observamos que existem variáveis mal classificadas quanto ao seu papel e
level. Dessa forma efetuámos a seguinte correção:
Fig 6 – Resultado da ABT após o tratamento de variáveis
A variável data_nasci não é trabalhável da forma como consta na tabela, sendo
necessário efetuar uma transformação para o formato numérico, em anos.
Fig 7 – Node do tipo SAS Code para tratamento da variável data_nasc
Código:
data &EM_EXPORT_TRAIN;
set &EM_IMPORT_DATA;
Idade = Floor((date()-data_nasci)/365); /* Determina o número de dias até à data, converte para anos e
arredonda */
run;
7. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 7
Como resultado, passámos a ter o número de anos para cada observação:
Fig 8 – Resultado da nova variável Idade com anos
Filtros5.
Após a exploração das variáveis percebemos que nas variáveis intervalares existem
outliers. Para o tratamento desta situação utilizou-se um node do tipo Filter.
Fig 9 – Filter Node
Para tal efetuamos a aplicação de filtros sobre as observações efetuadas.
Fig 10 – Correção de Outliers
Valores omissos6.
Analisando os resultados, com um nó do tipo Stat Explore observamos que existem
missing values em ambos os tipos de variáveis.
Fig 11 – Stat Explore Node
8. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 8
Os resultados obtidos foram os seguintes:
Fig 12 – Missing Values identificados nas variáveis
Para efetuar o tratamento dos valores omissos, utilizamos um nó do tipo Impute.
Fig 13 –Missing Values Node
Para o tratamento, adotámos uma estratégia baseada nos seguintes parâmetros:
Propriedade Valor
Missing Cutoff 50 %
Default Input Method (para as variáveis de classe e intervalares) Tree
Default Character Value Desc
Default Number Value 0
Ao utilizarmos este método as variáveis género e distribuidora serão afetadas pois a
percentagem de missing values é superior ao valor de cuttoff que definimos. Para
ultrapassar esta questão definimos que devem ser consideradas e como método
utilizado a constant.
A variável género é por isso eliminada uma vez que não faz sentido a imputação de
omissos a Masc ou Fem.
De seguida efetuamos um filtro de variáveis para ficarmos com um novo conjunto de
trabalho.
9. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 9
Fig 14 – Metadata Node
O nosso modelo passa a considerar as seguintes variáveis:
Fig 15 – Variáveis Tratadas
Criar/Transformar variáveis7.
Verificamos que no conjunto obtido existem assimetrias que podem prejudicar os
resultados. Para tratamento destes casos foi necessário efetuarmos transformação.
Fig 16 – Transform Variables Node
Para selecionarmos o melhor método de transformação foi necessário efetuar várias
tentativas. Como parâmetros base definimos o seguinte:
Propriedade Valor
Method First N
Cutoff Value 1.04E-4
Após várias tentativas selecionámos para as variáveis os seguintes métodos de
transformação:
Fig 17 – Métodos de transformação de variáveis
10. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 10
As variáveis tinham a seguinte distribuição:
Fig 18 – Variáveis alvo de transformação
Com a transformação passámos a ter os seguintes resultados:
Fig 19 – Variáveis transformadas
Desenvolvimento dos Clusters8.
Para o desenvolvimento de clusters tivemos uma primeira abordagem baseada em
cluster node:
Fig 20 – Cluster Node
Iniciámos a análise com um cluster hierárquico. Neste caso a definição dos métodos e
quantidade é automática. Após uma afinação concluímos que deveríamos reduzir o
valor máximo do critério de seleção. O resultado automático resultou em 9 clusters. Os
resultados não foram interessantes pois observamos demasiados clusters, e todos eles
muito próximos (distância curta).
Realizámos por isso um cluster do tipo Não Hierárquico. Neste caso demos um valor
inicial de 5 clusters. Verificámos que existem frequências muito díspares entre os
clusters considerados. Efetuamos uma revisão nas variáveis a considerar para a análise.
Por serem muito semelhantes, descartamos as seguintes:
Fig 21 – Variáveis não utilizadas para os clusters
11. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 11
Reduzimos para 4 uma vez que 2 deles estavam muito próximos. O resultado final foi o
seguinte:
Fig 22 – Cluster Plot (não hierárquico)
Dimensão dos Clusters
Fig 23 – Dimensão dos Clusters
Valor de importância das Variáveis
Fig 24 – Valor das Variáveis
12. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 12
Análise dos Segmentos
Fig 25 – Análise dos Segmentos
O segmento 3 é o que possui maior valor médio de consumo mensal, seguindo-se dos
segmentos 2, 4 e 1:
Fig 26 – Análise do Consumo por Segmento
O segmento 2 é o que possui maior nível de potência contratada associada ao contrato,
seguindo-se dos segmentos 1, 4 e 3:
Fig 27 – Análise da Potência Contratada por Segmento
13. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 13
O segmento 2 é o que possui maior volume de faturação, seguindo-se dos segmentos
3, 4 e 1:
Fig 28 – Análise da Faturação por Segmento
O segmento 4 é o que possui maior volume de clientes residenciais, seguindo-se dos
segmentos 3, 2 e 1:
Fig 29 – Análise da Classe de Conta por Segmento
Análise de Perfil dos Segmentos9.
Através do nó Segment Profile podemos verificar os dados segmentados e analisados
pelo cluster, e identificar os factores de diferenciação em relação à população.
Através dos relatórios fornecidos por este nó (comparação dos segmentos com a
população) podemos analisar e delinear posteriormente estratégias de marketing de
acordo com objectivos da empresa.
Fig 30 –Segment Profile Node
14. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 14
Os 4 segmentos resultantes do modelo têm o seguinte peso e distribuição:
Fig 31 – Segment Size
Verifica-se que o segmento 3 é o mais observado com 40% do valor total da população
analisada.
Segue-se o segmento 4 com 31,96%, o segmento 2 com 18,65% e por ultimo o
segmento 1 com 9,31%.
As variáveis possuem o seguinte peso por segmento:
Fig 32 – Variable Worth
15. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 15
Observamos os seguintes perfis de segmento:
Fig 33 – Segment Profile
Comparação de Perfis10.
Para avaliarmos se os segmentos obtidos fazem sentido, poderemos verificar pela
análise da figura Fig 33 – Segment Profile, que os gráficos representantes da população
(a vermelho para as variáveis intervalares) não coincidem com os gráficos do segmento
(a azul para as variáveis intervalares).
Comparando o resultado dos clusters com os perfis dos segmentos, podemos concluir
que é possível adotarmos a segmentação para a segmentação dos clientes com base no
segmento.
Segmento/Variáveis Faturação Consumo
Potência
Contratada
Residencial
Segmento 1 * * *** *
Segmento 2 **** *** **** **
Segmento 3 *** **** * ***
Segmento 4 ** ** ** ****
Analisando os resultados anteriores poderemos concluir o seguinte:
O segmento 1 poderá ser composto por Empresas, uma vez que se identifica ter
um baixo volume residencial e uma potência contratada elevada (Industria,
comércio,etc.);
O segmento 2 retrata clientes que poderão ser empresas ou residenciais, cuja
faturação é elevada, resultante de uma atividade intensa dado o consumo
elevado;
16. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 16
O segmento 3 identifica clientes residenciais, com um nível de potencia
contratada baixo, mas que consomem muito, resultando no segundo segmento
mais importante ao nível da faturação;
O segmento 4 inclui os clientes residenciais que têm um consumo e potência
contratada baixos e como tal um nível de faturação baixo.
Estratégias de Marketing11.
Para uma abordagem comercial, tendo como objetivo criar um conjunto de
oportunidades sobre os segmentos encontrados.
Ao nível estratégico, as ações recomendadas visam reter os clientes mais valiosos para
a empresa, ou seja, os que representam maior faturação. Promover a comunicação da
empresa para com os clientes empresariais e aumentar o nível de envolvimento dos
pequenos clientes.
Num nível mais tático, propomos a seguinte estrutura comercial para cada camada:
Platina (Segmento 2): Segmento de topo que representa clientes sobre os quais
deverão ser promovidas ações comerciais de comunicação (contato permanente
e pró-ativo), de forma a garantir a exclusividade na utilização da rede elétrica
atual e consequentemente garantir a manutenção dos clientes.
Ouro (Segmento 3): Este segmento representa os clientes que consomem muita
energia. Recomendamos que sejam efetuadas ações de marketing que
demonstrem o valor obtido pela utilização da rede de energia atual, e como a
eficácia do serviço é elemento diferenciador para a qualidade de vida.
Recomendamos também a criação de cartões de cliente que proporcionem
vantagens pessoais em serviços diversos.
Prata (Segmento 4): Este segmento representa os pequenos consumidores
residenciais. Recomendamos que sejam efetuadas campanhas de marketing
através de uma abordagem ao nível das redes sociais, por ser mais direta, tendo
uma implicação na cultura do público-alvo mais abrangente dentro deste
segmento.
Bronze (Segmento 1): Este segmento representa clientes empresariais que
consomem muita energia. Recomendamos que sejam efetuadas campanhas de
marketing personalizadas, dado representar um subconjunto reduzido da
população, que demonstrem a qualidade do serviço atual e os benefícios obtidos
pela utilização da rede atual. Propomos também que seja demonstrada
flexibilidade na prestação de serviços complementares por forma a alargar o
portefólio de serviços contratados.
17. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 17
Acreditamos que com estas recomendações será possível inverter ou minimizar a perda
de fidelização dos clientes atuais face à possível liberalização do mercado elétrico.
Scorização12.
Para automatizar o processo de análise de clientes, com base no modelo validado, que
normalmente ocorre com regularidade, realiza-se a ação de scorização. No modelo
analítico utiliza-se o nó de score:
Fig 34 –Score Node
O Score permite ter acesso a todo o código subjacente à criação do modelo, que poderá
ser aplicado sobre uma nova ABT com dados atualizados à data.
Foram produzidos dois modelos de código. Um representa o código total – SAS Code. O
outro modelo representa uma versão reduzida e otimizada.
Fig 35 –SAS Code
18. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 18
Neste trabalho, para simular a scorização do mês de janeiro de 2011, associamos ao
node de scoring uma nova instância da ABT ABT_FACTUR_ENERGIA com o Role de
“Score”.
Fig 36 –Scorização de 2011
Na aplicação do modelo foram consideradas as seguinte variáveis:
Fig 37 –Aplicação do modelo Scoring
19. Data Mining – 2011/2012 Modelo de segmentação na Indústria Eléctrica
Hugo Rodrigues 19
O resultado desta scorização foi:
Fig 38 –Resultado do Scoring