Avaliação de topologias de RedesNeurais Artificiais para previsãodo consumo de carga em sistemade potência na faixa tempora...
UNIVERSIDADE DO VALE DO RIO DOS SINOSGIOVANI MANICA BARILIAvaliação de topologias de Redes NeuraisArtificiais para previsão...
Dedico este trabalho a meu pai.
AGRADECIMENTOSAo Professor MS. João Ricardo Bittencourt, pelo apoio na finalização da minha mo-nografia.Ao Professor Dr. Ade...
SUMÁRIOLISTA DE ABREVIATURAS E SIGLAS . . . . . . . . . . . . . . . . . . . . 7LISTA DE SíMBOLOS . . . . . . . . . . . . ....
3 EMBASAMENTO TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . 303.1 Redes Neurais Artificiais . . . . . . . . . . ....
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
LISTA DE ABREVIATURAS E SIGLASACP Análise de Componentes PrincipaisCCEE Câmara de Comercio de Energia ElétricaCEEE Companh...
LISTA DE SÍMBOLOSGWh GigaWatts hora, ou 1.000.000.000 Watts horaMWh MegaWatts hora, ou 1.000.000 Watts horakWh kiloWatts h...
LISTA DE FIGURASFigura 2.1: Formação dos dados de treinamento. (BAKIRTZIS et al., 1996) 25Figura 2.2: Diagrade de bloco da...
Figura 3.12: Uma Rede Neural Artificial com 3 entradas e 2 saídas com-posta por Adalines. . . . . . . . . . . . . . . . . ....
Figura 5.3: Semente de inicialização em relação às RNAs ordenadas pe-los erros RMS. . . . . . . . . . . . . . . . . . . . ...
Figura 5.15: Relação da quantidade de épocas e neurônios ocultos com asmelhores redes, sendo a melhor selecionada como red...
LISTA DE TABELASTabela 2.1: Tabela apresentando a relação da mudança repentina de tem-peratura em relação ao erro da previ...
Tabela 5.8: Tabela com os resultados das 10 melhores RNAs, para a re-gião de Gravataí, utilizando Cruzamento por Zero. . ....
RESUMONeste trabalho apresenta-se a pesquisa de análise de Redes Neurais Artificiais utili-zadas para o problema de previsã...
ABSTRACTArtificial Neural Network topologies evaluation of load demand forecasting insystem of power in the belt storm of s...
171 INTRODUÇÃOO presente trabalho tem como objetivo apresentar o projeto de avaliação de topologiasde Redes Neurais Artific...
18Diminuir os prejuízos na compra/venda de energia e na solicitação de serviços paraprevisão é o objetivo desse trabalho. ...
19Dessa forma, serão realizados dois tipos de previsão: a curto e longo prazo. Previsõesde curto prazo estão dentro da fai...
20lizadas apenas as mais úteis à previsão. Para isso, serão utilizados três métodos: ForwardSelection, Análise de Componen...
212 TRABALHOS CORRELATOSO problema da previsão de carga tem despertado pesquisas utilizando as mais diversasferramentas. C...
22mostrando que não há nenhuma geração de novos conhecimentos nos trabalhos em rela-ção à definição de uma arquitetura de R...
23responsáveis pela flutuação da carga.Nesse trabalho, os autores tiveram como objetivo realizar a previsão de demanda de24...
24Para o modelo de verão, a única diferença é que as temperaturas estão baseadas noHeatIndex, devido ao fato de que no ver...
25Por meios de experimentos, observou-se que há uma melhora quando os resultadossão atualizados periodicamente. Quando os ...
26Outro trabalho interesante é de Khotanzad et al. (1995), onde os autores afirmam queo comportamento da carga é afetado po...
27• temperatura da hora de previsão de ontem;• umidade da hora de previsão de ontem;• carga da hora de previsão de ante-on...
28onde ˆL(k) é o resultado da combinação da hora k. Para calcular os αs, como minimizadordos pesos, é utilizado a soma das...
29e o fato de acreditar que determinados fatores e dias da semanda influenciam na carga deuma determinada maneira.Dentro da...
303 EMBASAMENTO TEÓRICONesse capítulo, serão apresentados os conceitos básicos sobre a teoria necessária paraa compreensão...
31Como sabemos o cérebro humano é composto de inúmeros neurônios uns ligadosaos outros, de forma que possam conduzir impul...
32Figura 3.3: Pulso transmitido de um neurnio a outro.O corpo celular do neurônio também pode ser chamado de somador, pois...
33(a) (b)Figura 3.4: (a) Sinal de três pulsos de três sinapses excitatórias de neurôniosdiferentes conectado ao neurônio q...
34a soma das entradas (xk) multiplicado por seus respectivos pesos (wk) for maior que umdeterminado valor de bias, a saída...
35(a) (b)Figura 3.7: (a) Neurônio binário com um peso fixo e um peso bias, (b) um gráficoda transição entra 0 e 1 do bias.De...
36hiperbólica (f(x) = tan(x)) variando de 0 a 1 ou logística reescalada entre -1 a 1 (f(x) =2logistica(x) − 1). Na Figura ...
373.11. Esse modelo será utilizado para introduzirmos o conceito de múltiplas camadas eneurônios de saída. Uma diferença e...
38Até agora foram apresentadas apenas redes neurais com entradas e saídas. Mas existea possibilidade de incluir diversas c...
39temos que aplicar uma função sigmoidal. Como exemplo será usado a função logística,umas das mencionadas anteriormente. C...
40RNAs recorrentes tem normalmente os seus neurônios de saída ligados aos neurônios deentrada, fazendo uma retro-alimentaç...
41vermelhas representando os short-cut conncetions.Figura 3.16: Arquitetura com short-cut conncetions, apresentadas em lin...
42Tabela 3.1: Tabela da lógica OUX1 X2 Y0 0 01 0 10 1 11 1 1O BackPropagation é um método de apredizagem supervisionado, u...
43Para encontrar o menor erro, o mínimo, utiliza-se um algorítmo chamado descida dogradiente. Esse tem como objetivo encon...
443.1.2 Tipos de treino e validaçãoNão somente de treinamento são realizados os estudos de uma rede, mas também demétodos ...
45Para o cálculo do erro da rede, basicamente, é feita uma média dos dez erros resul-tantes das validações de cada conjunt...
46do conjunto de variáveis, com o intuito de saber qual será a primeira entrada eleita, comoa melhor entre elas. Como já m...
473.2.2 Análise de Componentes PrincipaisA Análise de Componentes Principais (ACP) é uma técnica normalmente utilizadapara...
48vetor. Esse, porém, como já mencionado, o método de ACP tem como finalidade reduzira dimensionalidade. Poder-se-ia utiliz...
49Para a utilização desse método, também é necessário usar algum critério para a se-leção dos melhores k. Com essa finalida...
504 METODOLOGIAEssa seção apresentará a metodologia utilizada para a realização do trabalho. Mos-trará as regiões selecion...
51• Geradores distribuídos (G1)• Geradores embutidos (G2)• Geradores compensados (G3)Para explicar os IN, inicialmente é n...
52na verdade IN + G1 + G2 − (CL + SA + FR). Na Figura 4.1 é apresentado o diagramada infra-estrutura da rede, sobre a área...
53Figura 4.2: Divisão dos Pontos Géo-ElétricosPara o desenvolvimento do projeto foram necessários dados climáticos. Esses ...
54dólar, importações e exportações. Esses dados são fornecidos no intervalo que englobadesde o ano de início da coleta até...
55Devido ao fato de entrada/saída dos consumidores livres ser indeterminado e sabendo-se que o consumo dos CL são praticam...
56Tabela 4.1: Tabela dos pontos de medição na região do PGE de GravataíSubestações Classificação Ilha Ponto de MediçãoCacho...
57Figura 4.4: Gráficos de: consumo de energia da subestação de Cachoeirinha ede Gravataí, temperatura de Porto Alegre; e co...
584.3 Variações da topologiaSabe-se que a definição da arquitetura de uma RNA não simples, pois existem di-versas dimensões...
59O método de Auto-Correlação exigiu a utilização de critérios para a seleção dos me-lhores intervalos de atraso de demand...
605 TESTES E RESULTADOSNesta seção serão apresentados os resultados obtidos na execução dos experimentosrealizados, com ba...
61entradas. Porém, antes de utilizar o método, é necessário definir a configuração da RNAbase em que será empregado o Forwar...
62Figura 5.1: RNAs ordenadas pelos seus respectivos erros RMS (E). RNAs tam-bém ordenadas, porém apresentando a sua arquit...
63Figura 5.3: Semente de inicialização em relação às RNAs ordenadas pelos errosRMS.Com a RNA base, a mesma foi submetida a...
64tivesse duas semanas, o método teria selecionado a mesma hora da previsão das semanasanteriores.O método ACP foi utiliza...
65Tabela 5.3: Tabela com as melhores arquiteturas da ACP de cada critério e seusrespectivos erros.Critério No de Neurônios...
66Com base nisso e nas curvas de Auto-Correlação, as entradas deveriam ser as quetivessem atraso da hora de previsão igual...
67Tabela 5.4: Tabela com os resultado das 10 melhores RNAs, que tinham asentrada baseadas no método de Cruzamento por Zero...
68Isso pode ser visto na Figura 5.7, onde são apresentados os gráficos das topologias,ordenadas pelo erro RMS em relação à ...
69Por meio desse experimento, obtivemos um erro médio de 3,30%, inferior ao erroesperado. Na Figura 5.8 mostra os gráficos ...
70Acredita-se que a utilização de variáveis como temperatura podem ajudar na previsão.Porém, com a utilização de somente v...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Tempo...
Próximos SlideShares
Carregando em…5
×

Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Temporalde de Curto e Longo Prazo

584 visualizações

Publicada em

Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Temporalde de Curto e Longo Prazo

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
584
No SlideShare
0
A partir de incorporações
0
Número de incorporações
5
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Avaliação de Topologias de Redes Neurais Artificiais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Temporalde de Curto e Longo Prazo

  1. 1. Avaliação de topologias de RedesNeurais Artificiais para previsãodo consumo de carga em sistemade potência na faixa temporal decurto e longo prazoporGiovani Manica Barili
  2. 2. UNIVERSIDADE DO VALE DO RIO DOS SINOSGIOVANI MANICA BARILIAvaliação de topologias de Redes NeuraisArtificiais para previsão do consumo decarga em sistema de potência na faixatemporal de curto e longo prazoMonografia apresentada como requisitoparcial para a obtenção do grau deBacharel em Engenharia da ComputaçãoProf. Dr. Adelmo Luis CechinOrientadorSão Leopoldo, dezembro de 2008
  3. 3. Dedico este trabalho a meu pai.
  4. 4. AGRADECIMENTOSAo Professor MS. João Ricardo Bittencourt, pelo apoio na finalização da minha mo-nografia.Ao Professor Dr. Adelmo Luis Cechin, pela confiança, por ter cedido a bolsa deIniciação Científica, a qual acabou se tornando o meu trabalho de conclusão. Tambémpelo auxílio, pela motivação para a publicação de trabalhos técnicos e ensinamentos, aosquais obtive durante o ano.A RGE, pelo fomento da bolsa, como também pela liberação para que o projeto fosseutilizado na monografia.A minha namorada, por ter me aguentado até o final, momento complicado e corrido,onde foi necessário muita compreensão.A minha mãe, por ter acreditado em mim, e ter me apoiado na realização da gradua-ção, apoio tanto financeiro quanto motivacional.E um agradecimento especial ao meu pai, que tinha como objetivo ver seu filho for-mado, porém a vida não o deixou ver tal momento. Devo ser grato a todos os esforços,apoio, carinho, ajuda, "paitrocínio"dados a mim. Agradeço a Deus, pelo pai que tive,poisele foi e continua sendo a minha fonte de inspiração, espelho pelo qual procuro me espe-lhar; tentando ser tão bom ou melhor.Agradeço também a todos que de algum modo ajudaram na realização do trabalho.
  5. 5. SUMÁRIOLISTA DE ABREVIATURAS E SIGLAS . . . . . . . . . . . . . . . . . . . . 7LISTA DE SíMBOLOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.1 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.3 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . . . . . . 21
  6. 6. 3 EMBASAMENTO TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . 303.1 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . 303.1.1 Métodos de aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . 413.1.2 Tipos de treino e validação . . . . . . . . . . . . . . . . . . . . . . . . 443.2 Métodos de seleção de variáveis . . . . . . . . . . . . . . . . . . . . . 453.2.1 Forward Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.2.2 Análise de Componentes Principais . . . . . . . . . . . . . . . . . . . 473.2.3 Função de Auto-Correlação . . . . . . . . . . . . . . . . . . . . . . . 484 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.1 Campo de Testes e Dados Obtidos . . . . . . . . . . . . . . . . . . . . 504.2 Dados utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.3 Variações da topologia . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.4 Métodos de seleção de variáveis . . . . . . . . . . . . . . . . . . . . . 585 TESTES E RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . 605.1 Curto Prazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.1.1 Cachoeirinha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.1.2 Gravataí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.1.3 Resultado dos métodos de seleção de variáveis . . . . . . . . . . . 815.2 Longo Prazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91ANEXOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
  7. 7. REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
  8. 8. LISTA DE ABREVIATURAS E SIGLASACP Análise de Componentes PrincipaisCCEE Câmara de Comercio de Energia ElétricaCEEE Companhia Estadual de Energia ElétricaCL Consumidores LivresFR Fronteira AES SulG1 Geradores DistribuídosG2 Geradores EmbutídosG3 Geradores CompensadosIPEA Instituto de Pesquisa Econômica AplicadaIN Ponto de IntercâmbioINMET Instituto Nacional de MeteorologiaRMS Root Mean Square (Raiz média quadrada)RNA Redes Neurais ArtificiaisPGE Ponto Geo-ElétricoSA Serviço Auxiliar
  9. 9. LISTA DE SÍMBOLOSGWh GigaWatts hora, ou 1.000.000.000 Watts horaMWh MegaWatts hora, ou 1.000.000 Watts horakWh kiloWatts hora, ou 1.000 Watss hora
  10. 10. LISTA DE FIGURASFigura 2.1: Formação dos dados de treinamento. (BAKIRTZIS et al., 1996) 25Figura 2.2: Diagrade de bloco da modelo utilizado para previsão. Khotan-zad et al. (1995) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27Figura 3.1: Modelo simplificado de um neurônio biológico. . . . . . . . . . . 30Figura 3.2: Processo químico na transição de um pulso. . . . . . . . . . . . 31Figura 3.3: Pulso transmitido de um neurnio a outro. . . . . . . . . . . . . . 32Figura 3.4: (a) Sinal de três pulsos de três sinapses excitatórias de neurô-nios diferentes conectado ao neurônio que tem a (b) soma dosinal do corpo celular mostrado ao lado. . . . . . . . . . . . . . . 33Figura 3.5: Modelo em grafo de um neurônio binário. . . . . . . . . . . . . . 33Figura 3.6: Função degrau descolada pelo bias. . . . . . . . . . . . . . . . . 34Figura 3.7: (a) Neurônio binário com um peso fixo e um peso bias, (b) umgráfico da transição entra 0 e 1 do bias. . . . . . . . . . . . . . . 35Figura 3.8: Neurônio com a unidade somadora e unidade função degrauseparadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35Figura 3.9: Funções de ativação. . . . . . . . . . . . . . . . . . . . . . . . . . 36Figura 3.10: Neurônio com a unidade somadora e unidade função sigmodie. 36Figura 3.11: Ilustração do modelo de um neurônio Adaline. . . . . . . . . . . 37
  11. 11. Figura 3.12: Uma Rede Neural Artificial com 3 entradas e 2 saídas com-posta por Adalines. . . . . . . . . . . . . . . . . . . . . . . . . . . 37Figura 3.13: Arquitetura com 1 camada oculta de Adalines. . . . . . . . . . . 38Figura 3.14: Arquitetura com 1 camada oculta de Perceptrons. . . . . . . . . 39Figura 3.15: Arquitetura de uma RNA recorrente. . . . . . . . . . . . . . . . . 40Figura 3.16: Arquitetura com short-cut conncetions, apresentadas em li-nhas vermelhas. . . . . . . . . . . . . . . . . . . . . . . . . . . . 41Figura 3.17: (a) padrões de um determinado problema e uma (b) RNA (1 01) composta de Adalines. . . . . . . . . . . . . . . . . . . . . . . 42Figura 3.18: Gráfico que apresenta as dimensões dos pesos em relação aoerro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43Figura 3.19: Primeira seleção de variáveis utilizando Forward Selection nesseconjunto de entradas. . . . . . . . . . . . . . . . . . . . . . . . . 46Figura 3.20: Segunda seleção de variáveis utilizando Forward Selection,sendo a primeira a Var-2. . . . . . . . . . . . . . . . . . . . . . . 46Figura 4.1: Diagrama do sistema de transmissão da RGE . . . . . . . . . . 52Figura 4.2: Divisão dos Pontos Géo-Elétricos . . . . . . . . . . . . . . . . . 53Figura 4.3: Ponto Geo-Elétrico de Gravataí . . . . . . . . . . . . . . . . . . . 54Figura 4.4: Gráficos de: consumo de energia da subestação de Cachoei-rinha e de Gravataí, temperatura de Porto Alegre; e consumode condicionadores de ar no Brasil. . . . . . . . . . . . . . . . . 57Figura 5.1: RNAs ordenadas pelos seus respectivos erros RMS (E). RNAstambém ordenadas, porém apresentando a sua arquitetura semou com short-cut (D). . . . . . . . . . . . . . . . . . . . . . . . . 62Figura 5.2: Quantidade de épocas de treinamento (E) e neurônios ocultos(D), em relação às RNAs ordenadas pelos erro RMS. . . . . . . 62
  12. 12. Figura 5.3: Semente de inicialização em relação às RNAs ordenadas pe-los erros RMS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Figura 5.4: Gráfico dos auto-valores das componentes, com os cortes ba-seados nos três critérios para a subestação de Cachoeirinha. . 64Figura 5.5: Quantidade de épocas e neurônios ocultos, para as melhoresRNAs previsoras com entradas no método ACP e no critériode Jolliffe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65Figura 5.6: Curva de Auto-Correlação dos dados de Cachoerinha. Em ver-melho as entradas selecionadas. . . . . . . . . . . . . . . . . . . 66Figura 5.7: Quantidade de épocas e neurônios ocultos para as melhoresRNAs previsoras, com entradas no critério de Pontos Máximos. 68Figura 5.8: Previsão realizada com a RNA que obteve os melhores resulta-dos, baseando-se nas variáveis de entrada do método ForwardSelection. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69Figura 5.9: Relação da quantidade de épocas de treinamento (E) e neurô-nios ocultos (D) com as melhores RNAs, baseadas no métodode seleção de variáveis Forward Selection. . . . . . . . . . . . . 72Figura 5.10: O gráfico marca em linhas vermelhas os atrasos e em linhaazul a hora que deve ser prevista. . . . . . . . . . . . . . . . . . 74Figura 5.11: Gráfico dos auto-valores das componentes com os cortes ba-seados nos três critérios para a PGE de Gravataí. . . . . . . . . 74Figura 5.12: Gráfico da quantidade de épocas (E) e neurônios (D) das me-lhores RNAs previsoras de demanda para Gravataí, utilizandoACP e o critério de retenção dos 90%. . . . . . . . . . . . . . . 76Figura 5.13: Gráfico da Auto-Correlação dos dados de demanda de Gravataí. 76Figura 5.14: Retardos, em linhas vermelhas, baseados no Cruzamento porZero. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
  13. 13. Figura 5.15: Relação da quantidade de épocas e neurônios ocultos com asmelhores redes, sendo a melhor selecionada como rede basepara Pontos Máximos em Gravataí. . . . . . . . . . . . . . . . . 79Figura 5.16: Previsão realizada com a RNA que obteve os melhores resul-tados, baseando-se nas variáveis de entrada do método deAuto-Correlação e o critério de Pontos Máximos. . . . . . . . . . 81Figura 5.17: Número de épocas e de neurônios ocultos, sem relação comas melhores RNAs para a previsão mensal. . . . . . . . . . . . . 85Figura 5.18: Número de épocas (E) e de neurônios ocultos (D) apresen-tando uma maior relação com as melhrore RNAs para a previ-são mensal, utilizando janelamento nos dados. . . . . . . . . . 86Figura 5.19: Testes da rede para previsão da demanda mensal dos mesesdo ano de 2007, sem utilizar janelamento. . . . . . . . . . . . . 87Figura 5.20: Testes da rede para previsão da demanda mensal dos mesesdo ano de 2007, com janelamento. . . . . . . . . . . . . . . . . . 89
  14. 14. LISTA DE TABELASTabela 2.1: Tabela apresentando a relação da mudança repentina de tem-peratura em relação ao erro da previsão Khotanzad et al. (1995) 28Tabela 3.1: Tabela da lógica OU . . . . . . . . . . . . . . . . . . . . . . . . . 42Tabela 4.1: Tabela dos pontos de medição na região do PGE de Gravataí . 56Tabela 5.1: Tabela com os resultados, das 10 melhores RNAs para a esco-lha da rede base, para a aplicação do método Forward Selection. 61Tabela 5.2: Tabela com os atrasos selecionados pelo Forward Selectioncom seus respectivos erros percentuais para a subestação deCachoeirinha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Tabela 5.3: Tabela com as melhores arquiteturas da ACP de cada critérioe seus respectivos erros. . . . . . . . . . . . . . . . . . . . . . . 65Tabela 5.4: Tabela com os resultado das 10 melhores RNAs, que tinhamas entrada baseadas no método de Cruzamento por Zero. . . . 67Tabela 5.5: Tabela com os resultados das 10 melhores RNAs, para a sele-ção da rede base do método Forward Selection. . . . . . . . . . 71Tabela 5.6: Tabela com os atrasos selecionados pelo Forward Selectioncom seus respectivos erros percentuais para o PGE de Gravataí. 73Tabela 5.7: Tabela com as melhores arquiteturas da ACP de cada critérioe seus respectivos erros. . . . . . . . . . . . . . . . . . . . . . . 75
  15. 15. Tabela 5.8: Tabela com os resultados das 10 melhores RNAs, para a re-gião de Gravataí, utilizando Cruzamento por Zero. . . . . . . . . 78Tabela 5.9: Tabela com os resultados das 10 melhores RNAs, dentre asselecionadas como rede base para Pontos Máximos em Gra-vataí. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79Tabela 5.10:Tabela com os resultados das 10 melhores RNAs, dentre asselecionadas como rede base para Pontos Máximos em Gra-vataí. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80Tabela 5.11:Resultados para a subestação de Cachoeirinha, para cadamétodo de seleção de variáveis. . . . . . . . . . . . . . . . . . . 82Tabela 5.12:Resultados para a região de Gravataí, para cada método deseleção de variáveis. . . . . . . . . . . . . . . . . . . . . . . . . . 83Tabela 5.13:Tabela com os resultados das 10 melhores RNAs, para previ-são de LP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84Tabela 5.14:Tabela com os resultados das 10 melhores RNAs para previ-são de longo prazo, utilizando janelamento dos dados. . . . . . 86
  16. 16. RESUMONeste trabalho apresenta-se a pesquisa de análise de Redes Neurais Artificiais utili-zadas para o problema de previsão de demanda de energia elétrica, no horizonte de curtoe longo prazo.Para a realização deste trabalho, foram utilizados dados de consumo de energia elé-trica da área de concessão da distribuidora de energia RGE (Rio Grande Energia, umempresa CPFL Energia), no intervalo de horas. Tais dados são originados da subestaçãode Cachoeirinha e do ponto geo-elétrico de Gravataí.No desenvolvimento, foram utilizados métodos como Forward Selection, Análise deComponentes Principais e Auto-Correlação para a seleção das entradas de Redes Neu-rais a utilizar. Também foram treinadas diversas redes, com variações na quantidade deneurônios ocultos, épocas de treinamento entre outras características.Como conclusão, foram apresentados os resultados obtidos no período de curto prazopara a subestação de Cachoeirinha, tendo os melhores resultados baseado no ForwardSeleciont com erro médio de 3,64%, e para a região de Gravataí tendo os melhores re-sultados baseado no método de Auto-Correlação e critério de Pontos Máximos com erromédio de 2,25%. Para a previsão de longo prazo, foram obtidos resultados inferiores a2% utilizando a técnica de janelamento para a ampliação da quantidade de padrões detreinamento.Palavras-chave: Sistemas de Potência. Previsão de Demanda. Redes Neurais Artificiais.Seleção de Variávies. Mineração de Dados. Metaheurísticas.
  17. 17. ABSTRACTArtificial Neural Network topologies evaluation of load demand forecasting insystem of power in the belt storm of short and long termThis work shows an analysis of Artificials Neural Network applyed to the problem offorecasting electric energy demand, in short and long term.For this research, electric energy consumption data of the region attended by the RGE(Rio Grande Energia, um empresa CPFL Energia) were used, in the interval of hours.Such data were collected in the substation of Cachoeirinha and the geo-electric point ofGravataí.Methods such as Forward Selection, Analysis of Principal Components and Autocor-relation were used for selecting entries in the Artificial Neural Network. Several nets werealso trained with variations in the quantity of hidden neuron, epoch of training and othercharacteristics.The conclusion presented the results obtained in the period of short term for the sub-station of Cachoeirinha, wich showed the best results based on the Forward Selectionwith middle error of 3,64%. For the region of Gravataí, the best results were based onthe method of Autocorrelation and criterion of the Maximum Points with middle error of2,25%. For the forecasting of long term, it was obtained results inferior from 2% of mid-dle error using windowing technique for the enlargement of training standards quantity.Keywords: Power system. Forecasting load. Artificial Neural Network. Select variables.Data Mining. Metaheuristics.
  18. 18. 171 INTRODUÇÃOO presente trabalho tem como objetivo apresentar o projeto de avaliação de topologiasde Redes Neurais Artificiais (RNA) para previsão do consumo de carga em sistemas depotência. Mostrará a metodologia utilizada como também os resultados obtidos a partirde experimentos e análises realizados.1.1 JustificativaO trabalho tem sua justificativa baseada na Lei Federal n. 10.848 de 15/05/2004, ondeo setor elétrico se vê dividido em geração, transmissão e distribuição. O Art. 3§, da leicitada, prevê que as distribuidoras necessitam realizar a contratação de reserva de energiaatravés de leilões, para o atendimento e fornecimento contínuo de energia elétrica, emsua área de atendimento. De um modo geral, nessa contratação, as distribuidoras deveminformar as geradoras participantes da licitação qual será o consumo de carga no períodoreferente à licitação.O Art. 4§, da mesma lei, no entanto, permite a criação da CCEE (Câmara de Comér-cio de Energia Elétrica) que tem como finalidade possibilitar às distribuidoras a compra evenda de energia elétrica, que, por ventura sobre ou falte ao final do período de licitação.Sendo assim, a RGE, ao final da licitação, poderá comprar e vender energia, mas comum preço maior na compra e um preço menor na venda acarretando um prejuízo. As dis-tribuidoras procuram fazer contratações com o valor de carga mais próximo ao consumoesperado, em uma determinada faixa de tempo. Para isso, atualmente, a RGE possui umaempresa especializada em análise de mercado. Essa irá predizer qual será a demandanecessária, tendo um acerto de 95%.
  19. 19. 18Diminuir os prejuízos na compra/venda de energia e na solicitação de serviços paraprevisão é o objetivo desse trabalho. Tem como meta principal o desenvolvimento de umsistema computacional, que seja capaz de realizar a previsão do consumo de carga a curtoe longo prazo, apresentando um acerto maior que os 95% atual, utilizando Redes NeuraisArtificiais.Há vários artigos científicos que apresentam previsões utilizando equações matemá-ticas, como por exemplo, Contretras et al. (2003). Mas também, há uma infinidade detrabalhos que se baseiam na utilização de RNA como em Bakirtzis et al. (1996), Chen, Yue Moghaddamjo (1992), Khotanzad et al. (1995), Lu, Wu e Vemuri (1993), Papalexopou-los, Hao e Peng (1994) e em outras técnicas de Inteligência Artificial como Fuzzy Logicem Srinivasan, Liew e Chang (1994). No entento, este trabalho está focado na previsãoutilizando Redes Neurais Artificiais.Há métodos matemáticos para solucionar o problema exposto pelo projeto, mas essesexigem conhecimentos prévios sobre a relação entre as variáveis de temperatura, econô-micas e de carga. O enfoque deste projeto, na utilização de Redes Neurais, tenta solucio-nar o problema, levando em consideração o fato de elas possuírem uma maior facilidadena busca da relação entre as variáveis de entrada com as variáveis de saída (HAYKIN,2001), podendo até resultar em um tempo de resposta menor e um maior nível de acerto.Ainda existem dúvidas sobre a eficiência das RNAs, mas quando feita uma revisãode trabalhos realizados (HIPPERT; PEDREIRA; SOUZA, 2001), (DREZGA; RAHMAN,1998) é possível notar que os resultados possuem um erro médio menor que 5%, tornado-as válidas para o escopo deste projeto. Para o desenvolvimento, existem dificuldadesanunciadas, como a variação do clima (temperatura, umidade, insolação), sazonalidade,fins de semana e feriados, mas há diversos métodos para contornarmos os problemas.Há trabalhos que estão focados basicamente nesses pontos, como por exemplo, as variá-veis climáticas em Drezga e Rahman (1998), Al-Rashid e Paarmann (1997), econômicasem Ranaweera, Karady e Farmer (1997), Egelioglu, Mohamad e Guven (1999) que sãonormalmente utilizadas em previsões a longo prazo ou feriados e fins-de-semana em Ba-kirtzis et al. (1996). Também existem efeitos aleatórios que podem ocasionar a alteraçãono padrão de consumo de carga, gerada a partir de greves, desastres naturais ou até mesmopor um programa de televisão (LIMA, 1996).
  20. 20. 19Dessa forma, serão realizados dois tipos de previsão: a curto e longo prazo. Previsõesde curto prazo estão dentro da faixa temporal de algumas horas, até algumas semanas(LIMA, 1996). São influenciadas por fatores climáticos como a temperatura, variávelmuito utilizada nos artigos da revisão bibliográfica. Podemos citar que, com o aumentoda temperatura a população acaba utilizando com maior frequência condicionadores dear.Já a previsão de longo prazo abrange a faixa temporal de meses até anos - no casodeste trabalho - e são afetadas por variáveis econômicas, além das variáveis climáticas.Esse período de previsão está ligado diretamente à situação do mercado, especialmenteao mercado de equipamentos eletrônicos, como televisores e eletrodomésticos.Acredita-se que ao final do trabalho tenha-se como produto um sistema computacio-nal de previsão de carga, permitindo assim, um maior nível de acerto na projeção para acontratação das geradoras e reduzindo os custos, evitando, dessa forma, uma punição daCCEE pelo consumo de energia acima do contratado.Partimos, então, de um projeto de pesquisa que está sendo desenvolvido no ProgramaInterdisciplinar de Pós-Graduação em Computação Aplicada1. Esse que tem como ob-jetivo a construção de um sistema de previsão de carga baseado em cadeias de Markov,extraídas de redes neurais temporais.1.2 ObjetivoTemos como objetivo principal analisar diversas topologias de Redes Neurais Arti-ficiais. Determinar a melhor entre elas para ser utilizada em previsiões de carga de umsistema de potência, com um acerto maior que 95% em duas faixas de tempo: curto elongo prazo.Serão realizado vários testes, a fim de obter um melhor resultado, uma a curto prazoe outra a longo prazo.Há a necessidade de realizar uma escolha das melhores variáveis para que sejam uti-1O projeto intitulado de Sistema de Previsão de Carga baseado em Cadeias de Markov extraídas deRedes Neurais Temporais e é orientado pelo Dr. Adelmo Luis Cechin que teve inicio no ano de 2007 e éfomentado pela RGE (Rio Grande Energia, uma empresa CPFL energia)
  21. 21. 20lizadas apenas as mais úteis à previsão. Para isso, serão utilizados três métodos: ForwardSelection, Análise de Componentes Principais (ACP) e Auto-Correlação.1.3 MotivaçãoA motivação para o desenvolvimento deste trabalho deve-se ao fato de ele estar en-volvido tanto na área acadêmica, no âmbito da pesquisa, quanto na área da indústria, noâmbito dos resultados e necessidades de corte de custos. Com esta pesquisa, além de no-tar a necessidade da redução de custos através de uma previsão mais refinada, percebe-seos estudos e conhecimentos que se fazem necessários para a busca de uma boa soluçãoaos problemas.
  22. 22. 212 TRABALHOS CORRELATOSO problema da previsão de carga tem despertado pesquisas utilizando as mais diversasferramentas. Como a carga de um sistema de potência é uma variável contínua, medida aintervalos de tempo, é natural a utilização de métodos clássicos de previsão de carga naárea de processamento de sinais visto em Contretras et al. (2003). Porém, nota-se uma di-ficuldade, destes métodos, para resolver problemas de não-linearidade nas relações entreas variáveis e a inclusão de conhecimento específico e fenômenos aperiódicos e esporádi-cos. Dentre os principais métodos, para resolver estas duas dificuldades, encontram-se osmétodos baseados em RNAs, os quais processam sinais de forma não-linear e permitemaprendizado de conhecimento específico. Alguns trabalhos utilizando RNAs, tanto paraprevisão de longo prazo (dentro da faixa de meses) visto em Tsekouras, Hatziargyriou eDialynas (2006), quanto de curto prazo (dentro da faixa de tempo de horas ou dezenasde horas) podem ser vistos em Bakirtzis et al. (1996), Khotanzad et al. (1995), Chen, Yue Moghaddamjo (1992), Afkhami e Yazdi (2006), Ortiz-Arroyo, Skov e Huynh (2005),Abdel-Aal (2004), Senjyu et al. (2002), Charytoniuk e Chen (2000), Drezga e Rahman(1999) e Vermaak e Botha (1998). Uma excelente revisão dos trabalhos relacionados asistemas de previsão de curto prazo, com a utilização de RNAs, é realizada por Hippert,Pedreira e Souza (2001).Por meio dos trabalhos, é possível notar que a definição das arquiteturas são feitas demodo empírico, ou seja, são construídas através do conhecimento de algum especialista.Contudo, tal conhecimento é adquirido a partir de fatos que ocorreram durante o trabalhodo especialista, deixando para traz características implícitas na previsão de demanda.Para mostrar isso, serão citados alguns trabalhos como Chen, Yu e Moghaddamjo(1992), Al-Rashid e Paarmann (1997) Bakirtzis et al. (1996) e Khotanzad et al. (1995),
  23. 23. 22mostrando que não há nenhuma geração de novos conhecimentos nos trabalhos em rela-ção à definição de uma arquitetura de RNA e suas entradas, para previsão de consumo deenergia.O trabalho de Chen, Yu e Moghaddamjo (1992), chama bastante atenção pelo fato deutilizar redes neurais não totalmente conectadas. Segundo os autores, a opção de utilizartal arquitetura deve-se ao fato de necessitar de um menor tempo de treinamento.Como entradas de carga, foram utilizadas as três últimas horas e as mesmas trêshoras do dia anterior, como também as mesmas seis horas da semana anterior. Devidoao conhecimento dos autores sobre a relação da carga com a temperatura, foi adicionadoo valor de temperatura das três últimas horas, também como a média dos últimos três dias.A média de temperatura foi adicionada pelo fato da carga não responder imediatamenteas mudanças de temperatura.Na arquitetura também foram adicionadas 5 entradas, para representar de forma bi-nária a hora da previsão, e mais 7 entradas, para representar os dias da semana. Se o diada semana fosse um "dia normal", deveria ser imposto o valor 1, caso fosse um feriadodever-se-ia impor o valor 0.5.Nos testes realizados, segundo os autores, foi observado um padrão que pode serclassificado em duas categorias: dias da semana; e finais de semana. Em finais de semana,há uma tendência a pequenos picos de carga, em relação a dias da semana. Outro fatorobservado, pelos autores, é em relação à carga diária, onde eles afirmam que a carga variade dia para dia e o nível de flutuação tem uma alta correlação com as condições climáticas.Para o treinamento das RNA os autores tiveram de escalar as entradas para que elasficassem entre 0,15 e 0,85, que é a região de saturação da função sigmoidal. Como resul-tado, foi obtido um erro médio percentual de 1,12%, e também foi constatado que a redenão era muito adaptativa a variações de temperatura.Segundo os autores, Al-Rashid e Paarmann (1997), as principais características dacarga elétrica são as somas dos atributos: climáticos; efeitos diários e operações indus-triais. Dentro dos fatores climáticos estão a temperatura, umidade relativa, velocidade dovento, entre outras. Já os efeitos diários seriam os feriados. Os fatores de operações in-dustriais, pelo fato de representarem a maior parte do consumo, também são os principais
  24. 24. 23responsáveis pela flutuação da carga.Nesse trabalho, os autores tiveram como objetivo realizar a previsão de demanda de24 horas à frente, utilizando modelos para o período de verão e inverno. Outra questão,apresentada pelos autores, é em relação a temperatura. Em 1984, a National WeatherService (Serviço Nacional de Tempo) desenvolveu uma nova medidade chamada de HeatIndex, ou índice de calor. Essa medida está relacionada à sensação térmica de uma pessoa.A umidade, associada com altas temperaturas, faz com que a capacidade do corpo demater-se frio reduza. Uma pessoa submetida a uma temperatura real de 30oC e com umaumidade relativa de 50%, terá a impressão de uma temperatura de 32oC.Como mencionado, os autores utilizaram dois modelos, um para o inverno e outropara o verão. A RNA, para o inverno, era uma rede 12 12 24, sendo as suas 24 saídas oconsumo de energia para cada hora do dia, e suas 12 entradas:• x1, o valor da previsão para a hora t do dia;• x2, um código que representava o dia da semana;• x3, carga atual da hora t-24, do dia anterior;• x4, carga atual da hora t-168, da semana anterior;• x5, temperatura mínima prevista para o dia;• x6, temperatura máxima prevista para o dia;• x7, temperatura média das últimas três horas;• x8, a diferença de temperatura mínima, para o dia da previsão e da semana passada;• x9, a diferença de temperatura máxima, para o dia da previsão e da semana passada;• x10, temperatura médias das últimas três horas, antes de t-24;• x11, temperatura mínima do dia anterior;• x12, temperatura máxima do dia anterior.
  25. 25. 24Para o modelo de verão, a única diferença é que as temperaturas estão baseadas noHeatIndex, devido ao fato de que no verão existam varios períodos de alta temperatura.Com tal modelo, os autores obtiveram um erro médio de 2,924%, sendo que os melhoresresultados foram no período de verão.Em Bakirtzis et al. (1996), os autores desenvolveram uma RNA para previsão decarga, baseados no modelo do Energy Control Center (Centro de Controle de Energia) daGreek Public Corporation (Corporação Pública da Grécia). Nesse trabalho, deu-se umaênfase maior para a modelagem de feriados e foram levadas em consideração algumasquestões.Uma questão está ligada a estrutura da rede. Verificar se seria melhor utilizar sete (7)RNAs, uma para cada dia da semana, ou uma única RNA, adicionando os dias da semanana entrada. Os resultados dos testes mostraram que a utilização de uma única rede resultanuma diminuição de 10% na média do erro da previsão. Outra questão está relacionadaà temperatura. Gráficos mostraram que a relação entre o pico de carga e temperatura égrande para condições amenas de temperatura e pequena quando há uma grande variaçãode temperatura.Os autores, inicialmente, utilizaram uma RNA de três camadas tendo 63 neurôniosna camada de entrada, 24 na camada de saída, as quais representam as 24 horas do dia deprevisão. Para a camada oculta, foram realizados testes variando a quantidade de neurô-nios de 10 a 80, para tentar identificar um ótimo número de neurônios. Esses testes, doartigo, mostram que a variação do número de neurônios é insignificante para o resultadoda previsão. A RNA possui como entrada:• 1:24 → Carga das 24 horas do dia;• 25:48 → Carga das 24 horas do dia anterior;• 49:52 → Máximo e mínimo do norte e do sul da Grécia do dia;• 53:56 → Máximo e mínimo do norte e do sul da Grécia para o dia da previsão, paraamanhã;• 57:63 → Dia da semana binariamente.
  26. 26. 25Por meios de experimentos, observou-se que há uma melhora quando os resultadossão atualizados periodicamente. Quando os parâmetros da RNA foram atualizados, todosos meses, houve uma melhora de 8% e 11% quando atualizados diariamente, sempreutilizando, como padrões de treinamentos, dados dos últimos 365 dias excluíndo feriados.Através desse método, os autores obtiveram um resultado satisfatório. Porém, um re-sultado com grande erro na previsão de feriados. Com isso, mudou-se a forma de geraçãodos padrões. O novo método, de geração de padrões, utilizavam os últimos 90 dias mais30 dias dos últimos 6 anos passados ao redor do dia da previsão. A Figura 2.1 apresentao modelo.Figura 2.1: Formação dos dados de treinamento. (BAKIRTZIS et al., 1996)Com a RNA treinada, para a previsão em feriados, optou-se pela utilização do modelode Papalexopoulos, Hao e Peng (1994). Seguindo a equação:¯Df = ¯Dn − ∆ ¯Df . (2.1)Para previsão de dia de feriados ( ¯Df ), era realizada a previsão de um dia normal ( ¯Dn)subtraindo um fator de correção (∆ ¯Df ). Um dia normal ( ¯Dn) basicamente é a previsãopela RNA (RNA()), tendo como entrada o vetor de variáveis (¯x), como é apresentado naEquação 2.2.¯Dn = RNA(¯x) (2.2)Já o fator de correção (∆ ¯Df ) é definido pela equação:∆ ¯Df =1mmi=1[RNA(xi) − Di], (2.3)onde m é a quantidade de anos passados e (D) é a demanda real do ano i.
  27. 27. 26Outro trabalho interesante é de Khotanzad et al. (1995), onde os autores afirmam queo comportamento da carga é afetado por fatores climáticos e pode ser decomposta dentrode três distintas tendência semanla, diaria e horária. Existem muitos fatores que podemafetar a previsão de carga. Para os autores, uma simples RNA não é capaz de capturartodas as diferenças de tendência que estão presentes na relação carga-temperatura.Para amenizar esse problema foi desenvolvido uma estratégia de múltiplas RNAs.Cada tendência é modelada de um modo separado, contendo diversas camadas múltiplasFeed-Forward treinadas, utilizando regras de BackPropagation. Divididas em três módu-los, cada um deles contendo uma RNA:• 1omódulo captura as tendências da informação da semana;• 2omódulo captura as tendências da informação dos dias;• 3omódulo captura as tendências da informação das horas.O 1omódulo está focado na modelagem da tendência carga-temperatura para cada diada semana. Esse módulo é composto por sete redes, um para cada dia da semana. Cadarede possui: 24 entradas referentes às cargas horárias do dia; 24 entradas referentes àstemperaturas horárias do dia; 24 entradas referentes às previsões de temperatura horárias,para o dia da previsão. A saída possui a previsão de carga para às 24 horas do dia que seprocura saber a previsão.O 2omódulo, módulo diário, foca-se na dependência do perfil de carga no compor-tamento de carga e temperatura do enésimo dia. Esse módulo é composto por 7 RNA,uma para cada dia da semana. Cada RNA possui 72 entradas sendo: 24 cargas horáriasdo dia anterior; 24 valores temperatura horárias do dia anterior e 24 valores previstos detemperatura para o dia de previsão.O 3oe último módulo é responsável por capturar a correlação de cada hora do perfilde carga com cargas passadas, e tendo a temperatura para algumas horas. Esse móduloé composto por 24 RNAs, uma para cada hora. Nessas RNAs não foi levado em con-sideração o dia da semana e foi adicionada a umidade relativa. Cada rede possui comoentrada:• carga da hora de previsão de ontem;
  28. 28. 27• temperatura da hora de previsão de ontem;• umidade da hora de previsão de ontem;• carga da hora de previsão de ante-ontem;• temperatura da hora de previsão de ante-ontem;• umidade da hora de previsão de ante-ontem;• previsão de temperatura do dia;• previsão da humidade do dia;• número referente ao dia da semanda, sendo 0.1 domingo, 0.2 segunda, ..., 0.7 sá-bado.Cada rede de cada módulo possui 24 saídas, sendo uma para cada hora do dia deprevisão, as quais são combinadas posteriormente. A Figura 2.2 apresenta o diagrama deblocos dos módulos citados acima.Figura 2.2: Diagrade de bloco da modelo utilizado para previsão. Khotanzad etal. (1995)Para realizar a combinação utiliza-se a seguinte equação:ˆL(k) =αWM (k)ˆLWM (k) +αDM (k)ˆLDM (k) +αHM (k)ˆLHM (k), (2.4)
  29. 29. 28onde ˆL(k) é o resultado da combinação da hora k. Para calcular os αs, como minimizadordos pesos, é utilizado a soma das raízes dos erros:J =Nj=1βN−j(L(j) − ˆL(j))2, (2.5)onde L(j) é a carga atual, N é o total de números de previsões feitas e β é a o fator"peso"que pode variar de 0 < β ≤ 1, neste trabalho os autores utilizaram β = 0,99.Como resultado, os autores observaram que os feriados, de dias da semana, possuemum perfil de carga diferente e precisam ser tratados de maneiras diferentes. Cada feri-ado foi agrupado em feriados de segunda, feriados de inverno e feriados de verão. UmaRNA, semelhante as citadas acima, foi utilizada para modelar o feriado em cada grupo.No módulo semanal e no módulo horário as tendências são consideradas para cada dia.Estudos apontaram que a RNA foi capaz de prever cinco dias adiante, consecutivamente,e foram utilizados três anos de informações para o treinamento delas. Outra observaçãofeita pelos autores é que há uma dificuldade no manejamento da previsão com mudançasrápidas de temperatura. Na Tabela 2.1 é possível ver os resultados em comparação com amudança de temperatura.Tabela 2.1: Tabela apresentando a relação da mudança repentina de tempera-tura em relação ao erro da previsão Khotanzad et al. (1995)Mudança máxima de Média de NoMédia absolutatemperatura oF de dias percentual do erro∆ < 5o108 2,265o< 10o71 2,4110o< 15o27 2,7015o< 20o12 2,9720o< 25o1 5,36∆ > 30o1 3,83Com os trabalhos similares é possível ver que a definições das arquiteturas foramfeitas de forma empírica. Na maioria, a definição das entradas está relacionada ao conhe-cimento das informações que os autores possuem. Segundo Chen, Yu e Moghaddamjo(1992), a definição das ligações entre os neurônios está baseada nos seus conhecimentos,
  30. 30. 29e o fato de acreditar que determinados fatores e dias da semanda influenciam na carga deuma determinada maneira.Dentro da área de previsão, há alguns trabalhos mais específicos que têm como focoauxiliar na composição da arquitetura. Baseiam-se em algumas características, comoas entradas da RNA e a relação das estações do ano e das variáveis climáticas, comoefeito na flutuação da carga (AL-RASHID; PAARMANN, 1997). Alguns trabalhos têmcomo objetivo apresentar um resumo das entradas utilizadas em pesquisas da área, assim,ajudando na definição de uma RNA previsora (DREZGA; RAHMAN, 1998).Para previsões de longo prazo, como base na revisão bibliográfica, há a necessidadeda utilização da variáveis econômicas. Há pouca documentação, porém, há alguns artigosque comentam alguns fatores que podem afetar o consumo de energia em determinadasregiões, apresentado por Ranaweera, Karady e Farmer (1997). Algumas regiões, onde aeconomia está baseada no turismo, sofrem bastantes alterações em seus períodos na alta,temporada como apresentado por Egelioglu, Mohamad e Guven (1999).Com base na revisão bibliográfica, neste trabalho procurou-se não utilizar métodosempíricos para a definição das arquiteturas das RNAS, mas sempre buscar métodos e téc-nicas para o auxílio da criação das mesmas. Dentro da revisão, os trabalhos utilizavamoutras variáveis além da demanda para a previsão. Aqui, será experimentado a possibili-dade da utilização de somente a variável de consumo de energia.
  31. 31. 303 EMBASAMENTO TEÓRICONesse capítulo, serão apresentados os conceitos básicos sobre a teoria necessária paraa compreensão do trabalho realizado.3.1 Redes Neurais ArtificiaisSegundo Haykin (2001), na história da IA os pioneiros à criação das Redes NeuraisArtificiais foram Waren McCulloch e Walter Pitts. Em 1942 começaram a trabalhar juntosna construção de um modelo matemático de um neurônio biológico. Tal pesquisa foiapresentada ao meio acadêmico em 1943 através do artigo "A Logical Calculus of theIdeas Immanent in Nervous Activity"(MCCULLOCH; PITTS, 1943), onde são mostradosos cálculos para ativação de um neurônio matemático.Antes de discutir mais aprofundamente os estudos de McCulloch e Pitts, precisa-seconhecer o funcionamento de um neurônio biológico, tal como é apresentado na Figura3.1.Figura 3.1: Modelo simplificado de um neurônio biológico.
  32. 32. 31Como sabemos o cérebro humano é composto de inúmeros neurônios uns ligadosaos outros, de forma que possam conduzir impulsos dos sensores (pele, olhos, língua),podendo passar pelo córtex cerebral e enviar de volta uma resposta até os atuadores (mús-culos, articulações). Quando os sensores são estimulados, transmitem impulsos elétricosatravés de suas sinapses, sinais que são capturados pelos dendritos de um neurônio se-guinte e assim por diante.Para a transição do pulso ocorre um processo químico, visto na Figura 3.2. O neurô-nio transmissor ou neurônio pré-sináptico libera neurotransmissores, na fenda sináptica,que são absorvidos pelo neurônio receptor ou neurônio pós-sináptico (COSENZA, 1998),(ROBERTIS et al., 1970).Figura 3.2: Processo químico na transição de um pulso.O pulso transmitido entre os neurônios pode ser visto através de um microeletródio,tendo a sua ponteira positiva penetrado no axônio e a negativa no lado externo do neurô-nio. O pulso pode ser dividido em três partes: repouso, despolarização e repolarização.Quando o neurônio está em repouso possui uma tensão de -70 mV. Quando passa parao estado de despolarização chega a 10 mV. Após assumir o ponto máximo, antes de voltarao estado de repouso, acaba ficando com uma tensão inferior a -70 mV. Para atingir oestado de repouso ele fica em estado de repolarização (GUYTON, 1977). Essa transiçãode tensão é ilustrado na Figura 3.3, as quais são geradas a partir de células sensoras einterruptamente com uma determinada frequência que possui uma relação direta com aativação do sensor.
  33. 33. 32Figura 3.3: Pulso transmitido de um neurnio a outro.O corpo celular do neurônio também pode ser chamado de somador, pois não ne-cessariamente ao receber um pulso o neurônio passa-o para o seguinte. Para que issoaconteça, é necessário que a soma dos pulsos passem de um determinado limiar, o qualdepende de neurônio para neurônio. Outro fator que influi é o diâmetro do axônio, queestá ligado diretamente a velocidade de transmissão do pulso. Um exemplo de uma somadas sinapses excitatórias pode ser visto na Figura 3.4.Não há somente soma dos pulsos, isso depende do tipo de sinapse, as quais podemser de dois tipos básicos: excitatórias e inibidoras. As sinapses excitatórias auxiliam napassagem do pulso, já as inibidoras tendem a evitar a troca do pulso. De um modo sim-plificado, as excitatórias são modeladas pelo sinal positivo "+"e as inibitórias pelo sinalnegativo "−". Esse fator é representado no modelo matemático apresentado posterior-mente.
  34. 34. 33(a) (b)Figura 3.4: (a) Sinal de três pulsos de três sinapses excitatórias de neurôniosdiferentes conectado ao neurônio que tem a (b) soma do sinal do corpo celularmostrado ao lado.McCulloch e Pitts, como já mencionados, foram os pioneiros na pesquisa da modela-gem de um neurônio matemático. Em 1943, eles apresentaram o modelo de um neurôniobinário. Nesse modelo há entradas, que são representadas pelos "x", relacionados com osdendritos dos neurônios biológicos e a modelagem das sinapses seriam as saídas repre-sentadas pelos "y". O corpo celular no neurônio é relacionado com uma única unidade,composta por um somador e por um degrau unitário, e os pesos mostrados na Fig 3.5seriam os valores dos dimetros dos axônios.Figura 3.5: Modelo em grafo de um neurônio binário.Para a passagem de um pulso é necessário que a soma das entradas (x) ultrapassemum limiar, determinado por uma bias, aqui representado por um degrau unitário, comoilustrado na Figura 3.6. Nas Equações 3.1 e 3.2 é apresentado o modelo matemático deum neurônio binário. As saídas (y) somente podem assumir valores entre 0 e 1. Então, se
  35. 35. 34a soma das entradas (xk) multiplicado por seus respectivos pesos (wk) for maior que umdeterminado valor de bias, a saída assumirá o valor 1. O fato das saídas assumirem 1 ou0, conforme o valor do somador e do bias, é definido como "all-or-none"(tudo-ou-nada)por McCulloch e Pitts em seu artigo de 1943.Figura 3.6: Função degrau descolada pelo bias.=nk=1xkwk (3.1)y =1 se > bias0 caso contr´ario(3.2)Um exemplo poderia ser feito com a Figura 3.5, da seguinte maneira se: x1 = 1,x2 = 0, x3 = 1 e w1 = 0.7, w2 = 1, w3 = 0, tendo o bias igual a 0.6, então a soma seria= 1 ∗ 0.7 + 0 ∗ 1 + 1 ∗ 0 = 0.7. Nesse caso, como a soma das entradas é maior que ovalor do bias, então y = 1.Pode-se fazer uma reformulação no modelo do neurônio binário de uma maneira aafetar o bias, fazendo com que o limiar do neurônio seja igual a zero. Sendo assim, asaída será 1 quando a soma for maior que 0, e menor caso contrário. Para isso adicionamosuma entrada fixa igual a 1 e um peso wk chamado de bias, como apresentado na Figura3.7, Apesar de diferente do neurônio na Figura 3.5, são matematicamente equivalentes(HAYKIN, 2001).
  36. 36. 35(a) (b)Figura 3.7: (a) Neurônio binário com um peso fixo e um peso bias, (b) um gráficoda transição entra 0 e 1 do bias.Dentro do neurônio binário ainda podemos fazer uma divisão, separando a unidadeem somadara e função degrau, através de um peso sempre igual a 1, como é ilustrado naFigura 3.8.Figura 3.8: Neurônio com a unidade somadora e unidade função degrau separa-das.O neurônio binário de McCulloc e Pitts é uma boa ferramenta para representar funci-onalidades de natureza lógica, onde são apenas necessários valores booleanos discretos,como em sistemas digitais (0 e 1). Existem sistemas analógicos onde é preciso usar umconjunto de valores contínuos. Para isso, pode-se utilizar uma função de ativação comsaída contínua. Com essa necessidade, no final da década de 1950, Rosenblatt (1958) criao Perceptron , ou seja, um neurônio que possui como ativação uma função de resultadoscontínuos.Os perceptrons normalmente possuem funções sigmoidas de ativação, que podemvariar de -1 a 1. Alguns exemplos são as funções logística (f(x) = 11+e−x ), tangente
  37. 37. 36hiperbólica (f(x) = tan(x)) variando de 0 a 1 ou logística reescalada entre -1 a 1 (f(x) =2logistica(x) − 1). Na Figura 3.9 é possível ver o gráfico das funções citadas.Figura 3.9: Funções de ativação.Como notação, em grafo, a modificação da função de ativação está ilustrada na Figura3.10, onde a unidade função degrau é substituída pela unidade função sigmoide. Outramudança que deve ser observada é o acréscimo de um peso (w4), entre a unidade funçãopara a unidade saída (y). Para o cálculo desse modelo temos:Y = w4 ∗ f( ),onde = x1w1 + x2w2 + x3w3 + wk.Figura 3.10: Neurônio com a unidade somadora e unidade função sigmodie.Além do neurônio binário e do perceptron ainda podemos utilizar uma Adaline ouneurônio linear. Esse modelo de neurônio é o mais simples, pois não há necessidade dautilização de nenhuma unidade função após a unidade somadora, como apresenta a Figura
  38. 38. 373.11. Esse modelo será utilizado para introduzirmos o conceito de múltiplas camadas eneurônios de saída. Uma diferença entre uma Adaline e os demais modelos está no cálculorealizado para a execução da RNA, em uma Adaline somente é necessário multiplicar asentradas a seus respectivos pesos e somá-los sendo:Y = x1w1 + x2w2 + x3w3 + wk.Figura 3.11: Ilustração do modelo de um neurônio Adaline.Uma RNA não necessariamente precisa ter somente uma saída. Ela pode ser cons-tituída por diversas entradas e saídas, quantas forem necessárias para a natureza do pro-blema em que a RNA está sendo empregada, como é ilustrada na Figura 3.12. Para ocálculo de cada saída é feito o mesmo cálculo apresentado anteriormente, seguindo ospesos:y1 = x1w11 + x2w12 + x3w13 + w1k ey2 = x1w21 + x2w22 + x3w23 + w2k.Figura 3.12: Uma Rede Neural Artificial com 3 entradas e 2 saídas composta porAdalines.
  39. 39. 38Até agora foram apresentadas apenas redes neurais com entradas e saídas. Mas existea possibilidade de incluir diversas camadas de neurônios entre a entrada e a saída, cha-mados de neurônios ocultos ou intermediários. Essa arquitetura é apresentada na Figura3.13. A inclusão de neurônios ocultos auxilia na divisão de conjuntos de informaçõesou padrões. Como notação, pode-se dizer que a rede apresentada é uma rede 3 2 3, ondetemos 3 neurônios de entrada, 2 neurônios ocultos e 3 neurônios de saída. O cálculo dessemodelo é semelhante, porém tem que se tomar cuidado pois há uma unidade somadora amais entre a entrada e a saída. Com isso tem-se para o cálculo da saída y1:y1 = z1w21 + z2w24 + w3k,sendo que z1 = x1w11 + x2w13 + x3w15 + w1k ez2 = x1w12 + x2w14 + x3w16 + w2k.Figura 3.13: Arquitetura com 1 camada oculta de Adalines.Se for pensado em uma arquitetura composta por Adaline e outra por Percetron nota-se que há apenas a diferença de uma unidade função, a qual pode ser incluída na redede Adalines, apresentada na Figura 3.13, como é ilustrada na Figura 3.14. Essa tambémé conhecida como rede multilayer perceptron ou múltiplas camadas de perceptrons. Ocálculo desse modelo de redes neurais é parecido com a rede de Adalines. Porém, agora
  40. 40. 39temos que aplicar uma função sigmoidal. Como exemplo será usado a função logística,umas das mencionadas anteriormente. Com isso o cálculo da saída y1:y1 = z21w31,sendo que z21 =11 + e−s2onde s2 = z11w21 + z12w24 + w3k.Para o cálculo dos z11 e z12:z11 =11 + e−s11onde s11 = x1w11 + x2w13 + x3w15 + w1k ez12 =11 + e−s12onde s12 = x1w12 + x2w14 + x3w16 + w2k.Figura 3.14: Arquitetura com 1 camada oculta de Perceptrons.As RNA também podem ser classificadas entre dois tipos: Feed-Forward NeuralNetwork (Redes alimentadas para frente) ou redes recorrentes. Uma rede Feed-Forwardnão pode ter a saída, de uma de suas unidades, sendo utilizada como alimentação de al-guma unidade anterior a ela. As RNAs ilustradas até agora são todas deste tipo. Já as
  41. 41. 40RNAs recorrentes tem normalmente os seus neurônios de saída ligados aos neurônios deentrada, fazendo uma retro-alimentação.As redes recorrentes são utilizadas, como por exemplo, para a realização de simula-ções, onde são impostos uma vez os valores iniciais na entrada da rede e ela se encarregade simular os demais passos. Na Figura 3.15 é ilustrada a arquitetura de uma RNA re-corrente. Nessa figura é possível notar que as entradas xs são inseridas somente uma vezna RNA. Após, ela é alimentada com os valores de saída dos ys. Também pode-se criararquitetura onde nem todas as entradas são retro alimentadas, as quais normalmente sãoutilizadas como controle do sistema de simulação.Figura 3.15: Arquitetura de uma RNA recorrente.Foi visto que as redes possuem sinapses que são ligadados, dos neurônios de entrada,para os neurônios ocultos, caso existam, e desses para os próximos até chegarem aosneurônios de saídas. Porém, uma rede, que possui no mínimo 1 camada de neurôniosocultos, pode possuir em sua arquitetura short-cut connections ou conexões de atalhos.Tal tipo de ligação pode ser utilizado tanto em redes recorrentes ou redes feed-forward.Os short-cut connections são ligações feita entre os neurônios de entrada e os neurô-nios de saída. Essas ligações são utilizadas, em geral, para que a rede obtenha um maiorconhecimento em um menor tempo de treinamento. Na modelagem de uma RNA comessas ligações, deve-se adicionar na soma do neurônio de saída as entradas multiplica-das por suas respectivas ligações. Na Figura 3.16 é apresentado uma RNA, com linhas
  42. 42. 41vermelhas representando os short-cut conncetions.Figura 3.16: Arquitetura com short-cut conncetions, apresentadas em linhas ver-melhas.3.1.1 Métodos de aprendizagemUma das características das RNAs é poder "aprender"ou adquirir conhecimento apartir de um determinado conjunto de informações. Nesta seção, iremos apenas apresentaros métodos de treinamentos supervisionados Levenberg-Marquardt e BackPropagation,um dos mais difundidos.O método BackPropagation ou retro propagação do erro basicamente tem como ob-jetivo, a partir de um conjunto de padrões já conhecidos, fazer com que os pesos dosneurônios sejam adaptados/corrigidos, a fim de fazer com que a rede possa reconhecertais padrões. Antes de tudo, precisamos ter conhecimentos do conceito de padrão. Padrãoé um conjunto de dados composto pelos valores de entrada de uma rede com seus respec-tivos valores de saída. Um exemplo seria os estados lógicos do OU, como apresentados naTabela 3.1. Nessa tabelas há 4 padrões, sendo 1 deles o conjunto composto pelas entradasX1 = 0, X2 = 0 e pela saída Y = 0, o outro composto por X1 = 0, X2 = 1 e Y = 1, assimpor diante.
  43. 43. 42Tabela 3.1: Tabela da lógica OUX1 X2 Y0 0 01 0 10 1 11 1 1O BackPropagation é um método de apredizagem supervisionado, utilizando comocritério os mínimos quadrados para o treinamento da rede, método comumente escolhido.O critério dos mínimos quadrados é uma função chamada função energia (E), descrita naEquação 3.3, igual a soma dos erros (ei) elevado ao quadrado.E =i(ei)2(3.3)ei = yi − yi (3.4)Sendo o erro (ei), descrito na Equação 3.4, o qual procura-se minimizar, a diferençada resposta da rede neural (yi) pela resposta que realmente deveria ter dado (yi) do padrão(i). Como exemplo, para apresentar a utilização das equaçãos usaremos a rede neural deAdalines ilustrada na Figura 3.17. Baseando-se nas equações citadas acima, para redeexemplo temos que:E =i(w1w2xi − yi).(a) (b)Figura 3.17: (a) padrões de um determinado problema e uma (b) RNA (1 0 1)composta de Adalines.
  44. 44. 43Para encontrar o menor erro, o mínimo, utiliza-se um algorítmo chamado descida dogradiente. Esse tem como objetivo encontrar o menor (E) entre as dimensões dos pesosde uma RNA. Se pensarmos que cada peso corresponde a uma coordenada, tendo o erro(E) como a altura, então procuramos encontrar nessas dimensões onde o erro (E) é omenor possível, isso pode ser visto na Figura 3.18. A descida do gradiente basicamenteé uma maneira de calcular a variação dos pesos, após uma época de treinamento. Dentrodo aprendizado de sistemas inteligentes, temos um termo técnico, o qual é chamado deépocas. Esse tem como definição a execução de todos os padrões de treinamento e ter afunção energia (E) calculada, e os pesos da rede corrigidos.Figura 3.18: Gráfico que apresenta as dimensões dos pesos em relação ao erro.O cálculo da variação dos pesos, basicamente, no método de BackPropagation, é aderivação primeira da função energia multiplicado por um regulador de tamanho de passo(α). Na Equação 3.5 é mostrada a descida do gradiente e também nota-se que o α possuio sinal negativo. Isso porque se está em busca do menor erro, se fosse positivo estar-se-iafazendo a subida do gradiente.∆wi = −α∂E∂wi(3.5)O outro método de aprendizagem supervisionado, Levenberg-Marquardt, é idênticoao BackPropagation. Porém, no cálculo da descida do gradiente, ele utilizada a derivadasegunda, fazendo com que se chegue mais rapidamente ao menor erro, com isso um tempomenor para o treinamento das RNAs.
  45. 45. 443.1.2 Tipos de treino e validaçãoNão somente de treinamento são realizados os estudos de uma rede, mas também demétodos de validação da rede, a fim de verificar o quanto a rede possui de conhecimentodos dados em estudos. Existem diversas técnicas ten-fold cross-validation, leave-one-out cross-validation, treino/teste, entre outros. Neste trabalho, será utilizado basicamenteten-fold cross-validation. Para alguns experimentos mais custosos computacionalmente,optou-se usar o método treino/teste. Apesar do método leave-one-out cross-validation sermais recomendado, o mesmo exige muito tempo para a validação das redes.Tais métodos utilizam critérios, heurísticas para determinar uma certa quantidade depadrões que serão usados para treinamento e quais serão os utilizados para a validação. Avalidação de uma RNA, nada mais é, que após cada época de treinamento verificar qualé a taxa de acerto da rede. Normalmente essa taxa é dada em RMS (Root Mean Square),ou média da raiz quadrada, a qual é apresentada na Equação 3.6, onde, xRMS é a médiada soma de i padrões até n, sendo yi a saída da rede e yi o valor que deveria ter dado parao padrão i.xRMS =1nni=1yi − yi (3.6)Um dos métodos mais simples para validação é o treino e teste, onde uma quantidadeé destinada ao treinamento e o restante à validação. Normalmente são separados 23dospadrões para o treinamento e 13para a validação. Sendo que os padrões, antes de seremdivididos, foram reorganizados aleatoriamente.A desvantagem da utilização desse método é que a rede deixa de conhecer alguns da-dos, os que foram separados para a validação. Com isso, também acaba somente obtendoconhecimento dos dados que foram separados para o treinamento. Uma vantagem é orápido treinamento e validação das redes.O método ten-fold cross-validation tenta contornar o problema do treino e do teste.Para isso, esse método divide todos os padrões em 10 conjuntos, onde utiliza-se 9 con-juntos para o treinamento e 1 para a validação. Em seguida, retira-se um outro conjunto,que ainda não foi utilizado para a validação, e treina a rede com os outros 9. Isso ocorreaté que todos os dez conjuntos tenham sido utilizados uma vez para o treinamento.
  46. 46. 45Para o cálculo do erro da rede, basicamente, é feita uma média dos dez erros resul-tantes das validações de cada conjunto. Com isso, o método garante que todos os padrõespassaram pela rede, sem deixar nenhum conhecimento para trás. Uma das desvantagensdesse método é o custo computacional.O método leave-one-out cross-validation, utiliza a mesma heurísitca do ten-fold cross-validation. Porém, ao invés de utilizar 10 conjuntos, sendo selecionado 1 para a validação,o método leave-one-out cross-validation seleciona um padrão para a validação, e os de-mais para o treinamento. Em seguida, seleciona outro padrão, que ainda não foi utilizadopara o treinamento, e o usa para validar a rede, até que todos os padrões tenham sidoutilizados uma vez para validar a rede.Para o cálcudo do erro, também é utilizada a média dos erros para a validação de cadapadrão. Esse método faz com que seja apresentado uma média dos erros de como a redereagiria para cada padrão de dados. Porém, esse método de validação torna-se extrema-mente caro computacionalmente, quando se trabalha com um conjunto muito grande depadrões.3.2 Métodos de seleção de variáveisNeste trabalho, procurou-se não utilizar métodos empíricos para a composição daarquitetura das RNAs. Aqui serão utilizadas três técnicas de seleção de variáveis, a fim defazer com que as redes possuam um bom desempenho na previsão de carga. Os métodosescolhidos para a seleção das melhores variáveis foram: Forward Selection; Análise deComponentes Principais e a Função de Auto-Correlação.3.2.1 Forward SelectionO método Forward Selection é um método seqüencial e incremental de variáveis.Dentre um conjunto de variáveis, esse método tem como objetivo selecionar as melhoresvariáveis. Para isso, utiliza-se do treinamento das redes neurais e é selecionada a entradada rede que obtiver o menor RMS (BEAL, 2005).Para usar esse método, deve-se definir uma RNA base, na qual serão apenas alteradasas variáveis de entrada e a quantidade. Inicialmente, é treinada uma rede para cada entrada
  47. 47. 46do conjunto de variáveis, com o intuito de saber qual será a primeira entrada eleita, comoa melhor entre elas. Como já mencionado, a escolha é baseada no menor erro RMS. Doconjunto apresentado na Figura 3.19, meramente ilustrativa, há as: Var-1; Var-2; Var-3;Var-4, sendo selecionada a Var-2, por possuir o menor RMS de 0,399.Figura 3.19: Primeira seleção de variáveis utilizando Forward Selection nesseconjunto de entradas.O segundo passo é combinar a melhor variável selecionada, Var-2, com as demais, etreinar uma RNA para cada combinação, como apresentado na Figura 3.20. Após o trei-namento, deve-se selecionar, como melhores variáveis de entrada, o conjunto que obtivero menor erro RMS, e assim por diante.Figura 3.20: Segunda seleção de variáveis utilizando Forward Selection, sendoa primeira a Var-2.A seleção pode ser feita até que haja uma alteração significativa nos resultados dasredes ou até que acabem as variáveis do conjunto. Porém, normalmente, define-se umaquantidade de entradas que o método deve selecionar, pois, num conjunto muito grande devariáveis, ele pode acabar demorando muito tempo para determinar as melhores variáveis.
  48. 48. 473.2.2 Análise de Componentes PrincipaisA Análise de Componentes Principais (ACP) é uma técnica normalmente utilizadapara a redução de dimensionalidade em reconhecimento estatístico (HAYKIN, 2001), fi-nalidade principal dessa técnica em nosso trabalho. Para o entendimento de tal método,primeiramente é necessário o conhecimento de alguns conceitos prévios, como: Variân-cia; Covariância; Autovetores e Autovalores.A Variância é uma maneira de explicar o quão distante um conjunto de dados estáde sua média, segundo Pedrini e Schwartz (2008), a qual pode ser calculada utilizando aEquação 3.7, onde Xi é o dado para a instância i e X é a média de X.σ2=1nni=1(Xi − X)2(3.7)Já a Covariância é uma maneira de explicar a Variância entre 2 dimensões, sendo Xe Y duas variáveis aleatórias. A Covariância, delas (cov(X, Y )), é definida pela Equação3.8, onde Xi e Yi são os dados de cada variável, para cada instância de i, sendo que X éa média de X e Y é a média de Y .cov(X, Y ) =1nni=1(Xi − X)(Yi − Y ) (3.8)Porém, quando utilizado mais que 2 dimensões, 3 dimensões como: x; y e z, utiliza-se a Matrix de Covariância, onde é feita a Covariância de todas a dimensões de duas emduas, como é ilustrada na Equação 3.9.Ci,j =cov(x, x); cov(x, y); cov(x, z)cov(y, x); cov(y, y); cov(y, z)cov(z, x); cov(z, y); cov(z, z). (3.9)A partir da matriz é retirado os Autovetores e Autovalores, os quais são utilizadospara a ACP. Para a busca desses valores é necessário pressupor que:A.−→v = λ−→v , (3.10)onde A é uma matriz quadrada, e λ são os Autovalores e −→v os Autovetores. Sendo quepara uma matrix n ∗ n exstirão n Autovetores, e n Autovalores associados a cada Auto-
  49. 49. 48vetor. Esse, porém, como já mencionado, o método de ACP tem como finalidade reduzira dimensionalidade. Poder-se-ia utilizar infinitas variáveis de entradas de uma RNA, con-tudo, a sua complexidade seria extremamente grande. Como visto anteriormente, se háinfinitas variáveis, na análise haverá também infinitos Autovetores e Autovalores.Para a redução é necessário utilizar alguns critérios, os quais tem como objetivo defi-nir um corte, para que apenas algumas entradas sejam utilizadas. Existem diversos crité-rios, porém, nesse trabalho, serão utilizados apenas os critérios de: Kaiser (1960); Jolliffe(2002) e retenção dos 90% dos Autovalores.Segunto Kaiser, como entrada, deve-se utilizar todas componentes que possuírem umAutovalor maior que 1. Já Jolliffe diz que o corte deve ser feito em 0.7, assim usandocomponentes com Autovalor maior que 0.7. O critério de retenção dos 90% tem comobase utilizar componentes onde a soma dos Autovalores representem aproximadamente90% do total dos Autovalores de todas componentes.3.2.3 Função de Auto-CorrelaçãoEssa função tem como objetivo, a partir de uma série temporal, mediar a relação quehá entre um determinado instante com os demais vizinhos. Para o cálculo da função noinstante k, é feita a média, dos valores X no instante t,subtraídos a média X, e multipli-cado pelos valores X no instante t + k, também subtraídos pela média X. Sendo que tvaria de k até N −(k +1), onde N é a quantidade de dados da série temporal. Como que-remos utilizar a Auto-Correlação, o valor deve ser dividido pela variância (σ2) da série,caso contrário tería-se a Auto-Covariância. A função de Auto-Correlação é apresentadana Equação 3.11.FAC(k) =1nN−(k+1)t=k (Xt − X)(Xt−k − X)σ2(3.11)Tal método tem como resultado valores contínuos entre 1 e -1, onde 1 significa umaperfeita relação e -1 uma contra-relação perfeita, de um ponto no instante t com um pontono instante t + k. Sempre que k for igual a 0, será feita a relação de um instante com elemesmo, então a sua Auto-Correlação será sempre igual a 1. Já se o valor da função forigual a 0, significa que não há nenhuma relação entre os dois pontos comparados.
  50. 50. 49Para a utilização desse método, também é necessário usar algum critério para a se-leção dos melhores k. Com essa finalidade, neste trabalho, serão utilizados a técnica deCruzamento por Zero e Pontos Máximos.O critério de Cruzamento por Zero tem como objetivo selecionar as entradas combase no cruzamento no eixo das absissas, ou onde os valores de correlação são próximosa zero. Já o critério de Pontos Máximos, tem como finalidade, selecionar os atrasos, kcom o maior valor de correlação.
  51. 51. 504 METODOLOGIAEssa seção apresentará a metodologia utilizada para a realização do trabalho. Mos-trará as regiões selecionadas para a execução dos experimentos, como também os métodospelas quais as redes serão avaliadas e as ferramentas utilizadas.4.1 Campo de Testes e Dados ObtidosPara a realização do trabalho, será utilizada, como campo de testes, a área de con-cessão da distribuidora de energia RGE. Além dos dados referentes a demandas de carga,infra-estrutura da rede de distribuição, foi necessária, para a execução do projeto, no qualeste trabalho está inserido, a coleta de dados que influenciam no consumo de energia,sendo elas variáveis climáticas e econômicas, as quais foram doadas pelo INMET (Insti-tuto Nacional de Meteorologia) e pelo IPEA (Instituto de Pesquisa Econômica Aplicada),dados que poderiam ser usados para a realização deste trabalho.Os dados fornecidos pela distribuidora de energia RGE representam o consumo deenergia no intervalo horário, em 140 pontos de medição, distribuídos sob a sua área deconcessão, do período de janeiro de 2003 a dezembro de 2007. Esses pontos estão dividi-dos em sete classes:• Intercâmbio (IN)• Fronteira AES Sul (FR)• Serviços auxiliares (SA)• Consumidores livres (CL)
  52. 52. 51• Geradores distribuídos (G1)• Geradores embutidos (G2)• Geradores compensados (G3)Para explicar os IN, inicialmente é necessário ter o conhecimento de que existemlinhas de transmissão de distribuidoras, como Itaipu, que atravessam dentro da área daRGE, a qual utiliza como captação de energia, por meio de uma subestação conectada alinha da geradora. Conforme a linha que é utilizada para a adquisição de energia, a RGEnegocia com a geradora responsável.Já as geradoras G1 e G2 são pontos que acrescem energia ao sistema e estão fisica-mente localizadas dentro da área da RGE. Esses três tipos de pontos (IN, G1 e G2) são osque necessitam de contratação de energia antecipadamente. As geradoras G3 são negoci-adas através de um acordo de compensação entre a geradora e a RGE. A geradora forneceenergia para a RGE, de uma determinada região, e quando necessário a RGE forneceenergia para essa região como contrapartida.Contudo, há todo um interesse de compra e venda de energia que é necessário termosconhecimento para uma análise melhor do problema. Os tipos FR são pontos onde aAES Sul1utiliza a linha da RGE para a captação de energia de alguma geradora, que nãopossui linha na sua área de concessão. A energia consumida, nesse ponto, passou por umasubestação da RGE e deve ser descontada, pois essa carga é de responsabilidade da AESSul.Os SA são subestações que pertencem à antiga Compania Estadual de Energia Elé-trica (CEEE), atualmente distribuidor da região sul e litoral, mas estão na área e captandoenergia para a RGE. Entretando, o consumo de energia para a manutenção dessa subesta-ção é de responsabilidade da proprietária da mesma, nesse caso, a CEEE. Por fim, os CLsão empresas que estão dentro da área da RGE, como, por exemplo, a Schincariol, quecompram energia de outras distribuidoras, as quais utilizam a linha da RGE somente parao fornecimento da energia.Com isso, sabe-se que na CCEE o consumo efetivo, e de responsabilidade da RGE, é1AES Sul é uma distribuidora de energia elétrica a qual faz fronteira ao sul com a RGE
  53. 53. 52na verdade IN + G1 + G2 − (CL + SA + FR). Na Figura 4.1 é apresentado o diagramada infra-estrutura da rede, sobre a área de concessão da distribuidora de energia RGE.Figura 4.1: Diagrama do sistema de transmissão da RGEAlém dessas informações, sabe-se que dentro da área de concessão da RGE existemsete subdivisões chamadas de Pontos Géo-Elétricos (PGE). Essas subdivisões são utili-zadas para determinar uma região que possui subestações independentes de outras dentrode outro PGE. Ou seja, caso haja algum problema, em alguma subestação do PGE deGravataí, outra subestação desse mesmo ponto pode fornecer energia para aquela região,sempre dentro do mesmo ponto.Antigamente, a RGE utilizava uma metodologia parecida com a dos PGE para a sub-divisão. Nessa subdivisão existiam 18 regiões chamadas de ilhas, mas, mesmo assim,sentiu-se a necessidade de ampliação dessas regiões, pois algumas ilhas estavam per-dendo energia, que não condizia com a localidade. Assim, surgiram os PGE, os quais sãoapresentados na Figura 4.2.
  54. 54. 53Figura 4.2: Divisão dos Pontos Géo-ElétricosPara o desenvolvimento do projeto foram necessários dados climáticos. Esses dadosforam doados pelo INMET, para serem utilizados no âmbito acadêmico. O INMET possuidiversos pontos de medição, os quais podem ser classificados em dois tipos: (a) estaçõesautomáticas e (b) estações convencionais.As estações automáticas (a) coletam dados de hora em hora, já as estações conven-cionais (b) coletam dados as 12, 18 e 00 horas no horário UTC e possuem valores de:temperatura máxima, mínima, instantânea e de bulbo seco; pressão máxima, mínima einstantânea; umidade máxima, mínima e instantânea; nebulosidade máxima, mínima einstantânea; vento velocidade, direção e rajada; radiação e precipitação. Esses dados es-tão no intervalo de janeiro de 2003 a dezembro 2007, mas algumas estações do tipo (a)possuem dados a partir da sua data de inauguração, que pode variar entre elas.Dentro da área de concessão ou próxima a ela, há nas cidades de Porto Alegre; Ere-chim; Frederico Westphalen; Santo Augusto; São Borja; São José dos Ausentes e BentoGonçalves estações do tipo (a). Já nas cidades de Cambará do Sul; Campo Bom; Caxiasdo Sul; Cruz Alta; Ibirubá; Ira; Lagoa Vermelha; Passo Fundo e São Luiz Gonzaga háestações do tipo (b).Além das variáveis de carga e climáticas, também foram coletadas variáveis econô-micas para realização do projeto. Os dados econômicos são oferecidos de forma gratuita,através do site do IPEAData. Neste site é possível conseguir diversos tipos de dados,como o consumo de material elétrico, consumo de energia, variáveis econômicas como
  55. 55. 54dólar, importações e exportações. Esses dados são fornecidos no intervalo que englobadesde o ano de início da coleta até o fim de 2007. Na maioria dos dados eles estão nointervalo de meses, bimestres, trimestres e semestres.4.2 Dados utilizadosPara a execução do trabalho, teve-se de escolher/determinar a área em que iríamosestudar, dentro da região de concessão da distribuidora RGE. Dentre todas as opções pos-síveis, optou-se por utilizar a subestação de Cachoeirinha (CAC1) e a região de Gravataí.A subestação de Cachoeirinha foi selecionada por ser "limpa", ou seja, por não possuirnenhum tipo de soma ou subtração, como mencionado anteriormente, devido aos fatoresde compra e venda de energia entre as distribuidores. Já a região de Gravataí, Figura 4.3,foi escolhida por ser uma região industrializada e populacional.Figura 4.3: Ponto Geo-Elétrico de GravataíPorém, para a utilização desse PGE, Gravataí, é necessário realizar um cálculo. Precisa-se, saber o consumo, de carga de responsabilidade da RGE, para o treinamento RNAs.Assim, elas poderão prever somente a demanda da RGE. A Tabela 4.1 apresentará assubestações discriminadas. Neste cálculo deve se somar os pontos de mediçãoCAC1 + CAC2 + GRA1 + GRA2 + GRA3e subtrair a soma dos pontos de mediçãoTR7+AL202+AL201+SouzaCruz+Epcos+Dana+Kaiser+Fitesa+Mundial.
  56. 56. 55Devido ao fato de entrada/saída dos consumidores livres ser indeterminado e sabendo-se que o consumo dos CL são praticamente constantes, foi decidido que eles não se-riam descontados. Sendo assim, matematicamente, estão inclusos nos valores de treina-mento/validação e previsão das RNAs.Optou-se por essa medida pois quando há entrada/saída de um CL, acabam deixandoum degrau na série temporal. Teoricamente, esses degraus seriam impossíveis das redespreverem, já que, como mencionado acima, a entrada e saída deles é um fator indeter-minado. Como eles apresentam uma aproximação constante de consumo de demanda, odesconto deles pode ser feito após a previsão das RNA.
  57. 57. 56Tabela 4.1: Tabela dos pontos de medição na região do PGE de GravataíSubestações Classificação Ilha Ponto de MediçãoCachoeirinha 1 IN 1 CAC1Gravataí 3 IN 2 GRA3Gravataí 2 IN 2 GRA2Gravataí 2 IN 2 GRA1Gravataí 2 IN 2 CAC2Gravataí 2 SA 2 TR 7Gravataí 2 FR 2 AL 201Souza Cruz FR 2 AL 202Epcos CL 2 -Dana CL 2 -Kaiser CL 2 -Fitesa CL 2 -Mundial CL 2 -Além dos dados de consumo de energia, também estavam a disposição do trabalhodados climáticos e dados econômicos, caso a utilização dos mesmos fossem necessários.Os dados de fatores climáticos selecionados eram da região de Porto Alegre. A escolhadessa região deve-se ao fato deles serem os mais próximos da região dos dados de carga.Economicamente, tinha-se dados relacionados à economia nacional como: compra demateriais elétricos; cambio; indicadores sociais entre outros. Tais dados estão no intervaloque vai de mensal, bimestral a trimestral, conforme a variável, tendo o seu início de coletatambém variável.Os dados utilizados para o treinamento e validação das redes eram do período deinício de 2003 ao final de 2006. Para a geração dos gráficos, que serão apresentadoscomo teste das melhores redes de cada região, serão utilizados dados de 2007. A Figura4.4 mostra um gráfico do consumo de energia da subestação de Cachoeirinha e de Gravataí(horário). Apresenta os valores de temperatura instantânea, máxima e mínima (horário)de Porto Alegre e um gráfico do consumo unitário de condicionadores de ar no Brasil(mensal), sendo o início dessa coleta no mês de Janeiro de 1994.
  58. 58. 57Figura 4.4: Gráficos de: consumo de energia da subestação de Cachoeirinha ede Gravataí, temperatura de Porto Alegre; e consumo de condicionadores de arno Brasil.Para os dados serem utilizados no treinamento e validação das redes neurais, tiveramde ser normalizados entre ≈ -1 e 1, pois sabe-se que a função de ativação pode variar de -1até 1. A normalização era feita utilizando a média e o desvio padrão dos dados utilizados.Ou seja, o valor do dado normalizado (Dn) é a diferença do valor do dado real (D) pelamédia dos dados (D) divididos pelo desvio padrão dos dados (Ddp), como é apresentadona Equação 4.1.Dn =D − DDdp(4.1)
  59. 59. 584.3 Variações da topologiaSabe-se que a definição da arquitetura de uma RNA não simples, pois existem di-versas dimensões na sua estrutura. Para podermos definir a composição da nossa rede,optamos em treinar diversas RNAs. Variou-se a quantidade de neurônios ocultos, épocasde treinamento, rede com e sem short-cut connections e a semente de sorteio dos valoresiniciais de pesos entre os neurônios. Entre as variações de topologias, a escolha da melhorserá a que obtém o menor erro RMS.Como variações optou-se as seguintes modificações: a quantidade de neurônios ocul-tos de 1, 2, 4, 8, e 16; a quantidade de épocas de treinamento de 1000, 2000, 4000; ovalor da semente de inicialização discretamente de 0 a 10 e se a rede possuía ou nãoshort-cut connetcions. As escolhas dessas variações deram-se de forma intuitiva e peloquanto custoso seria o treinamento com mais de 4000 épocas e de redes com mais de 16neurônios.As redes a serem analisadas, neste trabalho, terão apenas uma camada de neurôniooculto, pois nos trabalhos similares não houve nenhum que mostrasse a necessidade dautilização de mais de uma camada.4.4 Métodos de seleção de variáveisDentro das topologias a serem avaliadas, há a necessidade da seleção das variáveis deentrada da RNA para se obter os melhores resultado possíveis. Para isso serão utilizadostrês métodos: Forward Selection; Análise de Componentes Principais e Auto-Correlação.Os métodos acima citados foram escolhidos por suas características, que auxiliam naescolha de variáveis.O Forward Selection é um método de seleção seqüencial e incremental das melhoresvariáveis dentre um conjunto. O método Análise de Componentes Principais é utilizadopelo fato de reduzir a dimensionalidade, evitando que sejam incluídas entradas desneces-sárias. Perante isso, tevesse que utilizar alguns critérios, para que fosse possível realizaro corte na quantidade de componentes. Foram empregados os critérios de: retenção dos90% dos auto-valores, critério de Kaiser e o critério de Jollife.
  60. 60. 59O método de Auto-Correlação exigiu a utilização de critérios para a seleção dos me-lhores intervalos de atraso de demanda, ou seja, as melhores entradas. Então, optamospela utilização do critério de Cruzamento por Zero e o critério de Pontos Máximos.Para os experimentos de curto prazo (horas), iremos utlizar a subestação CAC1 e aPGE de Gravataí. Combinando as variações de topologias e os métodos de seleção dasmelhores variáveis entradas. Espera-se que, ao final desses testes, obtenha-se uma redeque resulte em erros satisfatórios. Ou seja, uma previsão com menos de 5%, que é ataxa de acerto que a distribuidora possui atualmente. Todas as redes, desenvolvidas paraa previsão de curto prazo, utilizaram como entrada dados passados no intervalo horáriopara realizar a previsão de demanda futura, uma hora à frente.Para a previsão de longo prazo (meses) serão utilizados somente dados da região deGravataí. Como os dados estavam em base horária teve-se que somar 720 horas (1 mês).Isso representaria o consumo de um mês de energia, os quais foram utilizados comoentradas e deveriam ser previstos pele rede. As redes de longo prazo tinham o objetivo deutilizar, como entrada, dados do consumo mensal e prever o consumo de 30 dias à frente.Devido a pouca quantidade de dados na previsão mensal, não há necessidade de utilizarmétodos de seleção das melhores variáveis.Como ferramenta para o desenvolvimento e execução do trabalho, utilizamos a lin-guagem R (R Development Core Team, 2008) juntamente com o programa de treinamentode RNA, Stuttgart Neural Network Simulator (SNNS) (STUTTGART..., 2008). Para asvariações das topologias foi criado um script em R, o qual cria todas as topologias possí-veis e treina-as. Por fim, calcula os respectivos erros e as retorna ao usuário.Para a validação, foi utilizado o método ten-fold cross-validation em algumas situa-ções, e o método treino-teste (2/3 1/3) em outras. Devido ao fato do método de seleção devariáveis Forward Selection ser caro computacionalmente, obrigou-se a validar essas re-des apenas com treino-teste. As redes que tiveram as suas entradas seleciondas, baseadasno método de Auto-Correlação com o critério de Pontos Máximos, também utilizaramesse mesmo tipo de validação.
  61. 61. 605 TESTES E RESULTADOSNesta seção serão apresentados os resultados obtidos na execução dos experimentosrealizados, com base na metodologia citada no capítulo anterior. Dentro desta seção,os resultados, para melhor entendimento, foram divididos em subseções. Sendo elas: ade Curto Prazo com os resultados da região de Cachoeirinha, de Gravataí e o resumodos resultados de cada método de seleção de variáveis; e a de Longo Prazo que tem osresultados focados somente na região de Gravataí.5.1 Curto PrazoDentro da previsão a curto prazo, tem-se como objetivo a busca de uma arquiteturaque seja capaz de prever a demanda de energia uma hora à frente, para a subestação deCachoeirinha e para o PGE de Gravataí. Como entrada, serão utilizados dados passadosno intervalo horário de carga, e, caso seja necessário, variáveis climáticas e econômicas.5.1.1 CachoeirinhaNesta seção serão apresentados os resultados1obtidos para a subestação de Cachoei-rinha, baseando-se na metodologia mencionada anteriormente.Para o método Forward Selection optou-se em escolher manualmente a primeira va-riável como sendo a demanda(t − 1), sendo t a hora da demanda. As demais variáveis,que o método deveria selecionar, estariam num intervalo discreto entre demanda(t − 2)à demanda(t − 200), sendo que dentre esse intervalo deveriam ser selecionadas mais 31Os resultados apresentados aqui, foram aceitos para a publicação (BARILI; CECHIN, 2008a)
  62. 62. 61entradas. Porém, antes de utilizar o método, é necessário definir a configuração da RNAbase em que será empregado o Forward Selection. Para isso, então, realizamos uma se-leção inicial da melhor rede, baseada nas variações citadas acima e como entradas asúltimas 3 horas antes da hora de previsão.Dessa primeira análise, como resultados obtivemos 330 arquiteturas de RNAs dife-rentes entre si. Apresentando as melhores RNAs, as que possuem o menor erro médio %,como mostra a Tabela 5.1. Com base nesses resultados, é possível determinar que a ar-quitetura da RNA base do método será a que é constituída por 16 neurônios ocultos, comshort-cut connectios e pesos, sendo inicializados com a semente 8 e treinada por 4000épocas.Tabela 5.1: Tabela com os resultados, das 10 melhores RNAs para a escolha darede base, para a aplicação do método Forward Selection.Neurônio Oculto Inicialização Épocas Short-Cut Erro Médio (%)16 8 4000 sim 17,590716 5 4000 sim 17,603716 6 4000 sim 17,605816 7 4000 sim 17,609716 0 4000 sim 17,61078 2 4000 sim 17,611516 0 4000 sim 17,612716 2 4000 sim 17,616316 1 4000 sim 17,616816 9 4000 sim 17,6184Através desses resultados, notou-se algumas características. A Figura 5.1 apresentaas 330 RNAs ordenadas por seus respectivos erros RMS, com base nesses gráficos, é fácilnotar que as melhores redes são as que possuem short-cut connections, pois quando oerro RMS sobe rapidamente, as arquiteturas deixam de ter short-cuts. Já na Figura 5.2 épossível notar que, na maioria, os melhores resultados são obtidos pelas RNAs que têmem sua arquitetura o maior número de neurônios ocultos e a maior quantidade de épocasde treinamento.
  63. 63. 62Figura 5.1: RNAs ordenadas pelos seus respectivos erros RMS (E). RNAs tam-bém ordenadas, porém apresentando a sua arquitetura sem ou com short-cut(D).Figura 5.2: Quantidade de épocas de treinamento (E) e neurônios ocultos (D),em relação às RNAs ordenadas pelos erro RMS.Outra observação que pode ser feita é em relação à semente de inicialização. Comopode ser visto na Figura 5.3, a relação da semente aparentemente não possui nenhumarelação com os resultados obtidos pelas RNAs.
  64. 64. 63Figura 5.3: Semente de inicialização em relação às RNAs ordenadas pelos errosRMS.Com a RNA base, a mesma foi submetida ao método de seleção de variáveis deentrada Forward Selection. O método definiu que a rede que obtém o menor erro RMS,de 3,64%, é a que tem como entrada, demanda(t − i), sendo os atrasos i igual 1, 2, 168e 169, onde t é a hora a ser prevista pela RNA. Nota-se que 168 é exatamente a mesmahora de uma semana atrás, em relação a hora de previsão.Na Tabela 5.2 são apresentados os resultados que o método obteve para as variáveisde entrada selecionada a cada passo de escolha. Nota-se que na escolha da 4aentradahá uma queda brusca no erro. Erro satisfatório tendo em vista que a distribuidora utilizacomo base, atualmente, um erro médio de 5%. Outra observação, que pode ser feita nessesresultados, é em relação à quarta variável que é igual a duas horas antes da previsão.Sendo que as variáveis 2 e 3 são uma semana, e essa poderia ter sido selecionada como asegunda melhor variável.Tabela 5.2: Tabela com os atrasos selecionados pelo Forward Selection comseus respectivos erros percentuais para a subestação de Cachoeirinha.Node Entradas Atrasos Erro Médio (%)1 1 17,592 168 16,443 169 16,344 2 3,64Uma suspeita para esse fato, deve-se que o conjunto de entradas submetidas a seleçãoera pequena, pois englobavam apenas um pouco mais de uma semana. Acredita-se que se,
  65. 65. 64tivesse duas semanas, o método teria selecionado a mesma hora da previsão das semanasanteriores.O método ACP foi utilizado para a análise dos dados das últimas 20 horas anterioresà hora de previsão. As entradas seriam selecionados a partir do três critérios escolhidos:retenção dos 90%, Kaiser e Jolliffe. Segundo o critério de Kaiser, o corte deveria ser feitoquando as componentes tivessem um auto-valor menor que 1, com isso, então, deveriamser utilizadas as primeiras 3 componentes.Já Jolliffe afirma que se deve utilizar as componentes que tem o auto-valor maior que0.7, baseado nisso foi selecionada as 4 primeiras componentes. Por fim, para o critériode retenção dos 90%, foram selecionados as 14 primeiras componentes, pois a soma dosauto-valores era de 11,98. Então, a soma das componentes deveria ser de aproximada-mente 10,78, ou seja, 90% de 11,98. Os cortes, realizados no conjunto das 20 componen-tes escolhidas para a análise, podem ser vistos melhor na Figura 5.4.Figura 5.4: Gráfico dos auto-valores das componentes, com os cortes baseadosnos três critérios para a subestação de Cachoeirinha.Como resultado, obtivemos que a melhor rede foi a que se baseou no critério deJolliffe, rede capaz de prever uma hora à frente com 7,43%. Utilizando o critério daretenção dos 90%, a rede realizou previsões com 17,51%, e com o critério de Kaiser arede previu com erro de 17,83%. A Tabela 5.3 apresenta as melhores arquiteturas de redede cada critério e seus respectivos erros.
  66. 66. 65Tabela 5.3: Tabela com as melhores arquiteturas da ACP de cada critério e seusrespectivos erros.Critério No de Neurônios Épocas Inicialização Shot-cut ErroEntradas Ocultos connections Médio (%)Jolliffe 4 16 4000 9 sim 7,4390% 14 16 4000 4 não 17,51Kaiser 3 16 4000 9 não 17,83Através dos resultados das arquiteturas de redes treinadas, pode-se fazer as mesmasobservações em relação à quantidade de épocas e neurônios ocultos feitas no métodode Forward Selection, fatores que ajudaram a RNA realizar previsões com menor erro.A Figura 5.5 apresenta dois gráficos que mostram as épocas e os neurônios ocultos dasRNAs, ordenadas pelos seus erros RMS.Figura 5.5: Quantidade de épocas e neurônios ocultos, para as melhores RNAsprevisoras com entradas no método ACP e no critério de Jolliffe.No método de Auto-Correlação, como dito anteriormente na metodologia, foi neces-sária a utilização de dois critérios: Cruzamento por Zero e Pontos Máximos, para saberquais os atrasos que deveriam ser utilizados. Com base no método de Cruzamento porZero, as entradas selecionadas foram as que tinham o valor de Auto-Correlação próximoa zero, a cada instante que a curva cortava o eixo das abscissas. Exceto a primeira entrada,pois tal critério diz que se deve incluir uma entrada que possua quase toda a informação.
  67. 67. 66Com base nisso e nas curvas de Auto-Correlação, as entradas deveriam ser as quetivessem atraso da hora de previsão igual a 1, 30, 45 e 50. A seleção de tais entradas podeser vista na Figura 5.6, onde se apresenta a curva de Auto-Correlação desses dados e emvermelho os atrasos selecionados.Figura 5.6: Curva de Auto-Correlação dos dados de Cachoerinha. Em vermelhoas entradas selecionadas.Executando os treinos e testes nas arquiteturas, com essas entradas, obtivemos umerro de 17,75%. Esse resultado não satisfaz as premissas do problema, que é encontraruma RNA que realize previsões com menos de 5% de erro. Tal resultado é obtido atravésde uma RNA de 16 neurônios ocultos com short-cut connections, sendo inicializada coma semente igual a 9 e treinada por 4000 épocas. Na Tabela 5.4 são apresentadas as dezprimeiras topologias que obtiveram os melhores resultados.
  68. 68. 67Tabela 5.4: Tabela com os resultado das 10 melhores RNAs, que tinham asentrada baseadas no método de Cruzamento por Zero.Neurônio Oculto Inicialização Épocas Short-Cut Erro Médio(%)16 9 4000 não 17,759316 3 4000 não 17,76268 4 4000 não 17,76438 5 4000 não 17,76578 8 4000 não 17,766516 9 4000 sim 17,768416 6 4000 sim 17,769816 5 4000 sim 17,770816 8 4000 sim 17,777116 0 4000 sim 17,7775Para poder usar o critério dos Pontos Máximos, primeiramente houve a necessidadede selecioanr uma RNA base. Rede que seria submetida a variação na quantidade deentradas a serem utilizadas. Para rede base foram utilizadas as variações mencionadas an-teriormente e somente 3 entradas, as quais são os 3 primeiros Pontos Máximos. Obteve-secomo melhor rede a que era capaz de prever com erro médio 11,67%. Essa rede era com-posta por 8 neurônios ocultos, semente de inicialização 10 e com short-cut connections,sendo treinada por 4000 épocas. Apesar do erro ser bem superior ao esperado, acredita-seque isso ocorra devido a pouca quantidade de entradas utilizadas.Como variação de entradas, obtou-se por variar a rede de 1 entrada, utilizando so-mente o primeiro Ponto Máximo, até 60 entradas, utilizando os 60 primeiros Pontos Má-ximos. Como resultado, não foram obtidos resultados satisfatórios com erro médio infe-rior a 5%. A rede, que obeteve o melhor resultado, possuia como entrada os 19 primeirosPontos Máximos, a qual era capaz de prever com um erro médio de 11,3%.Novamente, no treinamento das arquiteturas, utilizando a curva de Auto-Correlação,também foram notadas as mesmas características das melhores topologias do ForwardSelection e ACP. As melhores redes eram compostas pela maior quantidade de neurôniosocultos e épocas de treinamento.
  69. 69. 68Isso pode ser visto na Figura 5.7, onde são apresentados os gráficos das topologias,ordenadas pelo erro RMS em relação à quantidade de neurônios e épocas de treinamento.Outros fatores como short-cut connections não apresentaram nenhuma relação com asmelhores redes nem com a semente de inicialização.Figura 5.7: Quantidade de épocas e neurônios ocultos para as melhores RNAsprevisoras, com entradas no critério de Pontos Máximos.Baseando-se nos resultados obtidos pela arquitetura, que tinha como variáveis deentrada as selecionadas pelo Forward Selection, foi realizada uma previsão experimentalcom dados do ano de 2007, dados que a rede nunca havia visto em treinamento.Porém, para a realização desse teste, obtivemos problemas com as RNAs criadas peloSNNS. A ferramenta SNNS apenas pode ser utilizada para treinamento e validação dasredes, não sendo possível, assim, realizar testes com a rede. Contudo, o SNNS fornece oaplicativo que transforma a sua RNA em código-fonte da linguagem de programação C.Sendo assim possível a geraração de um aplicativo que execute a rede.No entanto, quando o código era compilado e executado à rede, esta gerava valorestotalmente incondizentes com os valores reais e com os resultados obtidos no treinamentoda mesma. Para contornarmos tal problema, optou-se pela utilização de uma bibliotecaprópria do R. Inicialmente foram extraídos os pesos das RNAs geradas pelo SNNS. Após,no R foi criada uma RNA com a mesma arquitetura e definido os respectivos pesos. Sendoassim, a arquitetura geral da rede era a mesma.
  70. 70. 69Por meio desse experimento, obtivemos um erro médio de 3,30%, inferior ao erroesperado. Na Figura 5.8 mostra os gráficos da previsão em comparação aos dados reaisde demanda. Dentro dessa região apresentada na figura, o erro médio apresentado pelarede previsora foi inferior a zero, 0,15%.Figura 5.8: Previsão realizada com a RNA que obteve os melhores resultados,baseando-se nas variáveis de entrada do método Forward Selection.Através dos estudos de topologias e variáveis de entradas na subestação de Cachoei-rinha, observou-se alguns fatores que colaboraram para a melhor arquitetura. Um ponto,que foi visto em todos os métodos de seleção, é que as melhores arquiteturas eram, emgeral, sempre as que tinham os maiores números de neurônios ocultos. Eram treinadaspor uma quantidade maior de épocas e possuiam short-cut connections. Outro fato, quechamou atenção, é a relação entre as entradas selecionadas pelo Forward Selection. Essasentradas coincidiam com os pontos máximos da curva da Auto-Correlação e eram a horada previsão de semanas anteriores.Tendo em vista que somente com a utilização da própria carga para realizar previsãode uma hora à frente da demanada, já se obteve resultados satisfatórios ao objetivo doprojeto. Não houve a necessidade da inclusão de variáveis climáticas ou econômicas.
  71. 71. 70Acredita-se que a utilização de variáveis como temperatura podem ajudar na previsão.Porém, com a utilização de somente variáveis de carga, não é necessário utilizar valoresde previsão de temperatura. Fator que se for previsto erroniamente pode prejudicar aprevisão da carga.5.1.2 GravataíNesta seção serão apresentados os resultados2obtidos para a região de Gravataí.Utilizou-se os métodos de seleção de variáveis e diversas topologias mencionados an-teriormente.Porém, devido aos problemas encontrados para a execução das RNAs geradas pelosSNNS, e pelo quão demorado é a transcrição da rede para o R, optou-se por utilizar abiblioteca de redes neurais do R. As diferenças do treinamento de uma rede no SNNSe no R são em relação aos métodos de treinamentos e pelo fato de todas as arquiteturasserem com short-cut connections. No R o treinamento é utilizando o método Levenberg-Marquardt, o qual utiliza derivada segunda para a correção dos pesos sinápticos.O método Levenberg-Marquardt, pelo fato de usar derivada segunda, faz com que asredes encontrem uma configuração de pesos "ótima"em uma menor quantidade de épocasde treinamento. Com isso as variações de épocas de treinamento foram subtituídas por400, 800 e 1600.Em comparação as variações de épocas que eram utilizadas, estas foram reduzidas em10x, foi removida, também, a quantidade de 200 e acrescido o de 1600 épocas. Verificou-se que uma maior quantidade de épocas poderia resultar em uma rede que tivesse melhoresresultados. Outra modificação, nas variações, foi em relação à quantidade de neurôniosocultos. Foi acrescido a quantidade de 32 neurônios ocultos no conjunto, pelo fato dosmelhores resultados dos testes feitos em Cachoeirinha, em sua maioria, serem compostospelas máximas variações.Na região de Gravataí, em vista do resultados de Cachoeirinha, optou-se por utilizarum intervalo de variáveis de entrada maior para a seleção das melhores, utilizando ométodo Forward Selection. Para a seleção optou-se por utilizar um intervalo que ia de 12Os resultados apresentados aqui, foram aceitos para a publicação (BARILI; CECHIN, 2008b)

×