Avaliação de Topologias de Redes Neurais Artiﬁciais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Temporalde de Curto e Longo Prazo

Avaliação de topologias de Redes
Neurais Artiﬁciais para previsão
do consumo de carga em sistema
de potência na faixa temporal de
curto e longo prazo
por
Giovani Manica Barili

UNIVERSIDADE DO VALE DO RIO DOS SINOS
GIOVANI MANICA BARILI
Avaliação de topologias de Redes Neurais
Artiﬁciais para previsão do consumo de
carga em sistema de potência na faixa
temporal de curto e longo prazo
Monograﬁa apresentada como requisito
parcial para a obtenção do grau de
Bacharel em Engenharia da Computação
Prof. Dr. Adelmo Luis Cechin
Orientador
São Leopoldo, dezembro de 2008

Dedico este trabalho a meu pai.

AGRADECIMENTOS
Ao Professor MS. João Ricardo Bittencourt, pelo apoio na finalização da minha mo-
nografia.
Ao Professor Dr. Adelmo Luis Cechin, pela confiança, por ter cedido a bolsa de
Iniciação Científica, a qual acabou se tornando o meu trabalho de conclusão. Também
pelo auxílio, pela motivação para a publicação de trabalhos técnicos e ensinamentos, aos
quais obtive durante o ano.
A RGE, pelo fomento da bolsa, como também pela liberação para que o projeto fosse
utilizado na monografia.
A minha namorada, por ter me aguentado até o final, momento complicado e corrido,
onde foi necessário muita compreensão.
A minha mãe, por ter acreditado em mim, e ter me apoiado na realização da gradua-
ção, apoio tanto financeiro quanto motivacional.
E um agradecimento especial ao meu pai, que tinha como objetivo ver seu filho for-
mado, porém a vida não o deixou ver tal momento. Devo ser grato a todos os esforços,
apoio, carinho, ajuda, "paitrocínio"dados a mim. Agradeço a Deus, pelo pai que tive,pois
ele foi e continua sendo a minha fonte de inspiração, espelho pelo qual procuro me espe-
lhar; tentando ser tão bom ou melhor.
Agradeço também a todos que de algum modo ajudaram na realização do trabalho.

SUMÁRIO
LISTA DE ABREVIATURAS E SIGLAS . . . . . . . . . . . . . . . . . . . . 7
LISTA DE SíMBOLOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1 Justiﬁcativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . . . . . . 21

3 EMBASAMENTO TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1 Redes Neurais Artiﬁciais . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.1 Métodos de aprendizagem . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.2 Tipos de treino e validação . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 Métodos de seleção de variáveis . . . . . . . . . . . . . . . . . . . . . 45
3.2.1 Forward Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.2 Análise de Componentes Principais . . . . . . . . . . . . . . . . . . . 47
3.2.3 Função de Auto-Correlação . . . . . . . . . . . . . . . . . . . . . . . 48
4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.1 Campo de Testes e Dados Obtidos . . . . . . . . . . . . . . . . . . . . 50
4.2 Dados utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3 Variações da topologia . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.4 Métodos de seleção de variáveis . . . . . . . . . . . . . . . . . . . . . 58
5 TESTES E RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.1 Curto Prazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.1.1 Cachoeirinha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.1.2 Gravataí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.3 Resultado dos métodos de seleção de variáveis . . . . . . . . . . . 81
5.2 Longo Prazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
ANEXOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

LISTA DE ABREVIATURAS E SIGLAS
ACP Análise de Componentes Principais
CCEE Câmara de Comercio de Energia Elétrica
CEEE Companhia Estadual de Energia Elétrica
CL Consumidores Livres
FR Fronteira AES Sul
G1 Geradores Distribuídos
G2 Geradores Embutídos
G3 Geradores Compensados
IPEA Instituto de Pesquisa Econômica Aplicada
IN Ponto de Intercâmbio
INMET Instituto Nacional de Meteorologia
RMS Root Mean Square (Raiz média quadrada)
RNA Redes Neurais Artiﬁciais
PGE Ponto Geo-Elétrico
SA Serviço Auxiliar

LISTA DE SÍMBOLOS
GWh GigaWatts hora, ou 1.000.000.000 Watts hora
MWh MegaWatts hora, ou 1.000.000 Watts hora
kWh kiloWatts hora, ou 1.000 Watss hora

LISTA DE FIGURAS
Figura 2.1: Formação dos dados de treinamento. (BAKIRTZIS et al., 1996) 25
Figura 2.2: Diagrade de bloco da modelo utilizado para previsão. Khotan-
zad et al. (1995) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Figura 3.1: Modelo simplificado de um neurônio biológico. . . . . . . . . . . 30
Figura 3.2: Processo químico na transição de um pulso. . . . . . . . . . . . 31
Figura 3.3: Pulso transmitido de um neurnio a outro. . . . . . . . . . . . . . 32
Figura 3.4: (a) Sinal de três pulsos de três sinapses excitatórias de neurô-
nios diferentes conectado ao neurônio que tem a (b) soma do
sinal do corpo celular mostrado ao lado. . . . . . . . . . . . . . . 33
Figura 3.5: Modelo em grafo de um neurônio binário. . . . . . . . . . . . . . 33
Figura 3.6: Função degrau descolada pelo bias. . . . . . . . . . . . . . . . . 34
Figura 3.7: (a) Neurônio binário com um peso fixo e um peso bias, (b) um
gráfico da transição entra 0 e 1 do bias. . . . . . . . . . . . . . . 35
Figura 3.8: Neurônio com a unidade somadora e unidade função degrau
separadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 3.9: Funções de ativação. . . . . . . . . . . . . . . . . . . . . . . . . . 36
Figura 3.10: Neurônio com a unidade somadora e unidade função sigmodie. 36
Figura 3.11: Ilustração do modelo de um neurônio Adaline. . . . . . . . . . . 37

Figura 3.12: Uma Rede Neural Artificial com 3 entradas e 2 saídas com-
posta por Adalines. . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 3.13: Arquitetura com 1 camada oculta de Adalines. . . . . . . . . . . 38
Figura 3.14: Arquitetura com 1 camada oculta de Perceptrons. . . . . . . . . 39
Figura 3.15: Arquitetura de uma RNA recorrente. . . . . . . . . . . . . . . . . 40
Figura 3.16: Arquitetura com short-cut conncetions, apresentadas em li-
nhas vermelhas. . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Figura 3.17: (a) padrões de um determinado problema e uma (b) RNA (1 0
1) composta de Adalines. . . . . . . . . . . . . . . . . . . . . . . 42
Figura 3.18: Gráfico que apresenta as dimensões dos pesos em relação ao
erro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Figura 3.19: Primeira seleção de variáveis utilizando Forward Selection nesse
conjunto de entradas. . . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 3.20: Segunda seleção de variáveis utilizando Forward Selection,
sendo a primeira a Var-2. . . . . . . . . . . . . . . . . . . . . . . 46
Figura 4.1: Diagrama do sistema de transmissão da RGE . . . . . . . . . . 52
Figura 4.2: Divisão dos Pontos Géo-Elétricos . . . . . . . . . . . . . . . . . 53
Figura 4.3: Ponto Geo-Elétrico de Gravataí . . . . . . . . . . . . . . . . . . . 54
Figura 4.4: Gráficos de: consumo de energia da subestação de Cachoei-
rinha e de Gravataí, temperatura de Porto Alegre; e consumo
de condicionadores de ar no Brasil. . . . . . . . . . . . . . . . . 57
Figura 5.1: RNAs ordenadas pelos seus respectivos erros RMS (E). RNAs
também ordenadas, porém apresentando a sua arquitetura sem
ou com short-cut (D). . . . . . . . . . . . . . . . . . . . . . . . . 62
Figura 5.2: Quantidade de épocas de treinamento (E) e neurônios ocultos
(D), em relação às RNAs ordenadas pelos erro RMS. . . . . . . 62

Figura 5.3: Semente de inicialização em relação às RNAs ordenadas pe-
los erros RMS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Figura 5.4: Gráfico dos auto-valores das componentes, com os cortes ba-
seados nos três critérios para a subestação de Cachoeirinha. . 64
Figura 5.5: Quantidade de épocas e neurônios ocultos, para as melhores
RNAs previsoras com entradas no método ACP e no critério
de Jolliffe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Figura 5.6: Curva de Auto-Correlação dos dados de Cachoerinha. Em ver-
melho as entradas selecionadas. . . . . . . . . . . . . . . . . . . 66
Figura 5.7: Quantidade de épocas e neurônios ocultos para as melhores
RNAs previsoras, com entradas no critério de Pontos Máximos. 68
Figura 5.8: Previsão realizada com a RNA que obteve os melhores resulta-
dos, baseando-se nas variáveis de entrada do método Forward
Selection. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Figura 5.9: Relação da quantidade de épocas de treinamento (E) e neurô-
nios ocultos (D) com as melhores RNAs, baseadas no método
de seleção de variáveis Forward Selection. . . . . . . . . . . . . 72
Figura 5.10: O gráfico marca em linhas vermelhas os atrasos e em linha
azul a hora que deve ser prevista. . . . . . . . . . . . . . . . . . 74
Figura 5.11: Gráfico dos auto-valores das componentes com os cortes ba-
seados nos três critérios para a PGE de Gravataí. . . . . . . . . 74
Figura 5.12: Gráfico da quantidade de épocas (E) e neurônios (D) das me-
lhores RNAs previsoras de demanda para Gravataí, utilizando
ACP e o critério de retenção dos 90%. . . . . . . . . . . . . . . 76
Figura 5.13: Gráfico da Auto-Correlação dos dados de demanda de Gravataí. 76
Figura 5.14: Retardos, em linhas vermelhas, baseados no Cruzamento por
Zero. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

Figura 5.15: Relação da quantidade de épocas e neurônios ocultos com as
melhores redes, sendo a melhor selecionada como rede base
para Pontos Máximos em Gravataí. . . . . . . . . . . . . . . . . 79
Figura 5.16: Previsão realizada com a RNA que obteve os melhores resul-
tados, baseando-se nas variáveis de entrada do método de
Auto-Correlação e o critério de Pontos Máximos. . . . . . . . . . 81
Figura 5.17: Número de épocas e de neurônios ocultos, sem relação com
as melhores RNAs para a previsão mensal. . . . . . . . . . . . . 85
Figura 5.18: Número de épocas (E) e de neurônios ocultos (D) apresen-
tando uma maior relação com as melhrore RNAs para a previ-
são mensal, utilizando janelamento nos dados. . . . . . . . . . 86
Figura 5.19: Testes da rede para previsão da demanda mensal dos meses
do ano de 2007, sem utilizar janelamento. . . . . . . . . . . . . 87
Figura 5.20: Testes da rede para previsão da demanda mensal dos meses
do ano de 2007, com janelamento. . . . . . . . . . . . . . . . . . 89

LISTA DE TABELAS
Tabela 2.1: Tabela apresentando a relação da mudança repentina de tem-
peratura em relação ao erro da previsão Khotanzad et al. (1995) 28
Tabela 3.1: Tabela da lógica OU . . . . . . . . . . . . . . . . . . . . . . . . . 42
Tabela 4.1: Tabela dos pontos de medição na região do PGE de Gravataí . 56
Tabela 5.1: Tabela com os resultados, das 10 melhores RNAs para a esco-
lha da rede base, para a aplicação do método Forward Selection. 61
Tabela 5.2: Tabela com os atrasos selecionados pelo Forward Selection
com seus respectivos erros percentuais para a subestação de
Cachoeirinha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Tabela 5.3: Tabela com as melhores arquiteturas da ACP de cada critério
e seus respectivos erros. . . . . . . . . . . . . . . . . . . . . . . 65
Tabela 5.4: Tabela com os resultado das 10 melhores RNAs, que tinham
as entrada baseadas no método de Cruzamento por Zero. . . . 67
Tabela 5.5: Tabela com os resultados das 10 melhores RNAs, para a sele-
ção da rede base do método Forward Selection. . . . . . . . . . 71
Tabela 5.6: Tabela com os atrasos selecionados pelo Forward Selection
com seus respectivos erros percentuais para o PGE de Gravataí. 73
Tabela 5.7: Tabela com as melhores arquiteturas da ACP de cada critério
e seus respectivos erros. . . . . . . . . . . . . . . . . . . . . . . 75

Tabela 5.8: Tabela com os resultados das 10 melhores RNAs, para a re-
gião de Gravataí, utilizando Cruzamento por Zero. . . . . . . . . 78
Tabela 5.9: Tabela com os resultados das 10 melhores RNAs, dentre as
selecionadas como rede base para Pontos Máximos em Gra-
vataí. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Tabela 5.10:Tabela com os resultados das 10 melhores RNAs, dentre as
selecionadas como rede base para Pontos Máximos em Gra-
vataí. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Tabela 5.11:Resultados para a subestação de Cachoeirinha, para cada
método de seleção de variáveis. . . . . . . . . . . . . . . . . . . 82
Tabela 5.12:Resultados para a região de Gravataí, para cada método de
seleção de variáveis. . . . . . . . . . . . . . . . . . . . . . . . . . 83
Tabela 5.13:Tabela com os resultados das 10 melhores RNAs, para previ-
são de LP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Tabela 5.14:Tabela com os resultados das 10 melhores RNAs para previ-
são de longo prazo, utilizando janelamento dos dados. . . . . . 86

RESUMO
Neste trabalho apresenta-se a pesquisa de análise de Redes Neurais Artiﬁciais utili-
zadas para o problema de previsão de demanda de energia elétrica, no horizonte de curto
e longo prazo.
Para a realização deste trabalho, foram utilizados dados de consumo de energia elé-
trica da área de concessão da distribuidora de energia RGE (Rio Grande Energia, um
empresa CPFL Energia), no intervalo de horas. Tais dados são originados da subestação
de Cachoeirinha e do ponto geo-elétrico de Gravataí.
No desenvolvimento, foram utilizados métodos como Forward Selection, Análise de
Componentes Principais e Auto-Correlação para a seleção das entradas de Redes Neu-
rais a utilizar. Também foram treinadas diversas redes, com variações na quantidade de
neurônios ocultos, épocas de treinamento entre outras características.
Como conclusão, foram apresentados os resultados obtidos no período de curto prazo
para a subestação de Cachoeirinha, tendo os melhores resultados baseado no Forward
Seleciont com erro médio de 3,64%, e para a região de Gravataí tendo os melhores re-
sultados baseado no método de Auto-Correlação e critério de Pontos Máximos com erro
médio de 2,25%. Para a previsão de longo prazo, foram obtidos resultados inferiores a
2% utilizando a técnica de janelamento para a ampliação da quantidade de padrões de
treinamento.
Palavras-chave: Sistemas de Potência. Previsão de Demanda. Redes Neurais Artiﬁciais.
Seleção de Variávies. Mineração de Dados. Metaheurísticas.

ABSTRACT
Artificial Neural Network topologies evaluation of load demand forecasting in
system of power in the belt storm of short and long term
This work shows an analysis of Artificials Neural Network applyed to the problem of
forecasting electric energy demand, in short and long term.
For this research, electric energy consumption data of the region attended by the RGE
(Rio Grande Energia, um empresa CPFL Energia) were used, in the interval of hours.
Such data were collected in the substation of Cachoeirinha and the geo-electric point of
Gravataí.
Methods such as Forward Selection, Analysis of Principal Components and Autocor-
relation were used for selecting entries in the Artificial Neural Network. Several nets were
also trained with variations in the quantity of hidden neuron, epoch of training and other
characteristics.
The conclusion presented the results obtained in the period of short term for the sub-
station of Cachoeirinha, wich showed the best results based on the Forward Selection
with middle error of 3,64%. For the region of Gravataí, the best results were based on
the method of Autocorrelation and criterion of the Maximum Points with middle error of
2,25%. For the forecasting of long term, it was obtained results inferior from 2% of mid-
dle error using windowing technique for the enlargement of training standards quantity.
Keywords: Power system. Forecasting load. Artificial Neural Network. Select variables.
Data Mining. Metaheuristics.

17
1 INTRODUÇÃO
O presente trabalho tem como objetivo apresentar o projeto de avaliação de topologias
de Redes Neurais Artificiais (RNA) para previsão do consumo de carga em sistemas de
potência. Mostrará a metodologia utilizada como também os resultados obtidos a partir
de experimentos e análises realizados.
1.1 Justificativa
O trabalho tem sua justificativa baseada na Lei Federal n. 10.848 de 15/05/2004, onde
o setor elétrico se vê dividido em geração, transmissão e distribuição. O Art. 3§, da lei
citada, prevê que as distribuidoras necessitam realizar a contratação de reserva de energia
através de leilões, para o atendimento e fornecimento contínuo de energia elétrica, em
sua área de atendimento. De um modo geral, nessa contratação, as distribuidoras devem
informar as geradoras participantes da licitação qual será o consumo de carga no período
referente à licitação.
O Art. 4§, da mesma lei, no entanto, permite a criação da CCEE (Câmara de Comér-
cio de Energia Elétrica) que tem como finalidade possibilitar às distribuidoras a compra e
venda de energia elétrica, que, por ventura sobre ou falte ao final do período de licitação.
Sendo assim, a RGE, ao final da licitação, poderá comprar e vender energia, mas com
um preço maior na compra e um preço menor na venda acarretando um prejuízo. As dis-
tribuidoras procuram fazer contratações com o valor de carga mais próximo ao consumo
esperado, em uma determinada faixa de tempo. Para isso, atualmente, a RGE possui uma
empresa especializada em análise de mercado. Essa irá predizer qual será a demanda
necessária, tendo um acerto de 95%.

18
Diminuir os prejuízos na compra/venda de energia e na solicitação de serviços para
previsão é o objetivo desse trabalho. Tem como meta principal o desenvolvimento de um
sistema computacional, que seja capaz de realizar a previsão do consumo de carga a curto
e longo prazo, apresentando um acerto maior que os 95% atual, utilizando Redes Neurais
Artificiais.
Há vários artigos científicos que apresentam previsões utilizando equações matemá-
ticas, como por exemplo, Contretras et al. (2003). Mas também, há uma infinidade de
trabalhos que se baseiam na utilização de RNA como em Bakirtzis et al. (1996), Chen, Yu
e Moghaddamjo (1992), Khotanzad et al. (1995), Lu, Wu e Vemuri (1993), Papalexopou-
los, Hao e Peng (1994) e em outras técnicas de Inteligência Artificial como Fuzzy Logic
em Srinivasan, Liew e Chang (1994). No entento, este trabalho está focado na previsão
utilizando Redes Neurais Artificiais.
Há métodos matemáticos para solucionar o problema exposto pelo projeto, mas esses
exigem conhecimentos prévios sobre a relação entre as variáveis de temperatura, econô-
micas e de carga. O enfoque deste projeto, na utilização de Redes Neurais, tenta solucio-
nar o problema, levando em consideração o fato de elas possuírem uma maior facilidade
na busca da relação entre as variáveis de entrada com as variáveis de saída (HAYKIN,
2001), podendo até resultar em um tempo de resposta menor e um maior nível de acerto.
Ainda existem dúvidas sobre a eficiência das RNAs, mas quando feita uma revisão
de trabalhos realizados (HIPPERT; PEDREIRA; SOUZA, 2001), (DREZGA; RAHMAN,
1998) é possível notar que os resultados possuem um erro médio menor que 5%, tornado-
as válidas para o escopo deste projeto. Para o desenvolvimento, existem dificuldades
anunciadas, como a variação do clima (temperatura, umidade, insolação), sazonalidade,
fins de semana e feriados, mas há diversos métodos para contornarmos os problemas.
Há trabalhos que estão focados basicamente nesses pontos, como por exemplo, as variá-
veis climáticas em Drezga e Rahman (1998), Al-Rashid e Paarmann (1997), econômicas
em Ranaweera, Karady e Farmer (1997), Egelioglu, Mohamad e Guven (1999) que são
normalmente utilizadas em previsões a longo prazo ou feriados e fins-de-semana em Ba-
kirtzis et al. (1996). Também existem efeitos aleatórios que podem ocasionar a alteração
no padrão de consumo de carga, gerada a partir de greves, desastres naturais ou até mesmo
por um programa de televisão (LIMA, 1996).

19
Dessa forma, serão realizados dois tipos de previsão: a curto e longo prazo. Previsões
de curto prazo estão dentro da faixa temporal de algumas horas, até algumas semanas
(LIMA, 1996). São influenciadas por fatores climáticos como a temperatura, variável
muito utilizada nos artigos da revisão bibliográfica. Podemos citar que, com o aumento
da temperatura a população acaba utilizando com maior frequência condicionadores de
ar.
Já a previsão de longo prazo abrange a faixa temporal de meses até anos - no caso
deste trabalho - e são afetadas por variáveis econômicas, além das variáveis climáticas.
Esse período de previsão está ligado diretamente à situação do mercado, especialmente
ao mercado de equipamentos eletrônicos, como televisores e eletrodomésticos.
Acredita-se que ao final do trabalho tenha-se como produto um sistema computacio-
nal de previsão de carga, permitindo assim, um maior nível de acerto na projeção para a
contratação das geradoras e reduzindo os custos, evitando, dessa forma, uma punição da
CCEE pelo consumo de energia acima do contratado.
Partimos, então, de um projeto de pesquisa que está sendo desenvolvido no Programa
Interdisciplinar de Pós-Graduação em Computação Aplicada1
. Esse que tem como ob-
jetivo a construção de um sistema de previsão de carga baseado em cadeias de Markov,
extraídas de redes neurais temporais.
1.2 Objetivo
Temos como objetivo principal analisar diversas topologias de Redes Neurais Arti-
ficiais. Determinar a melhor entre elas para ser utilizada em previsiões de carga de um
sistema de potência, com um acerto maior que 95% em duas faixas de tempo: curto e
longo prazo.
Serão realizado vários testes, a fim de obter um melhor resultado, uma a curto prazo
e outra a longo prazo.
Há a necessidade de realizar uma escolha das melhores variáveis para que sejam uti-
1
O projeto intitulado de Sistema de Previsão de Carga baseado em Cadeias de Markov extraídas de
Redes Neurais Temporais e é orientado pelo Dr. Adelmo Luis Cechin que teve inicio no ano de 2007 e é
fomentado pela RGE (Rio Grande Energia, uma empresa CPFL energia)

20
lizadas apenas as mais úteis à previsão. Para isso, serão utilizados três métodos: Forward
Selection, Análise de Componentes Principais (ACP) e Auto-Correlação.
1.3 Motivação
A motivação para o desenvolvimento deste trabalho deve-se ao fato de ele estar en-
volvido tanto na área acadêmica, no âmbito da pesquisa, quanto na área da indústria, no
âmbito dos resultados e necessidades de corte de custos. Com esta pesquisa, além de no-
tar a necessidade da redução de custos através de uma previsão mais reﬁnada, percebe-se
os estudos e conhecimentos que se fazem necessários para a busca de uma boa solução
aos problemas.

21
2 TRABALHOS CORRELATOS
O problema da previsão de carga tem despertado pesquisas utilizando as mais diversas
ferramentas. Como a carga de um sistema de potência é uma variável contínua, medida a
intervalos de tempo, é natural a utilização de métodos clássicos de previsão de carga na
área de processamento de sinais visto em Contretras et al. (2003). Porém, nota-se uma di-
ficuldade, destes métodos, para resolver problemas de não-linearidade nas relações entre
as variáveis e a inclusão de conhecimento específico e fenômenos aperiódicos e esporádi-
cos. Dentre os principais métodos, para resolver estas duas dificuldades, encontram-se os
métodos baseados em RNAs, os quais processam sinais de forma não-linear e permitem
aprendizado de conhecimento específico. Alguns trabalhos utilizando RNAs, tanto para
previsão de longo prazo (dentro da faixa de meses) visto em Tsekouras, Hatziargyriou e
Dialynas (2006), quanto de curto prazo (dentro da faixa de tempo de horas ou dezenas
de horas) podem ser vistos em Bakirtzis et al. (1996), Khotanzad et al. (1995), Chen, Yu
e Moghaddamjo (1992), Afkhami e Yazdi (2006), Ortiz-Arroyo, Skov e Huynh (2005),
Abdel-Aal (2004), Senjyu et al. (2002), Charytoniuk e Chen (2000), Drezga e Rahman
(1999) e Vermaak e Botha (1998). Uma excelente revisão dos trabalhos relacionados a
sistemas de previsão de curto prazo, com a utilização de RNAs, é realizada por Hippert,
Pedreira e Souza (2001).
Por meio dos trabalhos, é possível notar que a definição das arquiteturas são feitas de
modo empírico, ou seja, são construídas através do conhecimento de algum especialista.
Contudo, tal conhecimento é adquirido a partir de fatos que ocorreram durante o trabalho
do especialista, deixando para traz características implícitas na previsão de demanda.
Para mostrar isso, serão citados alguns trabalhos como Chen, Yu e Moghaddamjo
(1992), Al-Rashid e Paarmann (1997) Bakirtzis et al. (1996) e Khotanzad et al. (1995),

22
mostrando que não há nenhuma geração de novos conhecimentos nos trabalhos em rela-
ção à definição de uma arquitetura de RNA e suas entradas, para previsão de consumo de
energia.
O trabalho de Chen, Yu e Moghaddamjo (1992), chama bastante atenção pelo fato de
utilizar redes neurais não totalmente conectadas. Segundo os autores, a opção de utilizar
tal arquitetura deve-se ao fato de necessitar de um menor tempo de treinamento.
Como entradas de carga, foram utilizadas as três últimas horas e as mesmas três
horas do dia anterior, como também as mesmas seis horas da semana anterior. Devido
ao conhecimento dos autores sobre a relação da carga com a temperatura, foi adicionado
o valor de temperatura das três últimas horas, também como a média dos últimos três dias.
A média de temperatura foi adicionada pelo fato da carga não responder imediatamente
as mudanças de temperatura.
Na arquitetura também foram adicionadas 5 entradas, para representar de forma bi-
nária a hora da previsão, e mais 7 entradas, para representar os dias da semana. Se o dia
da semana fosse um "dia normal", deveria ser imposto o valor 1, caso fosse um feriado
dever-se-ia impor o valor 0.5.
Nos testes realizados, segundo os autores, foi observado um padrão que pode ser
classificado em duas categorias: dias da semana; e finais de semana. Em finais de semana,
há uma tendência a pequenos picos de carga, em relação a dias da semana. Outro fator
observado, pelos autores, é em relação à carga diária, onde eles afirmam que a carga varia
de dia para dia e o nível de flutuação tem uma alta correlação com as condições climáticas.
Para o treinamento das RNA os autores tiveram de escalar as entradas para que elas
ficassem entre 0,15 e 0,85, que é a região de saturação da função sigmoidal. Como resul-
tado, foi obtido um erro médio percentual de 1,12%, e também foi constatado que a rede
não era muito adaptativa a variações de temperatura.
Segundo os autores, Al-Rashid e Paarmann (1997), as principais características da
carga elétrica são as somas dos atributos: climáticos; efeitos diários e operações indus-
triais. Dentro dos fatores climáticos estão a temperatura, umidade relativa, velocidade do
vento, entre outras. Já os efeitos diários seriam os feriados. Os fatores de operações in-
dustriais, pelo fato de representarem a maior parte do consumo, também são os principais

23
responsáveis pela ﬂutuação da carga.
Nesse trabalho, os autores tiveram como objetivo realizar a previsão de demanda de
24 horas à frente, utilizando modelos para o período de verão e inverno. Outra questão,
apresentada pelos autores, é em relação a temperatura. Em 1984, a National Weather
Service (Serviço Nacional de Tempo) desenvolveu uma nova medidade chamada de Heat
Index, ou índice de calor. Essa medida está relacionada à sensação térmica de uma pessoa.
A umidade, associada com altas temperaturas, faz com que a capacidade do corpo de
mater-se frio reduza. Uma pessoa submetida a uma temperatura real de 30o
C e com uma
umidade relativa de 50%, terá a impressão de uma temperatura de 32o
C.
Como mencionado, os autores utilizaram dois modelos, um para o inverno e outro
para o verão. A RNA, para o inverno, era uma rede 12 12 24, sendo as suas 24 saídas o
consumo de energia para cada hora do dia, e suas 12 entradas:
• x1, o valor da previsão para a hora t do dia;
• x2, um código que representava o dia da semana;
• x3, carga atual da hora t-24, do dia anterior;
• x4, carga atual da hora t-168, da semana anterior;
• x5, temperatura mínima prevista para o dia;
• x6, temperatura máxima prevista para o dia;
• x7, temperatura média das últimas três horas;
• x8, a diferença de temperatura mínima, para o dia da previsão e da semana passada;
• x9, a diferença de temperatura máxima, para o dia da previsão e da semana passada;
• x10, temperatura médias das últimas três horas, antes de t-24;
• x11, temperatura mínima do dia anterior;
• x12, temperatura máxima do dia anterior.

24
Para o modelo de verão, a única diferença é que as temperaturas estão baseadas no
HeatIndex, devido ao fato de que no verão existam varios períodos de alta temperatura.
Com tal modelo, os autores obtiveram um erro médio de 2,924%, sendo que os melhores
resultados foram no período de verão.
Em Bakirtzis et al. (1996), os autores desenvolveram uma RNA para previsão de
carga, baseados no modelo do Energy Control Center (Centro de Controle de Energia) da
Greek Public Corporation (Corporação Pública da Grécia). Nesse trabalho, deu-se uma
ênfase maior para a modelagem de feriados e foram levadas em consideração algumas
questões.
Uma questão está ligada a estrutura da rede. Verificar se seria melhor utilizar sete (7)
RNAs, uma para cada dia da semana, ou uma única RNA, adicionando os dias da semana
na entrada. Os resultados dos testes mostraram que a utilização de uma única rede resulta
numa diminuição de 10% na média do erro da previsão. Outra questão está relacionada
à temperatura. Gráficos mostraram que a relação entre o pico de carga e temperatura é
grande para condições amenas de temperatura e pequena quando há uma grande variação
de temperatura.
Os autores, inicialmente, utilizaram uma RNA de três camadas tendo 63 neurônios
na camada de entrada, 24 na camada de saída, as quais representam as 24 horas do dia de
previsão. Para a camada oculta, foram realizados testes variando a quantidade de neurô-
nios de 10 a 80, para tentar identificar um ótimo número de neurônios. Esses testes, do
artigo, mostram que a variação do número de neurônios é insignificante para o resultado
da previsão. A RNA possui como entrada:
• 1:24 → Carga das 24 horas do dia;
• 25:48 → Carga das 24 horas do dia anterior;
• 49:52 → Máximo e mínimo do norte e do sul da Grécia do dia;
• 53:56 → Máximo e mínimo do norte e do sul da Grécia para o dia da previsão, para
amanhã;
• 57:63 → Dia da semana binariamente.

25
Por meios de experimentos, observou-se que há uma melhora quando os resultados
são atualizados periodicamente. Quando os parâmetros da RNA foram atualizados, todos
os meses, houve uma melhora de 8% e 11% quando atualizados diariamente, sempre
utilizando, como padrões de treinamentos, dados dos últimos 365 dias excluíndo feriados.
Através desse método, os autores obtiveram um resultado satisfatório. Porém, um re-
sultado com grande erro na previsão de feriados. Com isso, mudou-se a forma de geração
dos padrões. O novo método, de geração de padrões, utilizavam os últimos 90 dias mais
30 dias dos últimos 6 anos passados ao redor do dia da previsão. A Figura 2.1 apresenta
o modelo.
Figura 2.1: Formação dos dados de treinamento. (BAKIRTZIS et al., 1996)
Com a RNA treinada, para a previsão em feriados, optou-se pela utilização do modelo
de Papalexopoulos, Hao e Peng (1994). Seguindo a equação:
¯Df = ¯Dn − ∆ ¯Df . (2.1)
Para previsão de dia de feriados ( ¯Df ), era realizada a previsão de um dia normal ( ¯Dn)
subtraindo um fator de correção (∆ ¯Df ). Um dia normal ( ¯Dn) basicamente é a previsão
pela RNA (RNA()), tendo como entrada o vetor de variáveis (¯x), como é apresentado na
Equação 2.2.
¯Dn = RNA(¯x) (2.2)
Já o fator de correção (∆ ¯Df ) é deﬁnido pela equação:
∆ ¯Df =
1
m
m
i=1
[RNA(xi
) − Di
], (2.3)
onde m é a quantidade de anos passados e (D) é a demanda real do ano i.

26
Outro trabalho interesante é de Khotanzad et al. (1995), onde os autores afirmam que
o comportamento da carga é afetado por fatores climáticos e pode ser decomposta dentro
de três distintas tendência semanla, diaria e horária. Existem muitos fatores que podem
afetar a previsão de carga. Para os autores, uma simples RNA não é capaz de capturar
todas as diferenças de tendência que estão presentes na relação carga-temperatura.
Para amenizar esse problema foi desenvolvido uma estratégia de múltiplas RNAs.
Cada tendência é modelada de um modo separado, contendo diversas camadas múltiplas
Feed-Forward treinadas, utilizando regras de BackPropagation. Divididas em três módu-
los, cada um deles contendo uma RNA:
• 1o
módulo captura as tendências da informação da semana;
• 2o
módulo captura as tendências da informação dos dias;
• 3o
módulo captura as tendências da informação das horas.
O 1o
módulo está focado na modelagem da tendência carga-temperatura para cada dia
da semana. Esse módulo é composto por sete redes, um para cada dia da semana. Cada
rede possui: 24 entradas referentes às cargas horárias do dia; 24 entradas referentes às
temperaturas horárias do dia; 24 entradas referentes às previsões de temperatura horárias,
para o dia da previsão. A saída possui a previsão de carga para às 24 horas do dia que se
procura saber a previsão.
O 2o
módulo, módulo diário, foca-se na dependência do perfil de carga no compor-
tamento de carga e temperatura do enésimo dia. Esse módulo é composto por 7 RNA,
uma para cada dia da semana. Cada RNA possui 72 entradas sendo: 24 cargas horárias
do dia anterior; 24 valores temperatura horárias do dia anterior e 24 valores previstos de
temperatura para o dia de previsão.
O 3o
e último módulo é responsável por capturar a correlação de cada hora do perfil
de carga com cargas passadas, e tendo a temperatura para algumas horas. Esse módulo
é composto por 24 RNAs, uma para cada hora. Nessas RNAs não foi levado em con-
sideração o dia da semana e foi adicionada a umidade relativa. Cada rede possui como
entrada:
• carga da hora de previsão de ontem;

27
• temperatura da hora de previsão de ontem;
• umidade da hora de previsão de ontem;
• carga da hora de previsão de ante-ontem;
• temperatura da hora de previsão de ante-ontem;
• umidade da hora de previsão de ante-ontem;
• previsão de temperatura do dia;
• previsão da humidade do dia;
• número referente ao dia da semanda, sendo 0.1 domingo, 0.2 segunda, ..., 0.7 sá-
bado.
Cada rede de cada módulo possui 24 saídas, sendo uma para cada hora do dia de
previsão, as quais são combinadas posteriormente. A Figura 2.2 apresenta o diagrama de
blocos dos módulos citados acima.
Figura 2.2: Diagrade de bloco da modelo utilizado para previsão. Khotanzad et
al. (1995)
Para realizar a combinação utiliza-se a seguinte equação:
ˆL(k) =αWM (k)ˆLWM (k) +αDM (k)ˆLDM (k) +αHM (k)ˆLHM (k), (2.4)

28
onde ˆL(k) é o resultado da combinação da hora k. Para calcular os αs, como minimizador
dos pesos, é utilizado a soma das raízes dos erros:
J =
N
j=1
βN−j
(L(j) − ˆL(j))2
, (2.5)
onde L(j) é a carga atual, N é o total de números de previsões feitas e β é a o fator
"peso"que pode variar de 0 < β ≤ 1, neste trabalho os autores utilizaram β = 0,99.
Como resultado, os autores observaram que os feriados, de dias da semana, possuem
um perfil de carga diferente e precisam ser tratados de maneiras diferentes. Cada feri-
ado foi agrupado em feriados de segunda, feriados de inverno e feriados de verão. Uma
RNA, semelhante as citadas acima, foi utilizada para modelar o feriado em cada grupo.
No módulo semanal e no módulo horário as tendências são consideradas para cada dia.
Estudos apontaram que a RNA foi capaz de prever cinco dias adiante, consecutivamente,
e foram utilizados três anos de informações para o treinamento delas. Outra observação
feita pelos autores é que há uma dificuldade no manejamento da previsão com mudanças
rápidas de temperatura. Na Tabela 2.1 é possível ver os resultados em comparação com a
mudança de temperatura.
Tabela 2.1: Tabela apresentando a relação da mudança repentina de tempera-
tura em relação ao erro da previsão Khotanzad et al. (1995)
Mudança máxima de Média de No
Média absoluta
temperatura o
F de dias percentual do erro
∆ < 5o
108 2,26
5o
< 10o
71 2,41
10o
< 15o
27 2,70
15o
< 20o
12 2,97
20o
< 25o
1 5,36
∆ > 30o
1 3,83
Com os trabalhos similares é possível ver que a definições das arquiteturas foram
feitas de forma empírica. Na maioria, a definição das entradas está relacionada ao conhe-
cimento das informações que os autores possuem. Segundo Chen, Yu e Moghaddamjo
(1992), a definição das ligações entre os neurônios está baseada nos seus conhecimentos,

29
e o fato de acreditar que determinados fatores e dias da semanda influenciam na carga de
uma determinada maneira.
Dentro da área de previsão, há alguns trabalhos mais específicos que têm como foco
auxiliar na composição da arquitetura. Baseiam-se em algumas características, como
as entradas da RNA e a relação das estações do ano e das variáveis climáticas, como
efeito na flutuação da carga (AL-RASHID; PAARMANN, 1997). Alguns trabalhos têm
como objetivo apresentar um resumo das entradas utilizadas em pesquisas da área, assim,
ajudando na definição de uma RNA previsora (DREZGA; RAHMAN, 1998).
Para previsões de longo prazo, como base na revisão bibliográfica, há a necessidade
da utilização da variáveis econômicas. Há pouca documentação, porém, há alguns artigos
que comentam alguns fatores que podem afetar o consumo de energia em determinadas
regiões, apresentado por Ranaweera, Karady e Farmer (1997). Algumas regiões, onde a
economia está baseada no turismo, sofrem bastantes alterações em seus períodos na alta,
temporada como apresentado por Egelioglu, Mohamad e Guven (1999).
Com base na revisão bibliográfica, neste trabalho procurou-se não utilizar métodos
empíricos para a definição das arquiteturas das RNAS, mas sempre buscar métodos e téc-
nicas para o auxílio da criação das mesmas. Dentro da revisão, os trabalhos utilizavam
outras variáveis além da demanda para a previsão. Aqui, será experimentado a possibili-
dade da utilização de somente a variável de consumo de energia.

30
3 EMBASAMENTO TEÓRICO
Nesse capítulo, serão apresentados os conceitos básicos sobre a teoria necessária para
a compreensão do trabalho realizado.
3.1 Redes Neurais Artificiais
Segundo Haykin (2001), na história da IA os pioneiros à criação das Redes Neurais
Artificiais foram Waren McCulloch e Walter Pitts. Em 1942 começaram a trabalhar juntos
na construção de um modelo matemático de um neurônio biológico. Tal pesquisa foi
apresentada ao meio acadêmico em 1943 através do artigo "A Logical Calculus of the
Ideas Immanent in Nervous Activity"(MCCULLOCH; PITTS, 1943), onde são mostrados
os cálculos para ativação de um neurônio matemático.
Antes de discutir mais aprofundamente os estudos de McCulloch e Pitts, precisa-se
conhecer o funcionamento de um neurônio biológico, tal como é apresentado na Figura
3.1.
Figura 3.1: Modelo simplificado de um neurônio biológico.

31
Como sabemos o cérebro humano é composto de inúmeros neurônios uns ligados
aos outros, de forma que possam conduzir impulsos dos sensores (pele, olhos, língua),
podendo passar pelo córtex cerebral e enviar de volta uma resposta até os atuadores (mús-
culos, articulações). Quando os sensores são estimulados, transmitem impulsos elétricos
através de suas sinapses, sinais que são capturados pelos dendritos de um neurônio se-
guinte e assim por diante.
Para a transição do pulso ocorre um processo químico, visto na Figura 3.2. O neurô-
nio transmissor ou neurônio pré-sináptico libera neurotransmissores, na fenda sináptica,
que são absorvidos pelo neurônio receptor ou neurônio pós-sináptico (COSENZA, 1998),
(ROBERTIS et al., 1970).
Figura 3.2: Processo químico na transição de um pulso.
O pulso transmitido entre os neurônios pode ser visto através de um microeletródio,
tendo a sua ponteira positiva penetrado no axônio e a negativa no lado externo do neurô-
nio. O pulso pode ser dividido em três partes: repouso, despolarização e repolarização.
Quando o neurônio está em repouso possui uma tensão de -70 mV. Quando passa para
o estado de despolarização chega a 10 mV. Após assumir o ponto máximo, antes de voltar
ao estado de repouso, acaba ﬁcando com uma tensão inferior a -70 mV. Para atingir o
estado de repouso ele ﬁca em estado de repolarização (GUYTON, 1977). Essa transição
de tensão é ilustrado na Figura 3.3, as quais são geradas a partir de células sensoras e
interruptamente com uma determinada frequência que possui uma relação direta com a
ativação do sensor.

32
Figura 3.3: Pulso transmitido de um neurnio a outro.
O corpo celular do neurônio também pode ser chamado de somador, pois não ne-
cessariamente ao receber um pulso o neurônio passa-o para o seguinte. Para que isso
aconteça, é necessário que a soma dos pulsos passem de um determinado limiar, o qual
depende de neurônio para neurônio. Outro fator que inﬂui é o diâmetro do axônio, que
está ligado diretamente a velocidade de transmissão do pulso. Um exemplo de uma soma
das sinapses excitatórias pode ser visto na Figura 3.4.
Não há somente soma dos pulsos, isso depende do tipo de sinapse, as quais podem
ser de dois tipos básicos: excitatórias e inibidoras. As sinapses excitatórias auxiliam na
passagem do pulso, já as inibidoras tendem a evitar a troca do pulso. De um modo sim-
pliﬁcado, as excitatórias são modeladas pelo sinal positivo "+"e as inibitórias pelo sinal
negativo "−". Esse fator é representado no modelo matemático apresentado posterior-
mente.

33
(a) (b)
Figura 3.4: (a) Sinal de três pulsos de três sinapses excitatórias de neurônios
diferentes conectado ao neurônio que tem a (b) soma do sinal do corpo celular
mostrado ao lado.
McCulloch e Pitts, como já mencionados, foram os pioneiros na pesquisa da modela-
gem de um neurônio matemático. Em 1943, eles apresentaram o modelo de um neurônio
binário. Nesse modelo há entradas, que são representadas pelos "x", relacionados com os
dendritos dos neurônios biológicos e a modelagem das sinapses seriam as saídas repre-
sentadas pelos "y". O corpo celular no neurônio é relacionado com uma única unidade,
composta por um somador e por um degrau unitário, e os pesos mostrados na Fig 3.5
seriam os valores dos dimetros dos axônios.
Figura 3.5: Modelo em grafo de um neurônio binário.
Para a passagem de um pulso é necessário que a soma das entradas (x) ultrapassem
um limiar, determinado por uma bias, aqui representado por um degrau unitário, como
ilustrado na Figura 3.6. Nas Equações 3.1 e 3.2 é apresentado o modelo matemático de
um neurônio binário. As saídas (y) somente podem assumir valores entre 0 e 1. Então, se

34
a soma das entradas (xk) multiplicado por seus respectivos pesos (wk) for maior que um
determinado valor de bias, a saída assumirá o valor 1. O fato das saídas assumirem 1 ou
0, conforme o valor do somador e do bias, é definido como "all-or-none"(tudo-ou-nada)
por McCulloch e Pitts em seu artigo de 1943.
Figura 3.6: Função degrau descolada pelo bias.
=
n
k=1
xkwk (3.1)
y =



1 se > bias
0 caso contrário
(3.2)
Um exemplo poderia ser feito com a Figura 3.5, da seguinte maneira se: x1 = 1,
x2 = 0, x3 = 1 e w1 = 0.7, w2 = 1, w3 = 0, tendo o bias igual a 0.6, então a soma seria
= 1 ∗ 0.7 + 0 ∗ 1 + 1 ∗ 0 = 0.7. Nesse caso, como a soma das entradas é maior que o
valor do bias, então y = 1.
Pode-se fazer uma reformulação no modelo do neurônio binário de uma maneira a
afetar o bias, fazendo com que o limiar do neurônio seja igual a zero. Sendo assim, a
saída será 1 quando a soma for maior que 0, e menor caso contrário. Para isso adicionamos
uma entrada fixa igual a 1 e um peso wk chamado de bias, como apresentado na Figura
3.7, Apesar de diferente do neurônio na Figura 3.5, são matematicamente equivalentes
(HAYKIN, 2001).

35
(a) (b)
Figura 3.7: (a) Neurônio binário com um peso fixo e um peso bias, (b) um gráfico
da transição entra 0 e 1 do bias.
Dentro do neurônio binário ainda podemos fazer uma divisão, separando a unidade
em somadara e função degrau, através de um peso sempre igual a 1, como é ilustrado na
Figura 3.8.
Figura 3.8: Neurônio com a unidade somadora e unidade função degrau separa-
das.
O neurônio binário de McCulloc e Pitts é uma boa ferramenta para representar funci-
onalidades de natureza lógica, onde são apenas necessários valores booleanos discretos,
como em sistemas digitais (0 e 1). Existem sistemas analógicos onde é preciso usar um
conjunto de valores contínuos. Para isso, pode-se utilizar uma função de ativação com
saída contínua. Com essa necessidade, no final da década de 1950, Rosenblatt (1958) cria
o Perceptron , ou seja, um neurônio que possui como ativação uma função de resultados
contínuos.
Os perceptrons normalmente possuem funções sigmoidas de ativação, que podem
variar de -1 a 1. Alguns exemplos são as funções logística (f(x) = 1
1+e−x ), tangente

36
hiperbólica (f(x) = tan(x)) variando de 0 a 1 ou logística reescalada entre -1 a 1 (f(x) =
2logistica(x) − 1). Na Figura 3.9 é possível ver o gráﬁco das funções citadas.
Figura 3.9: Funções de ativação.
Como notação, em grafo, a modiﬁcação da função de ativação está ilustrada na Figura
3.10, onde a unidade função degrau é substituída pela unidade função sigmoide. Outra
mudança que deve ser observada é o acréscimo de um peso (w4), entre a unidade função
para a unidade saída (y). Para o cálculo desse modelo temos:
Y = w4 ∗ f( ),
onde = x1w1 + x2w2 + x3w3 + wk.
Figura 3.10: Neurônio com a unidade somadora e unidade função sigmodie.
Além do neurônio binário e do perceptron ainda podemos utilizar uma Adaline ou
neurônio linear. Esse modelo de neurônio é o mais simples, pois não há necessidade da
utilização de nenhuma unidade função após a unidade somadora, como apresenta a Figura

37
3.11. Esse modelo será utilizado para introduzirmos o conceito de múltiplas camadas e
neurônios de saída. Uma diferença entre uma Adaline e os demais modelos está no cálculo
realizado para a execução da RNA, em uma Adaline somente é necessário multiplicar as
entradas a seus respectivos pesos e somá-los sendo:
Y = x1w1 + x2w2 + x3w3 + wk.
Figura 3.11: Ilustração do modelo de um neurônio Adaline.
Uma RNA não necessariamente precisa ter somente uma saída. Ela pode ser cons-
tituída por diversas entradas e saídas, quantas forem necessárias para a natureza do pro-
blema em que a RNA está sendo empregada, como é ilustrada na Figura 3.12. Para o
cálculo de cada saída é feito o mesmo cálculo apresentado anteriormente, seguindo os
pesos:
y1 = x1w11 + x2w12 + x3w13 + w1k e
y2 = x1w21 + x2w22 + x3w23 + w2k.
Figura 3.12: Uma Rede Neural Artiﬁcial com 3 entradas e 2 saídas composta por
Adalines.

38
Até agora foram apresentadas apenas redes neurais com entradas e saídas. Mas existe
a possibilidade de incluir diversas camadas de neurônios entre a entrada e a saída, cha-
mados de neurônios ocultos ou intermediários. Essa arquitetura é apresentada na Figura
3.13. A inclusão de neurônios ocultos auxilia na divisão de conjuntos de informações
ou padrões. Como notação, pode-se dizer que a rede apresentada é uma rede 3 2 3, onde
temos 3 neurônios de entrada, 2 neurônios ocultos e 3 neurônios de saída. O cálculo desse
modelo é semelhante, porém tem que se tomar cuidado pois há uma unidade somadora a
mais entre a entrada e a saída. Com isso tem-se para o cálculo da saída y1:
y1 = z1w21 + z2w24 + w3k,
sendo que z1 = x1w11 + x2w13 + x3w15 + w1k e
z2 = x1w12 + x2w14 + x3w16 + w2k.
Figura 3.13: Arquitetura com 1 camada oculta de Adalines.
Se for pensado em uma arquitetura composta por Adaline e outra por Percetron nota-
se que há apenas a diferença de uma unidade função, a qual pode ser incluída na rede
de Adalines, apresentada na Figura 3.13, como é ilustrada na Figura 3.14. Essa também
é conhecida como rede multilayer perceptron ou múltiplas camadas de perceptrons. O
cálculo desse modelo de redes neurais é parecido com a rede de Adalines. Porém, agora

39
temos que aplicar uma função sigmoidal. Como exemplo será usado a função logística,
umas das mencionadas anteriormente. Com isso o cálculo da saída y1:
y1 = z21w31,
sendo que z21 =
1
1 + e−s2
onde s2 = z11w21 + z12w24 + w3k.
Para o cálculo dos z11 e z12:
z11 =
1
1 + e−s11
onde s11 = x1w11 + x2w13 + x3w15 + w1k e
z12 =
1
1 + e−s12
onde s12 = x1w12 + x2w14 + x3w16 + w2k.
Figura 3.14: Arquitetura com 1 camada oculta de Perceptrons.
As RNA também podem ser classiﬁcadas entre dois tipos: Feed-Forward Neural
Network (Redes alimentadas para frente) ou redes recorrentes. Uma rede Feed-Forward
não pode ter a saída, de uma de suas unidades, sendo utilizada como alimentação de al-
guma unidade anterior a ela. As RNAs ilustradas até agora são todas deste tipo. Já as

40
RNAs recorrentes tem normalmente os seus neurônios de saída ligados aos neurônios de
entrada, fazendo uma retro-alimentação.
As redes recorrentes são utilizadas, como por exemplo, para a realização de simula-
ções, onde são impostos uma vez os valores iniciais na entrada da rede e ela se encarrega
de simular os demais passos. Na Figura 3.15 é ilustrada a arquitetura de uma RNA re-
corrente. Nessa ﬁgura é possível notar que as entradas xs são inseridas somente uma vez
na RNA. Após, ela é alimentada com os valores de saída dos ys. Também pode-se criar
arquitetura onde nem todas as entradas são retro alimentadas, as quais normalmente são
utilizadas como controle do sistema de simulação.
Figura 3.15: Arquitetura de uma RNA recorrente.
Foi visto que as redes possuem sinapses que são ligadados, dos neurônios de entrada,
para os neurônios ocultos, caso existam, e desses para os próximos até chegarem aos
neurônios de saídas. Porém, uma rede, que possui no mínimo 1 camada de neurônios
ocultos, pode possuir em sua arquitetura short-cut connections ou conexões de atalhos.
Tal tipo de ligação pode ser utilizado tanto em redes recorrentes ou redes feed-forward.
Os short-cut connections são ligações feita entre os neurônios de entrada e os neurô-
nios de saída. Essas ligações são utilizadas, em geral, para que a rede obtenha um maior
conhecimento em um menor tempo de treinamento. Na modelagem de uma RNA com
essas ligações, deve-se adicionar na soma do neurônio de saída as entradas multiplica-
das por suas respectivas ligações. Na Figura 3.16 é apresentado uma RNA, com linhas

41
vermelhas representando os short-cut conncetions.
Figura 3.16: Arquitetura com short-cut conncetions, apresentadas em linhas ver-
melhas.
3.1.1 Métodos de aprendizagem
Uma das características das RNAs é poder "aprender"ou adquirir conhecimento a
partir de um determinado conjunto de informações. Nesta seção, iremos apenas apresentar
os métodos de treinamentos supervisionados Levenberg-Marquardt e BackPropagation,
um dos mais difundidos.
O método BackPropagation ou retro propagação do erro basicamente tem como ob-
jetivo, a partir de um conjunto de padrões já conhecidos, fazer com que os pesos dos
neurônios sejam adaptados/corrigidos, a ﬁm de fazer com que a rede possa reconhecer
tais padrões. Antes de tudo, precisamos ter conhecimentos do conceito de padrão. Padrão
é um conjunto de dados composto pelos valores de entrada de uma rede com seus respec-
tivos valores de saída. Um exemplo seria os estados lógicos do OU, como apresentados na
Tabela 3.1. Nessa tabelas há 4 padrões, sendo 1 deles o conjunto composto pelas entradas
X1 = 0, X2 = 0 e pela saída Y = 0, o outro composto por X1 = 0, X2 = 1 e Y = 1, assim
por diante.

42
Tabela 3.1: Tabela da lógica OU
X1 X2 Y
0 0 0
1 0 1
0 1 1
1 1 1
O BackPropagation é um método de apredizagem supervisionado, utilizando como
critério os mínimos quadrados para o treinamento da rede, método comumente escolhido.
O critério dos mínimos quadrados é uma função chamada função energia (E), descrita na
Equação 3.3, igual a soma dos erros (ei) elevado ao quadrado.
E =
i
(ei)2
(3.3)
ei = yi − yi (3.4)
Sendo o erro (ei), descrito na Equação 3.4, o qual procura-se minimizar, a diferença
da resposta da rede neural (yi) pela resposta que realmente deveria ter dado (yi) do padrão
(i). Como exemplo, para apresentar a utilização das equaçãos usaremos a rede neural de
Adalines ilustrada na Figura 3.17. Baseando-se nas equações citadas acima, para rede
exemplo temos que:
E =
i
(w1w2xi − yi).
(a) (b)
Figura 3.17: (a) padrões de um determinado problema e uma (b) RNA (1 0 1)
composta de Adalines.

43
Para encontrar o menor erro, o mínimo, utiliza-se um algorítmo chamado descida do
gradiente. Esse tem como objetivo encontrar o menor (E) entre as dimensões dos pesos
de uma RNA. Se pensarmos que cada peso corresponde a uma coordenada, tendo o erro
(E) como a altura, então procuramos encontrar nessas dimensões onde o erro (E) é o
menor possível, isso pode ser visto na Figura 3.18. A descida do gradiente basicamente
é uma maneira de calcular a variação dos pesos, após uma época de treinamento. Dentro
do aprendizado de sistemas inteligentes, temos um termo técnico, o qual é chamado de
épocas. Esse tem como deﬁnição a execução de todos os padrões de treinamento e ter a
função energia (E) calculada, e os pesos da rede corrigidos.
Figura 3.18: Gráﬁco que apresenta as dimensões dos pesos em relação ao erro.
O cálculo da variação dos pesos, basicamente, no método de BackPropagation, é a
derivação primeira da função energia multiplicado por um regulador de tamanho de passo
(α). Na Equação 3.5 é mostrada a descida do gradiente e também nota-se que o α possui
o sinal negativo. Isso porque se está em busca do menor erro, se fosse positivo estar-se-ia
fazendo a subida do gradiente.
∆wi = −α
∂E
∂wi
(3.5)
O outro método de aprendizagem supervisionado, Levenberg-Marquardt, é idêntico
ao BackPropagation. Porém, no cálculo da descida do gradiente, ele utilizada a derivada
segunda, fazendo com que se chegue mais rapidamente ao menor erro, com isso um tempo
menor para o treinamento das RNAs.

44
3.1.2 Tipos de treino e validação
Não somente de treinamento são realizados os estudos de uma rede, mas também de
métodos de validação da rede, a fim de verificar o quanto a rede possui de conhecimento
dos dados em estudos. Existem diversas técnicas ten-fold cross-validation, leave-one-
out cross-validation, treino/teste, entre outros. Neste trabalho, será utilizado basicamente
ten-fold cross-validation. Para alguns experimentos mais custosos computacionalmente,
optou-se usar o método treino/teste. Apesar do método leave-one-out cross-validation ser
mais recomendado, o mesmo exige muito tempo para a validação das redes.
Tais métodos utilizam critérios, heurísticas para determinar uma certa quantidade de
padrões que serão usados para treinamento e quais serão os utilizados para a validação. A
validação de uma RNA, nada mais é, que após cada época de treinamento verificar qual
é a taxa de acerto da rede. Normalmente essa taxa é dada em RMS (Root Mean Square),
ou média da raiz quadrada, a qual é apresentada na Equação 3.6, onde, xRMS é a média
da soma de i padrões até n, sendo yi a saída da rede e yi o valor que deveria ter dado para
o padrão i.
xRMS =
1
n
n
i=1
yi − yi (3.6)
Um dos métodos mais simples para validação é o treino e teste, onde uma quantidade
é destinada ao treinamento e o restante à validação. Normalmente são separados 2
3
dos
padrões para o treinamento e 1
3
para a validação. Sendo que os padrões, antes de serem
divididos, foram reorganizados aleatoriamente.
A desvantagem da utilização desse método é que a rede deixa de conhecer alguns da-
dos, os que foram separados para a validação. Com isso, também acaba somente obtendo
conhecimento dos dados que foram separados para o treinamento. Uma vantagem é o
rápido treinamento e validação das redes.
O método ten-fold cross-validation tenta contornar o problema do treino e do teste.
Para isso, esse método divide todos os padrões em 10 conjuntos, onde utiliza-se 9 con-
juntos para o treinamento e 1 para a validação. Em seguida, retira-se um outro conjunto,
que ainda não foi utilizado para a validação, e treina a rede com os outros 9. Isso ocorre
até que todos os dez conjuntos tenham sido utilizados uma vez para o treinamento.

45
Para o cálculo do erro da rede, basicamente, é feita uma média dos dez erros resul-
tantes das validações de cada conjunto. Com isso, o método garante que todos os padrões
passaram pela rede, sem deixar nenhum conhecimento para trás. Uma das desvantagens
desse método é o custo computacional.
O método leave-one-out cross-validation, utiliza a mesma heurísitca do ten-fold cross-
validation. Porém, ao invés de utilizar 10 conjuntos, sendo selecionado 1 para a validação,
o método leave-one-out cross-validation seleciona um padrão para a validação, e os de-
mais para o treinamento. Em seguida, seleciona outro padrão, que ainda não foi utilizado
para o treinamento, e o usa para validar a rede, até que todos os padrões tenham sido
utilizados uma vez para validar a rede.
Para o cálcudo do erro, também é utilizada a média dos erros para a validação de cada
padrão. Esse método faz com que seja apresentado uma média dos erros de como a rede
reagiria para cada padrão de dados. Porém, esse método de validação torna-se extrema-
mente caro computacionalmente, quando se trabalha com um conjunto muito grande de
padrões.
3.2 Métodos de seleção de variáveis
Neste trabalho, procurou-se não utilizar métodos empíricos para a composição da
arquitetura das RNAs. Aqui serão utilizadas três técnicas de seleção de variáveis, a ﬁm de
fazer com que as redes possuam um bom desempenho na previsão de carga. Os métodos
escolhidos para a seleção das melhores variáveis foram: Forward Selection; Análise de
Componentes Principais e a Função de Auto-Correlação.
3.2.1 Forward Selection
O método Forward Selection é um método seqüencial e incremental de variáveis.
Dentre um conjunto de variáveis, esse método tem como objetivo selecionar as melhores
variáveis. Para isso, utiliza-se do treinamento das redes neurais e é selecionada a entrada
da rede que obtiver o menor RMS (BEAL, 2005).
Para usar esse método, deve-se deﬁnir uma RNA base, na qual serão apenas alteradas
as variáveis de entrada e a quantidade. Inicialmente, é treinada uma rede para cada entrada

46
do conjunto de variáveis, com o intuito de saber qual será a primeira entrada eleita, como
a melhor entre elas. Como já mencionado, a escolha é baseada no menor erro RMS. Do
conjunto apresentado na Figura 3.19, meramente ilustrativa, há as: Var-1; Var-2; Var-3;
Var-4, sendo selecionada a Var-2, por possuir o menor RMS de 0,399.
Figura 3.19: Primeira seleção de variáveis utilizando Forward Selection nesse
conjunto de entradas.
O segundo passo é combinar a melhor variável selecionada, Var-2, com as demais, e
treinar uma RNA para cada combinação, como apresentado na Figura 3.20. Após o trei-
namento, deve-se selecionar, como melhores variáveis de entrada, o conjunto que obtiver
o menor erro RMS, e assim por diante.
Figura 3.20: Segunda seleção de variáveis utilizando Forward Selection, sendo
a primeira a Var-2.
A seleção pode ser feita até que haja uma alteração signiﬁcativa nos resultados das
redes ou até que acabem as variáveis do conjunto. Porém, normalmente, deﬁne-se uma
quantidade de entradas que o método deve selecionar, pois, num conjunto muito grande de
variáveis, ele pode acabar demorando muito tempo para determinar as melhores variáveis.

47
3.2.2 Análise de Componentes Principais
A Análise de Componentes Principais (ACP) é uma técnica normalmente utilizada
para a redução de dimensionalidade em reconhecimento estatístico (HAYKIN, 2001), ﬁ-
nalidade principal dessa técnica em nosso trabalho. Para o entendimento de tal método,
primeiramente é necessário o conhecimento de alguns conceitos prévios, como: Variân-
cia; Covariância; Autovetores e Autovalores.
A Variância é uma maneira de explicar o quão distante um conjunto de dados está
de sua média, segundo Pedrini e Schwartz (2008), a qual pode ser calculada utilizando a
Equação 3.7, onde Xi é o dado para a instância i e X é a média de X.
σ2
=
1
n
n
i=1
(Xi − X)2
(3.7)
Já a Covariância é uma maneira de explicar a Variância entre 2 dimensões, sendo X
e Y duas variáveis aleatórias. A Covariância, delas (cov(X, Y )), é deﬁnida pela Equação
3.8, onde Xi e Yi são os dados de cada variável, para cada instância de i, sendo que X é
a média de X e Y é a média de Y .
cov(X, Y ) =
1
n
n
i=1
(Xi − X)(Yi − Y ) (3.8)
Porém, quando utilizado mais que 2 dimensões, 3 dimensões como: x; y e z, utiliza-
se a Matrix de Covariância, onde é feita a Covariância de todas a dimensões de duas em
duas, como é ilustrada na Equação 3.9.
Ci,j =







cov(x, x); cov(x, y); cov(x, z)
cov(y, x); cov(y, y); cov(y, z)
cov(z, x); cov(z, y); cov(z, z)







. (3.9)
A partir da matriz é retirado os Autovetores e Autovalores, os quais são utilizados
para a ACP. Para a busca desses valores é necessário pressupor que:
A.−→v = λ−→v , (3.10)
onde A é uma matriz quadrada, e λ são os Autovalores e −→v os Autovetores. Sendo que
para uma matrix n ∗ n exstirão n Autovetores, e n Autovalores associados a cada Auto-

48
vetor. Esse, porém, como já mencionado, o método de ACP tem como finalidade reduzir
a dimensionalidade. Poder-se-ia utilizar infinitas variáveis de entradas de uma RNA, con-
tudo, a sua complexidade seria extremamente grande. Como visto anteriormente, se há
infinitas variáveis, na análise haverá também infinitos Autovetores e Autovalores.
Para a redução é necessário utilizar alguns critérios, os quais tem como objetivo defi-
nir um corte, para que apenas algumas entradas sejam utilizadas. Existem diversos crité-
rios, porém, nesse trabalho, serão utilizados apenas os critérios de: Kaiser (1960); Jolliffe
(2002) e retenção dos 90% dos Autovalores.
Segunto Kaiser, como entrada, deve-se utilizar todas componentes que possuírem um
Autovalor maior que 1. Já Jolliffe diz que o corte deve ser feito em 0.7, assim usando
componentes com Autovalor maior que 0.7. O critério de retenção dos 90% tem como
base utilizar componentes onde a soma dos Autovalores representem aproximadamente
90% do total dos Autovalores de todas componentes.
3.2.3 Função de Auto-Correlação
Essa função tem como objetivo, a partir de uma série temporal, mediar a relação que
há entre um determinado instante com os demais vizinhos. Para o cálculo da função no
instante k, é feita a média, dos valores X no instante t,subtraídos a média X, e multipli-
cado pelos valores X no instante t + k, também subtraídos pela média X. Sendo que t
varia de k até N −(k +1), onde N é a quantidade de dados da série temporal. Como que-
remos utilizar a Auto-Correlação, o valor deve ser dividido pela variância (σ2
) da série,
caso contrário tería-se a Auto-Covariância. A função de Auto-Correlação é apresentada
na Equação 3.11.
FAC(k) =
1
n
N−(k+1)
t=k (Xt − X)(Xt−k − X)
σ2
(3.11)
Tal método tem como resultado valores contínuos entre 1 e -1, onde 1 significa uma
perfeita relação e -1 uma contra-relação perfeita, de um ponto no instante t com um ponto
no instante t + k. Sempre que k for igual a 0, será feita a relação de um instante com ele
mesmo, então a sua Auto-Correlação será sempre igual a 1. Já se o valor da função for
igual a 0, significa que não há nenhuma relação entre os dois pontos comparados.

49
Para a utilização desse método, também é necessário usar algum critério para a se-
leção dos melhores k. Com essa ﬁnalidade, neste trabalho, serão utilizados a técnica de
Cruzamento por Zero e Pontos Máximos.
O critério de Cruzamento por Zero tem como objetivo selecionar as entradas com
base no cruzamento no eixo das absissas, ou onde os valores de correlação são próximos
a zero. Já o critério de Pontos Máximos, tem como ﬁnalidade, selecionar os atrasos, k
com o maior valor de correlação.

50
4 METODOLOGIA
Essa seção apresentará a metodologia utilizada para a realização do trabalho. Mos-
trará as regiões selecionadas para a execução dos experimentos, como também os métodos
pelas quais as redes serão avaliadas e as ferramentas utilizadas.
4.1 Campo de Testes e Dados Obtidos
Para a realização do trabalho, será utilizada, como campo de testes, a área de con-
cessão da distribuidora de energia RGE. Além dos dados referentes a demandas de carga,
infra-estrutura da rede de distribuição, foi necessária, para a execução do projeto, no qual
este trabalho está inserido, a coleta de dados que inﬂuenciam no consumo de energia,
sendo elas variáveis climáticas e econômicas, as quais foram doadas pelo INMET (Insti-
tuto Nacional de Meteorologia) e pelo IPEA (Instituto de Pesquisa Econômica Aplicada),
dados que poderiam ser usados para a realização deste trabalho.
Os dados fornecidos pela distribuidora de energia RGE representam o consumo de
energia no intervalo horário, em 140 pontos de medição, distribuídos sob a sua área de
concessão, do período de janeiro de 2003 a dezembro de 2007. Esses pontos estão dividi-
dos em sete classes:
• Intercâmbio (IN)
• Fronteira AES Sul (FR)
• Serviços auxiliares (SA)
• Consumidores livres (CL)

51
• Geradores distribuídos (G1)
• Geradores embutidos (G2)
• Geradores compensados (G3)
Para explicar os IN, inicialmente é necessário ter o conhecimento de que existem
linhas de transmissão de distribuidoras, como Itaipu, que atravessam dentro da área da
RGE, a qual utiliza como captação de energia, por meio de uma subestação conectada a
linha da geradora. Conforme a linha que é utilizada para a adquisição de energia, a RGE
negocia com a geradora responsável.
Já as geradoras G1 e G2 são pontos que acrescem energia ao sistema e estão ﬁsica-
mente localizadas dentro da área da RGE. Esses três tipos de pontos (IN, G1 e G2) são os
que necessitam de contratação de energia antecipadamente. As geradoras G3 são negoci-
adas através de um acordo de compensação entre a geradora e a RGE. A geradora fornece
energia para a RGE, de uma determinada região, e quando necessário a RGE fornece
energia para essa região como contrapartida.
Contudo, há todo um interesse de compra e venda de energia que é necessário termos
conhecimento para uma análise melhor do problema. Os tipos FR são pontos onde a
AES Sul1
utiliza a linha da RGE para a captação de energia de alguma geradora, que não
possui linha na sua área de concessão. A energia consumida, nesse ponto, passou por uma
subestação da RGE e deve ser descontada, pois essa carga é de responsabilidade da AES
Sul.
Os SA são subestações que pertencem à antiga Compania Estadual de Energia Elé-
trica (CEEE), atualmente distribuidor da região sul e litoral, mas estão na área e captando
energia para a RGE. Entretando, o consumo de energia para a manutenção dessa subesta-
ção é de responsabilidade da proprietária da mesma, nesse caso, a CEEE. Por ﬁm, os CL
são empresas que estão dentro da área da RGE, como, por exemplo, a Schincariol, que
compram energia de outras distribuidoras, as quais utilizam a linha da RGE somente para
o fornecimento da energia.
Com isso, sabe-se que na CCEE o consumo efetivo, e de responsabilidade da RGE, é
1
AES Sul é uma distribuidora de energia elétrica a qual faz fronteira ao sul com a RGE

52
na verdade IN + G1 + G2 − (CL + SA + FR). Na Figura 4.1 é apresentado o diagrama
da infra-estrutura da rede, sobre a área de concessão da distribuidora de energia RGE.
Figura 4.1: Diagrama do sistema de transmissão da RGE
Além dessas informações, sabe-se que dentro da área de concessão da RGE existem
sete subdivisões chamadas de Pontos Géo-Elétricos (PGE). Essas subdivisões são utili-
zadas para determinar uma região que possui subestações independentes de outras dentro
de outro PGE. Ou seja, caso haja algum problema, em alguma subestação do PGE de
Gravataí, outra subestação desse mesmo ponto pode fornecer energia para aquela região,
sempre dentro do mesmo ponto.
Antigamente, a RGE utilizava uma metodologia parecida com a dos PGE para a sub-
divisão. Nessa subdivisão existiam 18 regiões chamadas de ilhas, mas, mesmo assim,
sentiu-se a necessidade de ampliação dessas regiões, pois algumas ilhas estavam per-
dendo energia, que não condizia com a localidade. Assim, surgiram os PGE, os quais são
apresentados na Figura 4.2.

53
Figura 4.2: Divisão dos Pontos Géo-Elétricos
Para o desenvolvimento do projeto foram necessários dados climáticos. Esses dados
foram doados pelo INMET, para serem utilizados no âmbito acadêmico. O INMET possui
diversos pontos de medição, os quais podem ser classiﬁcados em dois tipos: (a) estações
automáticas e (b) estações convencionais.
As estações automáticas (a) coletam dados de hora em hora, já as estações conven-
cionais (b) coletam dados as 12, 18 e 00 horas no horário UTC e possuem valores de:
temperatura máxima, mínima, instantânea e de bulbo seco; pressão máxima, mínima e
instantânea; umidade máxima, mínima e instantânea; nebulosidade máxima, mínima e
instantânea; vento velocidade, direção e rajada; radiação e precipitação. Esses dados es-
tão no intervalo de janeiro de 2003 a dezembro 2007, mas algumas estações do tipo (a)
possuem dados a partir da sua data de inauguração, que pode variar entre elas.
Dentro da área de concessão ou próxima a ela, há nas cidades de Porto Alegre; Ere-
chim; Frederico Westphalen; Santo Augusto; São Borja; São José dos Ausentes e Bento
Gonçalves estações do tipo (a). Já nas cidades de Cambará do Sul; Campo Bom; Caxias
do Sul; Cruz Alta; Ibirubá; Ira; Lagoa Vermelha; Passo Fundo e São Luiz Gonzaga há
estações do tipo (b).
Além das variáveis de carga e climáticas, também foram coletadas variáveis econô-
micas para realização do projeto. Os dados econômicos são oferecidos de forma gratuita,
através do site do IPEAData. Neste site é possível conseguir diversos tipos de dados,
como o consumo de material elétrico, consumo de energia, variáveis econômicas como

54
dólar, importações e exportações. Esses dados são fornecidos no intervalo que engloba
desde o ano de início da coleta até o ﬁm de 2007. Na maioria dos dados eles estão no
intervalo de meses, bimestres, trimestres e semestres.
4.2 Dados utilizados
Para a execução do trabalho, teve-se de escolher/determinar a área em que iríamos
estudar, dentro da região de concessão da distribuidora RGE. Dentre todas as opções pos-
síveis, optou-se por utilizar a subestação de Cachoeirinha (CAC1) e a região de Gravataí.
A subestação de Cachoeirinha foi selecionada por ser "limpa", ou seja, por não possuir
nenhum tipo de soma ou subtração, como mencionado anteriormente, devido aos fatores
de compra e venda de energia entre as distribuidores. Já a região de Gravataí, Figura 4.3,
foi escolhida por ser uma região industrializada e populacional.
Figura 4.3: Ponto Geo-Elétrico de Gravataí
Porém, para a utilização desse PGE, Gravataí, é necessário realizar um cálculo. Precisa-
se, saber o consumo, de carga de responsabilidade da RGE, para o treinamento RNAs.
Assim, elas poderão prever somente a demanda da RGE. A Tabela 4.1 apresentará as
subestações discriminadas. Neste cálculo deve se somar os pontos de medição
CAC1 + CAC2 + GRA1 + GRA2 + GRA3
e subtrair a soma dos pontos de medição
TR7+AL202+AL201+SouzaCruz+Epcos+Dana+Kaiser+Fitesa+Mundial.

55
Devido ao fato de entrada/saída dos consumidores livres ser indeterminado e sabendo-
se que o consumo dos CL são praticamente constantes, foi decidido que eles não se-
riam descontados. Sendo assim, matematicamente, estão inclusos nos valores de treina-
mento/validação e previsão das RNAs.
Optou-se por essa medida pois quando há entrada/saída de um CL, acabam deixando
um degrau na série temporal. Teoricamente, esses degraus seriam impossíveis das redes
preverem, já que, como mencionado acima, a entrada e saída deles é um fator indeter-
minado. Como eles apresentam uma aproximação constante de consumo de demanda, o
desconto deles pode ser feito após a previsão das RNA.

56
Tabela 4.1: Tabela dos pontos de medição na região do PGE de Gravataí
Subestações Classificação Ilha Ponto de Medição
Cachoeirinha 1 IN 1 CAC1
Gravataí 3 IN 2 GRA3
Gravataí 2 IN 2 CAC2
Gravataí 2 SA 2 TR 7
Gravataí 2 FR 2 AL 201
Souza Cruz FR 2 AL 202
Epcos CL 2 -
Dana CL 2 -
Kaiser CL 2 -
Fitesa CL 2 -
Mundial CL 2 -
Além dos dados de consumo de energia, também estavam a disposição do trabalho
dados climáticos e dados econômicos, caso a utilização dos mesmos fossem necessários.
Os dados de fatores climáticos selecionados eram da região de Porto Alegre. A escolha
dessa região deve-se ao fato deles serem os mais próximos da região dos dados de carga.
Economicamente, tinha-se dados relacionados à economia nacional como: compra de
materiais elétricos; cambio; indicadores sociais entre outros. Tais dados estão no intervalo
que vai de mensal, bimestral a trimestral, conforme a variável, tendo o seu início de coleta
também variável.
Os dados utilizados para o treinamento e validação das redes eram do período de
início de 2003 ao final de 2006. Para a geração dos gráficos, que serão apresentados
como teste das melhores redes de cada região, serão utilizados dados de 2007. A Figura
4.4 mostra um gráfico do consumo de energia da subestação de Cachoeirinha e de Gravataí
(horário). Apresenta os valores de temperatura instantânea, máxima e mínima (horário)
de Porto Alegre e um gráfico do consumo unitário de condicionadores de ar no Brasil
(mensal), sendo o início dessa coleta no mês de Janeiro de 1994.

57
Figura 4.4: Gráﬁcos de: consumo de energia da subestação de Cachoeirinha e
de Gravataí, temperatura de Porto Alegre; e consumo de condicionadores de ar
no Brasil.
Para os dados serem utilizados no treinamento e validação das redes neurais, tiveram
de ser normalizados entre ≈ -1 e 1, pois sabe-se que a função de ativação pode variar de -1
até 1. A normalização era feita utilizando a média e o desvio padrão dos dados utilizados.
Ou seja, o valor do dado normalizado (Dn) é a diferença do valor do dado real (D) pela
média dos dados (D) divididos pelo desvio padrão dos dados (Ddp), como é apresentado
na Equação 4.1.
Dn =
D − D
Ddp
(4.1)

58
4.3 Variações da topologia
Sabe-se que a definição da arquitetura de uma RNA não simples, pois existem di-
versas dimensões na sua estrutura. Para podermos definir a composição da nossa rede,
optamos em treinar diversas RNAs. Variou-se a quantidade de neurônios ocultos, épocas
de treinamento, rede com e sem short-cut connections e a semente de sorteio dos valores
iniciais de pesos entre os neurônios. Entre as variações de topologias, a escolha da melhor
será a que obtém o menor erro RMS.
Como variações optou-se as seguintes modificações: a quantidade de neurônios ocul-
tos de 1, 2, 4, 8, e 16; a quantidade de épocas de treinamento de 1000, 2000, 4000; o
valor da semente de inicialização discretamente de 0 a 10 e se a rede possuía ou não
short-cut connetcions. As escolhas dessas variações deram-se de forma intuitiva e pelo
quanto custoso seria o treinamento com mais de 4000 épocas e de redes com mais de 16
neurônios.
As redes a serem analisadas, neste trabalho, terão apenas uma camada de neurônio
oculto, pois nos trabalhos similares não houve nenhum que mostrasse a necessidade da
utilização de mais de uma camada.
4.4 Métodos de seleção de variáveis
Dentro das topologias a serem avaliadas, há a necessidade da seleção das variáveis de
entrada da RNA para se obter os melhores resultado possíveis. Para isso serão utilizados
três métodos: Forward Selection; Análise de Componentes Principais e Auto-Correlação.
Os métodos acima citados foram escolhidos por suas características, que auxiliam na
escolha de variáveis.
O Forward Selection é um método de seleção seqüencial e incremental das melhores
variáveis dentre um conjunto. O método Análise de Componentes Principais é utilizado
pelo fato de reduzir a dimensionalidade, evitando que sejam incluídas entradas desneces-
sárias. Perante isso, tevesse que utilizar alguns critérios, para que fosse possível realizar
o corte na quantidade de componentes. Foram empregados os critérios de: retenção dos
90% dos auto-valores, critério de Kaiser e o critério de Jollife.

59
O método de Auto-Correlação exigiu a utilização de critérios para a seleção dos me-
lhores intervalos de atraso de demanda, ou seja, as melhores entradas. Então, optamos
pela utilização do critério de Cruzamento por Zero e o critério de Pontos Máximos.
Para os experimentos de curto prazo (horas), iremos utlizar a subestação CAC1 e a
PGE de Gravataí. Combinando as variações de topologias e os métodos de seleção das
melhores variáveis entradas. Espera-se que, ao ﬁnal desses testes, obtenha-se uma rede
que resulte em erros satisfatórios. Ou seja, uma previsão com menos de 5%, que é a
taxa de acerto que a distribuidora possui atualmente. Todas as redes, desenvolvidas para
a previsão de curto prazo, utilizaram como entrada dados passados no intervalo horário
para realizar a previsão de demanda futura, uma hora à frente.
Para a previsão de longo prazo (meses) serão utilizados somente dados da região de
Gravataí. Como os dados estavam em base horária teve-se que somar 720 horas (1 mês).
Isso representaria o consumo de um mês de energia, os quais foram utilizados como
entradas e deveriam ser previstos pele rede. As redes de longo prazo tinham o objetivo de
utilizar, como entrada, dados do consumo mensal e prever o consumo de 30 dias à frente.
Devido a pouca quantidade de dados na previsão mensal, não há necessidade de utilizar
métodos de seleção das melhores variáveis.
Como ferramenta para o desenvolvimento e execução do trabalho, utilizamos a lin-
guagem R (R Development Core Team, 2008) juntamente com o programa de treinamento
de RNA, Stuttgart Neural Network Simulator (SNNS) (STUTTGART..., 2008). Para as
variações das topologias foi criado um script em R, o qual cria todas as topologias possí-
veis e treina-as. Por ﬁm, calcula os respectivos erros e as retorna ao usuário.
Para a validação, foi utilizado o método ten-fold cross-validation em algumas situa-
ções, e o método treino-teste (2/3 1/3) em outras. Devido ao fato do método de seleção de
variáveis Forward Selection ser caro computacionalmente, obrigou-se a validar essas re-
des apenas com treino-teste. As redes que tiveram as suas entradas seleciondas, baseadas
no método de Auto-Correlação com o critério de Pontos Máximos, também utilizaram
esse mesmo tipo de validação.

60
5 TESTES E RESULTADOS
Nesta seção serão apresentados os resultados obtidos na execução dos experimentos
realizados, com base na metodologia citada no capítulo anterior. Dentro desta seção,
os resultados, para melhor entendimento, foram divididos em subseções. Sendo elas: a
de Curto Prazo com os resultados da região de Cachoeirinha, de Gravataí e o resumo
dos resultados de cada método de seleção de variáveis; e a de Longo Prazo que tem os
resultados focados somente na região de Gravataí.
5.1 Curto Prazo
Dentro da previsão a curto prazo, tem-se como objetivo a busca de uma arquitetura
que seja capaz de prever a demanda de energia uma hora à frente, para a subestação de
Cachoeirinha e para o PGE de Gravataí. Como entrada, serão utilizados dados passados
no intervalo horário de carga, e, caso seja necessário, variáveis climáticas e econômicas.
5.1.1 Cachoeirinha
Nesta seção serão apresentados os resultados1
obtidos para a subestação de Cachoei-
rinha, baseando-se na metodologia mencionada anteriormente.
Para o método Forward Selection optou-se em escolher manualmente a primeira va-
riável como sendo a demanda(t − 1), sendo t a hora da demanda. As demais variáveis,
que o método deveria selecionar, estariam num intervalo discreto entre demanda(t − 2)
à demanda(t − 200), sendo que dentre esse intervalo deveriam ser selecionadas mais 3
1
Os resultados apresentados aqui, foram aceitos para a publicação (BARILI; CECHIN, 2008a)

61
entradas. Porém, antes de utilizar o método, é necessário definir a configuração da RNA
base em que será empregado o Forward Selection. Para isso, então, realizamos uma se-
leção inicial da melhor rede, baseada nas variações citadas acima e como entradas as
últimas 3 horas antes da hora de previsão.
Dessa primeira análise, como resultados obtivemos 330 arquiteturas de RNAs dife-
rentes entre si. Apresentando as melhores RNAs, as que possuem o menor erro médio %,
como mostra a Tabela 5.1. Com base nesses resultados, é possível determinar que a ar-
quitetura da RNA base do método será a que é constituída por 16 neurônios ocultos, com
short-cut connectios e pesos, sendo inicializados com a semente 8 e treinada por 4000
épocas.
Tabela 5.1: Tabela com os resultados, das 10 melhores RNAs para a escolha da
rede base, para a aplicação do método Forward Selection.
Neurônio Oculto Inicialização Épocas Short-Cut Erro Médio (%)
16 8 4000 sim 17,5907
16 5 4000 sim 17,6037
16 6 4000 sim 17,6058
16 7 4000 sim 17,6097
16 0 4000 sim 17,6107
8 2 4000 sim 17,6115
16 0 4000 sim 17,6127
16 2 4000 sim 17,6163
16 1 4000 sim 17,6168
16 9 4000 sim 17,6184
Através desses resultados, notou-se algumas características. A Figura 5.1 apresenta
as 330 RNAs ordenadas por seus respectivos erros RMS, com base nesses gráficos, é fácil
notar que as melhores redes são as que possuem short-cut connections, pois quando o
erro RMS sobe rapidamente, as arquiteturas deixam de ter short-cuts. Já na Figura 5.2 é
possível notar que, na maioria, os melhores resultados são obtidos pelas RNAs que têm
em sua arquitetura o maior número de neurônios ocultos e a maior quantidade de épocas
de treinamento.

62
Figura 5.1: RNAs ordenadas pelos seus respectivos erros RMS (E). RNAs tam-
bém ordenadas, porém apresentando a sua arquitetura sem ou com short-cut
(D).
Figura 5.2: Quantidade de épocas de treinamento (E) e neurônios ocultos (D),
em relação às RNAs ordenadas pelos erro RMS.
Outra observação que pode ser feita é em relação à semente de inicialização. Como
pode ser visto na Figura 5.3, a relação da semente aparentemente não possui nenhuma
relação com os resultados obtidos pelas RNAs.

63
Figura 5.3: Semente de inicialização em relação às RNAs ordenadas pelos erros
RMS.
Com a RNA base, a mesma foi submetida ao método de seleção de variáveis de
entrada Forward Selection. O método deﬁniu que a rede que obtém o menor erro RMS,
de 3,64%, é a que tem como entrada, demanda(t − i), sendo os atrasos i igual 1, 2, 168
e 169, onde t é a hora a ser prevista pela RNA. Nota-se que 168 é exatamente a mesma
hora de uma semana atrás, em relação a hora de previsão.
Na Tabela 5.2 são apresentados os resultados que o método obteve para as variáveis
de entrada selecionada a cada passo de escolha. Nota-se que na escolha da 4a
entrada
há uma queda brusca no erro. Erro satisfatório tendo em vista que a distribuidora utiliza
como base, atualmente, um erro médio de 5%. Outra observação, que pode ser feita nesses
resultados, é em relação à quarta variável que é igual a duas horas antes da previsão.
Sendo que as variáveis 2 e 3 são uma semana, e essa poderia ter sido selecionada como a
segunda melhor variável.
Tabela 5.2: Tabela com os atrasos selecionados pelo Forward Selection com
seus respectivos erros percentuais para a subestação de Cachoeirinha.
No
de Entradas Atrasos Erro Médio (%)
1 1 17,59
2 168 16,44
3 169 16,34
4 2 3,64
Uma suspeita para esse fato, deve-se que o conjunto de entradas submetidas a seleção
era pequena, pois englobavam apenas um pouco mais de uma semana. Acredita-se que se,

64
tivesse duas semanas, o método teria selecionado a mesma hora da previsão das semanas
anteriores.
O método ACP foi utilizado para a análise dos dados das últimas 20 horas anteriores
à hora de previsão. As entradas seriam selecionados a partir do três critérios escolhidos:
retenção dos 90%, Kaiser e Jolliffe. Segundo o critério de Kaiser, o corte deveria ser feito
quando as componentes tivessem um auto-valor menor que 1, com isso, então, deveriam
ser utilizadas as primeiras 3 componentes.
Já Jolliffe afirma que se deve utilizar as componentes que tem o auto-valor maior que
0.7, baseado nisso foi selecionada as 4 primeiras componentes. Por fim, para o critério
de retenção dos 90%, foram selecionados as 14 primeiras componentes, pois a soma dos
auto-valores era de 11,98. Então, a soma das componentes deveria ser de aproximada-
mente 10,78, ou seja, 90% de 11,98. Os cortes, realizados no conjunto das 20 componen-
tes escolhidas para a análise, podem ser vistos melhor na Figura 5.4.
Figura 5.4: Gráfico dos auto-valores das componentes, com os cortes baseados
nos três critérios para a subestação de Cachoeirinha.
Como resultado, obtivemos que a melhor rede foi a que se baseou no critério de
Jolliffe, rede capaz de prever uma hora à frente com 7,43%. Utilizando o critério da
retenção dos 90%, a rede realizou previsões com 17,51%, e com o critério de Kaiser a
rede previu com erro de 17,83%. A Tabela 5.3 apresenta as melhores arquiteturas de rede
de cada critério e seus respectivos erros.

65
Tabela 5.3: Tabela com as melhores arquiteturas da ACP de cada critério e seus
respectivos erros.
Critério No de Neurônios Épocas Inicialização Shot-cut Erro
Entradas Ocultos connections Médio (%)
Jolliffe 4 16 4000 9 sim 7,43
90% 14 16 4000 4 não 17,51
Kaiser 3 16 4000 9 não 17,83
Através dos resultados das arquiteturas de redes treinadas, pode-se fazer as mesmas
observações em relação à quantidade de épocas e neurônios ocultos feitas no método
de Forward Selection, fatores que ajudaram a RNA realizar previsões com menor erro.
A Figura 5.5 apresenta dois gráﬁcos que mostram as épocas e os neurônios ocultos das
RNAs, ordenadas pelos seus erros RMS.
Figura 5.5: Quantidade de épocas e neurônios ocultos, para as melhores RNAs
previsoras com entradas no método ACP e no critério de Jolliffe.
No método de Auto-Correlação, como dito anteriormente na metodologia, foi neces-
sária a utilização de dois critérios: Cruzamento por Zero e Pontos Máximos, para saber
quais os atrasos que deveriam ser utilizados. Com base no método de Cruzamento por
Zero, as entradas selecionadas foram as que tinham o valor de Auto-Correlação próximo
a zero, a cada instante que a curva cortava o eixo das abscissas. Exceto a primeira entrada,
pois tal critério diz que se deve incluir uma entrada que possua quase toda a informação.

66
Com base nisso e nas curvas de Auto-Correlação, as entradas deveriam ser as que
tivessem atraso da hora de previsão igual a 1, 30, 45 e 50. A seleção de tais entradas pode
ser vista na Figura 5.6, onde se apresenta a curva de Auto-Correlação desses dados e em
vermelho os atrasos selecionados.
Figura 5.6: Curva de Auto-Correlação dos dados de Cachoerinha. Em vermelho
as entradas selecionadas.
Executando os treinos e testes nas arquiteturas, com essas entradas, obtivemos um
erro de 17,75%. Esse resultado não satisfaz as premissas do problema, que é encontrar
uma RNA que realize previsões com menos de 5% de erro. Tal resultado é obtido através
de uma RNA de 16 neurônios ocultos com short-cut connections, sendo inicializada com
a semente igual a 9 e treinada por 4000 épocas. Na Tabela 5.4 são apresentadas as dez
primeiras topologias que obtiveram os melhores resultados.

67
Tabela 5.4: Tabela com os resultado das 10 melhores RNAs, que tinham as
entrada baseadas no método de Cruzamento por Zero.
Neurônio Oculto Inicialização Épocas Short-Cut Erro Médio(%)
16 9 4000 não 17,7593
16 3 4000 não 17,7626
8 4 4000 não 17,7643
8 5 4000 não 17,7657
8 8 4000 não 17,7665
16 9 4000 sim 17,7684
16 6 4000 sim 17,7698
16 5 4000 sim 17,7708
16 8 4000 sim 17,7771
16 0 4000 sim 17,7775
Para poder usar o critério dos Pontos Máximos, primeiramente houve a necessidade
de selecioanr uma RNA base. Rede que seria submetida a variação na quantidade de
entradas a serem utilizadas. Para rede base foram utilizadas as variações mencionadas an-
teriormente e somente 3 entradas, as quais são os 3 primeiros Pontos Máximos. Obteve-se
como melhor rede a que era capaz de prever com erro médio 11,67%. Essa rede era com-
posta por 8 neurônios ocultos, semente de inicialização 10 e com short-cut connections,
sendo treinada por 4000 épocas. Apesar do erro ser bem superior ao esperado, acredita-se
que isso ocorra devido a pouca quantidade de entradas utilizadas.
Como variação de entradas, obtou-se por variar a rede de 1 entrada, utilizando so-
mente o primeiro Ponto Máximo, até 60 entradas, utilizando os 60 primeiros Pontos Má-
ximos. Como resultado, não foram obtidos resultados satisfatórios com erro médio infe-
rior a 5%. A rede, que obeteve o melhor resultado, possuia como entrada os 19 primeiros
Pontos Máximos, a qual era capaz de prever com um erro médio de 11,3%.
Novamente, no treinamento das arquiteturas, utilizando a curva de Auto-Correlação,
também foram notadas as mesmas características das melhores topologias do Forward
Selection e ACP. As melhores redes eram compostas pela maior quantidade de neurônios
ocultos e épocas de treinamento.

68
Isso pode ser visto na Figura 5.7, onde são apresentados os gráﬁcos das topologias,
ordenadas pelo erro RMS em relação à quantidade de neurônios e épocas de treinamento.
Outros fatores como short-cut connections não apresentaram nenhuma relação com as
melhores redes nem com a semente de inicialização.
Figura 5.7: Quantidade de épocas e neurônios ocultos para as melhores RNAs
previsoras, com entradas no critério de Pontos Máximos.
Baseando-se nos resultados obtidos pela arquitetura, que tinha como variáveis de
entrada as selecionadas pelo Forward Selection, foi realizada uma previsão experimental
com dados do ano de 2007, dados que a rede nunca havia visto em treinamento.
Porém, para a realização desse teste, obtivemos problemas com as RNAs criadas pelo
SNNS. A ferramenta SNNS apenas pode ser utilizada para treinamento e validação das
redes, não sendo possível, assim, realizar testes com a rede. Contudo, o SNNS fornece o
aplicativo que transforma a sua RNA em código-fonte da linguagem de programação C.
Sendo assim possível a geraração de um aplicativo que execute a rede.
No entanto, quando o código era compilado e executado à rede, esta gerava valores
totalmente incondizentes com os valores reais e com os resultados obtidos no treinamento
da mesma. Para contornarmos tal problema, optou-se pela utilização de uma biblioteca
própria do R. Inicialmente foram extraídos os pesos das RNAs geradas pelo SNNS. Após,
no R foi criada uma RNA com a mesma arquitetura e deﬁnido os respectivos pesos. Sendo
assim, a arquitetura geral da rede era a mesma.

69
Por meio desse experimento, obtivemos um erro médio de 3,30%, inferior ao erro
esperado. Na Figura 5.8 mostra os gráﬁcos da previsão em comparação aos dados reais
de demanda. Dentro dessa região apresentada na ﬁgura, o erro médio apresentado pela
rede previsora foi inferior a zero, 0,15%.
Figura 5.8: Previsão realizada com a RNA que obteve os melhores resultados,
baseando-se nas variáveis de entrada do método Forward Selection.
Através dos estudos de topologias e variáveis de entradas na subestação de Cachoei-
rinha, observou-se alguns fatores que colaboraram para a melhor arquitetura. Um ponto,
que foi visto em todos os métodos de seleção, é que as melhores arquiteturas eram, em
geral, sempre as que tinham os maiores números de neurônios ocultos. Eram treinadas
por uma quantidade maior de épocas e possuiam short-cut connections. Outro fato, que
chamou atenção, é a relação entre as entradas selecionadas pelo Forward Selection. Essas
entradas coincidiam com os pontos máximos da curva da Auto-Correlação e eram a hora
da previsão de semanas anteriores.
Tendo em vista que somente com a utilização da própria carga para realizar previsão
de uma hora à frente da demanada, já se obteve resultados satisfatórios ao objetivo do
projeto. Não houve a necessidade da inclusão de variáveis climáticas ou econômicas.

70
Acredita-se que a utilização de variáveis como temperatura podem ajudar na previsão.
Porém, com a utilização de somente variáveis de carga, não é necessário utilizar valores
de previsão de temperatura. Fator que se for previsto erroniamente pode prejudicar a
previsão da carga.
5.1.2 Gravataí
Nesta seção serão apresentados os resultados2
obtidos para a região de Gravataí.
Utilizou-se os métodos de seleção de variáveis e diversas topologias mencionados an-
teriormente.
Porém, devido aos problemas encontrados para a execução das RNAs geradas pelos
SNNS, e pelo quão demorado é a transcrição da rede para o R, optou-se por utilizar a
biblioteca de redes neurais do R. As diferenças do treinamento de uma rede no SNNS
e no R são em relação aos métodos de treinamentos e pelo fato de todas as arquiteturas
serem com short-cut connections. No R o treinamento é utilizando o método Levenberg-
Marquardt, o qual utiliza derivada segunda para a correção dos pesos sinápticos.
O método Levenberg-Marquardt, pelo fato de usar derivada segunda, faz com que as
redes encontrem uma configuração de pesos "ótima"em uma menor quantidade de épocas
de treinamento. Com isso as variações de épocas de treinamento foram subtituídas por
400, 800 e 1600.
Em comparação as variações de épocas que eram utilizadas, estas foram reduzidas em
10x, foi removida, também, a quantidade de 200 e acrescido o de 1600 épocas. Verificou-
se que uma maior quantidade de épocas poderia resultar em uma rede que tivesse melhores
resultados. Outra modificação, nas variações, foi em relação à quantidade de neurônios
ocultos. Foi acrescido a quantidade de 32 neurônios ocultos no conjunto, pelo fato dos
melhores resultados dos testes feitos em Cachoeirinha, em sua maioria, serem compostos
pelas máximas variações.
Na região de Gravataí, em vista do resultados de Cachoeirinha, optou-se por utilizar
um intervalo de variáveis de entrada maior para a seleção das melhores, utilizando o
método Forward Selection. Para a seleção optou-se por utilizar um intervalo que ia de 1
2
Os resultados apresentados aqui, foram aceitos para a publicação (BARILI; CECHIN, 2008b)

71
hora de atraso a 400 horas de atraso para hora de previsão, o que representa mais de duas
semanas.Também procurou-se saber, dentre esse conjunto, quais seriam as 10 melhores
variáveis.
Para a realização dessa seleção houve a necessidade da seleção de uma RNA base,
como foi preciso na subestação de Cachoeirinha. Como entrada para a seleção da rede
base, decidiu-se utilizar as cinco primeiras horas passadas. A escolha da RNA base já
tinha como variação as seguintes possibilidades: neurônios ocultos de 1,2,4,8,16,32; épo-
cas de treinamento 400, 800 e 1600; semente de inicialização variando discretamente de
0 a 10.
Como rede base, obtevesse uma arquitetura de 32 neurônios ocultos treinada por 800
épocas e com sua semente de inicialização igual a 7. Tal rede foi capaz de prever uma hora
à frente com erro médio de 3,63%. A Tabela 5.5 apresenta os resultados das 10 melhores
redes, das 180 treinadas e validadas.
Tabela 5.5: Tabela com os resultados das 10 melhores RNAs, para a seleção da
rede base do método Forward Selection.
Neurônio Oculto Inicialização Épocas Erro Médio (%)
32 7 800 3,6387
32 9 800 3,6421
32 9 1600 3,6437
32 9 400 3,6692
32 10 800 3,6795
32 2 800 3,6859
32 1 800 3,6876
32 7 400 3,6937
32 8 800 3,6986
32 3 800 3,6992
Com a utilização do método de treinamento Levenberg-Marquardt, é possível notar
que quanto maior a quantidade de neurônios ocultos melhor será o resultado obtido pela
RNA. Porém, para as épocas de treinamento, a mesma já não possui tanta relação. Isso
pode ser veriﬁcado na Figura 5.9. Em relação à semente de inicialização, novamente não
apresentou nenhuma relação com os resultados.

Avaliação de Topologias de Redes Neurais Artiﬁciais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Temporalde de Curto e Longo Prazo

Avaliação de Topologias de Redes Neurais Artiﬁciais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Temporalde de Curto e Longo Prazo

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (17)

Destaque

Destaque (17)

Semelhante a Avaliação de Topologias de Redes Neurais Artiﬁciais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Temporalde de Curto e Longo Prazo

Semelhante a Avaliação de Topologias de Redes Neurais Artiﬁciais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Temporalde de Curto e Longo Prazo (20)

Avaliação de Topologias de Redes Neurais Artiﬁciais para Previsão do Consumo de Carga em Sistema Depotência na Faixa Temporalde de Curto e Longo Prazo