Modelos de previsão de Ocorrências

Classificação de texto com Deep Learning
Modelos de previsão de Ocorrências
Guttenberg Ferreira Passos
O presente artigo tem como objetivo a classificação de textos e a previsão das
categorias de ocorrências, através do estudo de modelos de Inteligência Artificial,
utilizando Machine Learning e Deep Learning para a classificação de textos e análise
das previsões, sugerindo-se a melhor opção com o menor erro.
A solução foi projetada para ser implementada em duas etapas: Aprendizado de
Máquina e Aplicação, de acordo com o diagrama abaixo da Data Science Academy.
Fonte: Data Science Academy
O foco desse artigo é a etapa de Aprendizado de Máquina, o desenvolvimento da
aplicação está fora do escopo e poderá ser objeto de um trabalho futuro.
A solução foi aplicada em um órgão do Estado de Minas Gerais com a coleta de três
conjuntos de dados contendo 5.000, 100.000 e 1.740.000 ocorrências
respectivamente.
O projeto de elaboração dos algoritmos da etapa de Aprendizado de Máquina foi
dividido em quatro fases:
1) Elaboração de um protótipo para aprovação do cliente, com a ferramenta
Orange, para o treinamento de uma amostra de 5.000 ocorrências e previsão
de 300 ocorrências. Nessa etapa foram utilizados algoritmos de Machine
Learnig.
2) Elaboração de um programa em Python para o treinamento de uma amostra de
100.000 ocorrências e previsão de 300 ocorrências. Nessa etapa foram
utilizados algoritmos de Deep Learnig.

3) Treinamento de uma amostra de 1.700.000 ocorrências e previsão de 300
ocorrências, utilizando o mesmo ambiente.
4) Treinamento de uma amostra de 1.700.000 ocorrências e previsão de 60.000
ocorrências, utilizando o mesmo ambiente.
Todos os modelos foram adaptados do site https://orangedatamining.com/, dos
vídeos:
https://www.youtube.com/watch?v=HXjnDIgGDuI&t=10s&ab_channel=OrangeDataMi
ning e das aulas do curso de Deep learning II da Data Science Academy:
https://www.datascienceacademy.com.br
Algoritmos de Machine Learning utilizados:
 AdaBoost
 kNN
 Logistic Regression
 Naive Bayes
 Random Forest
Algoritmos de Deep Learning utilizados:
 LSTM - Long short-term memory
 GRU - Gated Recurrent Unit
 CNN - Convolutional Neural Networks
AdaBoost
É um algoritmo de aprendizado de máquina, deriva de Adaptive Boosting (Impulso
adaptativo). O AdaBoost é adaptável no sentido de que as classificações subsequentes
feitas são ajustadas a favor das instâncias classificadas negativamente por
classificações anteriores.
O AdaBoost é sensível ao ruído nos dados e casos isolados. Entretanto para alguns
problemas é menos suscetível a perda da capacidade de generalização após o
aprendizado de muitos padrões de treino (overfitting) do que a maioria dos algoritmos
de aprendizado de máquina.
kNN
É um algoritmo de aprendizado de máquina, o algoritmo kNN procura k exemplos de
treinamento mais próximos no espaço de recursos e usa sua média como previsão.

Logistic Regression
O algoritmo de classificação de regressão logística com regularização LASSO (L1) ou
crista (L2). A regressão logística aprende um modelo de regressão logística a partir dos
dados. Funciona apenas para tarefas de classificação.
Naive Bayes
Um classificador probabilístico rápido e simples baseado no teorema de Bayes com a
suposição de independência de recurso. Funciona apenas para tarefas de classificação.
Random Forest
A Random Forest constrói um conjunto de árvores de decisão. Cada árvore é
desenvolvida a partir de uma amostra de bootstrap dos dados de treinamento. Ao
desenvolver árvores individuais, um subconjunto arbitrário de atributos é desenhado
(daí o termo “Aleatório”), a partir do qual o melhor atributo para a divisão é
selecionado. O modelo final é baseado na maioria dos votos de árvores desenvolvidas
individualmente na floresta.
Fonte dos algoritmos de Machine Learning: Wikipédia e
https://orange3.readthedocs.io/en/latest
LSTM
A rede Long Short-Term Memory - LSTM é uma rede neural recorrente, que é usada
em diversos cenários de Processamento de Linguagem Natural. A LSTM é uma
arquitetura de rede neural recorrente (RNN) que “lembra” valores em intervalos
arbitrários. A LSTM é bem adequada para classificar, processar e prever séries
temporais com intervalos de tempo de duração desconhecida. A insensibilidade
relativa ao comprimento do gap dá uma vantagem à LSTM em relação a RNNs
tradicionais (também chamadas “vanilla”), Modelos Ocultos de Markov (MOM) e
outros métodos de aprendizado de sequências.
GRU
A rede Gated Recurrent Unit - GRU visa resolver o problema da dissipação do
gradiente que é comum em uma rede neural recorrente padrão. A GRU também pode
ser considerada uma variação da LSTM porque ambas são projetadas de maneira
semelhante e, em alguns casos, produzem resultados igualmente excelentes.
CNN
A Rede Convolutional Neural Network - CNN é um algoritmo de Aprendizado Profundo
que pode captar uma imagem de entrada, atribuir importância (pesos e vieses que
podem ser aprendidos) a vários aspectos / objetos da imagem e ser capaz de

diferenciar um do outro. O pré-processamento exigido em uma CNN é muito menor
em comparação com outros algoritmos de classificação. Enquanto nos métodos
primitivos os filtros são feitos à mão, com treinamento suficiente, as CNN têm a
capacidade de aprender esses filtros / características.
Fonte dos algoritmos de Deep Learning: https://www.deeplearningbook.com.br
Redes neurais são sistemas de computação com nós interconectados que funcionam
como os neurônios do cérebro humano. Usando algoritmos, elas podem reconhecer
padrões escondidos e correlações em dados brutos, agrupá-los e classificá-los, e com o
tempo aprender e melhorar continuamente.
O Instituto Asimov https://www.asimovinstitute.org/neural-network-zoo/ publicou
uma folha de dicas contendo várias arquiteturas de rede neural, nos concentraremos
nas arquiteturas destacadas em vermelho LSTM, GRU e CNN.
Fonte: THE ASIMOV INSTITUTE

Deep Learning é uma das bases da Inteligência Artificial (IA), um tipo de aprendizado
de máquina (Machine Learning) que treina computadores para realizar tarefas como
seres humanos, o que inclui reconhecimento de fala, identificação de imagem e
previsões, aprendendo com o tempo. Podemos dizer que é uma Rede Neural com
várias camadas ocultas:
Fase 1
A fase 1 do projeto é o desenvolvimento de um protótipo para a apresentação da
solução e sua primeira aprovação pelo cliente. A ferramenta que foi escolhida para
essa fase é o Orange Canvas, por se tratar de um ambiente gráfico mais amigável.
Nesse ambiente os elementos são arrastados para o canvas sem a necessidade de
digitação de linhas de código.
O trabalho tem início pela Análise Exploratória dos Dados. Inicialmente foi constatado
que a primeira amostra de 5.000 ocorrências estava desbalanceada, figura abaixo.
Optou-se por descartar as ocorrências das categorias com menor volume de dados.

A primeira fase foi estruturada em três etapas: pré-processamento e análise dos
dados, treinamento dos modelos e previsão das categorias das ocorrências. As etapas
foram planejadas para facilitar o desenvolvimento e implementação do projeto por
serem independentes entre si e seu processamento ser concluído em cada etapa, não
necessitando ser repetido na etapa posterior.
Fase 1 - Etapa 1: Pré-processamento e análise dos dados
Na primeira etapa são realizados a coleta, o pré-processamento e a análise dos dados,
conforme a figura abaixo na ferramenta Orange.
Foram coletadas amostras de 5.000 ocorrências para o treinamento do modelo e 300
ocorrências para fazer a previsão, simulando um ambiente de produção.
Após a coleta, os dados são organizados em um Corpus para a realização do pré-
processamento executando-se as ações de Transformação, Tokenização e Filtragem
dos dados.

As palavras são organizadas em um formato Bag of Words (Saco de Palavras), uma
representação simplificadora usada no Processamento de Linguagem Natural - NLP.
Nesse modelo, um texto (como uma frase ou um documento) é representado como o
saco de suas palavras, desconsiderando a gramática e até mesmo a ordem das
palavras, mas mantendo a multiplicidade.
O aprendizado de máquina (Machine Learning) é um ramo da inteligência artificial
baseado na ideia de que sistemas podem aprender com dados, identificar padrões e
tomar decisões com o mínimo de intervenção humana. O aprendizado automático
explora o estudo e construção de algoritmos que podem aprender de seus erros e
fazer previsões sobre dados.
O aprendizado de máquina pode ser classificado em duas categorias:
Aprendizado supervisionado: São apresentadas ao computador exemplos de entradas
e saídas desejadas.
Aprendizado não supervisionado: Nenhum tipo de etiqueta é dado ao algoritmo de
aprendizado, deixando-o sozinho para encontrar padrões nas entradas fornecidas.
Através do aprendizado não supervisionado é possível identificar os Clusters
(Agrupamentos) e sua hierarquia.
Com o escalonamento multidimensional (MDS) tem-se um meio de visualizar o nível de
similaridade de casos individuais de um conjunto de dados e as regiões dos Clusters.
Além disso, tem-se também uma idéia da facilidade ou dificuldade do modelo em fazer
suas previsões, quanto mais agrupadas as ocorrências em determinada região maior
poderá ser a probabilidade de acerto do modelo.

Fase 1 - Etapa 2: Treinamento dos modelos
A segunda etapa é o treinamento dos modelos utilizando os seguintes algoritmos de
Machine Learning: AdaBoost, kNN, Logistic Regression, Naive Bayes e Random Forest.
A performance geral dos modelos pode ser medida através de sua Acurácia (CA),
proximidade de um resultado com o seu valor de referência real. Dessa forma, quanto
maior a acurácia, mais próximo da referência ou valor real é o resultado encontrado.

Os acertos e os erros identificados no resultado podem ser analisados através da
Matriz de Confusão. Na diagonal principal da matriz encontram-se os acertos,
previsões corretas de acordo com o conjunto real. Os erros estão fora da diagonal
principal, previsões incorretas de acordo com o conjunto real.
Fase 1 - Etapa 3: Previsão das categorias das ocorrências
A última etapa do protótipo, fase 1 do projeto, é a previsão das categorias das
ocorrências, realizadas por cada algoritmo de machine learning.

O resultado pode ser obtido através da classificação probabilística de observações,
caracterizando-as em classes pré-definidas. A classe prevista será a que possuir maior
probabilidade:
Fases 2, 3 e 4
Para as fases 2, 3 e 4 do projeto foram elaborados programas na linguagem Python
para análise, treinamento e previsão das ocorrências, utilizando os seguintes
algoritmos de Deep Learnig: LSTM, GRU e CNN.
Foram fornecidas amostras de 100.000 e 1.700.000 ocorrências para o treinamento e
para previsão amostras de 300 e 60.000 ocorrências, utilizando o mesmo ambiente.
As novas amostras de ocorrências foram pré-processadas e estavam balanceadas:
Os programas desenvolvidos foram estruturados respeitando as mesmas três etapas
da fase anterior: pré-processamento e análise dos dados, treinamento dos modelos e
previsão das categorias das ocorrências.
Na etapa 1 foram utilizadas diversas técnicas de pré-processamento dos dados
semelhantes ás utilizadas no ambiente Orange Canvas.
Na segunda etapa foram desenvolvidas diferentes arquiteturas para cada algoritmo de
Deep Learnig.

Modelo 1 LSTMs - Camadas da Rede Neural:
Model: "sequential"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
embedding (Embedding) (None, 250, 100) 5000000
_________________________________________________________________
lstm (LSTM) (None, 100) 80400
_________________________________________________________________
dense (Dense) (None, 6) 606
=================================================================
Total params: 5,081,006
Trainable params: 5,081,006
Non-trainable params: 0
Modelo 2 LSTMs e CNNs - Camadas da Rede Neural:
Model: "sequential_1"
_________________________________________________________________
=================================================================
embedding_1 (Embedding) (None, 250, 100) 5000000
_________________________________________________________________
conv1d (Conv1D) (None, 250, 32) 9632
_________________________________________________________________
max_pooling1d (MaxPooling1D) (None, 125, 32) 0
_________________________________________________________________
lstm_1 (LSTM) (None, 125, 100) 53200
_________________________________________________________________
lstm_2 (LSTM) (None, 100) 80400
_________________________________________________________________
dense_1 (Dense) (None, 6) 606
=================================================================
Modelo 3 LSTMs com Dropout - Camadas da Rede Neural:
_________________________________________________________________
=================================================================
_________________________________________________________________
lstm_3 (LSTM) (None, 250, 200) 240800
_________________________________________________________________
lstm_4 (LSTM) (None, 200) 320800
_________________________________________________________________
=================================================================

Modelo 4 GRU - Camadas da Rede Neural:
_________________________________________________________________
=================================================================
_________________________________________________________________
gru (GRU) (None, 100) 60600
_________________________________________________________________
dense (Dense) (None, 6) 606
=================================================================
Modelo 5 GRU e CNN - Camadas da Rede Neural:
_________________________________________________________________
=================================================================
_________________________________________________________________
conv1d (Conv1D) (None, 250, 32) 9632
_________________________________________________________________
max_pooling1d (MaxPooling1D) (None, 125, 32) 0
_________________________________________________________________
gru_1 (GRU) (None, 125, 100) 40200
_________________________________________________________________
gru_2 (GRU) (None, 100) 60600
_________________________________________________________________
=================================================================

Modelo 6 GRU com Dropout - Camadas da Rede Neural:
_________________________________________________________________
=================================================================
_________________________________________________________________
gru_3 (GRU) (None, 250, 200) 181200
_________________________________________________________________
gru_4 (GRU) (None, 200) 241200
_________________________________________________________________
=================================================================
Conclusão
Neste trabalho, sem pretensão alguma de esgotar o assunto, demonstrou-se que os
modelos fundamentados em Deep Learning tiveram um resultado melhor que os
demais algoritmos, conforme figura abaixo:
Considera-se excelente o desempenho alcançado pela combinação dos algoritmos
LSTM e CNN, com acurácia de 97%. Recomenda-se, portanto, a adoção desse modelo
para o desenvolvimento da aplicação de Previsão de Ocorrências em produção.

Modelos de previsão de Ocorrências

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (19)

Semelhante a Modelos de previsão de Ocorrências

Semelhante a Modelos de previsão de Ocorrências (20)

Mais de Guttenberg Ferreira Passos

Mais de Guttenberg Ferreira Passos (20)

Último

Último (10)

Modelos de previsão de Ocorrências