Resenha _big_data_sentiment_analysis (3)

Polypus: a Big Data Self-Deployable Architecture for
Microblogging Text Extraction and Real-Time Sentiment
Analysis
Rodrigo Martínez-Castaño, Juan C. Pichel, Pablo Gamallo (2018)
Luana da Silva1
1Programa de Pós-Graduação em Ciência da Informação
eca.luds@gmail.com
12 de Abril de 2019
Luana da Silva (PGCIN/UFSC) Big Data e Web Semântica 12 de Abril de 2019 1 / 38

Sumário
1 Introdução
2 Tecnologias
3 Arquitetura do Sistema
4 Implantação usando Containers
5 Resultados Experimentais
6 Conclusões

1 Introdução
2 Tecnologias
6 Conclusões

Análise de Sentimento em grandes quantidade de dados
Paradigma:
Análise de Sentimento: encontrar opinião (positiva, negativa ou
neutra) a partir de documentos de texto;
Base de dados:
Twitter: ampla fonte de textos curtos contendo opiniões de usuários;
Problemas de analisar sentimento em tweets:
Subjetividade;
Textos muito pequenos para serem analisados. Conclusões mais
signiﬁcativas com maiores quantidades grandes de textos.

Polypus
Proposta do Software
Objetivo: Classiﬁcar grandes quantidades de tweets para possibilitar a
mineração de opiniões (sentimentos) relacionados a um determinado
ﬁltro.
Software: Framework modular baseado em tecnologias de Big Data
projetado para realizar mineração de opinião em tempo real em textos
curtos.

1 Introdução
2 Tecnologias
6 Conclusões

Ecossistema Hadoop
Fonte: blog.newtechways.com/2017/10/apache-hadoop-ecosystem.html

Apache Storm
Framework para processamento de dados em streaming em tempo
real;
Spout: lêem dados streaming de fontes externas;
Bolts: realizam cálculos e transformações nos dados recebidos.
Fonte: http://storm.apache.org/

1 Introdução
2 Tecnologias
6 Conclusões

Arquitetura do Sistema

Recuperação de tweets
Problema: para fazer mineração de opiniões é preciso coletar grandes
quantidades de tweets. Porém, não é possível recuperar grandes
quantidades de texto em períodos curtos de tempo por meio das APIs
do Twitter.
Solução: crawler customizado junto com a API Streaming do próprio
Twitter
Resultado: a mesma quantidade de tweets obtidos em um dia todo
com a API Streaming agora podem ser recuperados em 15 minutos.

Polypus4t: um crawler para o Twitter

Análise de Sentimento e Processamento de Linguagem
Natural
Features sintáticas simples (e.g. marcadores de negação);
Classiﬁcação com o Apache Storm usando o classiﬁcador Naive Bayes;

Classiﬁcador de Sentimentos em Tempo Real

Módulo de Agregação
Implementado em Scala e roda em Spark;
Dois modos de execução:
Automático: usa uma lista de keywords (Automated Processing List) e
já monta uma base de posts relacionados;
On demand: segundos a minutos para agregar os posts relacionados,
dependendo da query;
Resultado:
Polaridade média;
Número total de correspondências;
Razão entre os posts neutros, positivos e negativos.
Medidas salvas no MariaDB.

Módulo de Agregação

API HTTP
Implementado em Java com o framework Jersey;
Funcionalidades:
Obter as keywords da APL (Automated Processing List);
Obter a avaliação de uma keyword da APL em um intervalo de tempo;
Deletar/adicionar keywords na APL;
Obter resultados para um ﬁltro personalizado;
etc.

API HTTP

Interface Gráﬁca do Usuário
Interface de gerenciamento das funcionalidades da API;
Quatro views: tempo real, pesquisa por keyword, exploração e
gerenciamento da APL.

Interface Gráﬁca do Usuário
Informação em tempo real.
Pesquisa por uma keyword.
Resultado de um ﬁltro.
Gerenciamento da APL.

1 Introdução
2 Tecnologias
6 Conclusões

Implantação usando Containers
Os scripts foram projetados para o AWS (Amazon Web Services)
EC2, mas podem ser facilmente adaptados para outras plataformas
cloud ou clusters locais;
Cada serviço tem um arquivo de conﬁguração para ajuste ﬁno;
Arquitetura completa rodando em 2 minutos.

1 Introdução
2 Tecnologias
6 Conclusões

Conﬁguração do cluster
Máquinas virturais AWS EC2 rodando Amazon Linux AMI;
Cluster criado com 3 e 7 nós c4.4xlarge;
Características do cluster:
CPU: Intel Xeon E5-2666 v3
vCores por nó: 16
Memória RAM por nó: 30 GiB
Disco: cada nó com 50 GiB SSD de propósito geral

Master:
Processos master: Nimbus (Storm), NameNode (HDFS),
ResourceManager (YARN), HMaster (HBase), um dos três serviços do
ZooKeeper;
MariaDB;
Instância do crawler Polypus4t;
etc.
Workers:
Processos slave: regionservers (HBase), nodemanager (YARN),
datanodes (HDFS), supervisors (Storm) e uma instância do crawler;
Processos do worker;
Pares do Aerospike;
Outros dois serviços do ZooKeeper;
etc.

Avaliação do Crawler do Twitter
Termos: palavras mais frequentes da língua inglesa (obtido de
insightin.com e Eric Price);
Total: 11.329 palavras;
API Streaming não foi usada nos testes;
Experimentos ("some testes were made"):
1 Qual o número ótimo de threads por core?
2 Aumentar o número de nós/cores melhora a recuperação?

1 - Qual o número ótimo de threads por core?
Número ótimo de threads por core: 32 (para intervalos de 15
minutos);

2 - Aumentar o número de nós/cores melhora a recuperação?

Avaliação do Classiﬁcador de Sentimentos
Detalhe: Bolts precisam de um período de ’aquecimento’ antes de
começarem a processar em tempo real
Experimentos:
1 Valor ótimo de paralelismo (número inicial de threads) para cada Bolt;
2 Diminuir os recursos do crawler;
3 Adicionar um nó worker no cluster de 7 nós.

1 - Valor ótimo de paralelismo para cada Bolt
Usando a conﬁguração b (cluster com 3 nós e 2 nós worker do Storm):
588.7 tweets/s (?);
Storm levou 40 muinutos (aquecimento) até alcançar processamento em
tempo real.
Sequência dos Bolts: Sentences, Normalizer, Tokens, Splits, NER, Tagger and Polarity.

2 - Diminuir os recursos do crawler
Conﬁguração a (cluster com 3 nós e mesmo número de nós para os
workers): 382.8 tweets/s;
Storm levou 8 minutos (aquecimento) até alcançar processamento em
tempo real.

3 - Adicionar um nó worker no cluster de 7 nós
Problema: O cluster com 7 nós não alcança processamento em tempo
real por causa da alta capacidade de recuperação do crawler: mais de
650 tweets/s
Solução: Adicionar um nó worker
Resultado: Classiﬁcação dos tweets em tempo real, também após 8
minutos de aquecimento do Storm.

Avaliação do Módulo de Agregação
Tempo (em min) de Execução para diferentes conﬁgurações do cluster
Processamento de todo o dataset (50M de tweets).

1 Introdução
2 Tecnologias
6 Conclusões

Conclusões
Polypus permite criar grandes datasets em curtos períodos de tempo;
Permite analisar tendências de polaridade em keywords arbitrárias em
quase tempo real;
Estimação da polaridade dos tweets já recuperados em tempo real;
Arquitetura facilmente implantável;
Pode incorporar outros idiomas e outros classificadores;
Buffer com Aerospike reduz a latência entre os módulos;
Resultados agregados: polaridade média, número total de correspondências,
razões de positivos, negativos e neutros para um intervalo de tempo;
Para filtros personalizados, 50M de tweets podem ser processados em dois
minutos (1M em 15 s)

Obrigada pela atenção!

Q & A
LinkedIn:
linkedin.com/in/luanadasilva
GitHub: github.com/silva-luana
E-mail: eca.luds@gmail.com

Resenha _big_data_sentiment_analysis (3)

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Resenha _big_data_sentiment_analysis (3)

Semelhante a Resenha _big_data_sentiment_analysis (3) (20)

Resenha _big_data_sentiment_analysis (3)