Autor: Juan Felipe dos Reis Barbosa
Orientador: Dr. Kleber de Oliveira Andrade
Trabalho de Conclusão de Curso - Engenharia da Computação (12/2017) - UNISAL/São José
Campinas/São Paulo - Brasil
Análise de tweets sobre política no Twitter utilizando Big Data
1. Projeto de Fim de Curso – Engenharia da Computação, 2017-2
1
Analisando qual região mais fala sobre política no Twitter:
Utilizando a arquitetura e ferramentas de Big Data
Juan Felipe dos Reis Barbosa1
e Kleber de Oliveira Andrade2
1
Aluno, Engenharia da Computação, juanfrbarbosa@gmail.com,
2
Orientador, UNISAL, kleber.andrade@sj.unisal.br
Resumo – Este projeto foi direcionado a área de Big
Data, compreendendo os passos necessários para
desenvolver uma solução que consiga extrair valor dos
dados do Twitter, utilizando ferramentas de mercado
para analisar as informações. Com a plataforma de
computação em nuvem IBM Bluemix, foram integrados
diversos aplicativos para conectar as três camadas da
arquitetura do Big Data. A primeira é a Fonte de Dados,
onde se encontram todas as informações que podem
gerar valor às empresas. A segunda camada é o
Repositório de Dados, armazenando as informações em
um banco de dados e posteriormente criando o Data
Warehouse. Na terceira camada encontram-se as
aplicações de negócio, modelando visões gráficas e
criando relatórios para tomar decisões baseadas em
análises preditivas e estatísticas. Para a visualização e
consolidação dos dados, foi utilizado o conjunto de
ferramentas de Business Intelligence do Power BI,
mapeando os tweets de milhares de usuários que
falaram sobre política.
Palavras-chave: Bigdata, Ibm, Bluemix, Powerbi,
Twitter.
I. INTRODUÇÃO
Nos últimos anos verificou-se uma expansão do
desenvolvimento tecnológico e um forte crescimento da
internet. As pessoas e organizações estão cada vez mais
usando as redes sociais, o que levou a um grande
aumento de disseminação das informações. Hekima
(2016) afirma que na Era da Informação, o volume de
dados registrado torna-se maior a cada dia.
A internet é o principal repositório dessa
informação. De acordo com Daquino (2012) o
surgimento de redes sociais viabilizou a publicação de
conteúdo por qualquer pessoa. As redes sociais
tornaram-se muito populares graças ao Facebook,
LinkedIn, entre outros. A partir delas surgiram os
microblogs, tais como o Twitter.
Como explicado por Nascimento (2017) atualmente
as pessoas geram muito mais informações com
dispositivos móveis como smartphones, tablets e
também com TVs. Também é correto citar que as redes
sociais geram a cada segundo milhares de informações
e dados, em sua maioria, públicos. Já é possível contar
com veículos, geladeiras e até roupas (wearable devices)
conectados à internet gerando a todo momento
informações que necessitam ser armazenadas e
processadas para gerar valor ao usuário.
Hekima (2017) afirma que a grande maioria desses
dados, por serem públicos, estão à disposição na internet
para profissionais e empresas que queiram armazená-los
e analisá-los para desenvolverem alguma solução que
agregue valor ao negócio e, possivelmente, contribuir
para o aumento da receita da organização.
Ainda de acordo com Hekima (2016), a grande
maioria das ações feitas pelos usuários na internet, de
publicações em redes sociais, pesquisas em sites de
busca, transações financeiras e dados corporativos,
geram dados. Essas informações são valiosas para as
organizações em todo o mundo, se utilizarem os dados
de forma correta.
As empresas podem conhecer e atender melhor a
necessidade de seus clientes, além de compreender
padrões como comportamento de compras, informações
financeiras sobre o mercado, prever o Churn Rate (taxa
de cancelamento) e até a quantidade de clientes que
foram para empresas concorrentes, como explicado por
Big Data Business (2015).
De acordo com Daquino (2012) é notório que as
redes sociais geram um grande volume de informações
a cada segundo, já que os milhares de usuários
compartilham suas ideias, fotos, vídeos, chamadas em
diversos períodos do dia.
De acordo com Marketing Digital (2015) dados
estatísticos mostram que usuários do Facebook gastam
aproximadamente 100 milhões de horas vendo vídeos na
rede social, já o LinkedIn bateu a marca dos 450 milhões
de perfis cadastrados, 81% dos usuários do Twitter
verificam seus perfis pelo menos uma vez ao dia, e 88%
das organizações norte-americanas com mais de cem
colaboradores utilizam o Twitter com foco em
marketing.
A Geração da Internet, também chamada de X, Y,
Z ou Millenials, como afirmado por Meyer (2014) não
consegue mais viver desconectada do mundo digital. Os
Millenials sentem a necessidade constante em dividir
aquilo que estão fazendo em tempo real com os amigos
e seguidores do Facebook, em acessar notícias de
diversos lugares do mundo no Google, ver os
videoclipes lançados à poucos segundos no YouTube,
ouvir novas músicas no Spotify, assistir séries no
Netflix, postar sobre os assuntos mais falados no Twitter
e outra infinidade de eventos.
Segundo a Revista Exame (2016) os jovens
brasileiros da geração Millenials passam em média 4
2. Projeto de Fim de Curso – Engenharia da Computação, 2017-2
2
horas conectados à internet por dispositivos móveis,
dados mostram que 89% utilizam o aparelho para
chamadas, 87% para navegar na internet, 85% para
acesso a e-mails e 71% para encontrar o que precisam
em mecanismos de buscas.
Dados extraídos do Internet Live Stats (2017), no
dia 15/10/2017, mostram que foram publicados 7.790
tweets em 1 segundo e 465.971 tweets em 1 minuto. Por
isso, o Twitter se mostra uma fonte interessante para
verificar as opiniões dos usuários. Sendo assim, este
trabalho tem como objetivo modelar um processo de
implementação das ferramentas e arquitetura de Big
Data para fazer aquisição de dados do Twitter,
utilizando como um case usuários que enviar tweets
sobre algo relacionado a Política.
A metodologia de pesquisa desenvolvida neste
artigo científico assumiu o caráter exploratório, tendo
em vista que o conceito de Big Data está sendo
aprimorado constantemente.
II. REFERENCIAL TEÓRICO
Neste capítulo foram apresentados todos os
conceitos relacionados ao projeto. Livros, artigos
científicos e sites foram analisados para que esta
pesquisa possa enfatizar as melhores práticas e
ferramentas utilizadas nesta área e qual a melhor
maneira de aplicá-las.
Na internet existem outras soluções parecidas com
a que foi desenvolvida neste projeto, entretanto são
soluções Open Source, desenvolvidas pela comunidade,
como explicado por Marketing de Conteúdo (2015).
Ainda de acordo com Marketing de Conteúdo
(2015) as ferramentas da comunidade web, para
soluções utilizando tweets, são desenvolvidas com
propósitos bem específicos.
Isso torna-se um problema para empresas que não
possuem foco no mercado de tecnologia da informação,
mas desejam utilizar soluções que integram diversos
serviços e ferramentas.
O protótipo deste artigo científico foi criado e
baseado em soluções empresariais, utilizando
ferramentas validadas por empresas que agregam valor
e desenvolvem tecnologias de ponta para o mercado de
tecnologia da informação.
Segundo Woolf (2015) outro ponto a ser destacado
é que utilizando ferramentas empresariais, as
organizações têm um pacote completo de suporte a
produtos, atualizações de versões para correções de
defeitos e segurança com os dados armazenados.
A. Big Data
Como destacado por Minelli (2013) Big Data é
considerado o novo Data Warehousing e nova a análise
de negócios para as organizações, gerenciando milhares
de informações de forma eficiente para aumentar a
receita das empresas.
Ainda de acordo com Minelli (2013) os fenômenos
que mais impulsionaram o Big Data são a inovação e
mudança constante da tecnologia. O momento atual será
diferente do vivido pela população em dois anos e
completamente diferente em uma década.
Hekima (2016) afirma que Big Data é um dos
termos mais abordados atualmente na área da
Tecnologia, contudo ainda gera algumas dúvidas aos
novos profissionais que desejam aprender ou querem
ingressar no mercado de TI, pois cada autor descreve
este conjunto de técnicas com alguns conceitos
diferentes.
Big Data, de acordo com Nascimento (2017) é um
conceito que descreve a enorme quantidade de
informações e dados estruturados, semiestruturados e
não estruturados gerados a cada segundo em todo
mundo.
Para Gartner Inc (2013) Big Data é um conjunto de
ferramentas e recursos de alta velocidade para processar
o alto volume e variedade de informações, exigindo
novas formas econômicas de processamento de dados,
permitindo às empresas tomarem melhores decisões e
otimizar processos.
Segundo Sinha (2014) o Big Data está presente em
todos os lugares, mostrando que os dados podem
beneficiar todas as aplicações desenvolvidas em
diversos segmentos de mercado, utilizando o
conhecimento adquirido com as informações para tomar
decisões mais coerentes. Como pode ser visto na Figura
1, as empresas identificam novas oportunidades para
posteriormente tomar decisões.
Figura 1 – Macroprocesso decisório.
Fonte: Canary (2013) pág. 21.
O termo em português quer dizer “Grandes Dados”,
ou seja, a capacidade de processar e armazenar
quantidades imensas de dados vindos de diversas fontes
a cada segundo. Entretanto, para tratar esse enorme
volume de informações os softwares comuns de banco
de dados podem não ser eficientes. São necessárias
novas soluções no mercado para atender toda essa
demanda.
3. Projeto de Fim de Curso – Engenharia da Computação, 2017-2
3
Big Data está transformando radicalmente a forma
como as empresas são projetadas e operam. (SINHA,
2014).
Não há como falar em Big Data sem citar os 5V’s,
conhecidos como Volume, Variedade, Velocidade,
Veracidade e Valor dos dados, como publicado por Big
Data Business (2015) e ilustrado na Figura 2.
Segundo Nascimento (2017) o volume está
associado a quantidade imensa de dados gerados a todo
instante. De acordo com Jain (2016) a primeira etapa
para caracterizar o Big Data é que o tamanho dos dados
deve ser “grande” e esse tamanho dimensionado em
volume.
A variedade refere-se aos dados vindos de diversas
fontes, ainda de acordo com Nascimento (2017) quanto
mais informações de fontes diferentes maior será a
complexidade para processar os dados, entretanto a
probabilidade de gerar valor para as organizações
também é maior.
O terceiro V é a velocidade, que segundo Cunha
(2015) a análise dessa enorme quantidade de dados deve
ser feita de maneira muito rápida e eficiente, para que as
informações não se tornem obsoletas para os gestores
das empresas.
Ainda, de acordo com Cunha (2015) a veracidade
diz respeito à consistência das informações, pois as
empresas necessitam de cautela ao tratar os dados, para
que não obtenham resultados falsos e tomem decisões
erradas causando um prejuízo gigantesco.
O último V, chamado de valor, é descrito por
Nascimento (2017) como a geração correta de insights
(tendências) paras as pessoas certas, deixando os
clientes satisfeitos. Desta maneira todo esforço realizado
nas etapas anteriores trará retorno financeiro para as
empresas.
Figura 2 – 5V’s do Big Data.
Fonte: Acervo do autor. Adaptado de Canary(2013) pág. 30.
B. Data Warehouse
Cetax (2016) afirma que Data Warehouse (DW) é
o repositório central de dados de uma organização,
armazenando as informações nos bancos de dados de
forma consolidada, proporcionando a análise de grandes
volumes de dados e obtendo informações estratégicas
para as futuras decisões da empresa.
Ainda, de acordo com Cetax (2016) os data
warehouses são os núcleos de informações gerenciais
dos diversos setores dentro das empresas, devido a sua
grande capacidade sumarizar e analisar dados, dando
suporte as principais ferramentas de Business
Intelligence (BI).
Segundo Fagundes (2011) os data warehouses
foram desenvolvidos para Processamento On-Line
Analítico (OLAP) e não para Processamento
Transacional On-Line (OLTP). Essas soluções OLAP
para pesquisa inteligente de dados são chamadas de data
mining, como demonstrado na Figura 3.
Figura 3 – Arquitetura genérica de um DW.
Fonte: Elias. Canaltech (2014).
Para Elias (2014) o Data Mart possui uma
arquitetura semelhante ao Data Warehouse, contudo é
dividido por assuntos específicos de cada setor dentro
das organizações, facilitando o tratamento desses dados.
A junção de diversos Data Marts compõe o DW.
Vieira (2013) afirma que o Data Mart tem por foco
dividir o ponto central de dados do DW e restringir as
responsabilidades para os setores corretos, ou seja, são
pequenos sistemas de armazenamento que extraem
informações específicas do Data Warehouse, como
ilustrado na Figura 4.
Figura 4 – Representação de um Data Warehouse.
Fonte: Acervo do Autor. Adaptado de Vieira (2013).
C. Business Intelligence
Segundo Machado (2007, apud Fernandes, 2016), a
área de Business Intelligence (BI) permite analisar
diversos Indicadores de Desempenho Corporativo, do
inglês Key Performance Indicators (KPIs), utilizando
um conjunto de soluções para cruzar e mapear
informações empresariais.
4. Projeto de Fim de Curso – Engenharia da Computação, 2017-2
4
Para Oliveira (2008) o Business Intelligence
sintetiza os dados do Data Mart de maneira simples,
auxiliando as empresas no momento de tomar decisões,
distribuindo as informações para os setores que
utilizarão os dados concretos para agir sobre
determinada circunstância no momento ideal, como
ilustra a Figura 5.
Oliveira (2008) também afirma que o que menos
falta são dados nas empresas, eles vêm de toda parte e a
todo momento. Contudo, muitos desses dados são
redundantes, sem coerência e difíceis de analisar,
tornando a complexidade cada vez maior para gerar
informações úteis e que aumentem a receita da
organização.
Figura 5 – Processo de transformação de dados com a aplicação de
BI.
Fonte: Fernandes (2016).
D. Twitter
De acordo com Significados (2011) Twitter é um
microblogging, ou seja, uma rede social onde o usuário
posta (envia um tweet) sobre algum assunto específico
utilizando no máximo 140 caracteres e o símbolo #,
chamado de cerquilha ou sustenido no mundo musical,
para marcar a hashtag (palavra-chave).
Entretanto, de acordo com Cossetti (2017) o Twitter
anunciou no dia 07 de novembro de 2017 que a partir
desta data os usuários podem enviar tweets utilizando
280 caracteres. Dados da rede social mostraram que
3,5% dos tweets em português e 9% dos tweets em inglês
atingiam o limite de 140 caracteres.
Segundo Canaltech (2017) hashtags servem para
marcar palavras ou tópicos importantes que os demais
usuários utilizam de maneira similar, desta forma a
palavra-chave se torna um link indexável para que as
pessoas possam clicar e ver quais são os outros usuários
que tem falado sobre aquele mesmo assunto, vídeo, foto,
notícia, etc.
A diretora geral do Twitter no Brasil, Fiamma
Zarife, afirmou que o Brasil obteve em 2016 o 3º maior
crescimento em número de usuários no microblog e que
a receita da empresa cresceu cerca de 30% no mesmo
ano, de acordo com Oliveira (2017).
No dia 15/10/2017 foram publicados 461.751.871
Tweets e haviam 309.634.838 usuários ativos no
Twitter, de acordo com os dados do Internet Live Stats
(2017). Isto prova que o Twitter é uma das redes sociais
mais utilizadas do mundo.
Dados apresentados por Max2 Marketing Digital
(2015), mostraram que o perfil da cantora Katy Perry
possuía cerca de 94,65 milhões de seguidores em 2015.
Atualmente a cantora possui 106 milhões de seguidores
e continua sendo o maior perfil do Twitter.
E. IBM Bluemix
De acordo com Tomala-Reyes (2014) IBM Bluemix é
uma plataforma em nuvem que permite aos usuários,
empresas e desenvolvedores criar, implementar e
gerenciar aplicativos de forma simples. A plataforma foi
baseada em Cloud Foundry (Fusão em Nuvem) que é
outra plataforma da IBM oferecida como um serviço
para seus clientes (PaaS - Platform as a Service) de
código aberto.
Ainda, segundo Tomala-Reyes (2014) Bluemix pode
ser integrado facilmente a centenas de aplicativos em
nuvem, sem a necessidade de conhecer os
procedimentos sequenciais para instalar ou configurar
novas soluções, otimizando tempo e recursos nas
empresas.
F. Node-RED
Node-RED é uma solução de programação que
fornece um editor no browser (navegador) baseado em
fluxo, ou seja, o desenvolvedor programa utilizando o
conceito de nó e fluxo, implementando as modificações
em tempo de execução da aplicação e integrando
facilmente APIs, serviços online e hardwares (NODE-
RED, 2013).
É possível desenvolver funções em JavaScript
utilizando o editor de texto, utilizar a biblioteca
integrada para salvar funções, nós e fluxos criados pelo
usuário, para reutilização com novas soluções.
Ainda, de acordo com Node-RED (2013) a solução
foi desenvolvida em Node.js, o que torna as aplicações
muito leves, otimizadas, utilizando o modelo não
bloqueado por eventos.
O Node-RED (2013) é ideal para integração com
IoT (Internet of Things), soluções em Cloud e hardware
de baixo custo, pois possui mais de 225.000 módulos no
pacote de nós, permitindo uma vasta gama de
implementações em aplicações pequenas ou
empresariais. As informações dos fluxos são salvas no
formato JSON, o que torna a transferência de dados entre
ferramentas de maneira mais leve e otimizada.
5. Projeto de Fim de Curso – Engenharia da Computação, 2017-2
5
III. MATERIAIS E MÉTODOS
Para extração dos dados diretamente do Twitter e
para determinar pontos importantes para geração de
análise, foram feitas diversas configurações na
plataforma IBM Bluemix, desenvolvimentos no Node-
RED e geração de relatórios no conjunto de ferramentas
Microsoft Power BI utilizando assim a metodologia não
experimental.
A finalidade deste projeto foi a criação de um
protótipo de Big Data, gerando tendências (insights)
com a utilização de ferramentas de mercado para análise
e processamento de uma enorme massa de dados. Este
projeto possui caráter qualitativo e aplicado, visto que
centenas de empresas parceiras da IBM e Microsoft,
utilizam soluções semelhantes.
A. Desenvolvimento Do Projeto
As etapas desenvolvidas neste projeto foram
seguidas sequencialmente como os demais projetos de
Big Data, conforme ilustrado na Figura 6.
Posteriormente todas as etapas serão explicadas de
maneira detalhada.
Figura 6 – Arquitetura do Big Data, etapas sequenciais.
Fonte: Acervo do Autor. Adaptado de Sinha(2014) pág. 55.
B. Configuração Da Plataforma Bluemix
Para iniciar o projeto com a plataforma IBM
Bluemix foi necessário criar uma conta free por 30 dias,
para que o usuário “tccbigdataunisal” pudesse
desenvolver e criar soluções com centenas de
ferramentas disponibilizadas no catálogo da IBM,
contudo por se tratar de uma conta grátis, nem todos os
recursos são disponíveis.
Caso o desenvolvedor ou a empresa deseje utilizar
ferramentas com maior poder de processamento,
armazenamento e análise de dados, o mesmo deve
inserir os dados do cartão de crédito, para que novos
recursos sejam liberados.
Após a criação da conta, foi concluído o registro
acessando o e-mail cadastrado e clicando no link
enviado pela IBM, possibilitando o novo acesso a
plataforma.
Já na plataforma, o passo seguinte foi configurar o
primeiro aplicativo para aquisição de dados. O Node-
RED foi selecionado através do Catálogo de Aplicações
do IBM Bluemix, como mostrado na Figura 7.
Com a aplicação selecionada foram realizadas as
configurações no aplicativo preenchendo o nome do
app, nome do host (hospedeiro), domínio, país de
implementação, organização que usou a ferramenta,
plano selecionado para conexão com o banco de dados
Cloudant NoSQL versão lite (básica, simples).
Figura 7 – Buscando o Node-RED no Catálogo da plataforma.
Fonte: Acervo do Autor.
Como demonstrado na Figura 8, o novo aplicativo
do Node-RED foi apresentado no Painel do IBM
Bluemix, permitindo o acesso para o desenvolvimento
que foi realizado e disponibilizando a conexão com
outras ferramentas.
Figura 8 – Aplicativo Node-RED criado e exibido no Painel.
Fonte: Acervo do Autor.
Dentro do Node-RED foi criado um novo fluxo
“TCC BIG DATA UNISAL” para inserir os nós, em
seguida foram selecionados os nós no editor do
navegador para a construção da solução.
O primeiro nó foi o que conecta o Node-RED a API
(Interface de Programação de Aplicações) do Twitter
para fazer aquisição dos tweets em tempo real.
O segundo nó conectou a API do Twitter com o
banco de dados Cloudant NoSQL, para armazenar os
dados no formato JSON na base de dados
“cloudantdbtccbigdata”.
Já o terceiro nó foi para integrar o Cloudant NoSQL
com a IBM dashDB, que é a solução de Data Warehouse
e Analytics da IBM, contendo o repositório central de
dados. Junto ao IBM dashDB foi integrada
6. Projeto de Fim de Curso – Engenharia da Computação, 2017-2
6
automaticamente a conexão com o IBM Db2 on Cloud
que é o banco de dados transacional otimizado para
nuvem.
O quarto e último nó, foi conectado ao nó do Twitter
para exibir em tempo real, no navegador, os tweets feitos
pelos usuários com alguma palavra envolvendo política,
conforme mostrado na Figura 9 e 10.
Figura 9 – Nós e fluxo para aquisição dos tweets.
Fonte: Acervo do autor.
Figura 10 – Tweets exibidos no navegador no momento da aquisição.
Fonte: Acervo do autor.
No momento em que os tweets foram exibidos no
Node-RED, em paralelo foi escrito/preenchido linha a
linha da tabela no banco de dados Cloudant NoSQL,
armazenando todas informações do arquivo JSON,
como pode ser visto na Figura 11.
Em menos de uma hora, no dia 21 de outubro de
2017, de extração dos tweets para construção da base de
dados deste projeto, foram armazenadas 22.912 linhas
na tabela, o que resultou no tamanho da mesma em 61,7
MB.
O formato do arquivo JSON extraído da API do
Twitter possui 276 colunas, dentre elas as principais
para este projeto foram a de localização, ID (número
único que identifica o usuário), latitude e longitude,
tweet e Twitter do usuário. Formato do arquivo exibido
na Figura 12.
Figura 11 – Preenchendo as linhas da base de dados.
Fonte: Acervo do autor.
Contudo, nem todas as colunas são preenchidas,
pois a API válida se o usuário está enviando tweets pela
primeira vez ou enviando retweets da postagem de outra
pessoa.
Figura 12 – Formato JSON armazenado no Cloudant NoSQL.
Fonte: Acervo do autor.
A conexão feita com os nós do Node-RED permitiu
que Data Warehouse no IBM Db2 on Cloud fosse criado
com diversas tabelas e visões, dentro do Schema
(Coleção de objetos na base de dados) “DASH13981”.
Dentro desta coleção foram criadas dezenas de
tabelas relacionadas a tabela principal
“CLOUDANTDBTCCBIGDATA”, para que seja
possível analisar os dados limpos, até mesmo erros
durante a extração e armazenamento dos dados.
Para a visualização dos dados e criação dos
relatórios, foi extraído o arquivo no formato CSV
(Valores Separados por Vírgula) do IBM Db2 on Cloud.
Os relatórios e dashboards foram construídos no
conjunto de ferramentas de Business Intelligence da
Microsoft, chamado de Microsoft Power BI. A solução
permite conectar a diversos Data Warehouses ou Data
Marts, também permite visualizar as alterações feitas
nos relatórios em tempo de execução.
7. Projeto de Fim de Curso – Engenharia da Computação, 2017-2
7
Por ser um conjunto de ferramentas utilizadas em
milhares de empresas, a plataforma tem integração com
aplicação Desktop, Servidor, Mobile e em Nuvem.
Contudo, neste projeto foi utilizado somente a solução
Desktop, como ilustrado na Figura 13.
Figura 13 – Carga de todos os dados no Microsoft Power BI.
Fonte: Acervo do autor.
IV. RESULTADOS E DISCUSSÕES
Os conceitos de Big Data com a utilização de
diversas ferramentas de mercado explicadas neste
Artigo Científico proporcionaram diversos dados de
grande importância.
No início do projeto os tweets dos usuários não
faziam muito sentido se analisados individualmente e
sem as ferramentas ideias para isso. Contudo, ao longo
do desenvolvimento da solução foi possível criar
relatórios importantíssimos.
Em mais de 22 mil tweets feitos por usuários em
menos de 1 hora, somente 261 foram feitos por usuários
brasileiros, o que representou apenas 1,15% do valor
total.
Poucos fatos relacionados à política brasileira
foram noticiados no dia 21/10/2017, o mais relevante foi
a afirmação do ministro da defesa Raul Jungmann. O
ministro disse que não existe qualquer possibilidade de
intervenção militar no Brasil, segundo notícia do site
Correio Braziliense (2017).
Em relação aos estados do Brasil, o que mais
publicou sobre Política foi o estado de São Paulo, com
31 tweets em menos de 1 hora, representando cerca de
11,88% do total dos brasileiros, como ilustrado na
Figura 14. São Paulo é o estado mais populoso do país,
possuindo mais de 45 milhões de habitantes.
Figura 14 – Total de tweets sobre Política no Estado de São Paulo.
Fonte: Acervo do autor.
Outra informação importante que pode ser extraída
foi relacionada ao cenário político espanhol,
especificamente na comunidade da Catalunha, que na
manhã do dia 21 de outubro de 2017 recebeu uma
intervenção da Espanha.
O primeiro ministro da Espanha Mariano Rajoy
anunciou que pretendia afastar os representantes do
governo da Catalunha e nomear novos governantes, para
controlar e impedir o movimento separatista dessa
região.
A ação de Mariano causou grande revolta na
população local, levando milhares de pessoas às ruas.
No Twitter os catalães também se manifestaram, com
1251 tweets em menos de 1 hora, representando 5,45%
do tweets extraídos, como demonstrado na Figura 15.
Figura 15 – Total de tweets sobre Política na Catalunha.
Fonte: Acervo do autor.
O tweet que mais foi compartilhado (retweet) foi o
do perfil de Albert Rivera deputado da Espanha e ex-
deputado do Parlamento da Catalunha, com 562
compartilhamentos em menos de 1 hora. Como pode ser
visto na Figura 16, a postagem fez menção ao cenário
político vivido pelo povo catalão e a intervenção política
do governo espanhol na Catalunha.
8. Projeto de Fim de Curso – Engenharia da Computação, 2017-2
8
Figura 16 – Tweet do Deputado Albert Rivera sobre a Catalunha.
Fonte: Acervo do autor. Adaptado de Twitter (2017).
Outra analise realizada com os resultados foi em
relação aos idiomas dos tweets enviados. Os idiomas
com menos tweets foram o tcheco (cs) e o sueco (sv),
com 37 e 38 postagens respectivamente, representando
cerca de 0,17% do valor total.
O idioma que mais teve tweets, representando mais
de 72%, foi o espanhol (es) com 16043 postagens pelos
usuários, como pode ser visto na Figura 17. Durante a
análise, as ferramentas não conseguiram identificar
(und) o idioma de 3853 tweets, o que representou
aproximadamente 17,47% da base de dados.
Figura 17 – Idiomas dos tweets enviados.
Fonte: Acervo do autor.
V. CONCLUSÕES
Este artigo científico apresentou diversas
ferramentas e conceitos utilizados na tecnologia de Big
Data, comprovando o quanto é importante para as
empresas analisar essa imensa massa de dados, que por
muitas décadas, foi deixada de lado por falta de
conhecimento ou tecnologias mais avançadas.
Também foi possível observar que redes sociais
geram um enorme volume de informações a cada
segundo e para tratar tudo isso, são necessárias
ferramentas específicas para Big Data e um time
engajado para agregar valor às organizações.
Este conjunto de ferramentas e técnicas ajudou a
compreender as diversas possibilidades que os
Engenheiros e Cientistas de Dados tem para analisar
informações de redes sociais.
Pensando no ambiente empresarial, é válido e
importante que as organizações tenham analistas de
dados focados em analisar informações da internet,
principalmente de redes sociais como Twitter, Facebok,
Instagram, para que seja possível compreender qual é a
imagem que a empresa está passando para seus clientes
e parceiros de negócio.
Dados são valiosos para equipes de Marketing e
Tecnologia da Informação, juntas essas duas áreas
podem criar soluções para atrair novos clientes, manter
os clientes ativos satisfeitos com os produtos que já
possuem, iniciar parcerias com novos fornecedores e
sugerir melhorias para os gestores de cada setor.
AGRADECIMENTOS
Agradeço a Deus por ter permitido que eu chegasse
até aqui, ao meu pai Claudemir Pires Barbosa, minha
mãe Giovana dos Reis Barbosa e minha avó Maria Lucia
dos Reis por todo investimento feito nos meus estudos e
tempo gasto para que pudessem me auxiliar de todas as
maneiras possíveis, ao meu orientador do trabalho de
conclusão de curso Profº Dr. Kleber de Oliveira
Andrade, ao Especialista em BI Profº Me. Edinelson
Aparecido Batista, ao Coordenador do Curso Profº Me.
Sérgio Yoshioka, a Pesquisadora e Consultora de Big
Data Dra. Rosangela de Fatima Pereira Marquesone, aos
Eng. da Computação Rodrigo Ferreira Fiori e Heitor
Rezende de Souza, a todos os meus professores da
graduação pelo conhecimento dividido e ao
UNISAL/São José.
REFERÊNCIAS
BIG DATA BUSINESS. Big Data no aumento dos
negócios (e diminuição do Churn). 2015.
Disponível em:
http://www.bigdatabusiness.com.br/big-data-no-
aumento-dos-negocios-e-diminuicao-do-churn.
Acesso em 05 de nov. de 2017
CANALTECH. O que é hashtag?. 2017. Disponível
em: https://canaltech.com.br/produtos/O-que-e-
hashtag. Acesso em 31 de out. de 2017.
CANARY, Vivian Passos. A tomada de decisão no
contexto do Big Data: Estudo de caso único.
Porto Alegre. 2013.
CETAX. O que é Data Warehouse?. 2016. Disponível
9. Projeto de Fim de Curso – Engenharia da Computação, 2017-2
9
em: https://www.cetax.com.br/blog/o-que-e-data-
warehouse. Acesso em 31 de out. de 2017.
CORREIO BRAZILIENSE. Não existe possibilidade
de intervenção militar, afirma ministro da
Defesa. 2017. Disponível em:
http://www.correiobraziliense.com.br/app/noticia/
politica/2017/10/21/internas_polbraeco,635315/na
o-existe-possibilidade-de-intervencao-militar-
afirma-ministro-da-de.shtml. Acesso em 05 de nov.
de 2017.
COSSETTI, Melissa Cruz. TechTudo. Twitter
aumenta oficialmente o limite de 140 caracteres
para 280. 2017. Disponível em:
https://www.techtudo.com.br/noticias/2017/11/twit
ter-aumenta-oficialmente-o-limite-de-140-
caracteres-para-280.ghtml. Acesso em 07 de nov.
de 2017.
CUNHA, Clayton. Implantando Marketing. Big Data
para as empresas em 5 V’s. 2015. Disponível em:
http://www.implantandomarketing.com/big-data-
para-as-empresas-em-5-vs. Acesso em 31 de out. de
2017.
DAQUINO, Fernando. TecMundo. A história das
redes sociais: como tudo começou. 2012.
Disponível em:
https://www.tecmundo.com.br/redes-
sociais/33036-a-historia-das-redes-sociais-como-
tudo-comecou.htm. Acesso em 05 de nov. de 2017.
EL PAÍS. Lluis Llach llama “cerdos” a los líderes de
la Unión Europea. 2017. Disponível em:
https://politica.elpais.com/politica/2017/10/21/actu
alidad/1508578922_149586.amp.html. Acesso em
10 de nov. de 2017.
ELIAS, Diego. Canaltech. Conhecendo a arquitetura
de Data Warehouse. 2014. Disponível em:
https://canaltech.com.br/business-
intelligence/conhecendo-a-arquitetura-de-data-
warehouse-19266. Acesso em 31 de out. de 2017.
EXAME. Brasileiro usa celular por mais de três
horas por dia. 2016. Disponível em:
https://exame.abril.com.br/tecnologia/brasileiro-
usa-celular-por-mais-de-tres-horas-por-dia. Acesso
em 31 de out. de 2017.
FAGUNDES, Eduardo. EFagundes. O que é um Data
Warehouse?. 2011. Disponível em:
http://efagundes.com/artigos/o-que-e-um-data-
warehouse. Acesso em 05 de nov. de 2017.
FERNANDES, Vanessa. Implementação de Data
Warehouse para área de saúde. Campinas, São
Paulo. 2016.
GARTNER. Big Data. 2013. Disponível em:
https://www.gartner.com/it-glossary/big-data.
Acesso em 31 de out. de 2017.
HEKIMA. Big Data Business. Big Data: tudo que
você sempre quis saber sobre o tema!. 2016.
Disponível em:
http://www.bigdatabusiness.com.br/tudo-sobre-
big-data. Acesso em 31 de out. de 2017.
HEKIMA. Big Data Business. Dados abertos:
democratizando a informação com Big Data.
2017. Disponível em:
http://www.bigdatabusiness.com.br/dados-abertos.
Acesso em 05 de nov. de 2017.
IBM. IBM Bluemix. 2017. Disponível em:
https://www.ibm.com/br-pt/marketplace/cloud-
platform#product-header-top. Acesso em 31 de out.
de 2017.
INTERNET LIVE STATS. 1 second. 2017. Disponível
em: http://www.internetlivestats.com/one-second.
Acesso em 15 de out. de 2017.
JAIN, Anil. IBM Healthcare Data Analytics. The 5 Vs
of Big Data. 2016. Disponível em:
https://www.ibm.com/blogs/watson-health/the-5-
vs-of-big-data. Acesso em 31 de out. de 2017.
MACHADO, F. N. R. Tecnologia e projeto em Data
Warehouse. São Paulo: Editora Érica, 2007.
MARKETING DE CONTEÚDO. 10 ferramentas
incríveis de monitoramento do Twitter. 2015.
Disponível em:
https://marketingdeconteudo.com/10-ferramentas-
incriveis-de-monitoramento-do-twitter. Acesso em
10 de nov. de 2017.
MAX2 MARKETING DIGITAL. 40 estatísticas de
redes sociais para arrasar em 2017. 2015.
Disponível em:
http://blog.max2digital.com.br/redes-sociais/40-
estatisticas-de-redes-sociais. Acesso em 31 de out.
de 2017.
MEYER, Maximiliano. Oficina da Net. Quais as
diferenças entre as gerações X, Y e Z e como
administrar os conflitos?. 2014. Disponível em:
https://www.oficinadanet.com.br/post/13498-
quais-as-diferencas-entre-as-geracoes-x-y-e-z-e-
como-administrar-os-conflitos. Acesso em 05 de
nov. de 2017.
10. Projeto de Fim de Curso – Engenharia da Computação, 2017-2
10
MINELLI, Michael; CHAMBERS, Michele; DHIRAJ,
Ambiga. Big Data, big analytics: emerging
business intelligence and analytic trends for
today's businesses. New Jersey: John Wiley &
Sons, Inc., 2013. 187 p
NASCIMENTO, Rodrigo. Marketing por dados.
Afinal, o que é Big Data?. 2017. Disponível em:
http://marketingpordados.com/analise-de-dados/o-
que-e-big-data. Acesso em 31 de out. de 2017.
NODE-RED. Node-RED Flow-based programming
for the Internet of Things. 2013. Disponível em:
https://nodered.org. Acesso em 31 de out. de 2017.
OLIVEIRA, Douglas Tozi; PEREIRA, Otacílio Jose.
Um estudo do Business Intelligence no ambiente
empresarial. Vila Velha, Espírito Santo. 2008.
OLIVEIRA, Filipe. Folha de São Paulo. Brasil tem o 3º
maior crescimento do Twitter em número de
usuários. 2017. Disponível em:
http://www1.folha.uol.com.br/tec/2017/02/186117
5-numero-de-usuarios-do-twitter-no-brasil-cresce-
18-em-2016.shtml. Acesso em 05 de nov. de 2017.
SIGNIFICADOS. Significado de Twitter. 2011.
Disponível em:
https://www.significados.com.br/twitter. Acesso
em 31 de out. de 2017.
SINHA, Sudhi. Making Big Data Work for Your
Business: A guide to effective Big Data analytics.
1. Edition. Birmingham, England, United
Kingdom: Impackt Publishing Ltd. 2014. 170p.
TOMALA-REYES, Angel. IBM. O que é IBM
Bluemix?. 2014. Disponível em:
https://www.ibm.com/developerworks/br/cloud/lib
rary/cl-bluemixfoundry/index.html. Acesso em 31
de out. de 2017.
VIEIRA, Bruno. Bruno Vieira - MSP. Conceito de Data
Warehouse, Data Mart, Data Mining e Text
Mining. 2013. Disponível em:
https://brunosvieira.wordpress.com/2013/04/27/co
nceito-de-data-warehouse-data-mart-data-mining-
e-text-mining. Acesso em 31 de out. de 2017.
WOOLF, Bobby. IBM. Informações Básicas sobre o
Bluemix: 5 vantagens essenciais, do ponto de
vista de um desenvolvedor. 2015. Disponível em:
https://www.ibm.com/developerworks/br/cloud/lib
rary/cl-bluemix-fundamentals-advantages-for-
developers-trs/index.html. Acesso em 10 de nov. de
2017.