SlideShare uma empresa Scribd logo
1 de 10
Baixar para ler offline
Projeto de Fim de Curso – Engenharia da Computação, 2017-2
1
Analisando qual região mais fala sobre política no Twitter:
Utilizando a arquitetura e ferramentas de Big Data
Juan Felipe dos Reis Barbosa1
e Kleber de Oliveira Andrade2
1
Aluno, Engenharia da Computação, juanfrbarbosa@gmail.com,
2
Orientador, UNISAL, kleber.andrade@sj.unisal.br
Resumo – Este projeto foi direcionado a área de Big
Data, compreendendo os passos necessários para
desenvolver uma solução que consiga extrair valor dos
dados do Twitter, utilizando ferramentas de mercado
para analisar as informações. Com a plataforma de
computação em nuvem IBM Bluemix, foram integrados
diversos aplicativos para conectar as três camadas da
arquitetura do Big Data. A primeira é a Fonte de Dados,
onde se encontram todas as informações que podem
gerar valor às empresas. A segunda camada é o
Repositório de Dados, armazenando as informações em
um banco de dados e posteriormente criando o Data
Warehouse. Na terceira camada encontram-se as
aplicações de negócio, modelando visões gráficas e
criando relatórios para tomar decisões baseadas em
análises preditivas e estatísticas. Para a visualização e
consolidação dos dados, foi utilizado o conjunto de
ferramentas de Business Intelligence do Power BI,
mapeando os tweets de milhares de usuários que
falaram sobre política.
Palavras-chave: Bigdata, Ibm, Bluemix, Powerbi,
Twitter.
I. INTRODUÇÃO
Nos últimos anos verificou-se uma expansão do
desenvolvimento tecnológico e um forte crescimento da
internet. As pessoas e organizações estão cada vez mais
usando as redes sociais, o que levou a um grande
aumento de disseminação das informações. Hekima
(2016) afirma que na Era da Informação, o volume de
dados registrado torna-se maior a cada dia.
A internet é o principal repositório dessa
informação. De acordo com Daquino (2012) o
surgimento de redes sociais viabilizou a publicação de
conteúdo por qualquer pessoa. As redes sociais
tornaram-se muito populares graças ao Facebook,
LinkedIn, entre outros. A partir delas surgiram os
microblogs, tais como o Twitter.
Como explicado por Nascimento (2017) atualmente
as pessoas geram muito mais informações com
dispositivos móveis como smartphones, tablets e
também com TVs. Também é correto citar que as redes
sociais geram a cada segundo milhares de informações
e dados, em sua maioria, públicos. Já é possível contar
com veículos, geladeiras e até roupas (wearable devices)
conectados à internet gerando a todo momento
informações que necessitam ser armazenadas e
processadas para gerar valor ao usuário.
Hekima (2017) afirma que a grande maioria desses
dados, por serem públicos, estão à disposição na internet
para profissionais e empresas que queiram armazená-los
e analisá-los para desenvolverem alguma solução que
agregue valor ao negócio e, possivelmente, contribuir
para o aumento da receita da organização.
Ainda de acordo com Hekima (2016), a grande
maioria das ações feitas pelos usuários na internet, de
publicações em redes sociais, pesquisas em sites de
busca, transações financeiras e dados corporativos,
geram dados. Essas informações são valiosas para as
organizações em todo o mundo, se utilizarem os dados
de forma correta.
As empresas podem conhecer e atender melhor a
necessidade de seus clientes, além de compreender
padrões como comportamento de compras, informações
financeiras sobre o mercado, prever o Churn Rate (taxa
de cancelamento) e até a quantidade de clientes que
foram para empresas concorrentes, como explicado por
Big Data Business (2015).
De acordo com Daquino (2012) é notório que as
redes sociais geram um grande volume de informações
a cada segundo, já que os milhares de usuários
compartilham suas ideias, fotos, vídeos, chamadas em
diversos períodos do dia.
De acordo com Marketing Digital (2015) dados
estatísticos mostram que usuários do Facebook gastam
aproximadamente 100 milhões de horas vendo vídeos na
rede social, já o LinkedIn bateu a marca dos 450 milhões
de perfis cadastrados, 81% dos usuários do Twitter
verificam seus perfis pelo menos uma vez ao dia, e 88%
das organizações norte-americanas com mais de cem
colaboradores utilizam o Twitter com foco em
marketing.
A Geração da Internet, também chamada de X, Y,
Z ou Millenials, como afirmado por Meyer (2014) não
consegue mais viver desconectada do mundo digital. Os
Millenials sentem a necessidade constante em dividir
aquilo que estão fazendo em tempo real com os amigos
e seguidores do Facebook, em acessar notícias de
diversos lugares do mundo no Google, ver os
videoclipes lançados à poucos segundos no YouTube,
ouvir novas músicas no Spotify, assistir séries no
Netflix, postar sobre os assuntos mais falados no Twitter
e outra infinidade de eventos.
Segundo a Revista Exame (2016) os jovens
brasileiros da geração Millenials passam em média 4
Projeto de Fim de Curso – Engenharia da Computação, 2017-2
2
horas conectados à internet por dispositivos móveis,
dados mostram que 89% utilizam o aparelho para
chamadas, 87% para navegar na internet, 85% para
acesso a e-mails e 71% para encontrar o que precisam
em mecanismos de buscas.
Dados extraídos do Internet Live Stats (2017), no
dia 15/10/2017, mostram que foram publicados 7.790
tweets em 1 segundo e 465.971 tweets em 1 minuto. Por
isso, o Twitter se mostra uma fonte interessante para
verificar as opiniões dos usuários. Sendo assim, este
trabalho tem como objetivo modelar um processo de
implementação das ferramentas e arquitetura de Big
Data para fazer aquisição de dados do Twitter,
utilizando como um case usuários que enviar tweets
sobre algo relacionado a Política.
A metodologia de pesquisa desenvolvida neste
artigo científico assumiu o caráter exploratório, tendo
em vista que o conceito de Big Data está sendo
aprimorado constantemente.
II. REFERENCIAL TEÓRICO
Neste capítulo foram apresentados todos os
conceitos relacionados ao projeto. Livros, artigos
científicos e sites foram analisados para que esta
pesquisa possa enfatizar as melhores práticas e
ferramentas utilizadas nesta área e qual a melhor
maneira de aplicá-las.
Na internet existem outras soluções parecidas com
a que foi desenvolvida neste projeto, entretanto são
soluções Open Source, desenvolvidas pela comunidade,
como explicado por Marketing de Conteúdo (2015).
Ainda de acordo com Marketing de Conteúdo
(2015) as ferramentas da comunidade web, para
soluções utilizando tweets, são desenvolvidas com
propósitos bem específicos.
Isso torna-se um problema para empresas que não
possuem foco no mercado de tecnologia da informação,
mas desejam utilizar soluções que integram diversos
serviços e ferramentas.
O protótipo deste artigo científico foi criado e
baseado em soluções empresariais, utilizando
ferramentas validadas por empresas que agregam valor
e desenvolvem tecnologias de ponta para o mercado de
tecnologia da informação.
Segundo Woolf (2015) outro ponto a ser destacado
é que utilizando ferramentas empresariais, as
organizações têm um pacote completo de suporte a
produtos, atualizações de versões para correções de
defeitos e segurança com os dados armazenados.
A. Big Data
Como destacado por Minelli (2013) Big Data é
considerado o novo Data Warehousing e nova a análise
de negócios para as organizações, gerenciando milhares
de informações de forma eficiente para aumentar a
receita das empresas.
Ainda de acordo com Minelli (2013) os fenômenos
que mais impulsionaram o Big Data são a inovação e
mudança constante da tecnologia. O momento atual será
diferente do vivido pela população em dois anos e
completamente diferente em uma década.
Hekima (2016) afirma que Big Data é um dos
termos mais abordados atualmente na área da
Tecnologia, contudo ainda gera algumas dúvidas aos
novos profissionais que desejam aprender ou querem
ingressar no mercado de TI, pois cada autor descreve
este conjunto de técnicas com alguns conceitos
diferentes.
Big Data, de acordo com Nascimento (2017) é um
conceito que descreve a enorme quantidade de
informações e dados estruturados, semiestruturados e
não estruturados gerados a cada segundo em todo
mundo.
Para Gartner Inc (2013) Big Data é um conjunto de
ferramentas e recursos de alta velocidade para processar
o alto volume e variedade de informações, exigindo
novas formas econômicas de processamento de dados,
permitindo às empresas tomarem melhores decisões e
otimizar processos.
Segundo Sinha (2014) o Big Data está presente em
todos os lugares, mostrando que os dados podem
beneficiar todas as aplicações desenvolvidas em
diversos segmentos de mercado, utilizando o
conhecimento adquirido com as informações para tomar
decisões mais coerentes. Como pode ser visto na Figura
1, as empresas identificam novas oportunidades para
posteriormente tomar decisões.
Figura 1 – Macroprocesso decisório.
Fonte: Canary (2013) pág. 21.
O termo em português quer dizer “Grandes Dados”,
ou seja, a capacidade de processar e armazenar
quantidades imensas de dados vindos de diversas fontes
a cada segundo. Entretanto, para tratar esse enorme
volume de informações os softwares comuns de banco
de dados podem não ser eficientes. São necessárias
novas soluções no mercado para atender toda essa
demanda.
Projeto de Fim de Curso – Engenharia da Computação, 2017-2
3
Big Data está transformando radicalmente a forma
como as empresas são projetadas e operam. (SINHA,
2014).
Não há como falar em Big Data sem citar os 5V’s,
conhecidos como Volume, Variedade, Velocidade,
Veracidade e Valor dos dados, como publicado por Big
Data Business (2015) e ilustrado na Figura 2.
Segundo Nascimento (2017) o volume está
associado a quantidade imensa de dados gerados a todo
instante. De acordo com Jain (2016) a primeira etapa
para caracterizar o Big Data é que o tamanho dos dados
deve ser “grande” e esse tamanho dimensionado em
volume.
A variedade refere-se aos dados vindos de diversas
fontes, ainda de acordo com Nascimento (2017) quanto
mais informações de fontes diferentes maior será a
complexidade para processar os dados, entretanto a
probabilidade de gerar valor para as organizações
também é maior.
O terceiro V é a velocidade, que segundo Cunha
(2015) a análise dessa enorme quantidade de dados deve
ser feita de maneira muito rápida e eficiente, para que as
informações não se tornem obsoletas para os gestores
das empresas.
Ainda, de acordo com Cunha (2015) a veracidade
diz respeito à consistência das informações, pois as
empresas necessitam de cautela ao tratar os dados, para
que não obtenham resultados falsos e tomem decisões
erradas causando um prejuízo gigantesco.
O último V, chamado de valor, é descrito por
Nascimento (2017) como a geração correta de insights
(tendências) paras as pessoas certas, deixando os
clientes satisfeitos. Desta maneira todo esforço realizado
nas etapas anteriores trará retorno financeiro para as
empresas.
Figura 2 – 5V’s do Big Data.
Fonte: Acervo do autor. Adaptado de Canary(2013) pág. 30.
B. Data Warehouse
Cetax (2016) afirma que Data Warehouse (DW) é
o repositório central de dados de uma organização,
armazenando as informações nos bancos de dados de
forma consolidada, proporcionando a análise de grandes
volumes de dados e obtendo informações estratégicas
para as futuras decisões da empresa.
Ainda, de acordo com Cetax (2016) os data
warehouses são os núcleos de informações gerenciais
dos diversos setores dentro das empresas, devido a sua
grande capacidade sumarizar e analisar dados, dando
suporte as principais ferramentas de Business
Intelligence (BI).
Segundo Fagundes (2011) os data warehouses
foram desenvolvidos para Processamento On-Line
Analítico (OLAP) e não para Processamento
Transacional On-Line (OLTP). Essas soluções OLAP
para pesquisa inteligente de dados são chamadas de data
mining, como demonstrado na Figura 3.
Figura 3 – Arquitetura genérica de um DW.
Fonte: Elias. Canaltech (2014).
Para Elias (2014) o Data Mart possui uma
arquitetura semelhante ao Data Warehouse, contudo é
dividido por assuntos específicos de cada setor dentro
das organizações, facilitando o tratamento desses dados.
A junção de diversos Data Marts compõe o DW.
Vieira (2013) afirma que o Data Mart tem por foco
dividir o ponto central de dados do DW e restringir as
responsabilidades para os setores corretos, ou seja, são
pequenos sistemas de armazenamento que extraem
informações específicas do Data Warehouse, como
ilustrado na Figura 4.
Figura 4 – Representação de um Data Warehouse.
Fonte: Acervo do Autor. Adaptado de Vieira (2013).
C. Business Intelligence
Segundo Machado (2007, apud Fernandes, 2016), a
área de Business Intelligence (BI) permite analisar
diversos Indicadores de Desempenho Corporativo, do
inglês Key Performance Indicators (KPIs), utilizando
um conjunto de soluções para cruzar e mapear
informações empresariais.
Projeto de Fim de Curso – Engenharia da Computação, 2017-2
4
Para Oliveira (2008) o Business Intelligence
sintetiza os dados do Data Mart de maneira simples,
auxiliando as empresas no momento de tomar decisões,
distribuindo as informações para os setores que
utilizarão os dados concretos para agir sobre
determinada circunstância no momento ideal, como
ilustra a Figura 5.
Oliveira (2008) também afirma que o que menos
falta são dados nas empresas, eles vêm de toda parte e a
todo momento. Contudo, muitos desses dados são
redundantes, sem coerência e difíceis de analisar,
tornando a complexidade cada vez maior para gerar
informações úteis e que aumentem a receita da
organização.
Figura 5 – Processo de transformação de dados com a aplicação de
BI.
Fonte: Fernandes (2016).
D. Twitter
De acordo com Significados (2011) Twitter é um
microblogging, ou seja, uma rede social onde o usuário
posta (envia um tweet) sobre algum assunto específico
utilizando no máximo 140 caracteres e o símbolo #,
chamado de cerquilha ou sustenido no mundo musical,
para marcar a hashtag (palavra-chave).
Entretanto, de acordo com Cossetti (2017) o Twitter
anunciou no dia 07 de novembro de 2017 que a partir
desta data os usuários podem enviar tweets utilizando
280 caracteres. Dados da rede social mostraram que
3,5% dos tweets em português e 9% dos tweets em inglês
atingiam o limite de 140 caracteres.
Segundo Canaltech (2017) hashtags servem para
marcar palavras ou tópicos importantes que os demais
usuários utilizam de maneira similar, desta forma a
palavra-chave se torna um link indexável para que as
pessoas possam clicar e ver quais são os outros usuários
que tem falado sobre aquele mesmo assunto, vídeo, foto,
notícia, etc.
A diretora geral do Twitter no Brasil, Fiamma
Zarife, afirmou que o Brasil obteve em 2016 o 3º maior
crescimento em número de usuários no microblog e que
a receita da empresa cresceu cerca de 30% no mesmo
ano, de acordo com Oliveira (2017).
No dia 15/10/2017 foram publicados 461.751.871
Tweets e haviam 309.634.838 usuários ativos no
Twitter, de acordo com os dados do Internet Live Stats
(2017). Isto prova que o Twitter é uma das redes sociais
mais utilizadas do mundo.
Dados apresentados por Max2 Marketing Digital
(2015), mostraram que o perfil da cantora Katy Perry
possuía cerca de 94,65 milhões de seguidores em 2015.
Atualmente a cantora possui 106 milhões de seguidores
e continua sendo o maior perfil do Twitter.
E. IBM Bluemix
De acordo com Tomala-Reyes (2014) IBM Bluemix é
uma plataforma em nuvem que permite aos usuários,
empresas e desenvolvedores criar, implementar e
gerenciar aplicativos de forma simples. A plataforma foi
baseada em Cloud Foundry (Fusão em Nuvem) que é
outra plataforma da IBM oferecida como um serviço
para seus clientes (PaaS - Platform as a Service) de
código aberto.
Ainda, segundo Tomala-Reyes (2014) Bluemix pode
ser integrado facilmente a centenas de aplicativos em
nuvem, sem a necessidade de conhecer os
procedimentos sequenciais para instalar ou configurar
novas soluções, otimizando tempo e recursos nas
empresas.
F. Node-RED
Node-RED é uma solução de programação que
fornece um editor no browser (navegador) baseado em
fluxo, ou seja, o desenvolvedor programa utilizando o
conceito de nó e fluxo, implementando as modificações
em tempo de execução da aplicação e integrando
facilmente APIs, serviços online e hardwares (NODE-
RED, 2013).
É possível desenvolver funções em JavaScript
utilizando o editor de texto, utilizar a biblioteca
integrada para salvar funções, nós e fluxos criados pelo
usuário, para reutilização com novas soluções.
Ainda, de acordo com Node-RED (2013) a solução
foi desenvolvida em Node.js, o que torna as aplicações
muito leves, otimizadas, utilizando o modelo não
bloqueado por eventos.
O Node-RED (2013) é ideal para integração com
IoT (Internet of Things), soluções em Cloud e hardware
de baixo custo, pois possui mais de 225.000 módulos no
pacote de nós, permitindo uma vasta gama de
implementações em aplicações pequenas ou
empresariais. As informações dos fluxos são salvas no
formato JSON, o que torna a transferência de dados entre
ferramentas de maneira mais leve e otimizada.
Projeto de Fim de Curso – Engenharia da Computação, 2017-2
5
III. MATERIAIS E MÉTODOS
Para extração dos dados diretamente do Twitter e
para determinar pontos importantes para geração de
análise, foram feitas diversas configurações na
plataforma IBM Bluemix, desenvolvimentos no Node-
RED e geração de relatórios no conjunto de ferramentas
Microsoft Power BI utilizando assim a metodologia não
experimental.
A finalidade deste projeto foi a criação de um
protótipo de Big Data, gerando tendências (insights)
com a utilização de ferramentas de mercado para análise
e processamento de uma enorme massa de dados. Este
projeto possui caráter qualitativo e aplicado, visto que
centenas de empresas parceiras da IBM e Microsoft,
utilizam soluções semelhantes.
A. Desenvolvimento Do Projeto
As etapas desenvolvidas neste projeto foram
seguidas sequencialmente como os demais projetos de
Big Data, conforme ilustrado na Figura 6.
Posteriormente todas as etapas serão explicadas de
maneira detalhada.
Figura 6 – Arquitetura do Big Data, etapas sequenciais.
Fonte: Acervo do Autor. Adaptado de Sinha(2014) pág. 55.
B. Configuração Da Plataforma Bluemix
Para iniciar o projeto com a plataforma IBM
Bluemix foi necessário criar uma conta free por 30 dias,
para que o usuário “tccbigdataunisal” pudesse
desenvolver e criar soluções com centenas de
ferramentas disponibilizadas no catálogo da IBM,
contudo por se tratar de uma conta grátis, nem todos os
recursos são disponíveis.
Caso o desenvolvedor ou a empresa deseje utilizar
ferramentas com maior poder de processamento,
armazenamento e análise de dados, o mesmo deve
inserir os dados do cartão de crédito, para que novos
recursos sejam liberados.
Após a criação da conta, foi concluído o registro
acessando o e-mail cadastrado e clicando no link
enviado pela IBM, possibilitando o novo acesso a
plataforma.
Já na plataforma, o passo seguinte foi configurar o
primeiro aplicativo para aquisição de dados. O Node-
RED foi selecionado através do Catálogo de Aplicações
do IBM Bluemix, como mostrado na Figura 7.
Com a aplicação selecionada foram realizadas as
configurações no aplicativo preenchendo o nome do
app, nome do host (hospedeiro), domínio, país de
implementação, organização que usou a ferramenta,
plano selecionado para conexão com o banco de dados
Cloudant NoSQL versão lite (básica, simples).
Figura 7 – Buscando o Node-RED no Catálogo da plataforma.
Fonte: Acervo do Autor.
Como demonstrado na Figura 8, o novo aplicativo
do Node-RED foi apresentado no Painel do IBM
Bluemix, permitindo o acesso para o desenvolvimento
que foi realizado e disponibilizando a conexão com
outras ferramentas.
Figura 8 – Aplicativo Node-RED criado e exibido no Painel.
Fonte: Acervo do Autor.
Dentro do Node-RED foi criado um novo fluxo
“TCC BIG DATA UNISAL” para inserir os nós, em
seguida foram selecionados os nós no editor do
navegador para a construção da solução.
O primeiro nó foi o que conecta o Node-RED a API
(Interface de Programação de Aplicações) do Twitter
para fazer aquisição dos tweets em tempo real.
O segundo nó conectou a API do Twitter com o
banco de dados Cloudant NoSQL, para armazenar os
dados no formato JSON na base de dados
“cloudantdbtccbigdata”.
Já o terceiro nó foi para integrar o Cloudant NoSQL
com a IBM dashDB, que é a solução de Data Warehouse
e Analytics da IBM, contendo o repositório central de
dados. Junto ao IBM dashDB foi integrada
Projeto de Fim de Curso – Engenharia da Computação, 2017-2
6
automaticamente a conexão com o IBM Db2 on Cloud
que é o banco de dados transacional otimizado para
nuvem.
O quarto e último nó, foi conectado ao nó do Twitter
para exibir em tempo real, no navegador, os tweets feitos
pelos usuários com alguma palavra envolvendo política,
conforme mostrado na Figura 9 e 10.
Figura 9 – Nós e fluxo para aquisição dos tweets.
Fonte: Acervo do autor.
Figura 10 – Tweets exibidos no navegador no momento da aquisição.
Fonte: Acervo do autor.
No momento em que os tweets foram exibidos no
Node-RED, em paralelo foi escrito/preenchido linha a
linha da tabela no banco de dados Cloudant NoSQL,
armazenando todas informações do arquivo JSON,
como pode ser visto na Figura 11.
Em menos de uma hora, no dia 21 de outubro de
2017, de extração dos tweets para construção da base de
dados deste projeto, foram armazenadas 22.912 linhas
na tabela, o que resultou no tamanho da mesma em 61,7
MB.
O formato do arquivo JSON extraído da API do
Twitter possui 276 colunas, dentre elas as principais
para este projeto foram a de localização, ID (número
único que identifica o usuário), latitude e longitude,
tweet e Twitter do usuário. Formato do arquivo exibido
na Figura 12.
Figura 11 – Preenchendo as linhas da base de dados.
Fonte: Acervo do autor.
Contudo, nem todas as colunas são preenchidas,
pois a API válida se o usuário está enviando tweets pela
primeira vez ou enviando retweets da postagem de outra
pessoa.
Figura 12 – Formato JSON armazenado no Cloudant NoSQL.
Fonte: Acervo do autor.
A conexão feita com os nós do Node-RED permitiu
que Data Warehouse no IBM Db2 on Cloud fosse criado
com diversas tabelas e visões, dentro do Schema
(Coleção de objetos na base de dados) “DASH13981”.
Dentro desta coleção foram criadas dezenas de
tabelas relacionadas a tabela principal
“CLOUDANTDBTCCBIGDATA”, para que seja
possível analisar os dados limpos, até mesmo erros
durante a extração e armazenamento dos dados.
Para a visualização dos dados e criação dos
relatórios, foi extraído o arquivo no formato CSV
(Valores Separados por Vírgula) do IBM Db2 on Cloud.
Os relatórios e dashboards foram construídos no
conjunto de ferramentas de Business Intelligence da
Microsoft, chamado de Microsoft Power BI. A solução
permite conectar a diversos Data Warehouses ou Data
Marts, também permite visualizar as alterações feitas
nos relatórios em tempo de execução.
Projeto de Fim de Curso – Engenharia da Computação, 2017-2
7
Por ser um conjunto de ferramentas utilizadas em
milhares de empresas, a plataforma tem integração com
aplicação Desktop, Servidor, Mobile e em Nuvem.
Contudo, neste projeto foi utilizado somente a solução
Desktop, como ilustrado na Figura 13.
Figura 13 – Carga de todos os dados no Microsoft Power BI.
Fonte: Acervo do autor.
IV. RESULTADOS E DISCUSSÕES
Os conceitos de Big Data com a utilização de
diversas ferramentas de mercado explicadas neste
Artigo Científico proporcionaram diversos dados de
grande importância.
No início do projeto os tweets dos usuários não
faziam muito sentido se analisados individualmente e
sem as ferramentas ideias para isso. Contudo, ao longo
do desenvolvimento da solução foi possível criar
relatórios importantíssimos.
Em mais de 22 mil tweets feitos por usuários em
menos de 1 hora, somente 261 foram feitos por usuários
brasileiros, o que representou apenas 1,15% do valor
total.
Poucos fatos relacionados à política brasileira
foram noticiados no dia 21/10/2017, o mais relevante foi
a afirmação do ministro da defesa Raul Jungmann. O
ministro disse que não existe qualquer possibilidade de
intervenção militar no Brasil, segundo notícia do site
Correio Braziliense (2017).
Em relação aos estados do Brasil, o que mais
publicou sobre Política foi o estado de São Paulo, com
31 tweets em menos de 1 hora, representando cerca de
11,88% do total dos brasileiros, como ilustrado na
Figura 14. São Paulo é o estado mais populoso do país,
possuindo mais de 45 milhões de habitantes.
Figura 14 – Total de tweets sobre Política no Estado de São Paulo.
Fonte: Acervo do autor.
Outra informação importante que pode ser extraída
foi relacionada ao cenário político espanhol,
especificamente na comunidade da Catalunha, que na
manhã do dia 21 de outubro de 2017 recebeu uma
intervenção da Espanha.
O primeiro ministro da Espanha Mariano Rajoy
anunciou que pretendia afastar os representantes do
governo da Catalunha e nomear novos governantes, para
controlar e impedir o movimento separatista dessa
região.
A ação de Mariano causou grande revolta na
população local, levando milhares de pessoas às ruas.
No Twitter os catalães também se manifestaram, com
1251 tweets em menos de 1 hora, representando 5,45%
do tweets extraídos, como demonstrado na Figura 15.
Figura 15 – Total de tweets sobre Política na Catalunha.
Fonte: Acervo do autor.
O tweet que mais foi compartilhado (retweet) foi o
do perfil de Albert Rivera deputado da Espanha e ex-
deputado do Parlamento da Catalunha, com 562
compartilhamentos em menos de 1 hora. Como pode ser
visto na Figura 16, a postagem fez menção ao cenário
político vivido pelo povo catalão e a intervenção política
do governo espanhol na Catalunha.
Projeto de Fim de Curso – Engenharia da Computação, 2017-2
8
Figura 16 – Tweet do Deputado Albert Rivera sobre a Catalunha.
Fonte: Acervo do autor. Adaptado de Twitter (2017).
Outra analise realizada com os resultados foi em
relação aos idiomas dos tweets enviados. Os idiomas
com menos tweets foram o tcheco (cs) e o sueco (sv),
com 37 e 38 postagens respectivamente, representando
cerca de 0,17% do valor total.
O idioma que mais teve tweets, representando mais
de 72%, foi o espanhol (es) com 16043 postagens pelos
usuários, como pode ser visto na Figura 17. Durante a
análise, as ferramentas não conseguiram identificar
(und) o idioma de 3853 tweets, o que representou
aproximadamente 17,47% da base de dados.
Figura 17 – Idiomas dos tweets enviados.
Fonte: Acervo do autor.
V. CONCLUSÕES
Este artigo científico apresentou diversas
ferramentas e conceitos utilizados na tecnologia de Big
Data, comprovando o quanto é importante para as
empresas analisar essa imensa massa de dados, que por
muitas décadas, foi deixada de lado por falta de
conhecimento ou tecnologias mais avançadas.
Também foi possível observar que redes sociais
geram um enorme volume de informações a cada
segundo e para tratar tudo isso, são necessárias
ferramentas específicas para Big Data e um time
engajado para agregar valor às organizações.
Este conjunto de ferramentas e técnicas ajudou a
compreender as diversas possibilidades que os
Engenheiros e Cientistas de Dados tem para analisar
informações de redes sociais.
Pensando no ambiente empresarial, é válido e
importante que as organizações tenham analistas de
dados focados em analisar informações da internet,
principalmente de redes sociais como Twitter, Facebok,
Instagram, para que seja possível compreender qual é a
imagem que a empresa está passando para seus clientes
e parceiros de negócio.
Dados são valiosos para equipes de Marketing e
Tecnologia da Informação, juntas essas duas áreas
podem criar soluções para atrair novos clientes, manter
os clientes ativos satisfeitos com os produtos que já
possuem, iniciar parcerias com novos fornecedores e
sugerir melhorias para os gestores de cada setor.
AGRADECIMENTOS
Agradeço a Deus por ter permitido que eu chegasse
até aqui, ao meu pai Claudemir Pires Barbosa, minha
mãe Giovana dos Reis Barbosa e minha avó Maria Lucia
dos Reis por todo investimento feito nos meus estudos e
tempo gasto para que pudessem me auxiliar de todas as
maneiras possíveis, ao meu orientador do trabalho de
conclusão de curso Profº Dr. Kleber de Oliveira
Andrade, ao Especialista em BI Profº Me. Edinelson
Aparecido Batista, ao Coordenador do Curso Profº Me.
Sérgio Yoshioka, a Pesquisadora e Consultora de Big
Data Dra. Rosangela de Fatima Pereira Marquesone, aos
Eng. da Computação Rodrigo Ferreira Fiori e Heitor
Rezende de Souza, a todos os meus professores da
graduação pelo conhecimento dividido e ao
UNISAL/São José.
REFERÊNCIAS
BIG DATA BUSINESS. Big Data no aumento dos
negócios (e diminuição do Churn). 2015.
Disponível em:
http://www.bigdatabusiness.com.br/big-data-no-
aumento-dos-negocios-e-diminuicao-do-churn.
Acesso em 05 de nov. de 2017
CANALTECH. O que é hashtag?. 2017. Disponível
em: https://canaltech.com.br/produtos/O-que-e-
hashtag. Acesso em 31 de out. de 2017.
CANARY, Vivian Passos. A tomada de decisão no
contexto do Big Data: Estudo de caso único.
Porto Alegre. 2013.
CETAX. O que é Data Warehouse?. 2016. Disponível
Projeto de Fim de Curso – Engenharia da Computação, 2017-2
9
em: https://www.cetax.com.br/blog/o-que-e-data-
warehouse. Acesso em 31 de out. de 2017.
CORREIO BRAZILIENSE. Não existe possibilidade
de intervenção militar, afirma ministro da
Defesa. 2017. Disponível em:
http://www.correiobraziliense.com.br/app/noticia/
politica/2017/10/21/internas_polbraeco,635315/na
o-existe-possibilidade-de-intervencao-militar-
afirma-ministro-da-de.shtml. Acesso em 05 de nov.
de 2017.
COSSETTI, Melissa Cruz. TechTudo. Twitter
aumenta oficialmente o limite de 140 caracteres
para 280. 2017. Disponível em:
https://www.techtudo.com.br/noticias/2017/11/twit
ter-aumenta-oficialmente-o-limite-de-140-
caracteres-para-280.ghtml. Acesso em 07 de nov.
de 2017.
CUNHA, Clayton. Implantando Marketing. Big Data
para as empresas em 5 V’s. 2015. Disponível em:
http://www.implantandomarketing.com/big-data-
para-as-empresas-em-5-vs. Acesso em 31 de out. de
2017.
DAQUINO, Fernando. TecMundo. A história das
redes sociais: como tudo começou. 2012.
Disponível em:
https://www.tecmundo.com.br/redes-
sociais/33036-a-historia-das-redes-sociais-como-
tudo-comecou.htm. Acesso em 05 de nov. de 2017.
EL PAÍS. Lluis Llach llama “cerdos” a los líderes de
la Unión Europea. 2017. Disponível em:
https://politica.elpais.com/politica/2017/10/21/actu
alidad/1508578922_149586.amp.html. Acesso em
10 de nov. de 2017.
ELIAS, Diego. Canaltech. Conhecendo a arquitetura
de Data Warehouse. 2014. Disponível em:
https://canaltech.com.br/business-
intelligence/conhecendo-a-arquitetura-de-data-
warehouse-19266. Acesso em 31 de out. de 2017.
EXAME. Brasileiro usa celular por mais de três
horas por dia. 2016. Disponível em:
https://exame.abril.com.br/tecnologia/brasileiro-
usa-celular-por-mais-de-tres-horas-por-dia. Acesso
em 31 de out. de 2017.
FAGUNDES, Eduardo. EFagundes. O que é um Data
Warehouse?. 2011. Disponível em:
http://efagundes.com/artigos/o-que-e-um-data-
warehouse. Acesso em 05 de nov. de 2017.
FERNANDES, Vanessa. Implementação de Data
Warehouse para área de saúde. Campinas, São
Paulo. 2016.
GARTNER. Big Data. 2013. Disponível em:
https://www.gartner.com/it-glossary/big-data.
Acesso em 31 de out. de 2017.
HEKIMA. Big Data Business. Big Data: tudo que
você sempre quis saber sobre o tema!. 2016.
Disponível em:
http://www.bigdatabusiness.com.br/tudo-sobre-
big-data. Acesso em 31 de out. de 2017.
HEKIMA. Big Data Business. Dados abertos:
democratizando a informação com Big Data.
2017. Disponível em:
http://www.bigdatabusiness.com.br/dados-abertos.
Acesso em 05 de nov. de 2017.
IBM. IBM Bluemix. 2017. Disponível em:
https://www.ibm.com/br-pt/marketplace/cloud-
platform#product-header-top. Acesso em 31 de out.
de 2017.
INTERNET LIVE STATS. 1 second. 2017. Disponível
em: http://www.internetlivestats.com/one-second.
Acesso em 15 de out. de 2017.
JAIN, Anil. IBM Healthcare Data Analytics. The 5 Vs
of Big Data. 2016. Disponível em:
https://www.ibm.com/blogs/watson-health/the-5-
vs-of-big-data. Acesso em 31 de out. de 2017.
MACHADO, F. N. R. Tecnologia e projeto em Data
Warehouse. São Paulo: Editora Érica, 2007.
MARKETING DE CONTEÚDO. 10 ferramentas
incríveis de monitoramento do Twitter. 2015.
Disponível em:
https://marketingdeconteudo.com/10-ferramentas-
incriveis-de-monitoramento-do-twitter. Acesso em
10 de nov. de 2017.
MAX2 MARKETING DIGITAL. 40 estatísticas de
redes sociais para arrasar em 2017. 2015.
Disponível em:
http://blog.max2digital.com.br/redes-sociais/40-
estatisticas-de-redes-sociais. Acesso em 31 de out.
de 2017.
MEYER, Maximiliano. Oficina da Net. Quais as
diferenças entre as gerações X, Y e Z e como
administrar os conflitos?. 2014. Disponível em:
https://www.oficinadanet.com.br/post/13498-
quais-as-diferencas-entre-as-geracoes-x-y-e-z-e-
como-administrar-os-conflitos. Acesso em 05 de
nov. de 2017.
Projeto de Fim de Curso – Engenharia da Computação, 2017-2
10
MINELLI, Michael; CHAMBERS, Michele; DHIRAJ,
Ambiga. Big Data, big analytics: emerging
business intelligence and analytic trends for
today's businesses. New Jersey: John Wiley &
Sons, Inc., 2013. 187 p
NASCIMENTO, Rodrigo. Marketing por dados.
Afinal, o que é Big Data?. 2017. Disponível em:
http://marketingpordados.com/analise-de-dados/o-
que-e-big-data. Acesso em 31 de out. de 2017.
NODE-RED. Node-RED Flow-based programming
for the Internet of Things. 2013. Disponível em:
https://nodered.org. Acesso em 31 de out. de 2017.
OLIVEIRA, Douglas Tozi; PEREIRA, Otacílio Jose.
Um estudo do Business Intelligence no ambiente
empresarial. Vila Velha, Espírito Santo. 2008.
OLIVEIRA, Filipe. Folha de São Paulo. Brasil tem o 3º
maior crescimento do Twitter em número de
usuários. 2017. Disponível em:
http://www1.folha.uol.com.br/tec/2017/02/186117
5-numero-de-usuarios-do-twitter-no-brasil-cresce-
18-em-2016.shtml. Acesso em 05 de nov. de 2017.
SIGNIFICADOS. Significado de Twitter. 2011.
Disponível em:
https://www.significados.com.br/twitter. Acesso
em 31 de out. de 2017.
SINHA, Sudhi. Making Big Data Work for Your
Business: A guide to effective Big Data analytics.
1. Edition. Birmingham, England, United
Kingdom: Impackt Publishing Ltd. 2014. 170p.
TOMALA-REYES, Angel. IBM. O que é IBM
Bluemix?. 2014. Disponível em:
https://www.ibm.com/developerworks/br/cloud/lib
rary/cl-bluemixfoundry/index.html. Acesso em 31
de out. de 2017.
VIEIRA, Bruno. Bruno Vieira - MSP. Conceito de Data
Warehouse, Data Mart, Data Mining e Text
Mining. 2013. Disponível em:
https://brunosvieira.wordpress.com/2013/04/27/co
nceito-de-data-warehouse-data-mart-data-mining-
e-text-mining. Acesso em 31 de out. de 2017.
WOOLF, Bobby. IBM. Informações Básicas sobre o
Bluemix: 5 vantagens essenciais, do ponto de
vista de um desenvolvedor. 2015. Disponível em:
https://www.ibm.com/developerworks/br/cloud/lib
rary/cl-bluemix-fundamentals-advantages-for-
developers-trs/index.html. Acesso em 10 de nov. de
2017.

Mais conteúdo relacionado

Mais procurados

Era da Informação e seus impactos na empresa e sociedade
Era da Informação e seus impactos na empresa e sociedadeEra da Informação e seus impactos na empresa e sociedade
Era da Informação e seus impactos na empresa e sociedadeAlex Silva
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RNMarcos Luiz Lins Filho
 
Desmistificando o Big Data
Desmistificando o Big DataDesmistificando o Big Data
Desmistificando o Big DataZipCode
 
Inteligência Artificial, Internet das Coisas e Inovação.
Inteligência Artificial,  Internet das Coisas e Inovação. Inteligência Artificial,  Internet das Coisas e Inovação.
Inteligência Artificial, Internet das Coisas e Inovação. Fernando Novais da Silva
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Lucas Modesto
 
Tendências de mercado para tic’s o fenômeno chamado big data
Tendências de mercado para tic’s   o fenômeno chamado big dataTendências de mercado para tic’s   o fenômeno chamado big data
Tendências de mercado para tic’s o fenômeno chamado big datacictec
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
A Nova Economia Digital - o que a internet fez com nossos mercados
A Nova Economia Digital - o que a internet fez com nossos mercadosA Nova Economia Digital - o que a internet fez com nossos mercados
A Nova Economia Digital - o que a internet fez com nossos mercadosSIDNEY LONGO
 
Tendências de transformação digital - Cartilha SEBRAE
Tendências de transformação digital - Cartilha SEBRAETendências de transformação digital - Cartilha SEBRAE
Tendências de transformação digital - Cartilha SEBRAEPaulo Ratinecas
 
LIFEdata - Investors Deck - Português
LIFEdata - Investors Deck - PortuguêsLIFEdata - Investors Deck - Português
LIFEdata - Investors Deck - PortuguêsMarcelo Villas Bôas
 
O que são Dados Abertos - Open Data Day Maceió 2018
O que são Dados Abertos - Open Data Day Maceió 2018O que são Dados Abertos - Open Data Day Maceió 2018
O que são Dados Abertos - Open Data Day Maceió 2018Thiago Avila, Msc
 
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud ComputingUm novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud ComputingJosé Carlos Cavalcanti
 
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 131º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13cictec
 
Educação em Dados Hands On e Democrática
Educação em Dados Hands On e DemocráticaEducação em Dados Hands On e Democrática
Educação em Dados Hands On e DemocráticaFernanda Bornhausen Sá
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informaçãoFabiana Andrade Pereira
 
Internet Das Coisas Trabalho Acadêmico
Internet Das Coisas Trabalho AcadêmicoInternet Das Coisas Trabalho Acadêmico
Internet Das Coisas Trabalho AcadêmicoFernando Palma
 

Mais procurados (20)

Era da Informação e seus impactos na empresa e sociedade
Era da Informação e seus impactos na empresa e sociedadeEra da Informação e seus impactos na empresa e sociedade
Era da Informação e seus impactos na empresa e sociedade
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
 
Desmistificando o Big Data
Desmistificando o Big DataDesmistificando o Big Data
Desmistificando o Big Data
 
Inteligência Artificial, Internet das Coisas e Inovação.
Inteligência Artificial,  Internet das Coisas e Inovação. Inteligência Artificial,  Internet das Coisas e Inovação.
Inteligência Artificial, Internet das Coisas e Inovação.
 
Big Data
Big DataBig Data
Big Data
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.
 
Tendências de mercado para tic’s o fenômeno chamado big data
Tendências de mercado para tic’s   o fenômeno chamado big dataTendências de mercado para tic’s   o fenômeno chamado big data
Tendências de mercado para tic’s o fenômeno chamado big data
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
A Nova Economia Digital - o que a internet fez com nossos mercados
A Nova Economia Digital - o que a internet fez com nossos mercadosA Nova Economia Digital - o que a internet fez com nossos mercados
A Nova Economia Digital - o que a internet fez com nossos mercados
 
Tendências de transformação digital - Cartilha SEBRAE
Tendências de transformação digital - Cartilha SEBRAETendências de transformação digital - Cartilha SEBRAE
Tendências de transformação digital - Cartilha SEBRAE
 
LIFEdata - Investors Deck - Português
LIFEdata - Investors Deck - PortuguêsLIFEdata - Investors Deck - Português
LIFEdata - Investors Deck - Português
 
O que são Dados Abertos - Open Data Day Maceió 2018
O que são Dados Abertos - Open Data Day Maceió 2018O que são Dados Abertos - Open Data Day Maceió 2018
O que são Dados Abertos - Open Data Day Maceió 2018
 
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud ComputingUm novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
 
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 131º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
 
Educação em Dados Hands On e Democrática
Educação em Dados Hands On e DemocráticaEducação em Dados Hands On e Democrática
Educação em Dados Hands On e Democrática
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informação
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
Apresentação1
Apresentação1Apresentação1
Apresentação1
 
Internet Das Coisas Trabalho Acadêmico
Internet Das Coisas Trabalho AcadêmicoInternet Das Coisas Trabalho Acadêmico
Internet Das Coisas Trabalho Acadêmico
 

Semelhante a Análise de tweets sobre política no Twitter utilizando Big Data

Big Data- 25/07/2017 - TI IASP
Big Data- 25/07/2017 - TI IASPBig Data- 25/07/2017 - TI IASP
Big Data- 25/07/2017 - TI IASPrcdbarros
 
Mma playbook-bigdata 2018-pt
Mma playbook-bigdata 2018-ptMma playbook-bigdata 2018-pt
Mma playbook-bigdata 2018-ptHandsMobile
 
Tendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big dataTendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big datacictec
 
BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015rcdbarros
 
BigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfBigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfssuserbd3b69
 
Social Big Data
Social Big DataSocial Big Data
Social Big DataE.LIFE
 
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...Nalu Miranda
 
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...Nalu Miranda
 
The big data theory sap spectrum
The big data theory   sap spectrumThe big data theory   sap spectrum
The big data theory sap spectrumFernando Corbi
 
A20 paper - perfil business intelligence - big data e fast data
A20   paper - perfil business intelligence - big data e fast dataA20   paper - perfil business intelligence - big data e fast data
A20 paper - perfil business intelligence - big data e fast dataBIBrasil
 
A20 paper - perfil business intelligence - big data e fast data
A20   paper - perfil business intelligence - big data e fast dataA20   paper - perfil business intelligence - big data e fast data
A20 paper - perfil business intelligence - big data e fast dataMarcelo Krug
 
A importância das APIs públicas e Big Data no universo da comunicação (Jornal...
A importância das APIs públicas e Big Data no universo da comunicação (Jornal...A importância das APIs públicas e Big Data no universo da comunicação (Jornal...
A importância das APIs públicas e Big Data no universo da comunicação (Jornal...Rafael Sbarai
 
Novo Perfil do profissional de TI frente as redes sociais
Novo Perfil do profissional de TI frente as redes sociaisNovo Perfil do profissional de TI frente as redes sociais
Novo Perfil do profissional de TI frente as redes sociaisSergio Crespo
 
Dados e seu Universo de Informações.pptx
Dados e seu Universo de Informações.pptxDados e seu Universo de Informações.pptx
Dados e seu Universo de Informações.pptxstanleyligero1
 
[CESAR REPORTS] Industrial Internet of Things: A Revolução da Indústria 4.0
[CESAR REPORTS] Industrial Internet of Things: A Revolução da Indústria 4.0[CESAR REPORTS] Industrial Internet of Things: A Revolução da Indústria 4.0
[CESAR REPORTS] Industrial Internet of Things: A Revolução da Indústria 4.0CESAR
 
As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015Tableau Software
 
Texto - 3º cictec - Big Data.docx
Texto -  3º cictec - Big Data.docxTexto -  3º cictec - Big Data.docx
Texto - 3º cictec - Big Data.docxcictec
 

Semelhante a Análise de tweets sobre política no Twitter utilizando Big Data (20)

Big Data- 25/07/2017 - TI IASP
Big Data- 25/07/2017 - TI IASPBig Data- 25/07/2017 - TI IASP
Big Data- 25/07/2017 - TI IASP
 
Artigo big data_final
Artigo big data_finalArtigo big data_final
Artigo big data_final
 
Mma playbook-bigdata 2018-pt
Mma playbook-bigdata 2018-ptMma playbook-bigdata 2018-pt
Mma playbook-bigdata 2018-pt
 
Tendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big dataTendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big data
 
BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015
 
BigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfBigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdf
 
Social Big Data
Social Big DataSocial Big Data
Social Big Data
 
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...
 
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...
Rotta guedes ansanelli_gordeeff_chiari_madeira_toledo_2012_redes-sociais-virt...
 
The big data theory sap spectrum
The big data theory   sap spectrumThe big data theory   sap spectrum
The big data theory sap spectrum
 
A20 paper - perfil business intelligence - big data e fast data
A20   paper - perfil business intelligence - big data e fast dataA20   paper - perfil business intelligence - big data e fast data
A20 paper - perfil business intelligence - big data e fast data
 
A20 paper - perfil business intelligence - big data e fast data
A20   paper - perfil business intelligence - big data e fast dataA20   paper - perfil business intelligence - big data e fast data
A20 paper - perfil business intelligence - big data e fast data
 
A importância das APIs públicas e Big Data no universo da comunicação (Jornal...
A importância das APIs públicas e Big Data no universo da comunicação (Jornal...A importância das APIs públicas e Big Data no universo da comunicação (Jornal...
A importância das APIs públicas e Big Data no universo da comunicação (Jornal...
 
Media Analytics
Media AnalyticsMedia Analytics
Media Analytics
 
Novo Perfil do profissional de TI frente as redes sociais
Novo Perfil do profissional de TI frente as redes sociaisNovo Perfil do profissional de TI frente as redes sociais
Novo Perfil do profissional de TI frente as redes sociais
 
Dados e seu Universo de Informações.pptx
Dados e seu Universo de Informações.pptxDados e seu Universo de Informações.pptx
Dados e seu Universo de Informações.pptx
 
Big Data
Big DataBig Data
Big Data
 
[CESAR REPORTS] Industrial Internet of Things: A Revolução da Indústria 4.0
[CESAR REPORTS] Industrial Internet of Things: A Revolução da Indústria 4.0[CESAR REPORTS] Industrial Internet of Things: A Revolução da Indústria 4.0
[CESAR REPORTS] Industrial Internet of Things: A Revolução da Indústria 4.0
 
As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015
 
Texto - 3º cictec - Big Data.docx
Texto -  3º cictec - Big Data.docxTexto -  3º cictec - Big Data.docx
Texto - 3º cictec - Big Data.docx
 

Análise de tweets sobre política no Twitter utilizando Big Data

  • 1. Projeto de Fim de Curso – Engenharia da Computação, 2017-2 1 Analisando qual região mais fala sobre política no Twitter: Utilizando a arquitetura e ferramentas de Big Data Juan Felipe dos Reis Barbosa1 e Kleber de Oliveira Andrade2 1 Aluno, Engenharia da Computação, juanfrbarbosa@gmail.com, 2 Orientador, UNISAL, kleber.andrade@sj.unisal.br Resumo – Este projeto foi direcionado a área de Big Data, compreendendo os passos necessários para desenvolver uma solução que consiga extrair valor dos dados do Twitter, utilizando ferramentas de mercado para analisar as informações. Com a plataforma de computação em nuvem IBM Bluemix, foram integrados diversos aplicativos para conectar as três camadas da arquitetura do Big Data. A primeira é a Fonte de Dados, onde se encontram todas as informações que podem gerar valor às empresas. A segunda camada é o Repositório de Dados, armazenando as informações em um banco de dados e posteriormente criando o Data Warehouse. Na terceira camada encontram-se as aplicações de negócio, modelando visões gráficas e criando relatórios para tomar decisões baseadas em análises preditivas e estatísticas. Para a visualização e consolidação dos dados, foi utilizado o conjunto de ferramentas de Business Intelligence do Power BI, mapeando os tweets de milhares de usuários que falaram sobre política. Palavras-chave: Bigdata, Ibm, Bluemix, Powerbi, Twitter. I. INTRODUÇÃO Nos últimos anos verificou-se uma expansão do desenvolvimento tecnológico e um forte crescimento da internet. As pessoas e organizações estão cada vez mais usando as redes sociais, o que levou a um grande aumento de disseminação das informações. Hekima (2016) afirma que na Era da Informação, o volume de dados registrado torna-se maior a cada dia. A internet é o principal repositório dessa informação. De acordo com Daquino (2012) o surgimento de redes sociais viabilizou a publicação de conteúdo por qualquer pessoa. As redes sociais tornaram-se muito populares graças ao Facebook, LinkedIn, entre outros. A partir delas surgiram os microblogs, tais como o Twitter. Como explicado por Nascimento (2017) atualmente as pessoas geram muito mais informações com dispositivos móveis como smartphones, tablets e também com TVs. Também é correto citar que as redes sociais geram a cada segundo milhares de informações e dados, em sua maioria, públicos. Já é possível contar com veículos, geladeiras e até roupas (wearable devices) conectados à internet gerando a todo momento informações que necessitam ser armazenadas e processadas para gerar valor ao usuário. Hekima (2017) afirma que a grande maioria desses dados, por serem públicos, estão à disposição na internet para profissionais e empresas que queiram armazená-los e analisá-los para desenvolverem alguma solução que agregue valor ao negócio e, possivelmente, contribuir para o aumento da receita da organização. Ainda de acordo com Hekima (2016), a grande maioria das ações feitas pelos usuários na internet, de publicações em redes sociais, pesquisas em sites de busca, transações financeiras e dados corporativos, geram dados. Essas informações são valiosas para as organizações em todo o mundo, se utilizarem os dados de forma correta. As empresas podem conhecer e atender melhor a necessidade de seus clientes, além de compreender padrões como comportamento de compras, informações financeiras sobre o mercado, prever o Churn Rate (taxa de cancelamento) e até a quantidade de clientes que foram para empresas concorrentes, como explicado por Big Data Business (2015). De acordo com Daquino (2012) é notório que as redes sociais geram um grande volume de informações a cada segundo, já que os milhares de usuários compartilham suas ideias, fotos, vídeos, chamadas em diversos períodos do dia. De acordo com Marketing Digital (2015) dados estatísticos mostram que usuários do Facebook gastam aproximadamente 100 milhões de horas vendo vídeos na rede social, já o LinkedIn bateu a marca dos 450 milhões de perfis cadastrados, 81% dos usuários do Twitter verificam seus perfis pelo menos uma vez ao dia, e 88% das organizações norte-americanas com mais de cem colaboradores utilizam o Twitter com foco em marketing. A Geração da Internet, também chamada de X, Y, Z ou Millenials, como afirmado por Meyer (2014) não consegue mais viver desconectada do mundo digital. Os Millenials sentem a necessidade constante em dividir aquilo que estão fazendo em tempo real com os amigos e seguidores do Facebook, em acessar notícias de diversos lugares do mundo no Google, ver os videoclipes lançados à poucos segundos no YouTube, ouvir novas músicas no Spotify, assistir séries no Netflix, postar sobre os assuntos mais falados no Twitter e outra infinidade de eventos. Segundo a Revista Exame (2016) os jovens brasileiros da geração Millenials passam em média 4
  • 2. Projeto de Fim de Curso – Engenharia da Computação, 2017-2 2 horas conectados à internet por dispositivos móveis, dados mostram que 89% utilizam o aparelho para chamadas, 87% para navegar na internet, 85% para acesso a e-mails e 71% para encontrar o que precisam em mecanismos de buscas. Dados extraídos do Internet Live Stats (2017), no dia 15/10/2017, mostram que foram publicados 7.790 tweets em 1 segundo e 465.971 tweets em 1 minuto. Por isso, o Twitter se mostra uma fonte interessante para verificar as opiniões dos usuários. Sendo assim, este trabalho tem como objetivo modelar um processo de implementação das ferramentas e arquitetura de Big Data para fazer aquisição de dados do Twitter, utilizando como um case usuários que enviar tweets sobre algo relacionado a Política. A metodologia de pesquisa desenvolvida neste artigo científico assumiu o caráter exploratório, tendo em vista que o conceito de Big Data está sendo aprimorado constantemente. II. REFERENCIAL TEÓRICO Neste capítulo foram apresentados todos os conceitos relacionados ao projeto. Livros, artigos científicos e sites foram analisados para que esta pesquisa possa enfatizar as melhores práticas e ferramentas utilizadas nesta área e qual a melhor maneira de aplicá-las. Na internet existem outras soluções parecidas com a que foi desenvolvida neste projeto, entretanto são soluções Open Source, desenvolvidas pela comunidade, como explicado por Marketing de Conteúdo (2015). Ainda de acordo com Marketing de Conteúdo (2015) as ferramentas da comunidade web, para soluções utilizando tweets, são desenvolvidas com propósitos bem específicos. Isso torna-se um problema para empresas que não possuem foco no mercado de tecnologia da informação, mas desejam utilizar soluções que integram diversos serviços e ferramentas. O protótipo deste artigo científico foi criado e baseado em soluções empresariais, utilizando ferramentas validadas por empresas que agregam valor e desenvolvem tecnologias de ponta para o mercado de tecnologia da informação. Segundo Woolf (2015) outro ponto a ser destacado é que utilizando ferramentas empresariais, as organizações têm um pacote completo de suporte a produtos, atualizações de versões para correções de defeitos e segurança com os dados armazenados. A. Big Data Como destacado por Minelli (2013) Big Data é considerado o novo Data Warehousing e nova a análise de negócios para as organizações, gerenciando milhares de informações de forma eficiente para aumentar a receita das empresas. Ainda de acordo com Minelli (2013) os fenômenos que mais impulsionaram o Big Data são a inovação e mudança constante da tecnologia. O momento atual será diferente do vivido pela população em dois anos e completamente diferente em uma década. Hekima (2016) afirma que Big Data é um dos termos mais abordados atualmente na área da Tecnologia, contudo ainda gera algumas dúvidas aos novos profissionais que desejam aprender ou querem ingressar no mercado de TI, pois cada autor descreve este conjunto de técnicas com alguns conceitos diferentes. Big Data, de acordo com Nascimento (2017) é um conceito que descreve a enorme quantidade de informações e dados estruturados, semiestruturados e não estruturados gerados a cada segundo em todo mundo. Para Gartner Inc (2013) Big Data é um conjunto de ferramentas e recursos de alta velocidade para processar o alto volume e variedade de informações, exigindo novas formas econômicas de processamento de dados, permitindo às empresas tomarem melhores decisões e otimizar processos. Segundo Sinha (2014) o Big Data está presente em todos os lugares, mostrando que os dados podem beneficiar todas as aplicações desenvolvidas em diversos segmentos de mercado, utilizando o conhecimento adquirido com as informações para tomar decisões mais coerentes. Como pode ser visto na Figura 1, as empresas identificam novas oportunidades para posteriormente tomar decisões. Figura 1 – Macroprocesso decisório. Fonte: Canary (2013) pág. 21. O termo em português quer dizer “Grandes Dados”, ou seja, a capacidade de processar e armazenar quantidades imensas de dados vindos de diversas fontes a cada segundo. Entretanto, para tratar esse enorme volume de informações os softwares comuns de banco de dados podem não ser eficientes. São necessárias novas soluções no mercado para atender toda essa demanda.
  • 3. Projeto de Fim de Curso – Engenharia da Computação, 2017-2 3 Big Data está transformando radicalmente a forma como as empresas são projetadas e operam. (SINHA, 2014). Não há como falar em Big Data sem citar os 5V’s, conhecidos como Volume, Variedade, Velocidade, Veracidade e Valor dos dados, como publicado por Big Data Business (2015) e ilustrado na Figura 2. Segundo Nascimento (2017) o volume está associado a quantidade imensa de dados gerados a todo instante. De acordo com Jain (2016) a primeira etapa para caracterizar o Big Data é que o tamanho dos dados deve ser “grande” e esse tamanho dimensionado em volume. A variedade refere-se aos dados vindos de diversas fontes, ainda de acordo com Nascimento (2017) quanto mais informações de fontes diferentes maior será a complexidade para processar os dados, entretanto a probabilidade de gerar valor para as organizações também é maior. O terceiro V é a velocidade, que segundo Cunha (2015) a análise dessa enorme quantidade de dados deve ser feita de maneira muito rápida e eficiente, para que as informações não se tornem obsoletas para os gestores das empresas. Ainda, de acordo com Cunha (2015) a veracidade diz respeito à consistência das informações, pois as empresas necessitam de cautela ao tratar os dados, para que não obtenham resultados falsos e tomem decisões erradas causando um prejuízo gigantesco. O último V, chamado de valor, é descrito por Nascimento (2017) como a geração correta de insights (tendências) paras as pessoas certas, deixando os clientes satisfeitos. Desta maneira todo esforço realizado nas etapas anteriores trará retorno financeiro para as empresas. Figura 2 – 5V’s do Big Data. Fonte: Acervo do autor. Adaptado de Canary(2013) pág. 30. B. Data Warehouse Cetax (2016) afirma que Data Warehouse (DW) é o repositório central de dados de uma organização, armazenando as informações nos bancos de dados de forma consolidada, proporcionando a análise de grandes volumes de dados e obtendo informações estratégicas para as futuras decisões da empresa. Ainda, de acordo com Cetax (2016) os data warehouses são os núcleos de informações gerenciais dos diversos setores dentro das empresas, devido a sua grande capacidade sumarizar e analisar dados, dando suporte as principais ferramentas de Business Intelligence (BI). Segundo Fagundes (2011) os data warehouses foram desenvolvidos para Processamento On-Line Analítico (OLAP) e não para Processamento Transacional On-Line (OLTP). Essas soluções OLAP para pesquisa inteligente de dados são chamadas de data mining, como demonstrado na Figura 3. Figura 3 – Arquitetura genérica de um DW. Fonte: Elias. Canaltech (2014). Para Elias (2014) o Data Mart possui uma arquitetura semelhante ao Data Warehouse, contudo é dividido por assuntos específicos de cada setor dentro das organizações, facilitando o tratamento desses dados. A junção de diversos Data Marts compõe o DW. Vieira (2013) afirma que o Data Mart tem por foco dividir o ponto central de dados do DW e restringir as responsabilidades para os setores corretos, ou seja, são pequenos sistemas de armazenamento que extraem informações específicas do Data Warehouse, como ilustrado na Figura 4. Figura 4 – Representação de um Data Warehouse. Fonte: Acervo do Autor. Adaptado de Vieira (2013). C. Business Intelligence Segundo Machado (2007, apud Fernandes, 2016), a área de Business Intelligence (BI) permite analisar diversos Indicadores de Desempenho Corporativo, do inglês Key Performance Indicators (KPIs), utilizando um conjunto de soluções para cruzar e mapear informações empresariais.
  • 4. Projeto de Fim de Curso – Engenharia da Computação, 2017-2 4 Para Oliveira (2008) o Business Intelligence sintetiza os dados do Data Mart de maneira simples, auxiliando as empresas no momento de tomar decisões, distribuindo as informações para os setores que utilizarão os dados concretos para agir sobre determinada circunstância no momento ideal, como ilustra a Figura 5. Oliveira (2008) também afirma que o que menos falta são dados nas empresas, eles vêm de toda parte e a todo momento. Contudo, muitos desses dados são redundantes, sem coerência e difíceis de analisar, tornando a complexidade cada vez maior para gerar informações úteis e que aumentem a receita da organização. Figura 5 – Processo de transformação de dados com a aplicação de BI. Fonte: Fernandes (2016). D. Twitter De acordo com Significados (2011) Twitter é um microblogging, ou seja, uma rede social onde o usuário posta (envia um tweet) sobre algum assunto específico utilizando no máximo 140 caracteres e o símbolo #, chamado de cerquilha ou sustenido no mundo musical, para marcar a hashtag (palavra-chave). Entretanto, de acordo com Cossetti (2017) o Twitter anunciou no dia 07 de novembro de 2017 que a partir desta data os usuários podem enviar tweets utilizando 280 caracteres. Dados da rede social mostraram que 3,5% dos tweets em português e 9% dos tweets em inglês atingiam o limite de 140 caracteres. Segundo Canaltech (2017) hashtags servem para marcar palavras ou tópicos importantes que os demais usuários utilizam de maneira similar, desta forma a palavra-chave se torna um link indexável para que as pessoas possam clicar e ver quais são os outros usuários que tem falado sobre aquele mesmo assunto, vídeo, foto, notícia, etc. A diretora geral do Twitter no Brasil, Fiamma Zarife, afirmou que o Brasil obteve em 2016 o 3º maior crescimento em número de usuários no microblog e que a receita da empresa cresceu cerca de 30% no mesmo ano, de acordo com Oliveira (2017). No dia 15/10/2017 foram publicados 461.751.871 Tweets e haviam 309.634.838 usuários ativos no Twitter, de acordo com os dados do Internet Live Stats (2017). Isto prova que o Twitter é uma das redes sociais mais utilizadas do mundo. Dados apresentados por Max2 Marketing Digital (2015), mostraram que o perfil da cantora Katy Perry possuía cerca de 94,65 milhões de seguidores em 2015. Atualmente a cantora possui 106 milhões de seguidores e continua sendo o maior perfil do Twitter. E. IBM Bluemix De acordo com Tomala-Reyes (2014) IBM Bluemix é uma plataforma em nuvem que permite aos usuários, empresas e desenvolvedores criar, implementar e gerenciar aplicativos de forma simples. A plataforma foi baseada em Cloud Foundry (Fusão em Nuvem) que é outra plataforma da IBM oferecida como um serviço para seus clientes (PaaS - Platform as a Service) de código aberto. Ainda, segundo Tomala-Reyes (2014) Bluemix pode ser integrado facilmente a centenas de aplicativos em nuvem, sem a necessidade de conhecer os procedimentos sequenciais para instalar ou configurar novas soluções, otimizando tempo e recursos nas empresas. F. Node-RED Node-RED é uma solução de programação que fornece um editor no browser (navegador) baseado em fluxo, ou seja, o desenvolvedor programa utilizando o conceito de nó e fluxo, implementando as modificações em tempo de execução da aplicação e integrando facilmente APIs, serviços online e hardwares (NODE- RED, 2013). É possível desenvolver funções em JavaScript utilizando o editor de texto, utilizar a biblioteca integrada para salvar funções, nós e fluxos criados pelo usuário, para reutilização com novas soluções. Ainda, de acordo com Node-RED (2013) a solução foi desenvolvida em Node.js, o que torna as aplicações muito leves, otimizadas, utilizando o modelo não bloqueado por eventos. O Node-RED (2013) é ideal para integração com IoT (Internet of Things), soluções em Cloud e hardware de baixo custo, pois possui mais de 225.000 módulos no pacote de nós, permitindo uma vasta gama de implementações em aplicações pequenas ou empresariais. As informações dos fluxos são salvas no formato JSON, o que torna a transferência de dados entre ferramentas de maneira mais leve e otimizada.
  • 5. Projeto de Fim de Curso – Engenharia da Computação, 2017-2 5 III. MATERIAIS E MÉTODOS Para extração dos dados diretamente do Twitter e para determinar pontos importantes para geração de análise, foram feitas diversas configurações na plataforma IBM Bluemix, desenvolvimentos no Node- RED e geração de relatórios no conjunto de ferramentas Microsoft Power BI utilizando assim a metodologia não experimental. A finalidade deste projeto foi a criação de um protótipo de Big Data, gerando tendências (insights) com a utilização de ferramentas de mercado para análise e processamento de uma enorme massa de dados. Este projeto possui caráter qualitativo e aplicado, visto que centenas de empresas parceiras da IBM e Microsoft, utilizam soluções semelhantes. A. Desenvolvimento Do Projeto As etapas desenvolvidas neste projeto foram seguidas sequencialmente como os demais projetos de Big Data, conforme ilustrado na Figura 6. Posteriormente todas as etapas serão explicadas de maneira detalhada. Figura 6 – Arquitetura do Big Data, etapas sequenciais. Fonte: Acervo do Autor. Adaptado de Sinha(2014) pág. 55. B. Configuração Da Plataforma Bluemix Para iniciar o projeto com a plataforma IBM Bluemix foi necessário criar uma conta free por 30 dias, para que o usuário “tccbigdataunisal” pudesse desenvolver e criar soluções com centenas de ferramentas disponibilizadas no catálogo da IBM, contudo por se tratar de uma conta grátis, nem todos os recursos são disponíveis. Caso o desenvolvedor ou a empresa deseje utilizar ferramentas com maior poder de processamento, armazenamento e análise de dados, o mesmo deve inserir os dados do cartão de crédito, para que novos recursos sejam liberados. Após a criação da conta, foi concluído o registro acessando o e-mail cadastrado e clicando no link enviado pela IBM, possibilitando o novo acesso a plataforma. Já na plataforma, o passo seguinte foi configurar o primeiro aplicativo para aquisição de dados. O Node- RED foi selecionado através do Catálogo de Aplicações do IBM Bluemix, como mostrado na Figura 7. Com a aplicação selecionada foram realizadas as configurações no aplicativo preenchendo o nome do app, nome do host (hospedeiro), domínio, país de implementação, organização que usou a ferramenta, plano selecionado para conexão com o banco de dados Cloudant NoSQL versão lite (básica, simples). Figura 7 – Buscando o Node-RED no Catálogo da plataforma. Fonte: Acervo do Autor. Como demonstrado na Figura 8, o novo aplicativo do Node-RED foi apresentado no Painel do IBM Bluemix, permitindo o acesso para o desenvolvimento que foi realizado e disponibilizando a conexão com outras ferramentas. Figura 8 – Aplicativo Node-RED criado e exibido no Painel. Fonte: Acervo do Autor. Dentro do Node-RED foi criado um novo fluxo “TCC BIG DATA UNISAL” para inserir os nós, em seguida foram selecionados os nós no editor do navegador para a construção da solução. O primeiro nó foi o que conecta o Node-RED a API (Interface de Programação de Aplicações) do Twitter para fazer aquisição dos tweets em tempo real. O segundo nó conectou a API do Twitter com o banco de dados Cloudant NoSQL, para armazenar os dados no formato JSON na base de dados “cloudantdbtccbigdata”. Já o terceiro nó foi para integrar o Cloudant NoSQL com a IBM dashDB, que é a solução de Data Warehouse e Analytics da IBM, contendo o repositório central de dados. Junto ao IBM dashDB foi integrada
  • 6. Projeto de Fim de Curso – Engenharia da Computação, 2017-2 6 automaticamente a conexão com o IBM Db2 on Cloud que é o banco de dados transacional otimizado para nuvem. O quarto e último nó, foi conectado ao nó do Twitter para exibir em tempo real, no navegador, os tweets feitos pelos usuários com alguma palavra envolvendo política, conforme mostrado na Figura 9 e 10. Figura 9 – Nós e fluxo para aquisição dos tweets. Fonte: Acervo do autor. Figura 10 – Tweets exibidos no navegador no momento da aquisição. Fonte: Acervo do autor. No momento em que os tweets foram exibidos no Node-RED, em paralelo foi escrito/preenchido linha a linha da tabela no banco de dados Cloudant NoSQL, armazenando todas informações do arquivo JSON, como pode ser visto na Figura 11. Em menos de uma hora, no dia 21 de outubro de 2017, de extração dos tweets para construção da base de dados deste projeto, foram armazenadas 22.912 linhas na tabela, o que resultou no tamanho da mesma em 61,7 MB. O formato do arquivo JSON extraído da API do Twitter possui 276 colunas, dentre elas as principais para este projeto foram a de localização, ID (número único que identifica o usuário), latitude e longitude, tweet e Twitter do usuário. Formato do arquivo exibido na Figura 12. Figura 11 – Preenchendo as linhas da base de dados. Fonte: Acervo do autor. Contudo, nem todas as colunas são preenchidas, pois a API válida se o usuário está enviando tweets pela primeira vez ou enviando retweets da postagem de outra pessoa. Figura 12 – Formato JSON armazenado no Cloudant NoSQL. Fonte: Acervo do autor. A conexão feita com os nós do Node-RED permitiu que Data Warehouse no IBM Db2 on Cloud fosse criado com diversas tabelas e visões, dentro do Schema (Coleção de objetos na base de dados) “DASH13981”. Dentro desta coleção foram criadas dezenas de tabelas relacionadas a tabela principal “CLOUDANTDBTCCBIGDATA”, para que seja possível analisar os dados limpos, até mesmo erros durante a extração e armazenamento dos dados. Para a visualização dos dados e criação dos relatórios, foi extraído o arquivo no formato CSV (Valores Separados por Vírgula) do IBM Db2 on Cloud. Os relatórios e dashboards foram construídos no conjunto de ferramentas de Business Intelligence da Microsoft, chamado de Microsoft Power BI. A solução permite conectar a diversos Data Warehouses ou Data Marts, também permite visualizar as alterações feitas nos relatórios em tempo de execução.
  • 7. Projeto de Fim de Curso – Engenharia da Computação, 2017-2 7 Por ser um conjunto de ferramentas utilizadas em milhares de empresas, a plataforma tem integração com aplicação Desktop, Servidor, Mobile e em Nuvem. Contudo, neste projeto foi utilizado somente a solução Desktop, como ilustrado na Figura 13. Figura 13 – Carga de todos os dados no Microsoft Power BI. Fonte: Acervo do autor. IV. RESULTADOS E DISCUSSÕES Os conceitos de Big Data com a utilização de diversas ferramentas de mercado explicadas neste Artigo Científico proporcionaram diversos dados de grande importância. No início do projeto os tweets dos usuários não faziam muito sentido se analisados individualmente e sem as ferramentas ideias para isso. Contudo, ao longo do desenvolvimento da solução foi possível criar relatórios importantíssimos. Em mais de 22 mil tweets feitos por usuários em menos de 1 hora, somente 261 foram feitos por usuários brasileiros, o que representou apenas 1,15% do valor total. Poucos fatos relacionados à política brasileira foram noticiados no dia 21/10/2017, o mais relevante foi a afirmação do ministro da defesa Raul Jungmann. O ministro disse que não existe qualquer possibilidade de intervenção militar no Brasil, segundo notícia do site Correio Braziliense (2017). Em relação aos estados do Brasil, o que mais publicou sobre Política foi o estado de São Paulo, com 31 tweets em menos de 1 hora, representando cerca de 11,88% do total dos brasileiros, como ilustrado na Figura 14. São Paulo é o estado mais populoso do país, possuindo mais de 45 milhões de habitantes. Figura 14 – Total de tweets sobre Política no Estado de São Paulo. Fonte: Acervo do autor. Outra informação importante que pode ser extraída foi relacionada ao cenário político espanhol, especificamente na comunidade da Catalunha, que na manhã do dia 21 de outubro de 2017 recebeu uma intervenção da Espanha. O primeiro ministro da Espanha Mariano Rajoy anunciou que pretendia afastar os representantes do governo da Catalunha e nomear novos governantes, para controlar e impedir o movimento separatista dessa região. A ação de Mariano causou grande revolta na população local, levando milhares de pessoas às ruas. No Twitter os catalães também se manifestaram, com 1251 tweets em menos de 1 hora, representando 5,45% do tweets extraídos, como demonstrado na Figura 15. Figura 15 – Total de tweets sobre Política na Catalunha. Fonte: Acervo do autor. O tweet que mais foi compartilhado (retweet) foi o do perfil de Albert Rivera deputado da Espanha e ex- deputado do Parlamento da Catalunha, com 562 compartilhamentos em menos de 1 hora. Como pode ser visto na Figura 16, a postagem fez menção ao cenário político vivido pelo povo catalão e a intervenção política do governo espanhol na Catalunha.
  • 8. Projeto de Fim de Curso – Engenharia da Computação, 2017-2 8 Figura 16 – Tweet do Deputado Albert Rivera sobre a Catalunha. Fonte: Acervo do autor. Adaptado de Twitter (2017). Outra analise realizada com os resultados foi em relação aos idiomas dos tweets enviados. Os idiomas com menos tweets foram o tcheco (cs) e o sueco (sv), com 37 e 38 postagens respectivamente, representando cerca de 0,17% do valor total. O idioma que mais teve tweets, representando mais de 72%, foi o espanhol (es) com 16043 postagens pelos usuários, como pode ser visto na Figura 17. Durante a análise, as ferramentas não conseguiram identificar (und) o idioma de 3853 tweets, o que representou aproximadamente 17,47% da base de dados. Figura 17 – Idiomas dos tweets enviados. Fonte: Acervo do autor. V. CONCLUSÕES Este artigo científico apresentou diversas ferramentas e conceitos utilizados na tecnologia de Big Data, comprovando o quanto é importante para as empresas analisar essa imensa massa de dados, que por muitas décadas, foi deixada de lado por falta de conhecimento ou tecnologias mais avançadas. Também foi possível observar que redes sociais geram um enorme volume de informações a cada segundo e para tratar tudo isso, são necessárias ferramentas específicas para Big Data e um time engajado para agregar valor às organizações. Este conjunto de ferramentas e técnicas ajudou a compreender as diversas possibilidades que os Engenheiros e Cientistas de Dados tem para analisar informações de redes sociais. Pensando no ambiente empresarial, é válido e importante que as organizações tenham analistas de dados focados em analisar informações da internet, principalmente de redes sociais como Twitter, Facebok, Instagram, para que seja possível compreender qual é a imagem que a empresa está passando para seus clientes e parceiros de negócio. Dados são valiosos para equipes de Marketing e Tecnologia da Informação, juntas essas duas áreas podem criar soluções para atrair novos clientes, manter os clientes ativos satisfeitos com os produtos que já possuem, iniciar parcerias com novos fornecedores e sugerir melhorias para os gestores de cada setor. AGRADECIMENTOS Agradeço a Deus por ter permitido que eu chegasse até aqui, ao meu pai Claudemir Pires Barbosa, minha mãe Giovana dos Reis Barbosa e minha avó Maria Lucia dos Reis por todo investimento feito nos meus estudos e tempo gasto para que pudessem me auxiliar de todas as maneiras possíveis, ao meu orientador do trabalho de conclusão de curso Profº Dr. Kleber de Oliveira Andrade, ao Especialista em BI Profº Me. Edinelson Aparecido Batista, ao Coordenador do Curso Profº Me. Sérgio Yoshioka, a Pesquisadora e Consultora de Big Data Dra. Rosangela de Fatima Pereira Marquesone, aos Eng. da Computação Rodrigo Ferreira Fiori e Heitor Rezende de Souza, a todos os meus professores da graduação pelo conhecimento dividido e ao UNISAL/São José. REFERÊNCIAS BIG DATA BUSINESS. Big Data no aumento dos negócios (e diminuição do Churn). 2015. Disponível em: http://www.bigdatabusiness.com.br/big-data-no- aumento-dos-negocios-e-diminuicao-do-churn. Acesso em 05 de nov. de 2017 CANALTECH. O que é hashtag?. 2017. Disponível em: https://canaltech.com.br/produtos/O-que-e- hashtag. Acesso em 31 de out. de 2017. CANARY, Vivian Passos. A tomada de decisão no contexto do Big Data: Estudo de caso único. Porto Alegre. 2013. CETAX. O que é Data Warehouse?. 2016. Disponível
  • 9. Projeto de Fim de Curso – Engenharia da Computação, 2017-2 9 em: https://www.cetax.com.br/blog/o-que-e-data- warehouse. Acesso em 31 de out. de 2017. CORREIO BRAZILIENSE. Não existe possibilidade de intervenção militar, afirma ministro da Defesa. 2017. Disponível em: http://www.correiobraziliense.com.br/app/noticia/ politica/2017/10/21/internas_polbraeco,635315/na o-existe-possibilidade-de-intervencao-militar- afirma-ministro-da-de.shtml. Acesso em 05 de nov. de 2017. COSSETTI, Melissa Cruz. TechTudo. Twitter aumenta oficialmente o limite de 140 caracteres para 280. 2017. Disponível em: https://www.techtudo.com.br/noticias/2017/11/twit ter-aumenta-oficialmente-o-limite-de-140- caracteres-para-280.ghtml. Acesso em 07 de nov. de 2017. CUNHA, Clayton. Implantando Marketing. Big Data para as empresas em 5 V’s. 2015. Disponível em: http://www.implantandomarketing.com/big-data- para-as-empresas-em-5-vs. Acesso em 31 de out. de 2017. DAQUINO, Fernando. TecMundo. A história das redes sociais: como tudo começou. 2012. Disponível em: https://www.tecmundo.com.br/redes- sociais/33036-a-historia-das-redes-sociais-como- tudo-comecou.htm. Acesso em 05 de nov. de 2017. EL PAÍS. Lluis Llach llama “cerdos” a los líderes de la Unión Europea. 2017. Disponível em: https://politica.elpais.com/politica/2017/10/21/actu alidad/1508578922_149586.amp.html. Acesso em 10 de nov. de 2017. ELIAS, Diego. Canaltech. Conhecendo a arquitetura de Data Warehouse. 2014. Disponível em: https://canaltech.com.br/business- intelligence/conhecendo-a-arquitetura-de-data- warehouse-19266. Acesso em 31 de out. de 2017. EXAME. Brasileiro usa celular por mais de três horas por dia. 2016. Disponível em: https://exame.abril.com.br/tecnologia/brasileiro- usa-celular-por-mais-de-tres-horas-por-dia. Acesso em 31 de out. de 2017. FAGUNDES, Eduardo. EFagundes. O que é um Data Warehouse?. 2011. Disponível em: http://efagundes.com/artigos/o-que-e-um-data- warehouse. Acesso em 05 de nov. de 2017. FERNANDES, Vanessa. Implementação de Data Warehouse para área de saúde. Campinas, São Paulo. 2016. GARTNER. Big Data. 2013. Disponível em: https://www.gartner.com/it-glossary/big-data. Acesso em 31 de out. de 2017. HEKIMA. Big Data Business. Big Data: tudo que você sempre quis saber sobre o tema!. 2016. Disponível em: http://www.bigdatabusiness.com.br/tudo-sobre- big-data. Acesso em 31 de out. de 2017. HEKIMA. Big Data Business. Dados abertos: democratizando a informação com Big Data. 2017. Disponível em: http://www.bigdatabusiness.com.br/dados-abertos. Acesso em 05 de nov. de 2017. IBM. IBM Bluemix. 2017. Disponível em: https://www.ibm.com/br-pt/marketplace/cloud- platform#product-header-top. Acesso em 31 de out. de 2017. INTERNET LIVE STATS. 1 second. 2017. Disponível em: http://www.internetlivestats.com/one-second. Acesso em 15 de out. de 2017. JAIN, Anil. IBM Healthcare Data Analytics. The 5 Vs of Big Data. 2016. Disponível em: https://www.ibm.com/blogs/watson-health/the-5- vs-of-big-data. Acesso em 31 de out. de 2017. MACHADO, F. N. R. Tecnologia e projeto em Data Warehouse. São Paulo: Editora Érica, 2007. MARKETING DE CONTEÚDO. 10 ferramentas incríveis de monitoramento do Twitter. 2015. Disponível em: https://marketingdeconteudo.com/10-ferramentas- incriveis-de-monitoramento-do-twitter. Acesso em 10 de nov. de 2017. MAX2 MARKETING DIGITAL. 40 estatísticas de redes sociais para arrasar em 2017. 2015. Disponível em: http://blog.max2digital.com.br/redes-sociais/40- estatisticas-de-redes-sociais. Acesso em 31 de out. de 2017. MEYER, Maximiliano. Oficina da Net. Quais as diferenças entre as gerações X, Y e Z e como administrar os conflitos?. 2014. Disponível em: https://www.oficinadanet.com.br/post/13498- quais-as-diferencas-entre-as-geracoes-x-y-e-z-e- como-administrar-os-conflitos. Acesso em 05 de nov. de 2017.
  • 10. Projeto de Fim de Curso – Engenharia da Computação, 2017-2 10 MINELLI, Michael; CHAMBERS, Michele; DHIRAJ, Ambiga. Big Data, big analytics: emerging business intelligence and analytic trends for today's businesses. New Jersey: John Wiley & Sons, Inc., 2013. 187 p NASCIMENTO, Rodrigo. Marketing por dados. Afinal, o que é Big Data?. 2017. Disponível em: http://marketingpordados.com/analise-de-dados/o- que-e-big-data. Acesso em 31 de out. de 2017. NODE-RED. Node-RED Flow-based programming for the Internet of Things. 2013. Disponível em: https://nodered.org. Acesso em 31 de out. de 2017. OLIVEIRA, Douglas Tozi; PEREIRA, Otacílio Jose. Um estudo do Business Intelligence no ambiente empresarial. Vila Velha, Espírito Santo. 2008. OLIVEIRA, Filipe. Folha de São Paulo. Brasil tem o 3º maior crescimento do Twitter em número de usuários. 2017. Disponível em: http://www1.folha.uol.com.br/tec/2017/02/186117 5-numero-de-usuarios-do-twitter-no-brasil-cresce- 18-em-2016.shtml. Acesso em 05 de nov. de 2017. SIGNIFICADOS. Significado de Twitter. 2011. Disponível em: https://www.significados.com.br/twitter. Acesso em 31 de out. de 2017. SINHA, Sudhi. Making Big Data Work for Your Business: A guide to effective Big Data analytics. 1. Edition. Birmingham, England, United Kingdom: Impackt Publishing Ltd. 2014. 170p. TOMALA-REYES, Angel. IBM. O que é IBM Bluemix?. 2014. Disponível em: https://www.ibm.com/developerworks/br/cloud/lib rary/cl-bluemixfoundry/index.html. Acesso em 31 de out. de 2017. VIEIRA, Bruno. Bruno Vieira - MSP. Conceito de Data Warehouse, Data Mart, Data Mining e Text Mining. 2013. Disponível em: https://brunosvieira.wordpress.com/2013/04/27/co nceito-de-data-warehouse-data-mart-data-mining- e-text-mining. Acesso em 31 de out. de 2017. WOOLF, Bobby. IBM. Informações Básicas sobre o Bluemix: 5 vantagens essenciais, do ponto de vista de um desenvolvedor. 2015. Disponível em: https://www.ibm.com/developerworks/br/cloud/lib rary/cl-bluemix-fundamentals-advantages-for- developers-trs/index.html. Acesso em 10 de nov. de 2017.