Autor: Juan Felipe dos Reis Barbosa
Orientador: Dr. Kleber de Oliveira Andrade
Trabalho de Conclusão de Curso - Engenharia da Computação (12/2017) - UNISAL/São José
Campinas/São Paulo - Brasil
Analisando qual região mais fala sobre política no Twitter utilizando a arquitetura e ferramentas de Big Data
1. Juan Felipe dos Reis Barbosa
juanfrbarbosa@gmail.com
Orientador: Prof. Dr. Kleber de Oliveira Andrade
Analisando qual região mais fala sobre política no
Twitter:
Utilizando a arquitetura e ferramentas de Big Data
2. Introdução e Objetivo
Na Era da Informação, o volume de dados registrado cresce a cada dia.
Uso das redes sociais é cada vez maior.
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 2
Solução para descobrir quais são os usuários do Twitter que mais falam sobre Política.
3. Diferencial entre soluções semelhantes
• Confiabilidade e Segurança
• Propósitos específicos - não restringe a solução
• Robustez, elasticidade
• Suporte completo
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 3
4. Big Data
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 4
• Enorme quantidade de dados (Volume)
• Dados de milhares de fontes (Variedade)
• Conjunto ferramentas (Velocidade)
• Geração de insights (Valor)
• Dados verdadeiros (Veracidade)
5V’s do Big Data
Fonte: Acervo do autor.
Adaptado de Canary(2013) pág. 30.
5. Business Intelligence - BI
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 5
• Coleta e análise de um conjunto de dados
- Planejamento do futuro de maneira eficiente
- Redução de erros
• Foco na análise e necessidades dos clientes
- Detecta tendências
- Associação aos objetivos do cliente
6. Data Warehouse - DW
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 6
• Repositório central de dados
- Integração de dados de uma ou mais fontes
- Informações detalhadas das empresas
• Data Mart
- DW em menor porte
- Específico para cada setor
- Menos dados
Representação de um
Data Warehouse.
Fonte: Acervo do Autor. Adaptado de Vieira (2013).
7. Ferramentas Utilizadas
• Twitter
- Rede social e um servidor para microblogging
- Permite enviar e receber atualizações de outros contatos
- Tweets de até 280 caracteres
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 7
8. Ferramentas Utilizadas
• IBM Bluemix
Arquitetura em nuvem aberta
- Conjunto de frameworks
- Reduz tempo gasto para criar aplicações
Permite criar e implementar aplicações em Nuvem
- Node-RED
- Cloudant NoSQL
- Db2 Data warehouse
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 8
9. Ferramentas Utilizadas
• Node-RED
Ferramenta de programação baseada em fluxo
- IoT
- APIs
Ferramenta utilizada no browser
- Facilita o cabeamento dos flows
- Implementação em tempo real
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 9
10. Ferramentas Utilizadas
• Microsoft Power BI
Conjuntos de ferramentas de BI
- Análise de negócios com insights
- Relatórios / dashboards
Conecta a diversas de fontes de dados
- Apoio na tomada de decisões
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 10
11. Workflow da solução
Extração e
Processamento
• Twitter
• Node-RED
Armazenamento
e Integração
• Cloudant NoSQL
• Db2 Warehouse on Cloud
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 11
Análise e
Dashboards
• Power BI
• Mapas
• Relatórios
12. Materiais e Métodos
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 12
Análise e
Dashboards
• Conjunto de
ferramentas e serviços
conectados através do
IBM Bluemix
13. Materiais e Métodos
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 13
• Tweets com localização falsa para validar a API do Twitter
14. Materiais e Métodos
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 14
Análise e
Dashboards
• JSON é um formato de arquivo
• Transfere informações
• Coluna contendo a localização
15. Resultados
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 15
• 22.912 tweets extraídos em menos de 1 hora.
Base gerada com mais de 61MB
• Poucas notícias no Brasil - 21/10/2017
• 261 tweets do Brasil, apenas 1,15%
Carga de todos os tweets no Power BI
Fonte: Acervo do autor.
16. Resultados
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 16
• 11,88% em São Paulo - 31 tweets
• São Paulo possui em torno de 45
milhões de habitantes.
• Estado mais populoso do país.
Total de tweets sobre Política no Estado de SP
Fonte: Acervo do autor.
17. Resultados
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 17
• 1251 tweets - 5,45% do total.
• Primeiro ministro da Espanha ameaça
afastar os representantes da
Catalunha e impedir o movimento
separatista
• Revolta da população - movimentação
nas ruas e redes sociais.
Total de tweets sobre Política na Catalunha
Fonte: Acervo do autor.
18. Resultados
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 18
• Albert Rivera tweet mais compartilhado
(retweet) em menos de 1 hora.
• 562 compartilhamentos
• Menção ao cenário político da Catalunha.
Tweet do Deputado Albert Rivera sobre a Catalunha
Fonte: Acervo do autor. Adaptado de Twitter (2017).
19. Resultados
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 19
• 72% Espanhol (es) - 16403 tweets
• 17,47% Indefinidos (und) - 3853
tweets
• Idiomas com menos tweets:
Tcheco (cs) - 37 tweets
Sueco (sv) - 38 tweets
Cerca de 0,17% do total
Idiomas dos tweets enviados
Fonte: Acervo do autor.
20. Discussões
• Com todas as técnicas e ferramentas aplicadas foi possível:
- Analisar milhares de dados extraídos do Twitter
- Aprender sobre ferramentas de mercado
- Implementar uma solução similar utilizada por empresas.
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 20
21. Considerações Finais
• Considerações
- Geração de insights através de uma extensa quantidade de dados
- Importante para aumentar a receita das organizações
- Foco nos objetivos dos clientes
• Trabalhos Futuros
- Utilização na área de saúde, marketing e vendas
- Utilização em cadeia de suprimentos (Blockchain).
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 21
22. Referências Bibliográficas
CANARY, Vivian Passos. A tomada de decisão no contexto do Big Data:
Estudo de caso único. Porto Alegre. 2013.
FERNANDES, Vanessa. Implementação de Data Warehouse para área
de saúde. Campinas, São Paulo. 2016.
MACHADO, F. N. R. Tecnologia e projeto em Data Warehouse. São
Paulo: Editora Érica, 2007.
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 22
23. Referências Bibliográficas
MINELLI, Michael; CHAMBERS, Michele; DHIRAJ, Ambiga. Big Data,
big analytics: emerging business intelligence and analytic trends for
today's businesses. New Jersey: John Wiley & Sons, Inc., 2013. 187 p.
OLIVEIRA, Douglas Tozi; PEREIRA, Otacílio Jose. Um estudo do Business
Intelligence no ambiente empresarial. Vila Velha, Espírito Santo.
2008.
SINHA, Sudhi. Making Big Data Work for Your Business: A guide to
effective Big Data analytics. 1. Edition. Birmingham, England, United
Kingdom: Impackt Publishing Ltd. 2014. 170p.
UNISAL - Centro Universitário Salesiano de São Paulo - Campus São José - Campinas 23
24. Analisando qual região mais fala sobre política no Twitter:
Utilizando a arquitetura e ferramentas de Big Data
Juan Felipe dos Reis Barbosa
juanfrbarbosa@gmail.com
Orientador: Prof. Dr. Kleber de Oliveira Andrade