Visibilidade da produção científica utilizando ReserchGate e Google Scholar
COLETA DE DADOS PESSOAIS EM REDES SOCIAIS VIA API
1. COLETA DE DADOS EM REDES
SOCIAIS:
Privacidade de dados pessoais no
acesso via Application Programming
Interface
M.S. Fernando de Assis Rodrigues
Orientação: Prof. Dr. Ricardo César Gonçalves Sant’Ana
2. Rede Social
● Antiguidade
○ [...] interesse em desenvolver ambientes para a exposição de
ideias e de discussões, com o uso de argumentos lógicos e do
discurso racional → Ágoras Grega e Romana
● Idade Média
○ Série de acordos sobre direitos e garantias pessoais
(HABERMAS, 1984; MALKIN; CONSTANTAKOPOULOU; PANAGOPOULOU, 2009) 2
3. Rede Social
Grupos Sociais:
- Interação entre indivíduos (final do séc XIX):
Tönnies: o fenômeno de rede social
como um processo desencadeado
pelos valores e crenças do indivíduo
em relação ao grupo (Comunidade) ou
pelos vínculos sociais formais,
instrumentais e impessoais –
(Sociedade);
Durkheim: o fenômeno de rede social
como um processo desencadeado pela
própria predisposição do indivíduo de
ser ‘sociável’ e desejar participar de
uma vida em sociedade.
3(DURKHEIM, 1984; SEGRE, 2004; TONNIES, 1973)
- A partir de 1920-30:
- Uso de teorias matemáticas, por estudos de Moreno (1955).
4. A Sociedade da Informação
● Revolução Industrial e o Pós-Guerra (1945-)
● Tecnologias de Informação e Comunicação (TIC)
○ Aumento do uso de TIC em atividades profissionais x pessoais
(CASTELLS, 2001; 2003; FREIRE, 1991; HABERMAS, 1984; JORENTE; SANTOS;
VIDOTTI, 2009; WELLMAN; HAYTHORNTHWAITE, 2002)
Imagens: https://goo.gl/sgJP4V e https://goo.gl/70G4e9
4
5. A Sociedade da Informação
● Sociedade da Informação
○ Ativos: Dado e Informação
○ Motrizes: TIC e Internet
○ Efeitos:
■ Troca de informação via Sistemas de Informação
■ Internet como novo local de organização social e cultural
■ Quebra de barreiras temporais, geográficas…
■ ...
(CASTELLS, 2001; 2003; FREIRE, 1991;WELLMAN; HAYTHORNTHWAITE, 2002) 5
6. Redes Sociais
[...] é uma estrutura social interconectada por um conjunto
de nós (individuais ou grupais) que são interligados por um
ou mais tipos de relacionamentos. A rede tem a
informação como operador da relação nas estruturas
sociais; e também nos aparatos tecnológicos
informacionais da transferência (ambientes digitais,
estruturas de produção, tratamento, armazenamento e
reprodução de recursos ou mensagens, produção de novos
sistemas e modelos de armazenagem e acesso à
informação, entre outros) (JORENTE; SANTOS; VIDOTTI,
2009, p. 10).
6
7. Redes Sociais
● Redes Sociais On-line, Sites de Redes Sociais ou
Redes Sociais;
○ Presentes desde o
início da Internet
(ADAMIC; ADAR, 2003; BOYD; ELLISON, 2007; CERN, 2015; FLAKE;
LAWRENCE; GILES, 2000; MISLOVE et al., 2007)
Internet Relay Chat (IRC)
7
8. Redes Sociais
Amadurecimento
das TICs
Disponibilidade de
conexão
Redes Sociais com serviços específicos de
inter-relacionamento de usuários e troca de conteúdo
multimídia
(ADAMIC; ADAR, 2003; BOYD; ELLISON, 2007; CERN, 2015; DONATH,
2007; FLAKE; LAWRENCE; GILES, 2000; MISLOVE et al., 2007)
Super
Redes
Sociais
8
9. ● Elaboração e manutenção por instituições públicas
e/ou privadas;
○ Banco de dados com informações e dados pessoais
● Potencializa preocupações já existentes em outros
contextos:
○ Exposição de dados de usuários para outras instituições,
governos e outros usuários
○ Crimes sexuais e abusos contra crianças e a juventude
○ Perseguição de pessoas (Cyberstalking)
○ Ações e atividades resultantes de intolerância
Redes Sociais - Preocupações
9
10. Em todos estes
cenários, ocorrem
exposições de dados
que perpassam
questões inerentes a
privacidade.
10
11. Privacidade
11
[...] a capacidade de indivíduos, grupos e instituições
determinarem por si mesmos, quando, como e de
que forma as informações do sujeito são divulgadas
para outros (WESTIN, 1970, p. 7).
[...] um direito, que consiste em um número de
interesses individuais que indivíduos querem manter
seus negócios e informações pessoais livres de
interferências de outros (WANG, 2011, p. 8).
12. Privacidade
● Elementos de proteção à privacidade:
○ Leis que regem impedimentos a ações e atividades que são
consideradas prejudiciais a privacidade;
○ Variam de acordo com o Estado;
○ Garantem um espaço particular (privado) para garantir a
liberdade dos cidadãos.
● Taxonomia de ações e atividades prejudiciais à
privacidade:
■ 4 Grupos e 16 Subgrupos → Conceitos voltados a atender a
demanda de categorização de ações e atividades na web;
■ Exemplo: Grupo “Coleta de Informação” → Subgrupo “Vigilância”:
“atividades encadeadas com o propósito de vigiar um indivíduo no
seu espaço privado ou em espaço público”.
(RODRIGUES;SANT’ANA,2016;
SOLOVE,2008;ZANON,2013)
12
13. Ciclo de Vida dos Dados para a CI (CVD)
● Contextualização para a análise das estruturas de
coleta/armazenamento/recuperação;
● Ciclo, segmentado em 4 Fases:
○ Coleta: fase inicial de planejamento e outras atividades
relacionadas a obtenção dos dados;
○ Armazenamento: atividades relacionadas ao processamento, a
inserção, a manipulação, a migração e a transmissão na persistência
dos dados;
○ Recuperação: atividades voltadas à fase em que estes dados passam a
estar disponíveis para consulta e visualização;
○ Descarte: atividades relacionadas com o descarte de dados que,
dependendo da situação, poderá gerar dados, seja por transferência
para outras bases, seja para efeito de preservação de informações
selecionadas.
13
14. Ciclo de Vida dos Dados para a CI (CVD)
● As fases são permeadas por 6 objetivos:
(SANT’ANA, 2016)
14
15. Coleta
● Redes sociais apresentam a possibilidade de coleta
de dados pessoais para agentes externos
○ CVD → Coleta → como são obtidos os dados?
Application Programming Interface (API)
○
○ Termos de Uso → estabelecem as atividades
consideradas legais no momento da coleta de dados
pessoais
■ Legalidade ≠ Privacidade
○ Sutil
15
A API é uma estrutura formal de regras e protocolos para proporcionar a interoperabilidade de conjunto
de dados, independentes de plataforma, por dois ou mais sistemas de informação, com o uso de padrões
abertos ou fechados para o intercâmbio dos dados e que contém documentação disponível na origem
para o entendimento de todas as partes sobre o seu modo de operacionalização.
(PAPAZOGLOU, 2003)
17. Problema
● Usuário/Referenciado: click-wrap nos Termos de Uso
○ Aceitação antes da utilização
● Não há garantias do que será realizado com os dados
pessoais compartilhados:
○ O que o aplicativo X fará com minhas fotografias?
○ O que o aplicativo Y fará com meu endereço de e-mail?
○ A rede social não tem capacidade de acompanhar o qu
realizado com seus dados em todos os seus parceiros.
■ Após copiado para outro serviço, a coleta de dados pessoais não
tem volta.
17
18. Problema
Mesmo com o auxílio de profissionais, com
habilidades e conhecimentos prévios sobre a forma de
coletar conjuntos de dados de referenciados e sobre
os aspectos legais de compartilhamento de dados das
redes sociais, não há um modelo de dados para a
coleta, e uma sistematização apropriada para o
acompanhamento dos aspectos relacionados à
privacidade de referenciados no processo de coleta de
dados.
18
19. Hipótese
A sistematização dos procedimentos de coleta de dados sobre
documentos contendo as características dos conjuntos de dados
das APIs, e Termos de Uso e suas seções – retroalimentada
pelos próprios instrumentos desenvolvidos no processo – pode
auxiliar a identificação de ações e atividades potencialmente
prejudiciais à privacidade dos referenciados, no momento da
coleta de dados por agentes externos, e revelar pré-requisitos de
conhecimentos sobre as tecnologias envolvidas neste processo,
conceitos prévios necessários à identificação das características,
e áreas profissionais envolvidas no entendimento das
informações sobre tecnologias voltadas às APIs e as condições
dos Termos de Uso.
19
20. Objetivo
[...] construção de um modelo de dados orientado a
análise sobre questões de privacidade de dados
pessoais, a partir da identificação das características
da coleta de dados de referenciados via API, para
auxiliar na identificação de potenciais ações e
atividades prejudiciais à privacidade, realizadas na
coleta de dados.
20
21. Relevância
● Ir de “senso comum” para “formalização por dados”
sobre as questões de privacidade de dados
pessoais.
● Minimizar a:
○ Complexidade e linguagem dos Termos de Uso
○ Complexidade das redes
○ Complexidade técnica dos documentos que estabelecem a
conexão de aplicativos externos via APIs
21
22. Administração
- Gestão da
Informação
- Entrega dos
produtos
- ...
Ciência da Computação
- Privacidade na
implementação
- TIC (performance,
desenvolvimento, …)
- ...
Direito
- Legislação
- Políticas
- Jurisprudência
- ...
Ciência da Informação
- Caráter Social
- Olhar a partir dos dados
- Olhar sob a perspectiva dos
referenciados
- ...
Ponto-chave: atividade colaborativa
22
23. Universo de Pesquisa/Amostra
● Serviços disponíveis na internet que utilizam API
como interfaces e interoperabilidade de seus
conteúdos.
● São dados das APIs e não do conteúdo.
● Amostra - APIs:
○ : Graph API, v. 2.6/2.8
○ : Public API, v. 1.1
○ : Rest API, v. 1.0
*Top 20 no Ranking ALEXA
23
24. Metodologia
Análise exploratória de caráter qualitativo
24
○ Método combinado:
a. Exploração das características técnicas
das APIs
b. Leitura das coleções de documentos
disponíveis (técnicos e termos de uso)
c. Perspectivas de Análise
26. API - Estrutura e Modelagem
● Requisições para coleta
● Uso de Visões para restringir seu conteúdo
● Modelagem de Banco de Dados:
○ Tabelas, Colunas e Linhas
○ Identificadores
○ Relações e cardinalidade
26
27. Coleta de Dados
27
Redes Sociais
Referenciados ~ 1,65 bi ~ 300 mi ~ 467 mi
Presença Global* Global* Global*
Idiomas 107 55 24
Escritórios Regionais 62 35 31
* Alguns países bloqueiam o acesso, como o caso da Coreia do Norte.
28. 28(FACEBOOK INC., 2016; LINKEDIN CORP., 2017; TWITTER INC., 2017)
As APIs possuem áreas específicas para a
documentação de referência técnica
29. 29(FACEBOOK INC., 2016; LINKEDIN CORP., 2017; TWITTER INC., 2017)
As Redes Sociais possuem áreas específicas para os
Termos de Uso
39. Sistematização dos elementos no primeiro ciclo da
coleta de dados
● Não depende de uma tecnologia específica
○ Ex: pode-se utilizar formulários, planilhas ou um sistema de
informação com banco de dados relacional
39
41. Modelagem Direta
41
● Explicitação direta das características das APIs e
dos Termos de Uso;
● Adicionadas informações sobre o processo da
coleta de dados e sobre os coletores.
43. Atividades
Perspectivas
Tecnologias
de Coleta
Pré-requisitos de
Conhecimento
Áreas Profissionais
envolvidas
1. Leitura dos
documentos e
das referências
relativas ao
funcionamento
da API e dos
Termos de Uso
Protocolos HTTP e
HTTPS;
Procedimentos para
a Coleta de dados via
API;
Sistemas de entradas
(Proprietários e
baseados no OAuth)
Linguagens de
marcação (JSON e
XML);
Linguagens de
Programação;
Redes sociais;
Privacidade de dados
pessoais;
Programação;
Interoperabilidade de
conjuntos de dados entre
sistemas de informação;
SaaS;
API;
Wire Protocol;
Teoria dos Grafos;
Privacidade;
Ações e atividades
prejudiciais a privacidade.
Administrador, Estatístico ou Economista
de preferência voltados com formação na
área da Administração Pública;
Advogado ou outra profissão similar, com
formação em Direito;
Cientista de Dados, com formação
profissional em áreas como Administração,
Arquivologia, Biblioteconomia,
Computação, Economia e Matemática;
com pós-graduação em Ciência da
Informação ou cursos de formação sobre
temas relacionados a tríade
Dado/Informação/Conhecimento de caráter
interdisciplinar;
Engenheiro de Sistemas, com formação
em áreas como Engenharia da
Computação, Ciência da Computação,
Sistemas de Informação, Análise de
Sistemas, Análise de Processamento de
Dados ou curso similar. 43
46. Modelagem de Segunda Ordem
● Derivado da complexidade da Modelagem Direta
○ Utilização de Esquema Estrela (Data Mart)
■ Fato: colunas (atributos das visões)
■ Dimensões: Origem e API; Autorização; Visão, Permissão;
Termos de Uso e Seção.
46
52. Atividades
Perspectivas
Tecnologias
de Coleta
Pré-requisitos de
Conhecimento
Áreas Profissionais
envolvidas
1. Seleção das
tabelas da
Modelagem
Direta
Aplicativos para a
sistematização de
conjuntos de dados
na forma da tríade
<Tabela, Coluna,
Linha>;
SGBD;
Linguagem SQL;
Linguagens de
programação e
aplicativos que
permitem a
recuperação de
conjuntos de dados
em SGBD.
Ações e atividades
prejudiciais a privacidade;
Aplicações para
visualização de conjunto
de dados armazenados
em SGBD;
Cardinalidade;
Diagrama de
Entidade-Relacionamento
Dicionário de Dados;
Esquema estrela;
[...]
Administrador, Estatístico ou Economista
de preferência voltados com formação na
área da Administração Pública;
Advogado ou outra profissão similar, com
formação em Direito;
Cientista de Dados, com formação
profissional em áreas como Administração,
Arquivologia, Biblioteconomia,
Computação, Economia e Matemática; com
pós-graduação em Ciência da Informação
ou cursos de formação sobre temas
relacionados a tríade
Dado/Informação/Conhecimento de caráter
interdisciplinar;
Engenheiro de Sistemas, com formação
em áreas como Engenharia da
Computação, Ciência da Computação,
Sistemas de Informação, Análise de
Sistemas, Análise de Processamento de
Dados ou curso similar. 52
54. Critérios: para a análise e a avaliação de documentos
relacionados aos aspectos de privacidade.
● Segmentado em 11 partes:
○ Rede Social
○ API
○ Requisição
○ Parâmetros
○ Visão
○ Colunas
○ Tipos de Dados
○ Relações
○ Autorizações de Acesso
○ Permissões
○ Termos de Uso
● Total de 54 critérios
54
55. Critérios
Segmento Critério
Application
Programming
Interface
A documentação de referência do funcionamento da Application
Programming Interface é acessível, com endereço URL próprio?
A documentação de referência possui a lista com as visões
existentes?
As atualizações da Application Programming Interface possuem
um número próprio ou adota um sistema de controle de versão
das revisões?
A Application Programming Interface fornece ambiente para
homologação ou realização de testes?
55
56. Considerações Finais
● Acompanhamento de potenciais ações e atividades
prejudiciais à privacidade → alta opacidade;
● Necessidade de conhecimentos de múltiplas áreas do
conhecimento → colaboração interdisciplinar
● Reforça o papel da Ciência da Informação neste contexto
→ caráter social
● Estrutura de armazenamento das redes sociais +
diversificação dos tipos de conteúdo → complexidade em
compreender quais conjuntos de dados pessoais estão
disponíveis na coleta via API
● A (quase) invisibilidade da interoperabilidade de dados via
API → opacidade ao usuário 56
57. Considerações Finais
[...] o objetivo de desenvolver um modelo de dados
voltado para a análise sobre questões de privacidade, a
partir de conjuntos de dados pessoais de usuários de
redes sociais que permitem o acesso via API, revelou
que a associação entre os instrumentos desenvolvidos
e a sistematização do processo de coleta de
informações da rede social e suas entidades, pode
auxiliar na identificação de ações e atividades
potencialmente prejudiciais à privacidade dos
referenciados, no momento da coleta de dados por
agentes externos.
57
58. ADAMIC, L. A.; ADAR, E. Friends and neighbors on the Web. Social Networks, v. 25, n. 3, p. 211–230, jul.
2003.
BOYD, D. M.; ELLISON, N. B. Social Network Sites: Definition, History, and Scholarship. Journal of
Computer-Mediated Communication, v. 13, n. 1, p. 210–230, out. 2007.
CASTELLS, M. O poder da Identidade. 3. ed. São Paulo: Paz e Terra, 2001. v. 2
CASTELLS, M. A Sociedade em Rede. 3. ed. São Paulo: Paz e Terra, 2003. v. 3
CONSEIL EUROPÉEN POUR LA RECHERCHE NUCLÉAIRE (CERN). The birth of the web, 2015. Disponível
em: <http://home.web.cern.ch/topics/birth-web>
DONATH, J. Signals in Social Supernets. Journal of Computer-Mediated Communication, v. 13, n. 1, p.
231–251, out. 2007.
DURKHEIM, É. Da divisão do trabalho social. 2. ed. Lisboa: Presença, 1984.
FACEBOOK INC. Terms of ServiceFacebook Inc., , 2015. Disponível em:
<https://www.facebook.com/legal/terms>. Acesso em: 10 fev. 2015
FACEBOOK INC. Facebook for Developers, 2016. Disponível em: <https://developers.facebook.com/>. Acesso
em: 28 jun. 2016
FLAKE, G. W.; LAWRENCE, S.; GILES, C. L. Efficient identification of web communities. Proceedings of the
sixth ACM SIGKDD international conference on Knowledge discovery and data mining. Anais...ACM, 2000
Referências desta apresentação (Recorte)
58
59. FREIRE, I. M. Barreiras na comunicação da informação tecnológica. Ciência da Informação, v. 20, n. 1, 1991.
HABERMAS, J. Mudança estrutural da Esfera Pública. 1. ed. Rio de Janeiro, Brasil: Tempo Brasileiro, 1984.
JORENTE, M. J. V.; SANTOS, P. L. V. A. DA C.; VIDOTTI, S. A. B. G. Quando as Webs se encontram: social e
semântica – promessa de uma visão realizada? Informação & Informação, v. 14, n. supl, p. 1–24, 19 dez. 2009.
LINKEDIN CORP. User AgreementLinkedIn Corp., , 23 out. 2014. Disponível em:
<https://www.linkedin.com/legal/user-agreement>. Acesso em: 11 jan. 2017
LINKEDIN CORP. LinkedIn DevelopersLinkedIn Corp., , 2017. Disponível em:
<https://developer.linkedin.com/>. Acesso em: 11 jan. 2017
MALKIN, I.; CONSTANTAKOPOULOU, C.; PANAGOPOULOU, K. Greek and Roman networks in the
Mediterranean. London; New York: Routledge, 2009.
MISLOVE, A. et al. Measurement and analysis of online social networks. ACM Press, 2007Disponível em:
<http://portal.acm.org/citation.cfm?doid=1298306.1298311>. Acesso em: 14 ago. 2015
MORENO, J. L. Who Shall Survive?: Foundations of Sociometry, Group Psychotherapy, and Sociodrama. Nova
Iorque: Beacon House, 1955.
PAPAZOGLOU, M. P. Service-oriented computing: Concepts, characteristics and directions. Proceedings of the
Fourth International Conference on Web Information Systems Engineering. Anais... In: FOURTH
INTERNATIONAL CONFERENCE ON WEB INFORMATION SYSTEMS ENGINEERING (WISE’03). IEEE,
2003
Referências desta apresentação (Recorte)
59
60. RODRIGUES, F. DE A.; SANT’ANA, R. C. G. Use of Taxonomy of Privacy to Identify Activities Found in Social
Network’s Terms of Use. Knowledge Organization, v. 43, n. 4, p. p285–295, 2016.
SANT’ANA, R. C. G. Ciclo de vida dos dados: uma perspectiva a partir da ciência da informação. Informação &
Informação, v. 21, n. 2, p. 116, 20 dez. 2016.
SEGRE, S. A Durkheimian Network Theory. Journal of Classical Sociology, v. 4, n. 2, p. 215–235, jul. 2004.
SOLOVE, D. J. Understanding privacy. Cambridge, Mass: Harvard University Press, 2008.
TONNIES, F. Comunidade e sociedade como entidades típico-ideais. São Paulo: Nacional, 1973.
TWITTER INC. Terms of ServiceTwitter Inc., , 18 maio 2015. Disponível em:
<https://twitter.com/tos/previous/version_10?lang=en>. Acesso em: 10 fev. 2015
TWITTER INC. Twitter DevelopersTwitter Inc., , 2017. Disponível em: <https://dev.twitter.com/>. Acesso em: 3
jan. 2017
Referências desta apresentação (Recorte)
60
61. WANG, H. Protecting privacy in China: a research on China’s privacy standards and the possibility of
establishing the right to privacy and the information privacy protection legislation in modern China. Heidelberg ;
New York: Springer, 2011.
WELLMAN, B.; HAYTHORNTHWAITE, C. A. (EDS.). The Internet in everyday life. Malden, MA, USA: Blackwell
Pub, 2002.
WESTIN, A. F. Privacy and freedom. London: Bodley Head, 1970.
ZANON, J. C. (ED.). Direito à Proteção dos Dados Pessoais. 1. ed. São Paulo: Revista dos Tribunais, 2013. v.
1.
Referências desta apresentação (Recorte)
61