SlideShare uma empresa Scribd logo
1 de 51
Baixar para ler offline
PONTIF´                    ´
             ICIA UNIVERSIDADE CATOLICA DE MINAS GERAIS
                                                  ¸˜
                Bacharelado em Ciˆ ncia da Computacao
                                 e




                     Viviane Priscila Silva Santos




     ¸˜                          ¸ ˜
DETECCAO DE VAZAMENTOS DE INFORMACOES NA REDE SOCIAL ONLINE
                              ORKUT




                           Belo Horizonte
                                2012
Viviane Priscila Silva Santos




     ¸˜                          ¸ ˜
DETECCAO DE VAZAMENTOS DE INFORMACOES NA REDE SOCIAL ONLINE
                             ORKUT




                            Monografia apresentada ao programa de Bacharelado
                                   e                 ¸˜
                            em Ciˆ ncia da Computacao da Pontif´cia Universi-
                                                                  ı
                            dade Cat´ lica de Minas Gerais, como requisito par-
                                     o
                                            ¸˜
                            cial para obtencao do t´tulo de Bacharel em Ciˆ ncia
                                                   ı                      e
                                         ¸˜
                            da Computacao.


                            Orientador: Prof. Dr. Humberto Marques Torres Neto




                          Belo Horizonte
                               2012
Viviane Priscila Silva Santos




     ¸˜                          ¸ ˜
DETECCAO DE VAZAMENTOS DE INFORMACOES NA REDE SOCIAL ONLINE
                                 ORKUT




                               Monografia apresentada ao programa de Bacharelado
                                      e                 ¸˜
                               em Ciˆ ncia da Computacao da Pontif´cia Universi-
                                                                     ı
                               dade Cat´ lica de Minas Gerais, como requisito par-
                                        o
                                               ¸˜
                               cial para obtencao do t´tulo de Bacharel em Ciˆ ncia
                                                      ı                      e
                                            ¸˜
                               da Computacao.




                 Prof. Dr. Humberto Marques Torres Neto




                    Carlos Alberto Marques Pietrobon




              Zenilton Kleber Goncalves do Patroc´nio J´ nior
                                 ¸               ı     u




                   Belo Horizonte, 21 de Junho de 2012
AGRADECIMENTOS



       Agradeco a todos aqueles que me ajudaram e incentivaram. A Deus por ter me ajudado
             ¸
a suportar as dificuldades enfrentadas.
       Ao meus pais pelo apoio e compreens˜ o nos momentos dif´ceis.
                                          a                   ı
                                a        e                                                ¸˜
       Ao Harison pela compreens˜ o, paciˆ ncia, carinho e ajuda prestados durante a execucao
deste trabalho.
                                                                 ¸˜
       Aos meus familiares e amigos por suportarem minhas reclamacoes e me incentivarem a
continuar.
                                                             ¸˜
       Ao professor Humberto Marques Torres Neto pela orientacao neste trabalho.
       Aos meus colegas de curso pela ajuda e amizade.
       E a todos que, de alguma forma, contribu´ram com este estudo.
                                               ı
Change
Open your eyes to the light
(EVANESCENCE, 2011)
RESUMO



                                     ¸˜
Com a crescente quantidade de informacoes pessoais na Internet surgiram problemas relativos
         ¸             ¸˜
a seguranca das informacoes existentes na Web. A privacidade dos usu´ rios Web tornou-se
                                                                    a
                  ¸˜
motivo de preocupacao, uma vez que n˜ o se sabe quais websites utilizam de forma inapropriada,
                                    a
inconscientemente ou n˜ o, dados inseridos por seus usu´ rios. Um dos problemas relativos a
                      a                                a
                   ´                       ¸˜
privacidade na Web e o vazamento de informacoes pessoais. Considerando este fato, o trabalho
                                                              ¸˜
aqui realizado busca encontrar poss´veis vazamentos de informacoes pessoais na Internet. Isto
                                   ı
´       ¸˜                  ¸˜
e, situacoes onde as informacoes privadas s˜ o acessadas de forma n˜ o autorizada por terceiros.
                                           a                       a
Estes vazamentos foram analisados especificamente em Redes Sociais Online (RSO), pois estas
                      ¸˜
possuem muitas informacoes pessoais de diversos usu´ rios Web. Assim foi feita uma an´ lise de
                                                   a                                 a
                                                                 ¸˜
vazamentos na RSO Orkut. Isto foi feito em dois segmentos, avaliacao das URLs Orkut e de
         ¸                 e         ´
seus cabecalhos HTTP. Atrav´ s desta ultima an´ lise foi criada uma ferramenta capaz de detectar
                                              a
                     ¸˜
vazamentos de informacoes partindo do Orkut para websites de propaganda. Al´ m disto, esta
                                                                           e
                    e                 a                                            ¸˜
ferramenta pode tamb´ m alertar ao usu´ rio da RSO sobre vazamentos de suas informacoes,
j´ que esta ferramenta pode ser disponibilizada para download e executa enquanto o usu´ rio
 a                                                                                    a
navega na Web.



Palavras-chave:                                    ¸˜
                  Privacidade. Vazamento de informacao. Vazamento. Rede Social Online.
Orkut.
ABSTRACT



With the increasing amount of personal information in the Internet arose safety problems of
existing informations on the Web. The privacy of Web users has become a concern, since no one
knows which websites use inappropriately, unconsciously or not, data entered by users. One of
the problems relating to privacy on the Web is the leakage of personal information. Conside-
ring this fact, the paper done here seeks to find possible leaks of personal information over the
Internet. That is, situations where private information is accessed in an unauthorized manner by
third-party. These leaks were analyzed specifically in Online Social Networks (OSN), because
they have many personal informations of various Web users Thus an analysis of leaks in the
OSN Orkut. This was done in two segments, evaluation of URLs Orkut and its HTTP headers.
Through this the last analysis was created a tool capable of detecting leaks of information star-
ting from Orkut to websites advertising. Moreover, this tool can also alert the user of the RSO
about leaks of information, since this tool can be made available for download and run while
the user browses the Web.



Keywords: Privacy. Leakage of information. Leak. Social Network Online. Orkut.
LISTA DE FIGURAS



FIGURA 1 – Sistema federado a login . . . . . . . . . . . . . . . . . . . . . . . . . .    18
                                 ¸˜
FIGURA 2 – Interfaces e interligacoes para RSO m´ veis . . . . . . . . . . . . . . . . .
                                                o                                          21
FIGURA 3 – Vazamento de identificadores RSO para terceiros . . . . . . . . . . . . .        23

                ¸˜
FIGURA 4 – Exibicao de cabecalho no Live HTTP Header . . . . . . . . . . . . . . .
                           ¸                                                               28
FIGURA 5 – Funcionamento interno do Add-On Builder . . . . . . . . . . . . . . . . .       30

             a              ¸˜
FIGURA 6 – Gr´ fico de transacoes Orkut na base de dados estudada . . . . . . . . . .       32
FIGURA 7 – Gr´ fico das URLs com identificadores no Orkut . . . . . . . . . . . . . .
             a                                                                             33
FIGURA 8 – Vazamento atrav´ s de cabecalho HTTP . . . . . . . . . . . . . . . . . . .
                          e          ¸                                                     35

FIGURA 9 – Diagrama de Componentes da Ferramenta . . . . . . . . . . . . . . . . .         39
FIGURA 10 –Menu de Contexto do Navegador e Tela da Ferramenta . . . . . . . . . .          40
                           e                        ¸˜
FIGURA 11 –Diagrama de Sequˆ ncia: passos para execucao da ferramenta . . . . . . .        41
FIGURA 12 –Diagrama de Atividades: funcionamento da ferramenta . . . . . . . . . .         42
FIGURA 13 –Dados do Log de sa´da da ferramenta . . . . . . . . . . . . . . . . . . . .
                             ı                                                             43
FIGURA 14 –Gr´ fico de Vazamentos encontrados pela ferramenta no Orkut . . . . . . .
             a                                                                             44
LISTA DE TABELAS



TABELA 1 – APIs Add-On Builder . . . . . . . . . . . . . . . . . . . . . . . . . . . .   31

TABELA 2 – Vari´ veis encontradas no cabecalho HTTP . . . . . . . . . . . . . . . . .
               a                         ¸                                               35
TABELA 3 – Exemplo de cabecalho HTTP com vazamento. . . . . . . . . . . . . . . .
                          ¸                                                              36
TABELA 4 – Exemplo de cabecalho HTTP com vazamento a partir de um perfil. . . . .
                          ¸                                                              36
LISTA DE SIGLAS


API -   Application Programming Interface
CSS -   Cascading Style Sheets
DOM -   Document Object Model
HTML - HyperText Markup Language
HTTP -  Hypertext Transfer Protocol
HTTPS - HyperText Transfer Protocol Secure
IIP -            ¸˜             ¸˜
        Informacoes de identificacao pessoal
IP -    Internet Protocol
MAC -   Media Access Control
RSO -   Rede Social Online
SQL -   Structured Query Language
TCP -   Transmission Control Protocol
URL -   Uniform Resource Locator
WWW - World Wide Web
´
                                             SUMARIO




         ¸˜
1 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .               12

       ˜
2 REVISAO DE LITERATURA . . . . . . . . . . . . . . . . . . . . . . . . . . . .                    15
2.1     Privacidade na Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .       15
2.2                ¸˜                         ¸˜
        Caracterizacao do vazamento de informacao . . . . . . . . . . . . . . . . . . .            17
2.2.1     Vazamentos em navegadores Web . . . . . . . . . . . . . . . . . . . . . . . . . .        19
2.2.2     Vazamentos nas Redes Sociais . . . . . . . . . . . . . . . . . . . . . . . . . . .       20
2.3                         ¸˜                          ¸˜
        T´ cnicas para deteccao de vazamentos de informacao . . . . . . . . . . . . . .
         e                                                                                         22
2.4              ¸˜
        Consideracoes finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .      25


                        ¸˜                          ¸ ˜
3 METODOLOGIA PARA DETECCAO DE VAZAMENTOS DE INFORMACOES
      NO ORKUT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         26
3.1                         ¸˜
        Vazamento de informacoes via URL . . . . . . . . . . . . . . . . . . . . . . . .           26
3.2     Vazamentos via cabecalhos HTTP . . . . . . . . . . . . . . . . . . . . . . . . .
                           ¸                                                                       27
3.3                          ¸˜                          ¸˜
        Ferramenta para deteccao de vazamentos de informacao no Orkut . . . . . . .                29

    ´
4 ANALISE DOS VAZAMENTOS ENCONTRADOS . . . . . . . . . . . . . . . .                               32
4.1     Identificadores em URL Orkut . . . . . . . . . . . . . . . . . . . . . . . . . . .          32
4.2     An´ lise dos vazamentos encontrados atrav´ s de cabecalhos HTTP . . . . . . .
          a                                      e          ¸                                      34


                       ¸˜                          ¸ ˜
5 FERRAMENTA PARA DETECCAO DE VAZAMENTOS DE INFORMACOES
      NO ORKUT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         38
5.1           ¸˜
        Descricao do funcionamento da ferramenta . . . . . . . . . . . . . . . . . . . .           38
5.2                          ¸˜
        Vazamentos de informacao encontrados pela ferramenta . . . . . . . . . . . .               42

         ˜
6 CONCLUSAO E TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . .                            45
6.1     Conclus˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
               a                                                                                   45
6.2     Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .      46

     ˆ
REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .            47
12


         ¸˜
1 INTRODUCAO



             u            a                                                ´
          O n´ mero de usu´ rios na World Wide Web (WWW) cresceu muito nos ultimos anos.
                                        ¸˜ a
Somente no Brasil cerca de 48% da populacao j´ utilizou a Web, o que representa aproximada-
mente 91,5 milh˜ es de pessoas (CETIC, 2010). Este crescimento tamb´ m significa o aumento
               o                                                   e
          ¸˜                                             ¸˜
de informacoes pessoais na Web, o que traz maior preocupacao com a privacidade dos usu´ rios.
                                                                                      a
Estes est˜ o preocupados com sua privacidade, n˜ o s´ em termos de dados pessoais, mas a
         a                                     a o
       ¸˜
informacao que os websites podem obter ao acompanhar suas atividades online. Muitos websi-
tes oferecem servicos personalizados onde os usu´ rios registram-se e identificam-se ao website.
                  ¸                             a
Isto significa que esta mesma tecnologia que permite que os usu´ rios acessem e compartilhem
                                                              a
            ¸˜
suas informacoes de forma ampla, pode tamb´ m violar a privacidade dos usu´ rios (PATEL; JU-
                                          e                               a
RIC,   2001).
                                                                        ´
         Um dos fatores que contribuem para falta de privacidade na Web e o vazamento de
       ¸˜
informacoes pessoais. O vazamento na Web se da atrav´ s de dados que podem ser usados para
                                                    e
distinguir algum traco de identidade de um indiv´duo. Se esses dados podem ser combina-
                    ¸                           ı
dos com outros para identificar uma pessoa, ent˜ o esses dados s˜ o denominados dados iden-
                                              a                a
                                                         ¸˜               ¸˜
tific´ veis, que tem como resultado o vazamento de informacoes de identificacao pessoal (IIP)
    a
(KRISHNAMURTHY; WILLS, 2009a).
         Para demonstrar a relevˆ ncia deste problema de privacidade, a OWASP (The Open
                                a
Web Application Security Project1 ) o classificou como uma das 10 maiores vulnerabilidades
                                                                                ¸˜
de seguranca na Web em 2007, colocando-o no sexto lugar do rank. Diversas aplicacoes podem
          ¸
         ¸˜               ¸˜                      ¸˜
sem intencao vazar informacoes sobre suas configuracoes, funcionamento interno, ou violar pri-
                                                                     ¸˜
vacidade atrav´ s de diversos problemas. Frequentemente, essa informacao pode ser o caminho
              e
para lancar ataques ou ferramentas autom´ ticas mais poderosas (OWASP FOUNDATION, 2007).
        ¸                               a
                                    ´                  ¸˜
         A Rede Social Online (RSO) e uma destas aplicacoes citadas. Mais de meio bilh˜ o de
                                                                                      a
           a       a                                                                      ¸˜
pessoas est˜ o em v´ rias RSOs, o que disponibiliza na Web uma vasta quantidade de informacoes
                    a                         e                          ¸˜
pessoais de seus usu´ rios. Isto torna a existˆ ncia de vazamento informacoes em RSOs um
                           ´
problema ainda maior, pois e poss´vel que IIP de v´ rios usu´ rios vazem para servidores de
                                 ı                a         a
terceiros (indiv´duos n˜ o autorizados), j´ que as RSOs s˜ o extremamente populares e tendem
                ı      a                  a              a
tornarem-se cada vez mais (SCHNEIDER et al., 2009).
   1
                                           ¸˜          ´             ¸˜
    Projeto Aberto de Seguranca em Aplicacoes Web: e uma organizacao mundial sem fins lucrativos focada em
                              ¸
melhorar a seguranca de softwares, em especial os softwares baseados na Web.
                  ¸
13


                                                                        ¸˜ ´
        Outro problema que tem ajudado a aumentar o vazamento de informacoes e o cres-
cimento constante no uso de servidores de terceiros, que fornecem conte´ dos e propagandas
                                                                       u
para p´ ginas Web. Alguns destes servidores s˜ o agregadores, que rastreiam e re´ nem dados
      a                                      a                                  u
                       ¸˜
de diferentes visualizacoes do usu´ rio atrav´ s de cookies de rastreamento, inclusive nas RSOs
                                  a          e
                               ´
(KRISHNAMURTHY; WILLS, 2010a). E poss´vel que IIPs pertencentes a usu´ rios estejam vazando
                                     ı                               a
para servidores de terceiros atrav´ s das RSOs. Tal vazamento implicaria n˜ o apenas ao servidor
                                  e                                       a
                          a                   ¸˜
de terceiros conhecer os h´ bitos de visualizacao de algum usu´ rio, mas tamb´ m seria capaz de
                                                              a              e
                a                   ¸˜
associar esses h´ bitos de visualizacao com uma pessoa espec´fica.
                                                            ı
                                                                                      ¸˜
        Este trabalho tem como objetivo analisar e buscar alguns vazamentos de informacoes
                                                                        ¸˜
pessoais na Web. O rastreamento da existˆ ncia dos vazamentos de informacoes tem como meta
                                        e
ajudar a diminuir a existˆ ncia destes vazamentos nos websites. Os vazamentos aqui analisados
                         e
                                               u                ¸˜
foram de uma RSO, pois estas possuem um vasto n´ mero de informacoes pessoais de usu´ rios
                                                                                    a
o que torna o vazamento mais significativo. A RSO escolhida foi o Orkut, uma RSO filiada ao
Google, criada em 24 de janeiro de 2004 com o objetivo de ajudar seus membros a conhecer
pessoas e manter relacionamentos. Apesar de ter sido ultrapassado pelo Facebook esta j´ foi
                                                                                      a
a RSO mais utilizada no Brasil, mesmo assim o Orkut ainda mant´ m um grande p´ blico no
                                                              e              u
pa´s, sendo mais de 30 milh˜ es de usu´ rios no Brasil e 66 milh˜ es de usu´ rios ativos no mundo
  ı                        o          a                         o          a
(ALEXA - THE WEB INFORMATION COMPANY, 2012). Esta RSO foi escolhida por possuir um
n´ mero significativo de usu´ rios no Brasil e por n˜ o ter sido ainda explorada em trabalhos
 u                         a                       a
equivalentes encontrados.
                                            ¸˜                          ¸˜
        Existem diferentes formas para deteccao de vazamentos de informacao, neste traba-
                                             ı                                 ´
lho foram especificados alguns deles. Uma poss´vel forma de detectar vazamentos e atrav´ s
                                                                                      e
    ¸              e              ¸˜
cabecalhos de referˆ ncia, requisicao URI e cookie (KRISHNAMURTHY; WILLS, 2009a). Al´ m
                                                                                    e
                                   ¸˜                          ¸˜
disso, podem existir tamb´ m indicacoes de vazamento de informacoes pessoais na pr´ pria URL,
                         e                                                        o
por exemplo os identificadores de usu´ rios das RSOs que aparecem em perfis, fotos, entre ou-
                                    a
tros que podem ser vistos, em sua maioria, por qualquer usu´ rio da RSO. Os meios adotados
                                                           a
            ¸˜
foram avaliacao de URLs, para isto foi utilizada uma base de dados real que foi detalhada na
secao 3.1 e an´ lise de cabecalhos HTTP2 , nesta ultima foi utilizada uma extens˜ o para captura
  ¸˜          a             ¸                    ´                              a
de cabecalhos. A partir desta an´ lise foi desenvolvida uma extens˜ o para o navegador Mozilla
       ¸                        a                                 a
Firefox capaz de encontrar automaticamente vazamentos de IIP no Orkut para sites de terceiros
atrav´ s dos cabecalhos HTTP das p´ ginas Web chamadas por links de propagandas da RSO,
     e           ¸                a
   2
                                                                                                       ¸˜ ´
     HyperText Transfer Protocol: Protocolo de Transferˆ ncia de Hipertexto, este protocolo de comunicacao e
                                                           e
                                  ¸˜
utilizado para sistemas de informacao de hiperm´ dia distribu´dos e colaborativos.
                                               e             ı
14


neste caso o Orkut.
       Este trabalho est´ dividido em 6 cap´tulos. Os trabalhos relacionados s˜ o apresentados
                        a                  ı                                  a
no cap´tulo 2. No cap´tulo 3, encontra-se a metodologia adotada para a an´ lise, busca de vaza-
      ı              ı                                                   a
                 ¸˜                                           ¸˜
mentos de informacoes e desenvolvimento da ferramenta de deteccao proposta. Os resultados
obtidos a partir da an´ lise de URLs e cabecalhos HTTP s˜ o apresentados no cap´tulo 4. O
                      a                    ¸            a                      ı
cap´tulo 5 detalha a ferramenta desenvolvida juntamente com a an´ lise dos resultados de sua
   ı                                                            a
      ¸˜
aplicacao. Por fim, no cap´tulo 6 encontram-se a conclus˜ o e os trabalhos futuros.
                         ı                             a
15

       ˜
2 REVISAO DE LITERATURA



         Aqui neste cap´tulo s˜ o apresentados os trabalhos relacionados ao estudo aqui reali-
                       ı      a
           ¸˜
zado. Na secao 2.1 s˜ o apresentados trabalhos que discutem a privacidade na Web. Proprie-
                    a
                                        ¸˜                                              ¸˜
dades de vazamentos s˜ o relatadas na secao 2.2, que por sua vez divide-se em duas subsecoes.
                     a
       ¸˜
A subsecao 2.2.1 mostra vazamentos de navegadores Web, como tamb´ m de aplicativos e ex-
                                                                e
    o                                ¸˜
tens˜ es destes navegadores. Na subsecao 2.2.2 s˜ o descritos trabalhos que apontam vazamentos
                                                a
                                    ¸˜                                                    ¸˜
em Redes Sociais Online (RSO), na secao 2.3 s˜ o apontadas t´ cnicas utilizadas para deteccao
                                             a              e
                       ¸˜               ¸˜                          ¸˜
do vazamento de informacao. As consideracoes finais s˜ o feitas na secao 2.4.
                                                    a



2.1   Privacidade na Web



        A privacidade na Web tornou-se uma quest˜ o importante e tem sido muito discutida
                                                a
    ´                                     ¸˜
nos ultimos tempos. Existem diversas definicoes para privacidade, Ferreira (2004) a define
como “intimidade pessoal ou de grupo definido de pessoas, particular”, j´ Michaelis (2007)
                                                                       a
                                                       ´
define privacidade como “privatividade” que por sua vez e definida por “privativo” que significa
“Particular, pessoal, peculiar, pr´ prio, exclusivo”. Mas para Krishnamurthy (2010) quando
                                  o
                                                    ¸˜
trata-se de privacidade na Web n˜ o existe uma definicao exata para privacidade pessoal.
                                a
        A quest˜ o da privacidade pode ser vista por diferentes formas entre os diferentes usu´ rios
               a                                                                              a
inclusive entre os que convivem em uma mesma sociedade. Para Warren e Brandeis (1890),
             ´
“privacidade e o direito de estar sozinho”, os autores apresentam a seguinte regra “O direito a
                                 ¸˜
privacidade termina com a divulgacao de fatos pelo propriet´ rio do fato ou com o seu consenti-
                                                           a
                                                       ´
mento”. Portanto, segundo este trabalho, a privacidade e uma quest˜ o pessoal e uma vez que o
                                                                  a
        a                    ¸˜
propriet´ rio divulga informacoes ele n˜ o possui o direito de requerer novamente a privacidade
                                       a
sobre tal fato.
                                                                                  ¸˜
        Segundo Wang, Lee e Wang (1998) privacidade geralmente refere-se a informacoes pes-
                                 ´                                             ¸˜
soais, e invas˜ o de privacidade e geralmente interpretada como coleta, divulgacao ou outro uso
              a
                          ¸˜                                           ´
n˜ o autorizado de informacoes pessoais. Para Yee (2007) a privacidade e a habilidade de contro-
 a
        ¸˜        ¸˜             ¸˜           o             ¸˜
lar colecao, retencao e distribuicao de sua pr´ pria informacao. Assim qualquer indiv´duo que
                                                                                     ı
                          ¸˜
divulgue ou colete informacoes de outro sem seu consentimento est´ violando a privacidade
                                                                 a
pertencente a este.
16


       Patel e Juric (2001) examinam o estado atual da privacidade na Internet, avaliando as
                                                            ¸˜
necessidades dos usu´ rios no Reino Unido em termos de protecao da privacidade online. Foram
                    a
                                                            ¸˜
analisadas atitudes para com a privacidade online, e a protecao da privacidade para os usu´ rios
                                                                                          a
                             ¸˜
existentes, tais como legislacao e ferramentas tecnol´ gicas. A pesquisa revela um elevado grau
                                                     o
           ¸˜                                                                            ¸˜
de preocupacao entre os usu´ rios relacionados com a sua privacidade em termos de informacoes
                           a
            ¸˜                                                    ¸˜
de identificacao pessoal que eles fornecem para websites, a informacao de que sites da Web
             e                             ¸                  ¸˜
coletam atrav´ s do uso de cookies e enderecos IP e as informacoes obtidas por usu´ rios online
                                                                                  a
atrav´ s de rastreamento atividades.
     e
                                     ´                              ¸˜
       Fogg et al. (2001) afirmam que e poss´vel observar a proliferacao de websites de qua-
                                           ı
                          ¸˜                                              ¸˜
lidade duvidosa de informacao e websites que realizam a coleta das informacoes dos usu´ rios
                                                                                      a
de modo invasivo e indiscriminado. Tendo em vista isto os usu´ rios Web est˜ o cada vez mais
                                                             a             a
preocupados. O trabalho de Zorzo e Cereda (2009) tamb´ m relata a coleta de dados sem o
                                                     e
conhecimento e consentimento dos usu´ rios, revelando seu perfil, seu comportamento, al´ m
                                    a                                                 e
                 ¸˜
de outras informacoes que podem ser utilizadas de forma inadequada, prejudicando o mesmo.
Segundo os autores a privacidade na Web influencia diretamente a confianca que os usu´ rios
                                                                      ¸            a
                                     ´
possuem nos websites, devido a isto, e proposto um conjunto de medidas utilizadas para calcu-
lar fatores de invas˜ o de privacidade e graus de confianca e desconfianca de um determinado
                    a                                   ¸             ¸
   a            ¸˜
usu´ rio em relacao a um conte´ do de um website.
                              u
                                        ´
       Outra quest˜ o sobre privacidade e apresentada no trabalho de Krishnamurthy e Wills
                  a
                                e                             ¸˜
(2009a). Segundo os autores as t´ cnicas existentes para protecao da privacidade que s˜ o utili-
                                                                                      a
                    ¸˜            ¸˜
zadas possuem limitacoes na prevencao da difus˜ o de privacidade. Estas t´ cnicas restringem o
                                              a                          e
                                                                              ¸˜
download de conte´ do de terceiros na forma de cookies, JavaScript e identificacao de URLs.
                 u
Al´ m disto, os resultados apontados pelos autores mostram que agregadores est˜ o trabalhando
  e                                                                           a
em formas para esconder sua presenca em websites acessados pelos usu´ rios.
                                  ¸                                 a
       Em uma extens˜ o do trabalho anterior Krishnamurthy e Wills (2009b) fazem um exame
                    a
                                                       ¸˜
das diversas maneiras pelas quais agregadores de aquisicao de dados externos aos websites bus-
              ¸˜                                ¸˜
cam as informacoes e da profundidade das informacoes relacionadas a usu´ rios adquiridas. Os
                                                                       a
                                       ¸˜
resultados obtidos mostraram uma agregacao cada vez maior de dados relacionados ao usu´ rio
                                                                                      a
por um n´ mero cada vez menor de entidades. Empresas s˜ o capazes de rastrear o movimento de
        u                                             a
usu´ rios em quase todos os websites populares da Web. Assim os autores constataram que prati-
   a
                                   ¸˜                ¸˜
camente todas as t´ cnicas de protecao possuem limitacoes significativas e destacam a gravidade
                  e
                                      ¸˜
deste problema e a necessidade de solucoes para este.
17


                                           ´
       Krishnamurthy (2010) relata que nos ultimos anos tornou-se familiar pessoas carrega-
                                          ¸˜
rem uma quantidade significativa de informacoes sobre si mesmas em uma variedade de Redes
Sociais Online (RSO). Algumas pessoas podem ter uma vis˜ o livre de privacidade e argumen-
                                                       a
                                                                  ¸˜
tam que as pessoas devem ser autorizadas a postar qualquer informacao sobre si mesmas e que
 a                                   ¸˜
n˜ o deve se fazer leis contra tais acoes. Mas Krishnamurthy (2010) explica que muitos usu´ rios
                                                                                          a
 a e            e                                  ¸˜
n˜ o tˆ m consciˆ ncia dos perigos que suas informacoes podem estar correndo na Web e defende
              ¸˜        a                         e                         ¸˜
a conscientizacao do usu´ rio. Staddon (2009) tamb´ m defende a conscientizacao dos usu´ rios
                                                                                       a
       ¸˜
em relacao aos riscos de privacidade, bem como esforcos de pesquisa devem centralizar-se em
                                                    ¸
                             ¸˜          ¸˜
m´ todos eficientes para deteccao de violacao de privacidade.
 e



2.2              ¸˜                         ¸˜
      Caracterizacao do vazamento de informacao



                             ¸˜
       O vazamento de informacao pessoal refere-se ao desrespeito a privacidade de indiv´duos
                                                                                        ı
                                                            ¸˜
na Web. Entre os trabalhos que relatam vazamentos de informacoes em websites destaca-se
                                                      ¸˜                ¸˜            ¸˜
Krishnamurthy (2010), que define o vazamento de informacoes como a exposicao da informacao
que pode ser usada para distinguir algum traco de identidade de um indiv´duo na Web. Esta
                                            ¸                           ı
       ¸˜                                                ¸˜               ¸˜
informacao pode estar sozinha ou combinada com as informacoes de identificacao pessoal (IIP)
que est´ ligada a um indiv´duo espec´fico.
       a                  ı         ı
       Krishnamurthy e Wills (2006) acrescentam alguns fatos que facilitam este vazamento,
       a               ¸˜
estes s˜ o a centralizacao dos servidores dos websites e a ingenuidade de alguns usu´ rios. Estes
                                                                                    a
usu´ rios n˜ o tˆ m ideia do que est˜ o deixando dispon´vel na Internet o que soma a sua identidade
   a       a e                      a                  ı
disseminando-a para outras partes que n˜ o os sites visitados diretamente. Krishnamurthy (2010)
                                       a
afirma que a Internet n˜ o esquece dados, ou seja, uma vez que o dado vazou na Web est´
                      a                                                              a
divulgado para sempre, n˜ o importa que seja removido em seu ponto de origem.
                        a
       Em Dey e Weis (2010) os autores apontam problemas de vazamento em sistemas fede-
rados a login como o openID. Este sistema permite que os usu´ rios possuam identidades entre
                                                            a
          ¸˜
uma federacao de provedores de identidade, oferecendo mais flexibilidade aos usu´ rios finais.
                                                                               a
Isto acontece sem que o usu´ rio precise utilizar o login convencional, pois este acessa o pro-
                           a
                                                                                         ¸˜
vedor de identidade para que este o identifique em diversos sites, associando suas informacoes
            ¸˜
de identificacao destes ao servidor do sistema federado a login. Embora agilizem o login, estes
provedores podem criar riscos para a privacidade do usu´ rio, j´ que os provedores de identi-
                                                       a       a
18


dade s˜ o os gerentes da identidade do usu´ rio, como mostrado na Figura 1 que relata o fluxo
      a                                   a
          ¸˜                                                                           ¸˜
de informacoes trocados entre os envolvidos no login. Onde o IDP (Provedor de identificacao
         ´
pessoal) e consultado pelo RP (site que delegam logins para o provedor de identidade) quando
o usu´ rio deseja logar-se neste e o IDP verifica sua identidade repassando-a ao site. O pro-
     a
              ´
blema central e que um provedor de identidade pode liberar dados, de forma intencional, sobre
o usu´ rio sem o consentimento deste, por exemplo, liberar dados sobre os locais visitados.
     a

                                 Figura 1 – Sistema federado a login




                                  Fonte: Adaptado de Dey e Weis (2010).


        Para solucionar este problema, Dey e Weis (2010) criaram um sistema de login chamado
                                                                           ´
PseudoID proposto a fim de melhorar a privacidade do usu´ rio. Este sistema e baseado em
                                                       a
assinaturas digitais cegas1 e e compat´vel com um sistema popular de login federado. Ele foi
                              ´       ı
projetado para desvincular o sistema federado a login e consiste em um servico de token, o
                                                                            ¸
                                                                       ¸˜
qual o usu´ rio solicita a fim de obter acesso, usado durante a configuracao, e um provedor de
          a
identidade privada.
                                    e    a                      ¸˜
        Problemas de vazamentos tamb´ m s˜ o apontados em aplicacoes como Google Docs.
Segundo D’Angelo, Vitali e Zacchiroli (2010) o preco a se pagar em seu uso implica uma
                                                  ¸
perda fundamental de controle sobre o conte´ do que os usu´ rios acreditam est´ confinado ao
                                           u              a                   a
seu sistema de arquivos e suas listas de controle de acesso, mas estes n˜ o est˜ o protegidos do
                                                                        a      a
                                                a        ¸˜
fornecedor do software. Os problemas apontados s˜ o retencao de dados n˜ o autorizados e de
                                                                       a
   1
     Em uma assinatura cega o usu´ rio deseja obter uma assinatura em mensagens sem revelar seu conte´ do para
                                  a                                                                  u
                        ´
o assinante, um exemplo e a chave prim´ ria do RSA.
                                       a
19


      ¸˜
agregacao realizada por prestadores de servicos e suportes de dados. A pol´tica de privacidade
                                            ¸                             ı
         ¸          ´                           a                     a             ´
dos servicos online e incapaz de proteger os usu´ rios contra essas pr´ ticas. Isto e, vazamentos
          ¸˜
de informacoes privadas a terceiros de maneira n˜ o autorizada. O vazamento poderia ser o
                                                a
efeito resultante de deliberadas atividades comerciais, gerenciamento de falhas, ou at´ mesmo
                                                                                      e
                                                             ¸˜
erros de software . Al´ m da possibilidade concreta de aquisicao de dados indesejados e coleta
                      e
impostas pelos governos ou outras autoridades.



2.2.1   Vazamentos em navegadores Web



                             ¸˜
        Vazamentos de informacoes podem ocorrer tamb´ m atrav´ s de navegadores Web. O
                                                    e        e
trabalho de Aggarwal et al. (2010) relata que existem muitas extens˜ es e plugins que compro-
                                                                   o
metem a seguranca dos navegadores. Isto acontece porque estas podem deixar vest´gios em
               ¸                                                               ı
disco sobre o comportamento de um usu´ rio enquanto este est´ navegando em modo privado.
                                     a                      a
Segundo os autores o navegador n˜ o poderia permitir que o site seja capaz de identificar um
                                a
usu´ rio que o acessa pela segunda vez se este estiver em modo privado, como tamb´ m n˜ o pode
   a                                                                             e    a
lig´ -lo em modo privado quando este acessou anteriormente em modo p´ blico.
   a                                                                u
        Grier, Tang e King (2011) tamb´ m relatam falhas atrav´ s de plugins e apontam 301
                                      e                       e
vulnerabilidades encontradas, incluindo erros na m´ quina virtual Java (Java Virtual Machine),
                                                  a
no Adobe PDF Reader e no Adobe Flash Player. Os autores apontam que tais falhas fazem os
navegadores vulner´ veis a vazamentos e ataques. Existe ainda a possibilidade do navegador
                  a
          a       a                                                                     ¸˜
hospedar v´ rias p´ ginas ao mesmo tempo, com a possibilidade de cada uma ser uma aplicacao
diferente, isto ajuda a diminuir a seguranca do navegador. Isto acontece devido a scripts e ob-
                                          ¸
jetos de uma origem acabam sendo capazes de acessar outros scripts e objetos de outra origem.
      ¸˜
Aplicacoes deste princ´pio tendem a ser sujeito a erros, devido a complexidade dos navegadores
                      ı
modernos como confirmado tamb´ m por Chen, Ross e Wang (2007).
                            e
        Em seu trabalho Grier, Tang e King (2011) tamb´ m realizaram uma an´ lise em browsers
                                                      e                    a
que denuncia falhas de seguranca em navegadores Web populares. Os autores realizaram testes
                              ¸
em quatro navegadores diferentes no ano de 2010. O resultado obtido aponta falha em todos
eles. Sendo que o navegador Internet Explorer demonstrou 93 vulnerabilidades de seguranca,
                                                                                       ¸
Mozilla Firefox 74 vulnerabilidades, Safari apresentou 29 vulnerabilidades e Opera possu´a
                                                                                        ı
apenas 9. Estes resultados demonstram que os navegadores mais populares s˜ o os que demons-
                                                                         a
20


traram mais falhas, podendo resultar em vazamentos ou aberturas para ataques.
                             ¸˜
        Vazamentos de informacao via browser tamb´ m foram descritos por Jackson et al.
                                                 e
(2006). O trabalho relata a existˆ ncia de meios para rastreamento de usu´ rios na Web por meio
                                 e                                       a
                                                                                        ¸˜
do navegador. Entre estes meios encontra-se uma variedade de m´ todos de cache e a inspecao
                                                              e
                                                                                   a ´
da cor de um hiper-link visitado. Os autores explicam que a cache dos navegadores n˜ o e de-
                                                                                 ¸˜
vidamente particionada o que possibilita que qualquer website acesse suas informacoes mesmo
que estas pertencam a outro. Para solucionar este problema, Jackson et al. (2006) prop˜ em o
                ¸                                                                     o
                                                                            ¸˜
refinamento do conhecimento geral da origem dos sites para cache e implementacao de duas
extens˜ es de navegador que imp˜ em essa pol´tica na cache do navegador e nos links visitados.
      o                        o            ı
          e                                                 a                ¸˜
        Al´ m disto, Jackson et al. (2006) realizaram uma an´ lise de cooperacao dos sites para
o rastreamento de usu´ rios. Esta demonstra que mesmo com o navegador corretamente parti-
                     a
               ´
cionado, ainda e poss´vel que sites da Web utilizem recursos modernos para saltar entre sites e
                     ı
usu´ rios de forma invis´vel envolvendo-se em v´ rios dom´nios de monitoramento de seus visi-
   a                    ı                      a         ı
tantes. Assim, os autores tamb´ m prop˜ em um mecanismo novo de bloqueio de cookie. Este
                              e       o
mecanismo combina os pontos fortes do navegador Mozilla Firefox, que verifica o dom´nio
                                                                                  ı
                ´                                                                 ´
quando o cookie e definido, e do navegador Internet Explorer que define quando este e lido.



2.2.2   Vazamentos nas Redes Sociais



        Um dos locais mas suscet´veis a vazamentos s˜ o as Redes Sociais Online (RSO), isto
                                ı                   a
                                     ¸˜
acontece por existirem tantas informacoes pessoais cadastradas. Krishnamurthy e Wills (2010a)
mostram a possibilidade de terceiros (indiv´duos n˜ o autorizados) ligarem IIP vazadas das RSO
                                           ı      a
     ¸˜
com acoes dos usu´ rios, dentro desta e at´ mesmo fora. Isto n˜ o s´ possibilita que terceiros
                 a                        e                   a o
sejam capazes de conhecer os h´ bitos de vis˜ o de algum usu´ rio, mas poderiam associar seus
                              a             a               a
                     ¸˜
h´ bitos de visualizacao a uma pessoa especifica. Um dos problemas apontados pelos autores
 a
´          ¸˜        ´
e a utilizacao de um unico identificador para cada usu´ rio como uma chave para armazenar
                                                     a
            ¸˜                                     ´
suas informacoes. Este identificador, muitas vezes, e mostrado em URLs quando um usu´ rio
                                                                                   a
                                                                            ´
visualiza ou edita seu perfil na RSO ou seleciona a imagem de um amigo. Isto e preocupante,
                        ¸˜
pois nem todas as interacoes ficam dentro da RSO.
                 e ´
        Isto tamb´ m e relatado em Krishnamurthy e Wills (2008). Um exemplo de vazamento
para terceiro, tamb´ m citado pelos autores, s˜ o os aplicativos externos utilizados hoje nas RSOs.
                   e                          a
21


                                                                    ¸˜
Nestes aplicativos os usu´ rios concedem acesso a todas suas informacoes mesmo quando este
                         a
aplicativo precise apenas de algumas destas. A maioria dos usu´ rios n˜ o tˆ m ideia deste aconte-
                                                              a       a e
                                                                      ¸˜
cimento, mas s˜ o incentivados a compartilhar uma variedade de informacoes. Outro problema
              a
                       ´
apontado pelos autores e o controle de privacidade, os fatores deste deveriam ser administrados
                        ´
pelo usu´ rio, mas este e dirigido pela RSO.
        a
       Os servidores de terceiros est˜ o ainda mais incorporados nas RSO para dispositivos
                                     a
m´ veis. Segundo Krishnamurthy e Wills (2010b) a existˆ ncia de servidores de terceiros no
 o                                                    e
  a               o                                            ¸˜
tr´ fego das RSO m´ veis faz com que estes possam obter informacoes de ambas, as RSO m´ veis
                                                                                      o
e as RSO tradicionais (acessadas via navegadores desktop). Isso acontece devido a estrutura
        a    o          ´
de conex˜ o m´ vel, que e demonstrada na Figura 2, onde pode ser observada a existˆ ncia de
                                                                                  e
                                                                          ¸˜
servidores de terceiros. Esses servidores de terceiros podem obter informacoes de RSO m´ veis
                                                                                       o
e tradicionais, como o servidor de terceiros n´ mero 2 pela Figura 2. Alguns servidores de
                                              u
terceiros, tais como os servidores 3 e 4, podem concentrar-se no mercado m´ vel. Do ponto
                                                                          o
de vista do vazamento de privacidade, o servico de conex˜ o cria cen´ rios problem´ ticos. Por
                                             ¸          a           a             a
                   ¸˜
exemplo, a localizacao de um usu´ rio compartilhado com a RSO m´ vel via telefone inteligente,
                                a                              o
             ¸˜                                                                              ¸˜
esta localizacao pode ser vazada para o servidor de terceiros 3, que n˜ o possui nenhuma relacao
                                                                      a
imediata ou direta com a RSO m´ vel.
                              o

                                                    ¸˜
                   Figura 2 – Interfaces e interligacoes para RSO m´ veis
                                                                   o




                        Fonte: Adaptado de Krishnamurthy e Wills (2010b).
22


                                                                                          ¸˜
         Al´ m disso, Krishnamurthy e Wills (2010b) criticam a maneira pela qual a informacao
           e
        ´
privada e recolhida pelas entidades envolvidas. Segundo os autores, muitas vezes, esta forma
´
e escondida dos usu´ rios. Isto faz com que seja dif´cil para o usu´ rio conhecer e controlar as
                   a                                ı              a
 a                                                   ¸˜
v´ rias entidades que podem ter acesso a suas informacoes. Os usu´ rios n˜ o fazem um bom uso
                                                                 a       a
do sistema de controle de privacidade, como relatado tamb´ m em Krishnamurthy (2010). A
                                                         e
coleta de dados de onze RSO mostra que a maioria dos usu´ rios na rede ainda permite que suas
                                                        a
       ¸˜
informacoes de perfil sejam vis´veis e que 80 a 97% dos usu´ rios permitem que seu grupo de
                              ı                           a
amigos seja visualizado.
         Em seu trabalho Staddon (2009) analisaram m´ todos aplicados a RSO LinkedIn, onde
                                                    e
                                                                                 ¸˜
foram adotados m´ todos simples para descobrir vazamentos escondidos nas configuracoes de
                e
                                            ´
privacidade da RSO. Um dos m´ todos citados e o Sybil, este foi um dos aplicados ao LinkedIn.
                            e
Sybil e uma extens˜ o que analisa contatos de 3o grau, facilitando a descoberta da origem, por
      ´           a
exemplo, de phishing2 . LinkedIn n˜ o fornece essas informacoes para contatos de 3o grau, mas
                                  a                        ¸˜
com o Sybil isso se torna desnecess´ rio.
                                   a



2.3                        ¸˜                          ¸˜
       T´ cnicas para deteccao de vazamentos de informacao
        e



                                            e                           ¸˜
         Entre os trabalhos que apresentam t´ cnicas e formas para deteccao de vazamentos est´
                                                                                             a
Krishnamurthy e Wills (2010a). Em seu trabalho os autores apontam trˆ s diferentes t´ cnicas,
                                                                    e               e
                   ¸˜
estas s˜ o solicitacao de URLs, referˆ ncias em cabecalhos HTTP e cookies. Os cabecalhos HTTP
       a                             e              ¸                             ¸
            ¸˜
s˜ o informacoes que se intercambiam entre o navegador, ou qualquer outro cliente, e o servidor
 a
                                                                                       ¸˜
Web que hospeda uma p´ gina que se deseja consultar. Estes permitem transportar informacao
                     a
de controle entre o cliente e o servidor, como o estado de resposta do servidor, cookies enviadas
ao cliente, tipo de conte´ do que se est´ enviando/recebendo, momento no qual se realizam as
                         u              a
        ¸˜                         ¸˜
solicitacoes ou entregas de informacoes, entre outros.
         Krishnamurthy e Wills (2010a) tamb´ m utilizaram a extens˜ o Live HTTP Header para
                                           e                      a
Mozilla Firefox (SAVARD; COUKOUMA, 2011) para an´ lise de cabecalhos HTTP, m´ todo tamb´ m
                                                a             ¸             e          e
utilizado por Krishnamurthy e Wills (2009a). Os autores afirmam que existem ao menos trˆ s
                                                                                      e
                              ¸˜
maneiras de transmitir informacoes de usu´ rios, estas s˜ o o campo Referer, o Request-URI, ou
                                         a              a
um cookie. Os campos Referer, o Request-URI e cookie encontram-se no cabecalho HTTP.
                                                                         ¸
   2
    fraude eletrˆ nica, caracterizada por tentativas de adquirir dados pessoais de diversos tipos, estes s˜ o senhas,
                o                                                                                         a
dados financeiros como n´ mero de cart˜ es de cr´ dito e outros dados pessoais.
                          u             o         e
23


                            ¸˜
O campo Referer tem como funcao especificar para p´ gina Web atual o local de onde esta foi
                                                 a
requisitada, como outra p´ gina, assim este campo cont´ m dados enviados pela p´ gina anterior
                         a                            e                        a
                                                                      ¸˜                   ´
caso este tenha partido de uma. O Request-URI indica o modo de requisicao da p´ gina, este e
                                                                              a
             e                  ¸˜
formado por m´ todo, a identificacao do URI (Request-URI) e a vers˜ o do HTTP utilizado. O
                                                                 a
                            ¸˜                      ´
campo cookie cont´ m informacoes do cookie real que e um grupo de dados trocados entre o
                 e
navegador e o servidor da p´ gina, maiores detalhes sobre estes campos em Tanenbaum (2002).
                           a
        Os vazamentos atrav´ s destes meios s˜ o demonstrados na Figura 3. A Figura 3(a) exibe
                           e                 a
um vazamento do identificador Facebook via o campo Referer do cabecalho HTTP. Na Figura
                                                                 ¸
     ´                                              ´
3(b) e poss´vel perceber que o identificador Twitter e enviado via Request e na Figura 3(c) o
           ı
                                                           ¸˜        ´        ¸˜
mesmo identificador encontra-se no campo Cookie. Uma observacao feita e que a acao que
                         a ´                           ´                                  ´
desencadeia o vazamento n˜ o e algo expl´cito por isso e impercept´vel para os usu´ rios. E
                                        ı                         ı               a
                                  a                a       a                       ¸˜
relatado ainda que maioria dos usu´ rios de RSO est´ vulner´ vel a ter suas informacoes de
identidade relacionadas a cookies de rastreamento3 .
                 Figura 3 – Vazamento de identificadores RSO para terceiros




                                 Fonte: Krishnamurthy e Wills (2010a).


        Krishnamurthy (2010) apresenta as t´ cnicas de vazamento de dados mais utilizadas, en-
                                           e
                                         ´
tre elas a mais simples e mais utilizada e a an´ lise de URLs HTTP. S˜ o relatadas tamb´ m algu-
                                               a                     a                 e
mas t´ cnicas para evitar tais vazamentos, como criptografia dos dados e tornar o banco de dados
     e
  o                                                 ¸˜
anˆ nimo (Anonymization). O autor defende ainda criacoes de extens˜ es para navegadores Web
                                                                  o
por ser algo popular e n˜ o muito dif´cil de implementar, al´ m disto podem ser disponibilizadas
                        a            ı                      e
   3
     Cookies de rastreamento s˜ o muitas vezes cadeias com semˆ ntica oculta conhecida apenas pela parte de
                              a                               a
       ¸˜
atribuicao do cookie.
24


para os usu´ rios para download. Tentativas mais sofisticadas, tais como, modificar navegadores
           a
ou pacotes externos Javascript tamb´ m foram feitas pelo autor.
                                   e
                                               ¸˜
       Em Krishnamurthy e Wills (2010b) a deteccao de vazamentos foi feita atrav´ s das inter-
                                                                                e
faces de cada uma das RSO m´ veis estudadas, capturando todos os pedidos HTTP e cabecalhos
                           o                                                        ¸
de resposta enviados e recebidos por um navegador Web, m´ vel ou n˜ o, e aplicativos. Utilizou-
                                                        o         a
se um dispositivo iPhone para o estudo do comportamento do aplicativo de cada RSO m´ vel por
                                                                                   o
fornecer ampla cobertura ao estudo do conjunto de RSOs m´ veis. Sess˜ es m´ ltiplas para cada
                                                        o           o     u
                                                                                       ¸˜
interface da RSO foram usados para recolher dados sobre poss´veis vazamentos de informacao
                                                            ı
privada.
       Queiroz e Queiroz (2010) apontam erros nos cookies, o que pode levar ao vazamento de
       ¸˜                                ´
informacao. Segundo os autores um cookie e um pequeno arquivo criado pelo servidor, a fim de
                                                  ¸˜
atender suas necessidades para manter sua comunicacao com o cliente. Uma vez que na grande
                       a      a      a                           ¸˜
maioria do tempo, o usu´ rio n˜ o est´ disposto a revelar informacoes pessoais, isso torna-se um
                                                                      ¸˜
problema. Um indiv´duo com um computador qualquer pode acessar informacoes privadas de
                  ı
                           ¸˜
outro atrav´ s da substituicao de cookies roubados.
           e
       Muitas vezes, apenas um par de atributos s˜ o necess´ rios, e a t´ cnica conhecida como
                                                 a         a            e
                        ´                                ´
XSS (Cross Site Script) e usada, a fim de obtˆ -los. Isto e relatado por CARNEGIE MELLON
                                            e
                         e                           ¸˜
UNIVERSITY (2000), esta t´ cnica consiste em uma injecao de c´ digos maliciosos com o obje-
                                                             o
                    a                                                     ¸˜
tivo de adquirir parˆ metros de um site usando uma linguagem de interpretacao para as p´ ginas
                                                                                       a
de Internet “JavaScript”. Em Kirda et al. (2006) ataques XSS s˜ o descritos como f´ ceis de
                                                              a                   a
executar, mas dif´ceis de detectar e prevenir.
                 ı
       Das t´ cnicas existentes em vazamento em browsers (navegadores Web) Jackson et al.
            e
                                        ¸˜
(2006) relatam m´ todos de cache e inspecao da cor de um hiper-link visitado. Embora a ca-
                e
                                                                    ´
che melhore o desempenho do navegador e diminua o tr´ fego em rede, e um visado alvo para
                                                    a
                                             ¸˜
ataques de privacidade, pois armazena informacoes persistentes de um site na m´ quina local
                                                                              a
                                                                                        ¸˜
sem esconder a sua existˆ ncia a outros sites. Isso permite que sites acessem as informacoes
                        e
                                  ´
pertencentes a outros sites. Isso e poss´vel devido a cache dos navegadores n˜ o ser devidamente
                                        ı                                    a
                                 ¸˜
particionada em sites. J´ a inspecao do hiper-link acontece por o navegador permitir um site
                        a
pode consultar o banco de dados do hist´ rico do navegador, permitindo a este visitar p´ ginas ou
                                       o                                               a
                     ¸˜
inserir novas informacoes no banco de dados.
25


2.4            ¸˜
      Consideracoes finais



          Os trabalhos aqui relatados confirmam a existˆ ncia dos vazamentos de IIP na Web, mos-
                                                      e
                                 ´                      ¸˜
trando o qu˜ o relevante e atual e este assunto. Informacoes pessoais possuem grande valor para
           a
                                                                                ¸˜
agregadores o que torna as RSOs um alvo muito atraente para busca destas informacoes, como
                                                                         ¸˜
relatam Krishnamurthy e Wills (2009b) e Riederer et al. (2011). As interacoes com servidores
externos, como aplicativos e links de propagandas, facilitam os vazamentos para estes servido-
                                                                   ´
res de terceiros quando estes n˜ o s˜ o tratados devidamente, isto e confirmado por Yang et al.
                               a a
(2012).
          Tendo em vista o problema apontado, este trabalho concentra-se em vazamentos de
       ¸˜
informacoes para p´ ginas externas a RSO Orkut, especificamente links de propagandas. O
                  a
estudo aqui realizado baseia-se nos trabalhos de Krishnamurthy e Wills (2008), Krishnamurthy
e Wills (2010a) e Krishnamurthy e Wills (2010b), que realizaram buscas de vazamentos em
RSO a partir de an´ lise de URLs e cabecalhos HTTP, que s˜ o os m´ todos tamb´ m utilizados
                  a                    ¸                 a       e           e
aqui. Como Krishnamurthy (2010) que al´ m de defender a busca de vazamentos por estes meios
                                      e
             ¸˜
sugere a criacao de extens˜ es para navegadores Web com este fim, como foi feito neste trabalho.
                          o
                                                               ¸˜
Nenhum dos trabalhos aqui citados avaliou vazamentos de informacoes pessoais na RSO Orkut,
    ´
que e a proposta deste trabalho.
26


                        ¸˜                          ¸ ˜
3 METODOLOGIA PARA DETECCAO DE VAZAMENTOS DE INFORMACOES NO
ORKUT



                  ı     ´
         Neste cap´tulo e apresentada a metodologia para busca e an´ lise de vazamentos de
                                                                   a
       ¸˜                         ¸˜      ´
informacoes pessoais na Web. Na secao 3.1 e descrita a busca de URLs que contenham ou
                              ¸˜                  ¸˜      ´
indiquem vazamentos de informacoes pessoais. Na secao 3.2 e descrito o m´ todo de busca
                                                                        e
                                               ¸˜                                  ¸˜
de vazamentos atrav´ s de cabecalhos HTTP. A secao 3.3 relata a forma de implementacao da
                   e          ¸
extens˜ o desenvolvida para captura de vazamentos na Rede Social Online (RSO) Orkut.
      a



3.1                        ¸˜
       Vazamento de informacoes via URL



             ´                                               ¸˜
        Aqui e apresentada a metodologia utilizada para deteccao de URLs que pertencam ao
                                                                                   ¸
                                                              ¸˜
protocolo HTTP e que indiquem ou possuam vazamentos de informacao na RSO Orkut. Como
dito anteriormente, esta RSO foi escolhida por n˜ o terem sidos encontrados estudos relatando
                                                a
este tipo de vazamento e possuir um grande p´ blico no Brasil (ALEXA - THE WEB INFORMA-
                                            u
TION COMPANY,      2012). A quantidade existente de usu´ rios torna o Orkut uma grande base de
                                                       a
       ¸˜          ´                                           ¸˜
informacoes, o que e muito atrativo para agregadores de informacao.
              a               ¸˜                                a               ¸˜
        O padr˜ o de identificacao destas URLs foi retirado da an´ lise de navegacao feita atrav´ s
                                                                                               e
dos textos do endereco URL da RSO. Nesta an´ lise foi observado onde existe troca de dados
                    ¸                      a
                                    ¸˜                                               ¸˜
com meios externos ao Orkut, informacoes que possam identificar ou ajudar na identificacao de
usu´ rios contidas na URL e ind´cios que levem a vazamentos por outros meios.
   a                           ı
                                                  ¸˜                                 ¸˜
        Para an´ lise das URLs que possuam informacoes que possam ajudar na identificacao de
               a
usu´ rios foi pesquisada a frequˆ ncia com que estas ocorrem em uma base de dados ofertada por
   a                            e
                                                                   ´
um provedor de Internet banda larga brasileiro. Esta base de dados e referente a 28 dias dos
meses de junho e julho de 2010 (12/06/2010 a 10/07/2010), tamb´ m subdividida em um log de
                                                              e
tr´ fego de um provedor e um log1 de servico DHCP2 . Estes logs s˜ o formados por transacoes.
  a                                       ¸                      a                      ¸˜
Cada transacao e uma conex˜ o ou um fluxo de dados UDP3 analisado do ponto de vista da
           ¸˜ ´           a
                       ¸˜
camada de rede e aplicacao. Mais detalhes sobre os protocolos DHCP, TCP/IP e UDP podem
   1
      Arquivo de registro de eventos relevantes num sistema computacional.
   2
                                              ´                                                 ¸˜
      Dynamic Host Configuration Protocol: e um protocolo de servico TCP/IP que oferece configuracao dinˆ mica
                                                                   ¸                                  a
de terminais.
    3
                                 ´                                                           ¸˜
      User Datagram Protocol: e um protocolo da camada de transporte que permite que a aplicacao escreva um
datagrama encapsulado num pacote.
27


ser encontrados em Tanenbaum (2002).
                 ¸˜                 ¸˜
         A transacao cont´ m informacoes como endereco IP de origem e de destino, protocolo
                         e                          ¸
                                           ¸˜
utilizado, data e hora inicial e final, duracao e volume de bytes enviados e recebidos. O log de
servico DHCP foi utilizado para identificar usu´ rios do provedor atrav´ s de endereco MAC4 do
     ¸                                        a                       e            ¸
equipamento para conex˜ o com o provedor. Por quest˜ o de seguranca os dados dos usu´ rios
                      a                            a             ¸                  a
foram anonimizados (CASTILHO et al., 2010; CASAS et al., 2010).
                                e            o             ¸˜
         Esta base de dados cont´ m 45,6 milh˜ es de transacoes associadas a 48 mil usu´ rios.
                                                                                       a
                a                       ¸˜
Neste estudo ser˜ o utilizadas as transacoes HTTP, pois al´ m deste ser um dos protocolos mais
                                                          e
utilizados para aplicacoes Web, n˜ o e considerado seguro como o HTTPS5 por n˜ o utilizarem
                      ¸˜         a ´                                         a
               ¸˜
nenhuma verificacao de autenticidade.



3.2    Vazamentos via cabecalhos HTTP
                          ¸



         Nesta etapa foram buscados os vazamentos de IIP atrav´ s de cabecalhos HTTP. Os
                                                              e          ¸
    ¸            a          ¸˜
cabecalhos HTTP s˜ o informacoes que se intercambiam entre o navegador, ou qualquer outro
cliente, e o servidor Web que hospeda uma p´ gina que se deseja consultar. Atrav´ s do cabecalho
                                           a                                    e          ¸
                                 ¸˜             ¸˜
HTTP pode-se ter acesso a informacoes de requisicao da p´ gina, modelo do navegador, Host e
                                                        a
                        a                                    ¸              ´
cookies, apesar destes n˜ o serem tratados pelo HTTP. No cabecalho o Cookie e usado por clien-
tes para retornar ao servidor um cookie enviado anteriormente por alguma m´ quina no dom´nio
                                                                          a             ı
do servidor (TANENBAUM, 2002).
         Para obter os dados deste cabecalho foi utilizada uma extens˜ o para navegador Mozilla
                                       ¸                             a
Firefox chamado Live HTTP Headers. O Live HTTP Headers exibe todos os cabecalhos troca-
                                                                          ¸
dos entre o cliente e o servidor atrav´ s do protocolo HTTP, resumindo, todos os GETs, POSTs
                                      e
e demais m´ todos de forms, requests de redirecionamento entre outros. A Figura 4 apresenta
          e
       ¸                           e                          e                      e ´
um cabecalho HTTP visualizado atrav´ s do Live HTTP Header. Al´ m de filtrar, ele tamb´ m e
                                                  ¸˜
capaz modificar e acrescentar cabecalhos de requisicao HTTP (SAVARD; COUKOUMA, 2011).
                                 ¸
   4
                                             ¸˜                                                  ´
      MAC: endereco f´sico de 48 bits da estacao, ou, mais especificamente, da interface de rede, e respons´ vel pelo
                  ¸ ı                                                                                     a
                               ¸˜
controle de acesso de cada estacao a rede Ethernet.
    5
                                           ´                   ¸˜
      HyperText Transfer Protocol Secure: e uma implementacao do protocolo HTTP sobre uma camada SSL ou do
TLS. Essa camada adicional permite que os dados sejam transmitidos atrav´ s de uma conex˜ o criptografada e que
                                                                             e               a
se verifique a autenticidade do servidor e do cliente atrav´ s de certificados digitais.
                                                          e
28

                                 ¸˜
                 Figura 4 – Exibicao do cabecalho no Live HTTP Header
                                            ¸




                                   Fonte: Criada pela autora.


       Atrav´ s dos cabecalhos coletados pela extens˜ o foi feita uma busca por vazamentos de
            e           ¸                           a
       ¸˜
informacoes pessoais na RSO Orkut. Foram capturados cabecalhos HTTP de sites de tercei-
                                                        ¸
ros que foram acessados a partir do redirecionamento da RSO Orkut. Ap´ s sua captura estes
                                                                     o
foram analisados nos campos host, referer e cookie do cabecalho HTTP. O campo host indica
                                                          ¸
                                ¸˜
para onde est˜ o indo as informacoes vazadas, enquanto no Referer e Cookies podem apare-
             a
           ¸˜                      ¸˜
cer informacoes de troca de informacoes pessoais entre a RSO e algum servidor externo. Este
m´ todo tamb´ m foi utilizado em Krishnamurthy e Wills (2010a).
 e          e
              a                          a                           a                   ¸˜
       Esta an´ lise foi de grande importˆ ncia para este trabalho, n˜ o somente na deteccao dos
                     ¸˜
vazamentos de informacao existentes na RSO, mas tamb´ m para determinar a viabilidade destes
                                                    e
               ¸˜
para implementacao da ferramenta proposta.
29


3.3                         ¸˜                          ¸˜
       Ferramenta para deteccao de vazamentos de informacao no Orkut



                                           ¸˜                        ¸˜
         Aqui a metodologia para implementacao da ferramenta de deteccao de vazamentos
         ´
proposta e especificada. Isto foi poss´vel gracas a an´ lise dos vazamentos descobertos nos
                                     ı       ¸       a
cabecalhos HTTP capturados pela extens˜ o Live HTTP Header. A ferramenta desenvolvida
    ¸                                 a
               ´                                                                         ¸˜
neste trabalho e uma extens˜ o capaz de alertar ao usu´ rio da RSO Orkut que suas informacoes
                           a                          a
pessoais est˜ o sendo enviadas a servidores de terceiros, ou seja, vazamentos para p´ ginas Web
            a                                                                       a
carregadas a partir de links de propagandas no Orkut. Esta ferramenta possui os seguintes re-
quisitos:

      • Funcionais:

          1. Ativar pelo menu de contexto do navegador;

          2. Exibir campos do cabecalho HTTP ao usu´ rio;
                                  ¸                a

          3. Verificar existˆ ncia de vazamentos;
                           e

          4. Exibir resultado da consulta ao usu´ rio;
                                                a

          5. Salvar consulta em arquivo texto.

      • N˜ o-funcionais:
         a

          1. Executar no navegador Web Mozilla Firefox;

                                ¸˜
          2. Verificar se requisicao proveio do Orkut;

          3. Armazenar consultas feitas pelos usu´ rios em um Log de sa´da.
                                                 a                     ı

                    a ´
         Esta extens˜ o e executada, assim como o Live HTTP Headers, no navegador Mozilla Fi-
                      ¸˜
refox. Para implementacao da extens˜ o aqui proposta foi utilizado a ferramenta Add-On Buil-
                                   a
                                                              ¸˜
der, criada pela Mozilla Foundation para auxiliar a implementacao de bibliotecas e extens˜ es
                                                                                         o
                                                        ¸˜           ¸˜
para seu navegador. O Add-On Builder facilita a comunicacao da aplicacao com o Mozilla
Firefox (Mozilla FOUNDATION, 2012).
30

                         Figura 5 – Arquitetura Add-On Builder




                             Fonte: Mozilla FOUNDATION (2012)


                    o                    a                            ¸˜
       Mas as extens˜ es Add-On Builder s˜ o diferentes das implementacoes diretamente na
                     ´
Web, onde JavaScript e executado no contexto de uma p´ gina web e tem acesso ao conte´ do
                                                     a                               u
                                                    ´              ¸˜          ´
dessa p´ gina, o DOM (Document Object Model). O DOM e uma especificacao da W3C, e
       a
uma interface de plataforma e linguagem neutra que permite que programas e scripts acessem e
atualizem dinamicamente o conte´ do, estrutura e estilo de documentos, no caso deste trabalho
                               u
p´ ginas Web. O documento pode ser posteriormente tratado e os resultados de processamento
 a
incorporadas para dentro da p´ gina apresentada (WORLD WIDE WEB CONSORTUIM (W3C), 2005).
                             a
       O Add-On Builder n˜ o possui acesso direto ao DOM, existem dois tipos de scripts um
                         a
                                                                                  ¸˜ a
intitulado “Add-on Code” e o outro “Content Scripts”, seu funcionamento e comunicacao s˜ o
ilustrados na Figura 5. Estes scripts possuem acesso a diferentes conjuntos de APIs. O Add-on
     ´                                                                            ´
Code e onde a l´ gica principal da ferramenta esta implementada. O Content Script e utilizado
               o
                      u                ´
para manipular o conte´ do da Web, ele e injetado na p´ gina usando APIs definidas por algum
                                                      a
m´ dulo do SDK do Add-On Builder, estas APIs s˜ o demonstradas na Tabela 1.
 o                                            a
31

                             Tabela 1 – APIs Add-On Builder

                            API                        Add-On Code Content Script
      Os objetos globais definidos no n´ cleo da lin-
                                         u                  X           X
      guagem JavaScript, como Math, Array, e JSON.
                           ´
      O m´ todo require() e definido pela vers˜ o 1.0
           e                                    a           X
                    ¸˜
      da especificacao do m´ dulo CommonJS. O re-
                             o
              ´
      quire() e utilizado para importar funcionalida-
      des de outro m´ dulo e para exportar funciona-
                       o
      lidades do atual m´ dulo para outro. O require()
                         o
      est´ dispon´vel no SDK.
         a       ı
      O console global oferecido pelo SDK Add-On            X           X
      Builder.
             ¸˜
      Definicoes globais especificadas por HTML5,                         X
      como window, document, e lovalStorage.
                                             ¸˜
      O objeto global, usado para comunicacao entre                     X
      Content Script e Add-on Code.

                              Fonte: Mozilla FOUNDATION (2012).


        A ferramenta Leakut foi implementada utilizando, al´ m da linguagem JavaScript j´ re-
                                                           e                            a
latada, HTML e CSS. O JavaScript foi utilizado juntamente com o Content Script do Add-On
Builder na captura dos campos dos cabecalhos HTTP, Host, Referer e Cookie, estes campos
                                      ¸
 a                                   e          a                       ¸˜
s˜ o avaliados para descobrir a existˆ ncia ou n˜ o vazamento de informacoes. A linguagem de
     ¸˜                                                              ¸˜
marcacao HTML e a folha de estilo CSS s˜ o utilizados para implementacao da tela de resposta
                                       a
ao usu´ rio.
      a
32

    ´
4 ANALISE DOS VAZAMENTOS ENCONTRADOS



        Neste cap´tulo s˜ o apresentados os resultados an´ lises dos vazamentos relatados no
                 ı      a                                a
   ı                    ¸˜
cap´tulo anterior. Na secao 4.1 encontra-se a ocorrˆ ncia de identificadores em URLs da RSO
                                                   e
                                         ¸              a        ¸˜
Orkut. Os vazamentos encontrados via cabecalhos HTTP est˜ o na secao 4.2.



4.1   Identificadores em URL Orkut



                                          ¸˜
       Como relatado no cap´tulo 3 informacoes encontradas em URLs podem ajudar a iden-
                           ı
tificar usu´ rios em RSOs (KRISHNAMURTHY, 2010). Analisando as URLs Orkut foram encon-
          a
trados identificadores que s˜ o exibidos nestas e podem representar um perigo para o usu´ rio
                           a                                                           a
                          ¸˜
da RSO. Tendo em consideracao este fator a ocorrˆ ncia de IDs nas URLs da RSO Orkut foi
                                                e
                                                               ¸˜                ´
verificada na base de dados descrita. Como j´ foi descrito na secao 3.1 esta base e formada de
                                           a
      ¸˜
transacoes Web fornecidas por um provedor de Internet banda larga brasileiro. Nesta base exis-
                                    ¸˜
tem cerca de 45,6 milh˜ es de transacoes das quais 8.827.302 pertencem ao Orkut, isto equivale
                      o
                        ¸˜
a 19% do total de transacoes como pode ser observado na Figura 6.

                                        ¸˜
           Figura 6 – Gr´ fico das transacoes Orkut na base de dados estudada
                        a




                                   Fonte: Dados da pesquisa.


                                                     ´
       O Orkut possui identificadores para usu´ rios, albuns e fotos, mas foram verificado so-
                                             a
33


mente os IDs dos usu´ rios, pois estes podem ser utilizados mais facilmente por agregadores
                    a
para seus fins. Como estes identificadores est˜ o diretamente no texto do endereco URL qual-
                                            a                                 ¸
                         a                   a             ¸˜
quer individuo pode acess´ -los o que deixa f´ cil a agregacao de identificadores que mais tarde
                                                  ¸˜
podem ser utilizados para conseguir outras informacoes de forma maliciosa.
          A busca destes identificadores foi feita atrav´ s de queries SQL, estas foram executadas
                                                       e
                                ¸˜
para descobrir o total de transacoes Orkut e quantos identificadores diferentes encontrados neste
               ¸˜                                                                     ¸˜
total de transacoes. Para encontrar os IDs foi pesquisado no campo da tabela de transacoes
            e           ¸               ¸˜
SQL que cont´ m o endereco URL da transacao neste campo foi procurado o texto padr˜ o do ID
                                                                                  a
do Orkut, que e definido pela express˜ o regular “(.*)uid=[0-9]*”1 . Os resultados das queries
              ´                     a
armazenados em arquivos texto e para leitura dos mesmos foi implementado um programa Java,
                                   ¸˜
este verifica a quantidade de transacoes com IDs de usu´ rios como tamb´ m os identificadores
                                                      a               e
´
unicos.

                   Figura 7 – Gr´ fico das URLs com identificadores no Orkut
                                a




                                          Fonte: Criada pela autora.


                   ¸˜                                     ¸˜
          As transacoes verificadas foram somente as transacoes pertencentes ao protocolo HTTP,
                                  ´                                                     ¸˜
isto demonstra que este protocolo e altamente utilizado pelo Orkut. Das 8.827.302 transacoes
                                              a         ¸˜
pertencentes ao Orkut, um total de 8.599.886 s˜ o transacoes HTTP. Como j´ relatado anteri-
                                                                         a
                                       ¸˜
ormente os dados buscados nestas transacoes foram URLs Orkut com identificadores de seus
   a                              ¸˜
usu´ rios. Os resultados da avaliacao das URLs podem ser visualizados no gr´ fico da Figura 7.
                                                                           a
   1
    (.*)uid=[0-9]* - esta express˜ o regular representa a URL Orkut, onde “(.*)” refere-se ao texto da URL seguido
                                 a
por “uid=” e “[0-9]*” define 0 ou mais algarismos
34


                               ¸˜
Foram encontradas 39.445 transacoes com identificadores de usu´ rios no texto das URLs. Des-
                                                             a
                                       a ´
tes identificadores encontrados 29.671 s˜ o unicos, ou seja identificadores diferentes usu´ rios.
                                                                                        a
                                                ¸˜
Embora a quantidade de IDs em URLs destas transacoes n˜ o seja alta, considera-se que foram
                                                      a
                         ¸˜
analisados somente transacoes pertencentes ao protocolo HTTP e com os identificadores de
usu´ rios, ignorando os outros tipos de identificadores. Mesmo assim este fato ainda pode ser
   a
considerado relevante, pois este identificadores representam 29.671 identificadores livres para
                                     ¸˜
que agregadores consigam mais informacoes destes usu´ rios, sendo que estes est˜ o livres para
                                                    a                          a
         ¸˜
visualizacao de qualquer indiv´duo na Web.
                              ı



4.2   An´ lise dos vazamentos encontrados atrav´ s de cabecalhos HTTP
        a                                      e          ¸



                                                           ¸˜
       Os vazamentos aqui encontrados acontecem na comunicacao da RSO com os sites ex-
                    a                                                   a          ´
ternos, quando o usu´ rio seleciona algum link de propaganda, quando a p´ gina Web e carregada
        ¸              e               a                            ´
seu cabecalho HTTP cont´ m dados do usu´ rio da RSO. Este vazamento e demonstrado na Fi-
                       ¸˜
gura 8, onde as informacoes contidas no servidor do Orkut s˜ o vazadas para o servidor de
                                                           a
                e          ¸˜                                    ¸˜
terceiros, atrav´ s da selecao do link de propaganda onde informacoes do usu´ rios s˜ o enviadas
                                                                            a       a
   a                                ¸˜
a p´ gina requisitada. Estas informacoes s˜ o enviadas ao servidor de terceiros onde encontra-se a
                                          a
p´ gina visitada. O vazamento ocorre no campo Referer contido no cabecalho HTTP da p´ gina,
 a                                                                   ¸              a
      ¸˜
a relacao entre estes est´ indicada na Figura 8 por setas.
                         a
                 ¸˜
       As informacoes pessoais s˜ o enviadas em meio ao texto contido neste campo em vari´ veis
                                a                                                        a
     ı                                   ı                                    ¸˜
espec´ficas, estas podem ser vistas no cap´tulo 3. O campo Referer tem como funcao especifi-
car para p´ gina Web atual o local de onde foi chamada, como outra p´ gina, assim este cont´ m
          a                                                         a                      e
dados enviados pela p´ gina anterior caso este tenha partido de uma. Mas, muitas vezes, s˜ o
                     a                                                                   a
                ¸˜
enviadas informacoes adicionais n˜ o necess´ rias a p´ gina, em meio aos dados. Este envio pode
                                 a         a         a
                                                                               ¸˜
acontecer de forma consciente ou n˜ o, formando-se assim o vazamento de informacoes.
                                  a
                                                                     ¸˜
       Tais vari´ veis podem ser utilizadas a fim de conseguir informacoes significativas do
                a
usu´ rio ou podem ser interceptadas. A partir desta an´ lise foi detectado o melhor tipo de va-
   a                                                  a
zamento a ser detectado pela ferramenta implementada. Estas vari´ veis foram utilizadas na
                                                                a
    ¸˜
criacao da ferramenta que ser´ apresentada na no cap´tulo 5.
                             a                      ı
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut
Detecção de Vazamentos de Informações na Rede Social Online Orkut

Mais conteúdo relacionado

Semelhante a Detecção de Vazamentos de Informações na Rede Social Online Orkut

Vigilancia.electrónica
Vigilancia.electrónicaVigilancia.electrónica
Vigilancia.electrónicaedjo2
 
TCC Tecnologia em Sistemas para Internet
TCC Tecnologia em Sistemas para InternetTCC Tecnologia em Sistemas para Internet
TCC Tecnologia em Sistemas para InternetClaudeir Novais
 
Ticseadlilianneguilherme
TicseadlilianneguilhermeTicseadlilianneguilherme
Ticseadlilianneguilhermeparistexas
 
PROJETO INTEGRADO MULTIDISCIPLINAR IV - PIM IV
PROJETO INTEGRADO MULTIDISCIPLINAR IV - PIM IVPROJETO INTEGRADO MULTIDISCIPLINAR IV - PIM IV
PROJETO INTEGRADO MULTIDISCIPLINAR IV - PIM IVHenry Jackman
 
A intranet da Embrapa sob a ótica da Comunicação_Joanicy Brito
A intranet da Embrapa sob a ótica da Comunicação_Joanicy BritoA intranet da Embrapa sob a ótica da Comunicação_Joanicy Brito
A intranet da Embrapa sob a ótica da Comunicação_Joanicy BritoJoanicy Brito
 
Forense e Segurança contra Pedofilia
Forense e Segurança contra PedofiliaForense e Segurança contra Pedofilia
Forense e Segurança contra Pedofiliaburtlima
 
Conexões Científicas Ciclo III 2006 - 2007: Processos de apropriação tecnológ...
Conexões Científicas Ciclo III 2006 - 2007: Processos de apropriação tecnológ...Conexões Científicas Ciclo III 2006 - 2007: Processos de apropriação tecnológ...
Conexões Científicas Ciclo III 2006 - 2007: Processos de apropriação tecnológ...AcessaSP
 
PLANO NACIONAL DE AVALIAÇÃO DO PROGRAMA GESAC
PLANO  NACIONAL DE AVALIAÇÃO DO PROGRAMA GESACPLANO  NACIONAL DE AVALIAÇÃO DO PROGRAMA GESAC
PLANO NACIONAL DE AVALIAÇÃO DO PROGRAMA GESACGESAC
 
Texto rede ci parreiras
Texto rede ci   parreirasTexto rede ci   parreiras
Texto rede ci parreirasRômulo Barros
 
Explosao de dados e o conceito de análise de dados relacionados para geração ...
Explosao de dados e o conceito de análise de dados relacionados para geração ...Explosao de dados e o conceito de análise de dados relacionados para geração ...
Explosao de dados e o conceito de análise de dados relacionados para geração ...Felipe Pereira
 
Eduvale internet remedio-ou_veneno_out2012
Eduvale internet remedio-ou_veneno_out2012Eduvale internet remedio-ou_veneno_out2012
Eduvale internet remedio-ou_veneno_out2012Carolina Satim
 
A aprendizagem on-line através de minicursos para telecentros
A aprendizagem on-line através de minicursos para telecentrosA aprendizagem on-line através de minicursos para telecentros
A aprendizagem on-line através de minicursos para telecentrosDrica Guzzi
 
Investigação e Perícia Crimes Cibernéticos implicações e procedimentos de inv...
Investigação e Perícia Crimes Cibernéticos implicações e procedimentos de inv...Investigação e Perícia Crimes Cibernéticos implicações e procedimentos de inv...
Investigação e Perícia Crimes Cibernéticos implicações e procedimentos de inv...HELENO FAVACHO
 
O uso de tecnologias de big data na concepção e execução de estratégias de en...
O uso de tecnologias de big data na concepção e execução de estratégias de en...O uso de tecnologias de big data na concepção e execução de estratégias de en...
O uso de tecnologias de big data na concepção e execução de estratégias de en...Diego Lusa
 
Monografia Acessibilidade na Web - Valério Farias
Monografia Acessibilidade na Web - Valério FariasMonografia Acessibilidade na Web - Valério Farias
Monografia Acessibilidade na Web - Valério FariasValério Farias
 
Governanca de TI, Transparência Pública e Combate a Fraudes
Governanca de TI, Transparência Pública e Combate a FraudesGovernanca de TI, Transparência Pública e Combate a Fraudes
Governanca de TI, Transparência Pública e Combate a FraudesJairo Bernardes
 
Em diálogo redes e educação
Em diálogo redes e educaçãoEm diálogo redes e educação
Em diálogo redes e educaçãoCíntia Rabello
 
Segurança na internet na escola
Segurança na internet na escolaSegurança na internet na escola
Segurança na internet na escolaandreadc
 

Semelhante a Detecção de Vazamentos de Informações na Rede Social Online Orkut (20)

Estudo sobre uso_de_redes_sociais
Estudo sobre uso_de_redes_sociaisEstudo sobre uso_de_redes_sociais
Estudo sobre uso_de_redes_sociais
 
Vigilancia.electrónica
Vigilancia.electrónicaVigilancia.electrónica
Vigilancia.electrónica
 
TCC Tecnologia em Sistemas para Internet
TCC Tecnologia em Sistemas para InternetTCC Tecnologia em Sistemas para Internet
TCC Tecnologia em Sistemas para Internet
 
Ticseadlilianneguilherme
TicseadlilianneguilhermeTicseadlilianneguilherme
Ticseadlilianneguilherme
 
PROJETO INTEGRADO MULTIDISCIPLINAR IV - PIM IV
PROJETO INTEGRADO MULTIDISCIPLINAR IV - PIM IVPROJETO INTEGRADO MULTIDISCIPLINAR IV - PIM IV
PROJETO INTEGRADO MULTIDISCIPLINAR IV - PIM IV
 
A intranet da Embrapa sob a ótica da Comunicação_Joanicy Brito
A intranet da Embrapa sob a ótica da Comunicação_Joanicy BritoA intranet da Embrapa sob a ótica da Comunicação_Joanicy Brito
A intranet da Embrapa sob a ótica da Comunicação_Joanicy Brito
 
Forense e Segurança contra Pedofilia
Forense e Segurança contra PedofiliaForense e Segurança contra Pedofilia
Forense e Segurança contra Pedofilia
 
Conexões Científicas Ciclo III 2006 - 2007: Processos de apropriação tecnológ...
Conexões Científicas Ciclo III 2006 - 2007: Processos de apropriação tecnológ...Conexões Científicas Ciclo III 2006 - 2007: Processos de apropriação tecnológ...
Conexões Científicas Ciclo III 2006 - 2007: Processos de apropriação tecnológ...
 
PLANO NACIONAL DE AVALIAÇÃO DO PROGRAMA GESAC
PLANO  NACIONAL DE AVALIAÇÃO DO PROGRAMA GESACPLANO  NACIONAL DE AVALIAÇÃO DO PROGRAMA GESAC
PLANO NACIONAL DE AVALIAÇÃO DO PROGRAMA GESAC
 
Texto rede ci parreiras
Texto rede ci   parreirasTexto rede ci   parreiras
Texto rede ci parreiras
 
Explosao de dados e o conceito de análise de dados relacionados para geração ...
Explosao de dados e o conceito de análise de dados relacionados para geração ...Explosao de dados e o conceito de análise de dados relacionados para geração ...
Explosao de dados e o conceito de análise de dados relacionados para geração ...
 
Eduvale internet remedio-ou_veneno_out2012
Eduvale internet remedio-ou_veneno_out2012Eduvale internet remedio-ou_veneno_out2012
Eduvale internet remedio-ou_veneno_out2012
 
A aprendizagem on-line através de minicursos para telecentros
A aprendizagem on-line através de minicursos para telecentrosA aprendizagem on-line através de minicursos para telecentros
A aprendizagem on-line através de minicursos para telecentros
 
Investigação e Perícia Crimes Cibernéticos implicações e procedimentos de inv...
Investigação e Perícia Crimes Cibernéticos implicações e procedimentos de inv...Investigação e Perícia Crimes Cibernéticos implicações e procedimentos de inv...
Investigação e Perícia Crimes Cibernéticos implicações e procedimentos de inv...
 
O uso de tecnologias de big data na concepção e execução de estratégias de en...
O uso de tecnologias de big data na concepção e execução de estratégias de en...O uso de tecnologias de big data na concepção e execução de estratégias de en...
O uso de tecnologias de big data na concepção e execução de estratégias de en...
 
Monografia Acessibilidade na Web - Valério Farias
Monografia Acessibilidade na Web - Valério FariasMonografia Acessibilidade na Web - Valério Farias
Monografia Acessibilidade na Web - Valério Farias
 
Governanca de TI, Transparência Pública e Combate a Fraudes
Governanca de TI, Transparência Pública e Combate a FraudesGovernanca de TI, Transparência Pública e Combate a Fraudes
Governanca de TI, Transparência Pública e Combate a Fraudes
 
121 535-1-pb
121 535-1-pb121 535-1-pb
121 535-1-pb
 
Em diálogo redes e educação
Em diálogo redes e educaçãoEm diálogo redes e educação
Em diálogo redes e educação
 
Segurança na internet na escola
Segurança na internet na escolaSegurança na internet na escola
Segurança na internet na escola
 

Último

EAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIA
EAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIAEAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIA
EAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIAMarcio Venturelli
 
[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)
[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)
[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)Alessandro Almeida
 
COI CENTRO DE OPERAÇÕES INDUSTRIAIS NAS USINAS
COI CENTRO DE OPERAÇÕES INDUSTRIAIS NAS USINASCOI CENTRO DE OPERAÇÕES INDUSTRIAIS NAS USINAS
COI CENTRO DE OPERAÇÕES INDUSTRIAIS NAS USINASMarcio Venturelli
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - CÁLCULO DIFERENCIAL E INTEGRAL II - 52_2024.docx
ATIVIDADE 1 - CÁLCULO DIFERENCIAL E INTEGRAL II - 52_2024.docxATIVIDADE 1 - CÁLCULO DIFERENCIAL E INTEGRAL II - 52_2024.docx
ATIVIDADE 1 - CÁLCULO DIFERENCIAL E INTEGRAL II - 52_2024.docx2m Assessoria
 
Palestras sobre Cibersegurança em Eventos - Paulo Pagliusi
Palestras sobre Cibersegurança em Eventos - Paulo PagliusiPalestras sobre Cibersegurança em Eventos - Paulo Pagliusi
Palestras sobre Cibersegurança em Eventos - Paulo PagliusiPaulo Pagliusi, PhD, CISM
 
ATIVIDADE 1 - GESTÃO DE PESSOAS E DESENVOLVIMENTO DE EQUIPES - 52_2024.docx
ATIVIDADE 1 - GESTÃO DE PESSOAS E DESENVOLVIMENTO DE EQUIPES - 52_2024.docxATIVIDADE 1 - GESTÃO DE PESSOAS E DESENVOLVIMENTO DE EQUIPES - 52_2024.docx
ATIVIDADE 1 - GESTÃO DE PESSOAS E DESENVOLVIMENTO DE EQUIPES - 52_2024.docx2m Assessoria
 
Entrevistas, artigos, livros & citações de Paulo Pagliusi
Entrevistas, artigos, livros & citações de Paulo PagliusiEntrevistas, artigos, livros & citações de Paulo Pagliusi
Entrevistas, artigos, livros & citações de Paulo PagliusiPaulo Pagliusi, PhD, CISM
 

Último (8)

EAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIA
EAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIAEAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIA
EAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIA
 
[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)
[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)
[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)
 
COI CENTRO DE OPERAÇÕES INDUSTRIAIS NAS USINAS
COI CENTRO DE OPERAÇÕES INDUSTRIAIS NAS USINASCOI CENTRO DE OPERAÇÕES INDUSTRIAIS NAS USINAS
COI CENTRO DE OPERAÇÕES INDUSTRIAIS NAS USINAS
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - CÁLCULO DIFERENCIAL E INTEGRAL II - 52_2024.docx
ATIVIDADE 1 - CÁLCULO DIFERENCIAL E INTEGRAL II - 52_2024.docxATIVIDADE 1 - CÁLCULO DIFERENCIAL E INTEGRAL II - 52_2024.docx
ATIVIDADE 1 - CÁLCULO DIFERENCIAL E INTEGRAL II - 52_2024.docx
 
Palestras sobre Cibersegurança em Eventos - Paulo Pagliusi
Palestras sobre Cibersegurança em Eventos - Paulo PagliusiPalestras sobre Cibersegurança em Eventos - Paulo Pagliusi
Palestras sobre Cibersegurança em Eventos - Paulo Pagliusi
 
ATIVIDADE 1 - GESTÃO DE PESSOAS E DESENVOLVIMENTO DE EQUIPES - 52_2024.docx
ATIVIDADE 1 - GESTÃO DE PESSOAS E DESENVOLVIMENTO DE EQUIPES - 52_2024.docxATIVIDADE 1 - GESTÃO DE PESSOAS E DESENVOLVIMENTO DE EQUIPES - 52_2024.docx
ATIVIDADE 1 - GESTÃO DE PESSOAS E DESENVOLVIMENTO DE EQUIPES - 52_2024.docx
 
Entrevistas, artigos, livros & citações de Paulo Pagliusi
Entrevistas, artigos, livros & citações de Paulo PagliusiEntrevistas, artigos, livros & citações de Paulo Pagliusi
Entrevistas, artigos, livros & citações de Paulo Pagliusi
 

Detecção de Vazamentos de Informações na Rede Social Online Orkut

  • 1. PONTIF´ ´ ICIA UNIVERSIDADE CATOLICA DE MINAS GERAIS ¸˜ Bacharelado em Ciˆ ncia da Computacao e Viviane Priscila Silva Santos ¸˜ ¸ ˜ DETECCAO DE VAZAMENTOS DE INFORMACOES NA REDE SOCIAL ONLINE ORKUT Belo Horizonte 2012
  • 2. Viviane Priscila Silva Santos ¸˜ ¸ ˜ DETECCAO DE VAZAMENTOS DE INFORMACOES NA REDE SOCIAL ONLINE ORKUT Monografia apresentada ao programa de Bacharelado e ¸˜ em Ciˆ ncia da Computacao da Pontif´cia Universi- ı dade Cat´ lica de Minas Gerais, como requisito par- o ¸˜ cial para obtencao do t´tulo de Bacharel em Ciˆ ncia ı e ¸˜ da Computacao. Orientador: Prof. Dr. Humberto Marques Torres Neto Belo Horizonte 2012
  • 3. Viviane Priscila Silva Santos ¸˜ ¸ ˜ DETECCAO DE VAZAMENTOS DE INFORMACOES NA REDE SOCIAL ONLINE ORKUT Monografia apresentada ao programa de Bacharelado e ¸˜ em Ciˆ ncia da Computacao da Pontif´cia Universi- ı dade Cat´ lica de Minas Gerais, como requisito par- o ¸˜ cial para obtencao do t´tulo de Bacharel em Ciˆ ncia ı e ¸˜ da Computacao. Prof. Dr. Humberto Marques Torres Neto Carlos Alberto Marques Pietrobon Zenilton Kleber Goncalves do Patroc´nio J´ nior ¸ ı u Belo Horizonte, 21 de Junho de 2012
  • 4. AGRADECIMENTOS Agradeco a todos aqueles que me ajudaram e incentivaram. A Deus por ter me ajudado ¸ a suportar as dificuldades enfrentadas. Ao meus pais pelo apoio e compreens˜ o nos momentos dif´ceis. a ı a e ¸˜ Ao Harison pela compreens˜ o, paciˆ ncia, carinho e ajuda prestados durante a execucao deste trabalho. ¸˜ Aos meus familiares e amigos por suportarem minhas reclamacoes e me incentivarem a continuar. ¸˜ Ao professor Humberto Marques Torres Neto pela orientacao neste trabalho. Aos meus colegas de curso pela ajuda e amizade. E a todos que, de alguma forma, contribu´ram com este estudo. ı
  • 5. Change Open your eyes to the light (EVANESCENCE, 2011)
  • 6. RESUMO ¸˜ Com a crescente quantidade de informacoes pessoais na Internet surgiram problemas relativos ¸ ¸˜ a seguranca das informacoes existentes na Web. A privacidade dos usu´ rios Web tornou-se a ¸˜ motivo de preocupacao, uma vez que n˜ o se sabe quais websites utilizam de forma inapropriada, a inconscientemente ou n˜ o, dados inseridos por seus usu´ rios. Um dos problemas relativos a a a ´ ¸˜ privacidade na Web e o vazamento de informacoes pessoais. Considerando este fato, o trabalho ¸˜ aqui realizado busca encontrar poss´veis vazamentos de informacoes pessoais na Internet. Isto ı ´ ¸˜ ¸˜ e, situacoes onde as informacoes privadas s˜ o acessadas de forma n˜ o autorizada por terceiros. a a Estes vazamentos foram analisados especificamente em Redes Sociais Online (RSO), pois estas ¸˜ possuem muitas informacoes pessoais de diversos usu´ rios Web. Assim foi feita uma an´ lise de a a ¸˜ vazamentos na RSO Orkut. Isto foi feito em dois segmentos, avaliacao das URLs Orkut e de ¸ e ´ seus cabecalhos HTTP. Atrav´ s desta ultima an´ lise foi criada uma ferramenta capaz de detectar a ¸˜ vazamentos de informacoes partindo do Orkut para websites de propaganda. Al´ m disto, esta e e a ¸˜ ferramenta pode tamb´ m alertar ao usu´ rio da RSO sobre vazamentos de suas informacoes, j´ que esta ferramenta pode ser disponibilizada para download e executa enquanto o usu´ rio a a navega na Web. Palavras-chave: ¸˜ Privacidade. Vazamento de informacao. Vazamento. Rede Social Online. Orkut.
  • 7. ABSTRACT With the increasing amount of personal information in the Internet arose safety problems of existing informations on the Web. The privacy of Web users has become a concern, since no one knows which websites use inappropriately, unconsciously or not, data entered by users. One of the problems relating to privacy on the Web is the leakage of personal information. Conside- ring this fact, the paper done here seeks to find possible leaks of personal information over the Internet. That is, situations where private information is accessed in an unauthorized manner by third-party. These leaks were analyzed specifically in Online Social Networks (OSN), because they have many personal informations of various Web users Thus an analysis of leaks in the OSN Orkut. This was done in two segments, evaluation of URLs Orkut and its HTTP headers. Through this the last analysis was created a tool capable of detecting leaks of information star- ting from Orkut to websites advertising. Moreover, this tool can also alert the user of the RSO about leaks of information, since this tool can be made available for download and run while the user browses the Web. Keywords: Privacy. Leakage of information. Leak. Social Network Online. Orkut.
  • 8. LISTA DE FIGURAS FIGURA 1 – Sistema federado a login . . . . . . . . . . . . . . . . . . . . . . . . . . 18 ¸˜ FIGURA 2 – Interfaces e interligacoes para RSO m´ veis . . . . . . . . . . . . . . . . . o 21 FIGURA 3 – Vazamento de identificadores RSO para terceiros . . . . . . . . . . . . . 23 ¸˜ FIGURA 4 – Exibicao de cabecalho no Live HTTP Header . . . . . . . . . . . . . . . ¸ 28 FIGURA 5 – Funcionamento interno do Add-On Builder . . . . . . . . . . . . . . . . . 30 a ¸˜ FIGURA 6 – Gr´ fico de transacoes Orkut na base de dados estudada . . . . . . . . . . 32 FIGURA 7 – Gr´ fico das URLs com identificadores no Orkut . . . . . . . . . . . . . . a 33 FIGURA 8 – Vazamento atrav´ s de cabecalho HTTP . . . . . . . . . . . . . . . . . . . e ¸ 35 FIGURA 9 – Diagrama de Componentes da Ferramenta . . . . . . . . . . . . . . . . . 39 FIGURA 10 –Menu de Contexto do Navegador e Tela da Ferramenta . . . . . . . . . . 40 e ¸˜ FIGURA 11 –Diagrama de Sequˆ ncia: passos para execucao da ferramenta . . . . . . . 41 FIGURA 12 –Diagrama de Atividades: funcionamento da ferramenta . . . . . . . . . . 42 FIGURA 13 –Dados do Log de sa´da da ferramenta . . . . . . . . . . . . . . . . . . . . ı 43 FIGURA 14 –Gr´ fico de Vazamentos encontrados pela ferramenta no Orkut . . . . . . . a 44
  • 9. LISTA DE TABELAS TABELA 1 – APIs Add-On Builder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 TABELA 2 – Vari´ veis encontradas no cabecalho HTTP . . . . . . . . . . . . . . . . . a ¸ 35 TABELA 3 – Exemplo de cabecalho HTTP com vazamento. . . . . . . . . . . . . . . . ¸ 36 TABELA 4 – Exemplo de cabecalho HTTP com vazamento a partir de um perfil. . . . . ¸ 36
  • 10. LISTA DE SIGLAS API - Application Programming Interface CSS - Cascading Style Sheets DOM - Document Object Model HTML - HyperText Markup Language HTTP - Hypertext Transfer Protocol HTTPS - HyperText Transfer Protocol Secure IIP - ¸˜ ¸˜ Informacoes de identificacao pessoal IP - Internet Protocol MAC - Media Access Control RSO - Rede Social Online SQL - Structured Query Language TCP - Transmission Control Protocol URL - Uniform Resource Locator WWW - World Wide Web
  • 11. ´ SUMARIO ¸˜ 1 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 ˜ 2 REVISAO DE LITERATURA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.1 Privacidade na Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 ¸˜ ¸˜ Caracterizacao do vazamento de informacao . . . . . . . . . . . . . . . . . . . 17 2.2.1 Vazamentos em navegadores Web . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2.2 Vazamentos nas Redes Sociais . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3 ¸˜ ¸˜ T´ cnicas para deteccao de vazamentos de informacao . . . . . . . . . . . . . . e 22 2.4 ¸˜ Consideracoes finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 ¸˜ ¸ ˜ 3 METODOLOGIA PARA DETECCAO DE VAZAMENTOS DE INFORMACOES NO ORKUT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.1 ¸˜ Vazamento de informacoes via URL . . . . . . . . . . . . . . . . . . . . . . . . 26 3.2 Vazamentos via cabecalhos HTTP . . . . . . . . . . . . . . . . . . . . . . . . . ¸ 27 3.3 ¸˜ ¸˜ Ferramenta para deteccao de vazamentos de informacao no Orkut . . . . . . . 29 ´ 4 ANALISE DOS VAZAMENTOS ENCONTRADOS . . . . . . . . . . . . . . . . 32 4.1 Identificadores em URL Orkut . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.2 An´ lise dos vazamentos encontrados atrav´ s de cabecalhos HTTP . . . . . . . a e ¸ 34 ¸˜ ¸ ˜ 5 FERRAMENTA PARA DETECCAO DE VAZAMENTOS DE INFORMACOES NO ORKUT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.1 ¸˜ Descricao do funcionamento da ferramenta . . . . . . . . . . . . . . . . . . . . 38 5.2 ¸˜ Vazamentos de informacao encontrados pela ferramenta . . . . . . . . . . . . 42 ˜ 6 CONCLUSAO E TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . 45 6.1 Conclus˜ o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 45 6.2 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 ˆ REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
  • 12. 12 ¸˜ 1 INTRODUCAO u a ´ O n´ mero de usu´ rios na World Wide Web (WWW) cresceu muito nos ultimos anos. ¸˜ a Somente no Brasil cerca de 48% da populacao j´ utilizou a Web, o que representa aproximada- mente 91,5 milh˜ es de pessoas (CETIC, 2010). Este crescimento tamb´ m significa o aumento o e ¸˜ ¸˜ de informacoes pessoais na Web, o que traz maior preocupacao com a privacidade dos usu´ rios. a Estes est˜ o preocupados com sua privacidade, n˜ o s´ em termos de dados pessoais, mas a a a o ¸˜ informacao que os websites podem obter ao acompanhar suas atividades online. Muitos websi- tes oferecem servicos personalizados onde os usu´ rios registram-se e identificam-se ao website. ¸ a Isto significa que esta mesma tecnologia que permite que os usu´ rios acessem e compartilhem a ¸˜ suas informacoes de forma ampla, pode tamb´ m violar a privacidade dos usu´ rios (PATEL; JU- e a RIC, 2001). ´ Um dos fatores que contribuem para falta de privacidade na Web e o vazamento de ¸˜ informacoes pessoais. O vazamento na Web se da atrav´ s de dados que podem ser usados para e distinguir algum traco de identidade de um indiv´duo. Se esses dados podem ser combina- ¸ ı dos com outros para identificar uma pessoa, ent˜ o esses dados s˜ o denominados dados iden- a a ¸˜ ¸˜ tific´ veis, que tem como resultado o vazamento de informacoes de identificacao pessoal (IIP) a (KRISHNAMURTHY; WILLS, 2009a). Para demonstrar a relevˆ ncia deste problema de privacidade, a OWASP (The Open a Web Application Security Project1 ) o classificou como uma das 10 maiores vulnerabilidades ¸˜ de seguranca na Web em 2007, colocando-o no sexto lugar do rank. Diversas aplicacoes podem ¸ ¸˜ ¸˜ ¸˜ sem intencao vazar informacoes sobre suas configuracoes, funcionamento interno, ou violar pri- ¸˜ vacidade atrav´ s de diversos problemas. Frequentemente, essa informacao pode ser o caminho e para lancar ataques ou ferramentas autom´ ticas mais poderosas (OWASP FOUNDATION, 2007). ¸ a ´ ¸˜ A Rede Social Online (RSO) e uma destas aplicacoes citadas. Mais de meio bilh˜ o de a a a ¸˜ pessoas est˜ o em v´ rias RSOs, o que disponibiliza na Web uma vasta quantidade de informacoes a e ¸˜ pessoais de seus usu´ rios. Isto torna a existˆ ncia de vazamento informacoes em RSOs um ´ problema ainda maior, pois e poss´vel que IIP de v´ rios usu´ rios vazem para servidores de ı a a terceiros (indiv´duos n˜ o autorizados), j´ que as RSOs s˜ o extremamente populares e tendem ı a a a tornarem-se cada vez mais (SCHNEIDER et al., 2009). 1 ¸˜ ´ ¸˜ Projeto Aberto de Seguranca em Aplicacoes Web: e uma organizacao mundial sem fins lucrativos focada em ¸ melhorar a seguranca de softwares, em especial os softwares baseados na Web. ¸
  • 13. 13 ¸˜ ´ Outro problema que tem ajudado a aumentar o vazamento de informacoes e o cres- cimento constante no uso de servidores de terceiros, que fornecem conte´ dos e propagandas u para p´ ginas Web. Alguns destes servidores s˜ o agregadores, que rastreiam e re´ nem dados a a u ¸˜ de diferentes visualizacoes do usu´ rio atrav´ s de cookies de rastreamento, inclusive nas RSOs a e ´ (KRISHNAMURTHY; WILLS, 2010a). E poss´vel que IIPs pertencentes a usu´ rios estejam vazando ı a para servidores de terceiros atrav´ s das RSOs. Tal vazamento implicaria n˜ o apenas ao servidor e a a ¸˜ de terceiros conhecer os h´ bitos de visualizacao de algum usu´ rio, mas tamb´ m seria capaz de a e a ¸˜ associar esses h´ bitos de visualizacao com uma pessoa espec´fica. ı ¸˜ Este trabalho tem como objetivo analisar e buscar alguns vazamentos de informacoes ¸˜ pessoais na Web. O rastreamento da existˆ ncia dos vazamentos de informacoes tem como meta e ajudar a diminuir a existˆ ncia destes vazamentos nos websites. Os vazamentos aqui analisados e u ¸˜ foram de uma RSO, pois estas possuem um vasto n´ mero de informacoes pessoais de usu´ rios a o que torna o vazamento mais significativo. A RSO escolhida foi o Orkut, uma RSO filiada ao Google, criada em 24 de janeiro de 2004 com o objetivo de ajudar seus membros a conhecer pessoas e manter relacionamentos. Apesar de ter sido ultrapassado pelo Facebook esta j´ foi a a RSO mais utilizada no Brasil, mesmo assim o Orkut ainda mant´ m um grande p´ blico no e u pa´s, sendo mais de 30 milh˜ es de usu´ rios no Brasil e 66 milh˜ es de usu´ rios ativos no mundo ı o a o a (ALEXA - THE WEB INFORMATION COMPANY, 2012). Esta RSO foi escolhida por possuir um n´ mero significativo de usu´ rios no Brasil e por n˜ o ter sido ainda explorada em trabalhos u a a equivalentes encontrados. ¸˜ ¸˜ Existem diferentes formas para deteccao de vazamentos de informacao, neste traba- ı ´ lho foram especificados alguns deles. Uma poss´vel forma de detectar vazamentos e atrav´ s e ¸ e ¸˜ cabecalhos de referˆ ncia, requisicao URI e cookie (KRISHNAMURTHY; WILLS, 2009a). Al´ m e ¸˜ ¸˜ disso, podem existir tamb´ m indicacoes de vazamento de informacoes pessoais na pr´ pria URL, e o por exemplo os identificadores de usu´ rios das RSOs que aparecem em perfis, fotos, entre ou- a tros que podem ser vistos, em sua maioria, por qualquer usu´ rio da RSO. Os meios adotados a ¸˜ foram avaliacao de URLs, para isto foi utilizada uma base de dados real que foi detalhada na secao 3.1 e an´ lise de cabecalhos HTTP2 , nesta ultima foi utilizada uma extens˜ o para captura ¸˜ a ¸ ´ a de cabecalhos. A partir desta an´ lise foi desenvolvida uma extens˜ o para o navegador Mozilla ¸ a a Firefox capaz de encontrar automaticamente vazamentos de IIP no Orkut para sites de terceiros atrav´ s dos cabecalhos HTTP das p´ ginas Web chamadas por links de propagandas da RSO, e ¸ a 2 ¸˜ ´ HyperText Transfer Protocol: Protocolo de Transferˆ ncia de Hipertexto, este protocolo de comunicacao e e ¸˜ utilizado para sistemas de informacao de hiperm´ dia distribu´dos e colaborativos. e ı
  • 14. 14 neste caso o Orkut. Este trabalho est´ dividido em 6 cap´tulos. Os trabalhos relacionados s˜ o apresentados a ı a no cap´tulo 2. No cap´tulo 3, encontra-se a metodologia adotada para a an´ lise, busca de vaza- ı ı a ¸˜ ¸˜ mentos de informacoes e desenvolvimento da ferramenta de deteccao proposta. Os resultados obtidos a partir da an´ lise de URLs e cabecalhos HTTP s˜ o apresentados no cap´tulo 4. O a ¸ a ı cap´tulo 5 detalha a ferramenta desenvolvida juntamente com a an´ lise dos resultados de sua ı a ¸˜ aplicacao. Por fim, no cap´tulo 6 encontram-se a conclus˜ o e os trabalhos futuros. ı a
  • 15. 15 ˜ 2 REVISAO DE LITERATURA Aqui neste cap´tulo s˜ o apresentados os trabalhos relacionados ao estudo aqui reali- ı a ¸˜ zado. Na secao 2.1 s˜ o apresentados trabalhos que discutem a privacidade na Web. Proprie- a ¸˜ ¸˜ dades de vazamentos s˜ o relatadas na secao 2.2, que por sua vez divide-se em duas subsecoes. a ¸˜ A subsecao 2.2.1 mostra vazamentos de navegadores Web, como tamb´ m de aplicativos e ex- e o ¸˜ tens˜ es destes navegadores. Na subsecao 2.2.2 s˜ o descritos trabalhos que apontam vazamentos a ¸˜ ¸˜ em Redes Sociais Online (RSO), na secao 2.3 s˜ o apontadas t´ cnicas utilizadas para deteccao a e ¸˜ ¸˜ ¸˜ do vazamento de informacao. As consideracoes finais s˜ o feitas na secao 2.4. a 2.1 Privacidade na Web A privacidade na Web tornou-se uma quest˜ o importante e tem sido muito discutida a ´ ¸˜ nos ultimos tempos. Existem diversas definicoes para privacidade, Ferreira (2004) a define como “intimidade pessoal ou de grupo definido de pessoas, particular”, j´ Michaelis (2007) a ´ define privacidade como “privatividade” que por sua vez e definida por “privativo” que significa “Particular, pessoal, peculiar, pr´ prio, exclusivo”. Mas para Krishnamurthy (2010) quando o ¸˜ trata-se de privacidade na Web n˜ o existe uma definicao exata para privacidade pessoal. a A quest˜ o da privacidade pode ser vista por diferentes formas entre os diferentes usu´ rios a a inclusive entre os que convivem em uma mesma sociedade. Para Warren e Brandeis (1890), ´ “privacidade e o direito de estar sozinho”, os autores apresentam a seguinte regra “O direito a ¸˜ privacidade termina com a divulgacao de fatos pelo propriet´ rio do fato ou com o seu consenti- a ´ mento”. Portanto, segundo este trabalho, a privacidade e uma quest˜ o pessoal e uma vez que o a a ¸˜ propriet´ rio divulga informacoes ele n˜ o possui o direito de requerer novamente a privacidade a sobre tal fato. ¸˜ Segundo Wang, Lee e Wang (1998) privacidade geralmente refere-se a informacoes pes- ´ ¸˜ soais, e invas˜ o de privacidade e geralmente interpretada como coleta, divulgacao ou outro uso a ¸˜ ´ n˜ o autorizado de informacoes pessoais. Para Yee (2007) a privacidade e a habilidade de contro- a ¸˜ ¸˜ ¸˜ o ¸˜ lar colecao, retencao e distribuicao de sua pr´ pria informacao. Assim qualquer indiv´duo que ı ¸˜ divulgue ou colete informacoes de outro sem seu consentimento est´ violando a privacidade a pertencente a este.
  • 16. 16 Patel e Juric (2001) examinam o estado atual da privacidade na Internet, avaliando as ¸˜ necessidades dos usu´ rios no Reino Unido em termos de protecao da privacidade online. Foram a ¸˜ analisadas atitudes para com a privacidade online, e a protecao da privacidade para os usu´ rios a ¸˜ existentes, tais como legislacao e ferramentas tecnol´ gicas. A pesquisa revela um elevado grau o ¸˜ ¸˜ de preocupacao entre os usu´ rios relacionados com a sua privacidade em termos de informacoes a ¸˜ ¸˜ de identificacao pessoal que eles fornecem para websites, a informacao de que sites da Web e ¸ ¸˜ coletam atrav´ s do uso de cookies e enderecos IP e as informacoes obtidas por usu´ rios online a atrav´ s de rastreamento atividades. e ´ ¸˜ Fogg et al. (2001) afirmam que e poss´vel observar a proliferacao de websites de qua- ı ¸˜ ¸˜ lidade duvidosa de informacao e websites que realizam a coleta das informacoes dos usu´ rios a de modo invasivo e indiscriminado. Tendo em vista isto os usu´ rios Web est˜ o cada vez mais a a preocupados. O trabalho de Zorzo e Cereda (2009) tamb´ m relata a coleta de dados sem o e conhecimento e consentimento dos usu´ rios, revelando seu perfil, seu comportamento, al´ m a e ¸˜ de outras informacoes que podem ser utilizadas de forma inadequada, prejudicando o mesmo. Segundo os autores a privacidade na Web influencia diretamente a confianca que os usu´ rios ¸ a ´ possuem nos websites, devido a isto, e proposto um conjunto de medidas utilizadas para calcu- lar fatores de invas˜ o de privacidade e graus de confianca e desconfianca de um determinado a ¸ ¸ a ¸˜ usu´ rio em relacao a um conte´ do de um website. u ´ Outra quest˜ o sobre privacidade e apresentada no trabalho de Krishnamurthy e Wills a e ¸˜ (2009a). Segundo os autores as t´ cnicas existentes para protecao da privacidade que s˜ o utili- a ¸˜ ¸˜ zadas possuem limitacoes na prevencao da difus˜ o de privacidade. Estas t´ cnicas restringem o a e ¸˜ download de conte´ do de terceiros na forma de cookies, JavaScript e identificacao de URLs. u Al´ m disto, os resultados apontados pelos autores mostram que agregadores est˜ o trabalhando e a em formas para esconder sua presenca em websites acessados pelos usu´ rios. ¸ a Em uma extens˜ o do trabalho anterior Krishnamurthy e Wills (2009b) fazem um exame a ¸˜ das diversas maneiras pelas quais agregadores de aquisicao de dados externos aos websites bus- ¸˜ ¸˜ cam as informacoes e da profundidade das informacoes relacionadas a usu´ rios adquiridas. Os a ¸˜ resultados obtidos mostraram uma agregacao cada vez maior de dados relacionados ao usu´ rio a por um n´ mero cada vez menor de entidades. Empresas s˜ o capazes de rastrear o movimento de u a usu´ rios em quase todos os websites populares da Web. Assim os autores constataram que prati- a ¸˜ ¸˜ camente todas as t´ cnicas de protecao possuem limitacoes significativas e destacam a gravidade e ¸˜ deste problema e a necessidade de solucoes para este.
  • 17. 17 ´ Krishnamurthy (2010) relata que nos ultimos anos tornou-se familiar pessoas carrega- ¸˜ rem uma quantidade significativa de informacoes sobre si mesmas em uma variedade de Redes Sociais Online (RSO). Algumas pessoas podem ter uma vis˜ o livre de privacidade e argumen- a ¸˜ tam que as pessoas devem ser autorizadas a postar qualquer informacao sobre si mesmas e que a ¸˜ n˜ o deve se fazer leis contra tais acoes. Mas Krishnamurthy (2010) explica que muitos usu´ rios a a e e ¸˜ n˜ o tˆ m consciˆ ncia dos perigos que suas informacoes podem estar correndo na Web e defende ¸˜ a e ¸˜ a conscientizacao do usu´ rio. Staddon (2009) tamb´ m defende a conscientizacao dos usu´ rios a ¸˜ em relacao aos riscos de privacidade, bem como esforcos de pesquisa devem centralizar-se em ¸ ¸˜ ¸˜ m´ todos eficientes para deteccao de violacao de privacidade. e 2.2 ¸˜ ¸˜ Caracterizacao do vazamento de informacao ¸˜ O vazamento de informacao pessoal refere-se ao desrespeito a privacidade de indiv´duos ı ¸˜ na Web. Entre os trabalhos que relatam vazamentos de informacoes em websites destaca-se ¸˜ ¸˜ ¸˜ Krishnamurthy (2010), que define o vazamento de informacoes como a exposicao da informacao que pode ser usada para distinguir algum traco de identidade de um indiv´duo na Web. Esta ¸ ı ¸˜ ¸˜ ¸˜ informacao pode estar sozinha ou combinada com as informacoes de identificacao pessoal (IIP) que est´ ligada a um indiv´duo espec´fico. a ı ı Krishnamurthy e Wills (2006) acrescentam alguns fatos que facilitam este vazamento, a ¸˜ estes s˜ o a centralizacao dos servidores dos websites e a ingenuidade de alguns usu´ rios. Estes a usu´ rios n˜ o tˆ m ideia do que est˜ o deixando dispon´vel na Internet o que soma a sua identidade a a e a ı disseminando-a para outras partes que n˜ o os sites visitados diretamente. Krishnamurthy (2010) a afirma que a Internet n˜ o esquece dados, ou seja, uma vez que o dado vazou na Web est´ a a divulgado para sempre, n˜ o importa que seja removido em seu ponto de origem. a Em Dey e Weis (2010) os autores apontam problemas de vazamento em sistemas fede- rados a login como o openID. Este sistema permite que os usu´ rios possuam identidades entre a ¸˜ uma federacao de provedores de identidade, oferecendo mais flexibilidade aos usu´ rios finais. a Isto acontece sem que o usu´ rio precise utilizar o login convencional, pois este acessa o pro- a ¸˜ vedor de identidade para que este o identifique em diversos sites, associando suas informacoes ¸˜ de identificacao destes ao servidor do sistema federado a login. Embora agilizem o login, estes provedores podem criar riscos para a privacidade do usu´ rio, j´ que os provedores de identi- a a
  • 18. 18 dade s˜ o os gerentes da identidade do usu´ rio, como mostrado na Figura 1 que relata o fluxo a a ¸˜ ¸˜ de informacoes trocados entre os envolvidos no login. Onde o IDP (Provedor de identificacao ´ pessoal) e consultado pelo RP (site que delegam logins para o provedor de identidade) quando o usu´ rio deseja logar-se neste e o IDP verifica sua identidade repassando-a ao site. O pro- a ´ blema central e que um provedor de identidade pode liberar dados, de forma intencional, sobre o usu´ rio sem o consentimento deste, por exemplo, liberar dados sobre os locais visitados. a Figura 1 – Sistema federado a login Fonte: Adaptado de Dey e Weis (2010). Para solucionar este problema, Dey e Weis (2010) criaram um sistema de login chamado ´ PseudoID proposto a fim de melhorar a privacidade do usu´ rio. Este sistema e baseado em a assinaturas digitais cegas1 e e compat´vel com um sistema popular de login federado. Ele foi ´ ı projetado para desvincular o sistema federado a login e consiste em um servico de token, o ¸ ¸˜ qual o usu´ rio solicita a fim de obter acesso, usado durante a configuracao, e um provedor de a identidade privada. e a ¸˜ Problemas de vazamentos tamb´ m s˜ o apontados em aplicacoes como Google Docs. Segundo D’Angelo, Vitali e Zacchiroli (2010) o preco a se pagar em seu uso implica uma ¸ perda fundamental de controle sobre o conte´ do que os usu´ rios acreditam est´ confinado ao u a a seu sistema de arquivos e suas listas de controle de acesso, mas estes n˜ o est˜ o protegidos do a a a ¸˜ fornecedor do software. Os problemas apontados s˜ o retencao de dados n˜ o autorizados e de a 1 Em uma assinatura cega o usu´ rio deseja obter uma assinatura em mensagens sem revelar seu conte´ do para a u ´ o assinante, um exemplo e a chave prim´ ria do RSA. a
  • 19. 19 ¸˜ agregacao realizada por prestadores de servicos e suportes de dados. A pol´tica de privacidade ¸ ı ¸ ´ a a ´ dos servicos online e incapaz de proteger os usu´ rios contra essas pr´ ticas. Isto e, vazamentos ¸˜ de informacoes privadas a terceiros de maneira n˜ o autorizada. O vazamento poderia ser o a efeito resultante de deliberadas atividades comerciais, gerenciamento de falhas, ou at´ mesmo e ¸˜ erros de software . Al´ m da possibilidade concreta de aquisicao de dados indesejados e coleta e impostas pelos governos ou outras autoridades. 2.2.1 Vazamentos em navegadores Web ¸˜ Vazamentos de informacoes podem ocorrer tamb´ m atrav´ s de navegadores Web. O e e trabalho de Aggarwal et al. (2010) relata que existem muitas extens˜ es e plugins que compro- o metem a seguranca dos navegadores. Isto acontece porque estas podem deixar vest´gios em ¸ ı disco sobre o comportamento de um usu´ rio enquanto este est´ navegando em modo privado. a a Segundo os autores o navegador n˜ o poderia permitir que o site seja capaz de identificar um a usu´ rio que o acessa pela segunda vez se este estiver em modo privado, como tamb´ m n˜ o pode a e a lig´ -lo em modo privado quando este acessou anteriormente em modo p´ blico. a u Grier, Tang e King (2011) tamb´ m relatam falhas atrav´ s de plugins e apontam 301 e e vulnerabilidades encontradas, incluindo erros na m´ quina virtual Java (Java Virtual Machine), a no Adobe PDF Reader e no Adobe Flash Player. Os autores apontam que tais falhas fazem os navegadores vulner´ veis a vazamentos e ataques. Existe ainda a possibilidade do navegador a a a ¸˜ hospedar v´ rias p´ ginas ao mesmo tempo, com a possibilidade de cada uma ser uma aplicacao diferente, isto ajuda a diminuir a seguranca do navegador. Isto acontece devido a scripts e ob- ¸ jetos de uma origem acabam sendo capazes de acessar outros scripts e objetos de outra origem. ¸˜ Aplicacoes deste princ´pio tendem a ser sujeito a erros, devido a complexidade dos navegadores ı modernos como confirmado tamb´ m por Chen, Ross e Wang (2007). e Em seu trabalho Grier, Tang e King (2011) tamb´ m realizaram uma an´ lise em browsers e a que denuncia falhas de seguranca em navegadores Web populares. Os autores realizaram testes ¸ em quatro navegadores diferentes no ano de 2010. O resultado obtido aponta falha em todos eles. Sendo que o navegador Internet Explorer demonstrou 93 vulnerabilidades de seguranca, ¸ Mozilla Firefox 74 vulnerabilidades, Safari apresentou 29 vulnerabilidades e Opera possu´a ı apenas 9. Estes resultados demonstram que os navegadores mais populares s˜ o os que demons- a
  • 20. 20 traram mais falhas, podendo resultar em vazamentos ou aberturas para ataques. ¸˜ Vazamentos de informacao via browser tamb´ m foram descritos por Jackson et al. e (2006). O trabalho relata a existˆ ncia de meios para rastreamento de usu´ rios na Web por meio e a ¸˜ do navegador. Entre estes meios encontra-se uma variedade de m´ todos de cache e a inspecao e a ´ da cor de um hiper-link visitado. Os autores explicam que a cache dos navegadores n˜ o e de- ¸˜ vidamente particionada o que possibilita que qualquer website acesse suas informacoes mesmo que estas pertencam a outro. Para solucionar este problema, Jackson et al. (2006) prop˜ em o ¸ o ¸˜ refinamento do conhecimento geral da origem dos sites para cache e implementacao de duas extens˜ es de navegador que imp˜ em essa pol´tica na cache do navegador e nos links visitados. o o ı e a ¸˜ Al´ m disto, Jackson et al. (2006) realizaram uma an´ lise de cooperacao dos sites para o rastreamento de usu´ rios. Esta demonstra que mesmo com o navegador corretamente parti- a ´ cionado, ainda e poss´vel que sites da Web utilizem recursos modernos para saltar entre sites e ı usu´ rios de forma invis´vel envolvendo-se em v´ rios dom´nios de monitoramento de seus visi- a ı a ı tantes. Assim, os autores tamb´ m prop˜ em um mecanismo novo de bloqueio de cookie. Este e o mecanismo combina os pontos fortes do navegador Mozilla Firefox, que verifica o dom´nio ı ´ ´ quando o cookie e definido, e do navegador Internet Explorer que define quando este e lido. 2.2.2 Vazamentos nas Redes Sociais Um dos locais mas suscet´veis a vazamentos s˜ o as Redes Sociais Online (RSO), isto ı a ¸˜ acontece por existirem tantas informacoes pessoais cadastradas. Krishnamurthy e Wills (2010a) mostram a possibilidade de terceiros (indiv´duos n˜ o autorizados) ligarem IIP vazadas das RSO ı a ¸˜ com acoes dos usu´ rios, dentro desta e at´ mesmo fora. Isto n˜ o s´ possibilita que terceiros a e a o sejam capazes de conhecer os h´ bitos de vis˜ o de algum usu´ rio, mas poderiam associar seus a a a ¸˜ h´ bitos de visualizacao a uma pessoa especifica. Um dos problemas apontados pelos autores a ´ ¸˜ ´ e a utilizacao de um unico identificador para cada usu´ rio como uma chave para armazenar a ¸˜ ´ suas informacoes. Este identificador, muitas vezes, e mostrado em URLs quando um usu´ rio a ´ visualiza ou edita seu perfil na RSO ou seleciona a imagem de um amigo. Isto e preocupante, ¸˜ pois nem todas as interacoes ficam dentro da RSO. e ´ Isto tamb´ m e relatado em Krishnamurthy e Wills (2008). Um exemplo de vazamento para terceiro, tamb´ m citado pelos autores, s˜ o os aplicativos externos utilizados hoje nas RSOs. e a
  • 21. 21 ¸˜ Nestes aplicativos os usu´ rios concedem acesso a todas suas informacoes mesmo quando este a aplicativo precise apenas de algumas destas. A maioria dos usu´ rios n˜ o tˆ m ideia deste aconte- a a e ¸˜ cimento, mas s˜ o incentivados a compartilhar uma variedade de informacoes. Outro problema a ´ apontado pelos autores e o controle de privacidade, os fatores deste deveriam ser administrados ´ pelo usu´ rio, mas este e dirigido pela RSO. a Os servidores de terceiros est˜ o ainda mais incorporados nas RSO para dispositivos a m´ veis. Segundo Krishnamurthy e Wills (2010b) a existˆ ncia de servidores de terceiros no o e a o ¸˜ tr´ fego das RSO m´ veis faz com que estes possam obter informacoes de ambas, as RSO m´ veis o e as RSO tradicionais (acessadas via navegadores desktop). Isso acontece devido a estrutura a o ´ de conex˜ o m´ vel, que e demonstrada na Figura 2, onde pode ser observada a existˆ ncia de e ¸˜ servidores de terceiros. Esses servidores de terceiros podem obter informacoes de RSO m´ veis o e tradicionais, como o servidor de terceiros n´ mero 2 pela Figura 2. Alguns servidores de u terceiros, tais como os servidores 3 e 4, podem concentrar-se no mercado m´ vel. Do ponto o de vista do vazamento de privacidade, o servico de conex˜ o cria cen´ rios problem´ ticos. Por ¸ a a a ¸˜ exemplo, a localizacao de um usu´ rio compartilhado com a RSO m´ vel via telefone inteligente, a o ¸˜ ¸˜ esta localizacao pode ser vazada para o servidor de terceiros 3, que n˜ o possui nenhuma relacao a imediata ou direta com a RSO m´ vel. o ¸˜ Figura 2 – Interfaces e interligacoes para RSO m´ veis o Fonte: Adaptado de Krishnamurthy e Wills (2010b).
  • 22. 22 ¸˜ Al´ m disso, Krishnamurthy e Wills (2010b) criticam a maneira pela qual a informacao e ´ privada e recolhida pelas entidades envolvidas. Segundo os autores, muitas vezes, esta forma ´ e escondida dos usu´ rios. Isto faz com que seja dif´cil para o usu´ rio conhecer e controlar as a ı a a ¸˜ v´ rias entidades que podem ter acesso a suas informacoes. Os usu´ rios n˜ o fazem um bom uso a a do sistema de controle de privacidade, como relatado tamb´ m em Krishnamurthy (2010). A e coleta de dados de onze RSO mostra que a maioria dos usu´ rios na rede ainda permite que suas a ¸˜ informacoes de perfil sejam vis´veis e que 80 a 97% dos usu´ rios permitem que seu grupo de ı a amigos seja visualizado. Em seu trabalho Staddon (2009) analisaram m´ todos aplicados a RSO LinkedIn, onde e ¸˜ foram adotados m´ todos simples para descobrir vazamentos escondidos nas configuracoes de e ´ privacidade da RSO. Um dos m´ todos citados e o Sybil, este foi um dos aplicados ao LinkedIn. e Sybil e uma extens˜ o que analisa contatos de 3o grau, facilitando a descoberta da origem, por ´ a exemplo, de phishing2 . LinkedIn n˜ o fornece essas informacoes para contatos de 3o grau, mas a ¸˜ com o Sybil isso se torna desnecess´ rio. a 2.3 ¸˜ ¸˜ T´ cnicas para deteccao de vazamentos de informacao e e ¸˜ Entre os trabalhos que apresentam t´ cnicas e formas para deteccao de vazamentos est´ a Krishnamurthy e Wills (2010a). Em seu trabalho os autores apontam trˆ s diferentes t´ cnicas, e e ¸˜ estas s˜ o solicitacao de URLs, referˆ ncias em cabecalhos HTTP e cookies. Os cabecalhos HTTP a e ¸ ¸ ¸˜ s˜ o informacoes que se intercambiam entre o navegador, ou qualquer outro cliente, e o servidor a ¸˜ Web que hospeda uma p´ gina que se deseja consultar. Estes permitem transportar informacao a de controle entre o cliente e o servidor, como o estado de resposta do servidor, cookies enviadas ao cliente, tipo de conte´ do que se est´ enviando/recebendo, momento no qual se realizam as u a ¸˜ ¸˜ solicitacoes ou entregas de informacoes, entre outros. Krishnamurthy e Wills (2010a) tamb´ m utilizaram a extens˜ o Live HTTP Header para e a Mozilla Firefox (SAVARD; COUKOUMA, 2011) para an´ lise de cabecalhos HTTP, m´ todo tamb´ m a ¸ e e utilizado por Krishnamurthy e Wills (2009a). Os autores afirmam que existem ao menos trˆ s e ¸˜ maneiras de transmitir informacoes de usu´ rios, estas s˜ o o campo Referer, o Request-URI, ou a a um cookie. Os campos Referer, o Request-URI e cookie encontram-se no cabecalho HTTP. ¸ 2 fraude eletrˆ nica, caracterizada por tentativas de adquirir dados pessoais de diversos tipos, estes s˜ o senhas, o a dados financeiros como n´ mero de cart˜ es de cr´ dito e outros dados pessoais. u o e
  • 23. 23 ¸˜ O campo Referer tem como funcao especificar para p´ gina Web atual o local de onde esta foi a requisitada, como outra p´ gina, assim este campo cont´ m dados enviados pela p´ gina anterior a e a ¸˜ ´ caso este tenha partido de uma. O Request-URI indica o modo de requisicao da p´ gina, este e a e ¸˜ formado por m´ todo, a identificacao do URI (Request-URI) e a vers˜ o do HTTP utilizado. O a ¸˜ ´ campo cookie cont´ m informacoes do cookie real que e um grupo de dados trocados entre o e navegador e o servidor da p´ gina, maiores detalhes sobre estes campos em Tanenbaum (2002). a Os vazamentos atrav´ s destes meios s˜ o demonstrados na Figura 3. A Figura 3(a) exibe e a um vazamento do identificador Facebook via o campo Referer do cabecalho HTTP. Na Figura ¸ ´ ´ 3(b) e poss´vel perceber que o identificador Twitter e enviado via Request e na Figura 3(c) o ı ¸˜ ´ ¸˜ mesmo identificador encontra-se no campo Cookie. Uma observacao feita e que a acao que a ´ ´ ´ desencadeia o vazamento n˜ o e algo expl´cito por isso e impercept´vel para os usu´ rios. E ı ı a a a a ¸˜ relatado ainda que maioria dos usu´ rios de RSO est´ vulner´ vel a ter suas informacoes de identidade relacionadas a cookies de rastreamento3 . Figura 3 – Vazamento de identificadores RSO para terceiros Fonte: Krishnamurthy e Wills (2010a). Krishnamurthy (2010) apresenta as t´ cnicas de vazamento de dados mais utilizadas, en- e ´ tre elas a mais simples e mais utilizada e a an´ lise de URLs HTTP. S˜ o relatadas tamb´ m algu- a a e mas t´ cnicas para evitar tais vazamentos, como criptografia dos dados e tornar o banco de dados e o ¸˜ anˆ nimo (Anonymization). O autor defende ainda criacoes de extens˜ es para navegadores Web o por ser algo popular e n˜ o muito dif´cil de implementar, al´ m disto podem ser disponibilizadas a ı e 3 Cookies de rastreamento s˜ o muitas vezes cadeias com semˆ ntica oculta conhecida apenas pela parte de a a ¸˜ atribuicao do cookie.
  • 24. 24 para os usu´ rios para download. Tentativas mais sofisticadas, tais como, modificar navegadores a ou pacotes externos Javascript tamb´ m foram feitas pelo autor. e ¸˜ Em Krishnamurthy e Wills (2010b) a deteccao de vazamentos foi feita atrav´ s das inter- e faces de cada uma das RSO m´ veis estudadas, capturando todos os pedidos HTTP e cabecalhos o ¸ de resposta enviados e recebidos por um navegador Web, m´ vel ou n˜ o, e aplicativos. Utilizou- o a se um dispositivo iPhone para o estudo do comportamento do aplicativo de cada RSO m´ vel por o fornecer ampla cobertura ao estudo do conjunto de RSOs m´ veis. Sess˜ es m´ ltiplas para cada o o u ¸˜ interface da RSO foram usados para recolher dados sobre poss´veis vazamentos de informacao ı privada. Queiroz e Queiroz (2010) apontam erros nos cookies, o que pode levar ao vazamento de ¸˜ ´ informacao. Segundo os autores um cookie e um pequeno arquivo criado pelo servidor, a fim de ¸˜ atender suas necessidades para manter sua comunicacao com o cliente. Uma vez que na grande a a a ¸˜ maioria do tempo, o usu´ rio n˜ o est´ disposto a revelar informacoes pessoais, isso torna-se um ¸˜ problema. Um indiv´duo com um computador qualquer pode acessar informacoes privadas de ı ¸˜ outro atrav´ s da substituicao de cookies roubados. e Muitas vezes, apenas um par de atributos s˜ o necess´ rios, e a t´ cnica conhecida como a a e ´ ´ XSS (Cross Site Script) e usada, a fim de obtˆ -los. Isto e relatado por CARNEGIE MELLON e e ¸˜ UNIVERSITY (2000), esta t´ cnica consiste em uma injecao de c´ digos maliciosos com o obje- o a ¸˜ tivo de adquirir parˆ metros de um site usando uma linguagem de interpretacao para as p´ ginas a de Internet “JavaScript”. Em Kirda et al. (2006) ataques XSS s˜ o descritos como f´ ceis de a a executar, mas dif´ceis de detectar e prevenir. ı Das t´ cnicas existentes em vazamento em browsers (navegadores Web) Jackson et al. e ¸˜ (2006) relatam m´ todos de cache e inspecao da cor de um hiper-link visitado. Embora a ca- e ´ che melhore o desempenho do navegador e diminua o tr´ fego em rede, e um visado alvo para a ¸˜ ataques de privacidade, pois armazena informacoes persistentes de um site na m´ quina local a ¸˜ sem esconder a sua existˆ ncia a outros sites. Isso permite que sites acessem as informacoes e ´ pertencentes a outros sites. Isso e poss´vel devido a cache dos navegadores n˜ o ser devidamente ı a ¸˜ particionada em sites. J´ a inspecao do hiper-link acontece por o navegador permitir um site a pode consultar o banco de dados do hist´ rico do navegador, permitindo a este visitar p´ ginas ou o a ¸˜ inserir novas informacoes no banco de dados.
  • 25. 25 2.4 ¸˜ Consideracoes finais Os trabalhos aqui relatados confirmam a existˆ ncia dos vazamentos de IIP na Web, mos- e ´ ¸˜ trando o qu˜ o relevante e atual e este assunto. Informacoes pessoais possuem grande valor para a ¸˜ agregadores o que torna as RSOs um alvo muito atraente para busca destas informacoes, como ¸˜ relatam Krishnamurthy e Wills (2009b) e Riederer et al. (2011). As interacoes com servidores externos, como aplicativos e links de propagandas, facilitam os vazamentos para estes servido- ´ res de terceiros quando estes n˜ o s˜ o tratados devidamente, isto e confirmado por Yang et al. a a (2012). Tendo em vista o problema apontado, este trabalho concentra-se em vazamentos de ¸˜ informacoes para p´ ginas externas a RSO Orkut, especificamente links de propagandas. O a estudo aqui realizado baseia-se nos trabalhos de Krishnamurthy e Wills (2008), Krishnamurthy e Wills (2010a) e Krishnamurthy e Wills (2010b), que realizaram buscas de vazamentos em RSO a partir de an´ lise de URLs e cabecalhos HTTP, que s˜ o os m´ todos tamb´ m utilizados a ¸ a e e aqui. Como Krishnamurthy (2010) que al´ m de defender a busca de vazamentos por estes meios e ¸˜ sugere a criacao de extens˜ es para navegadores Web com este fim, como foi feito neste trabalho. o ¸˜ Nenhum dos trabalhos aqui citados avaliou vazamentos de informacoes pessoais na RSO Orkut, ´ que e a proposta deste trabalho.
  • 26. 26 ¸˜ ¸ ˜ 3 METODOLOGIA PARA DETECCAO DE VAZAMENTOS DE INFORMACOES NO ORKUT ı ´ Neste cap´tulo e apresentada a metodologia para busca e an´ lise de vazamentos de a ¸˜ ¸˜ ´ informacoes pessoais na Web. Na secao 3.1 e descrita a busca de URLs que contenham ou ¸˜ ¸˜ ´ indiquem vazamentos de informacoes pessoais. Na secao 3.2 e descrito o m´ todo de busca e ¸˜ ¸˜ de vazamentos atrav´ s de cabecalhos HTTP. A secao 3.3 relata a forma de implementacao da e ¸ extens˜ o desenvolvida para captura de vazamentos na Rede Social Online (RSO) Orkut. a 3.1 ¸˜ Vazamento de informacoes via URL ´ ¸˜ Aqui e apresentada a metodologia utilizada para deteccao de URLs que pertencam ao ¸ ¸˜ protocolo HTTP e que indiquem ou possuam vazamentos de informacao na RSO Orkut. Como dito anteriormente, esta RSO foi escolhida por n˜ o terem sidos encontrados estudos relatando a este tipo de vazamento e possuir um grande p´ blico no Brasil (ALEXA - THE WEB INFORMA- u TION COMPANY, 2012). A quantidade existente de usu´ rios torna o Orkut uma grande base de a ¸˜ ´ ¸˜ informacoes, o que e muito atrativo para agregadores de informacao. a ¸˜ a ¸˜ O padr˜ o de identificacao destas URLs foi retirado da an´ lise de navegacao feita atrav´ s e dos textos do endereco URL da RSO. Nesta an´ lise foi observado onde existe troca de dados ¸ a ¸˜ ¸˜ com meios externos ao Orkut, informacoes que possam identificar ou ajudar na identificacao de usu´ rios contidas na URL e ind´cios que levem a vazamentos por outros meios. a ı ¸˜ ¸˜ Para an´ lise das URLs que possuam informacoes que possam ajudar na identificacao de a usu´ rios foi pesquisada a frequˆ ncia com que estas ocorrem em uma base de dados ofertada por a e ´ um provedor de Internet banda larga brasileiro. Esta base de dados e referente a 28 dias dos meses de junho e julho de 2010 (12/06/2010 a 10/07/2010), tamb´ m subdividida em um log de e tr´ fego de um provedor e um log1 de servico DHCP2 . Estes logs s˜ o formados por transacoes. a ¸ a ¸˜ Cada transacao e uma conex˜ o ou um fluxo de dados UDP3 analisado do ponto de vista da ¸˜ ´ a ¸˜ camada de rede e aplicacao. Mais detalhes sobre os protocolos DHCP, TCP/IP e UDP podem 1 Arquivo de registro de eventos relevantes num sistema computacional. 2 ´ ¸˜ Dynamic Host Configuration Protocol: e um protocolo de servico TCP/IP que oferece configuracao dinˆ mica ¸ a de terminais. 3 ´ ¸˜ User Datagram Protocol: e um protocolo da camada de transporte que permite que a aplicacao escreva um datagrama encapsulado num pacote.
  • 27. 27 ser encontrados em Tanenbaum (2002). ¸˜ ¸˜ A transacao cont´ m informacoes como endereco IP de origem e de destino, protocolo e ¸ ¸˜ utilizado, data e hora inicial e final, duracao e volume de bytes enviados e recebidos. O log de servico DHCP foi utilizado para identificar usu´ rios do provedor atrav´ s de endereco MAC4 do ¸ a e ¸ equipamento para conex˜ o com o provedor. Por quest˜ o de seguranca os dados dos usu´ rios a a ¸ a foram anonimizados (CASTILHO et al., 2010; CASAS et al., 2010). e o ¸˜ Esta base de dados cont´ m 45,6 milh˜ es de transacoes associadas a 48 mil usu´ rios. a a ¸˜ Neste estudo ser˜ o utilizadas as transacoes HTTP, pois al´ m deste ser um dos protocolos mais e utilizados para aplicacoes Web, n˜ o e considerado seguro como o HTTPS5 por n˜ o utilizarem ¸˜ a ´ a ¸˜ nenhuma verificacao de autenticidade. 3.2 Vazamentos via cabecalhos HTTP ¸ Nesta etapa foram buscados os vazamentos de IIP atrav´ s de cabecalhos HTTP. Os e ¸ ¸ a ¸˜ cabecalhos HTTP s˜ o informacoes que se intercambiam entre o navegador, ou qualquer outro cliente, e o servidor Web que hospeda uma p´ gina que se deseja consultar. Atrav´ s do cabecalho a e ¸ ¸˜ ¸˜ HTTP pode-se ter acesso a informacoes de requisicao da p´ gina, modelo do navegador, Host e a a ¸ ´ cookies, apesar destes n˜ o serem tratados pelo HTTP. No cabecalho o Cookie e usado por clien- tes para retornar ao servidor um cookie enviado anteriormente por alguma m´ quina no dom´nio a ı do servidor (TANENBAUM, 2002). Para obter os dados deste cabecalho foi utilizada uma extens˜ o para navegador Mozilla ¸ a Firefox chamado Live HTTP Headers. O Live HTTP Headers exibe todos os cabecalhos troca- ¸ dos entre o cliente e o servidor atrav´ s do protocolo HTTP, resumindo, todos os GETs, POSTs e e demais m´ todos de forms, requests de redirecionamento entre outros. A Figura 4 apresenta e ¸ e e e ´ um cabecalho HTTP visualizado atrav´ s do Live HTTP Header. Al´ m de filtrar, ele tamb´ m e ¸˜ capaz modificar e acrescentar cabecalhos de requisicao HTTP (SAVARD; COUKOUMA, 2011). ¸ 4 ¸˜ ´ MAC: endereco f´sico de 48 bits da estacao, ou, mais especificamente, da interface de rede, e respons´ vel pelo ¸ ı a ¸˜ controle de acesso de cada estacao a rede Ethernet. 5 ´ ¸˜ HyperText Transfer Protocol Secure: e uma implementacao do protocolo HTTP sobre uma camada SSL ou do TLS. Essa camada adicional permite que os dados sejam transmitidos atrav´ s de uma conex˜ o criptografada e que e a se verifique a autenticidade do servidor e do cliente atrav´ s de certificados digitais. e
  • 28. 28 ¸˜ Figura 4 – Exibicao do cabecalho no Live HTTP Header ¸ Fonte: Criada pela autora. Atrav´ s dos cabecalhos coletados pela extens˜ o foi feita uma busca por vazamentos de e ¸ a ¸˜ informacoes pessoais na RSO Orkut. Foram capturados cabecalhos HTTP de sites de tercei- ¸ ros que foram acessados a partir do redirecionamento da RSO Orkut. Ap´ s sua captura estes o foram analisados nos campos host, referer e cookie do cabecalho HTTP. O campo host indica ¸ ¸˜ para onde est˜ o indo as informacoes vazadas, enquanto no Referer e Cookies podem apare- a ¸˜ ¸˜ cer informacoes de troca de informacoes pessoais entre a RSO e algum servidor externo. Este m´ todo tamb´ m foi utilizado em Krishnamurthy e Wills (2010a). e e a a a ¸˜ Esta an´ lise foi de grande importˆ ncia para este trabalho, n˜ o somente na deteccao dos ¸˜ vazamentos de informacao existentes na RSO, mas tamb´ m para determinar a viabilidade destes e ¸˜ para implementacao da ferramenta proposta.
  • 29. 29 3.3 ¸˜ ¸˜ Ferramenta para deteccao de vazamentos de informacao no Orkut ¸˜ ¸˜ Aqui a metodologia para implementacao da ferramenta de deteccao de vazamentos ´ proposta e especificada. Isto foi poss´vel gracas a an´ lise dos vazamentos descobertos nos ı ¸ a cabecalhos HTTP capturados pela extens˜ o Live HTTP Header. A ferramenta desenvolvida ¸ a ´ ¸˜ neste trabalho e uma extens˜ o capaz de alertar ao usu´ rio da RSO Orkut que suas informacoes a a pessoais est˜ o sendo enviadas a servidores de terceiros, ou seja, vazamentos para p´ ginas Web a a carregadas a partir de links de propagandas no Orkut. Esta ferramenta possui os seguintes re- quisitos: • Funcionais: 1. Ativar pelo menu de contexto do navegador; 2. Exibir campos do cabecalho HTTP ao usu´ rio; ¸ a 3. Verificar existˆ ncia de vazamentos; e 4. Exibir resultado da consulta ao usu´ rio; a 5. Salvar consulta em arquivo texto. • N˜ o-funcionais: a 1. Executar no navegador Web Mozilla Firefox; ¸˜ 2. Verificar se requisicao proveio do Orkut; 3. Armazenar consultas feitas pelos usu´ rios em um Log de sa´da. a ı a ´ Esta extens˜ o e executada, assim como o Live HTTP Headers, no navegador Mozilla Fi- ¸˜ refox. Para implementacao da extens˜ o aqui proposta foi utilizado a ferramenta Add-On Buil- a ¸˜ der, criada pela Mozilla Foundation para auxiliar a implementacao de bibliotecas e extens˜ es o ¸˜ ¸˜ para seu navegador. O Add-On Builder facilita a comunicacao da aplicacao com o Mozilla Firefox (Mozilla FOUNDATION, 2012).
  • 30. 30 Figura 5 – Arquitetura Add-On Builder Fonte: Mozilla FOUNDATION (2012) o a ¸˜ Mas as extens˜ es Add-On Builder s˜ o diferentes das implementacoes diretamente na ´ Web, onde JavaScript e executado no contexto de uma p´ gina web e tem acesso ao conte´ do a u ´ ¸˜ ´ dessa p´ gina, o DOM (Document Object Model). O DOM e uma especificacao da W3C, e a uma interface de plataforma e linguagem neutra que permite que programas e scripts acessem e atualizem dinamicamente o conte´ do, estrutura e estilo de documentos, no caso deste trabalho u p´ ginas Web. O documento pode ser posteriormente tratado e os resultados de processamento a incorporadas para dentro da p´ gina apresentada (WORLD WIDE WEB CONSORTUIM (W3C), 2005). a O Add-On Builder n˜ o possui acesso direto ao DOM, existem dois tipos de scripts um a ¸˜ a intitulado “Add-on Code” e o outro “Content Scripts”, seu funcionamento e comunicacao s˜ o ilustrados na Figura 5. Estes scripts possuem acesso a diferentes conjuntos de APIs. O Add-on ´ ´ Code e onde a l´ gica principal da ferramenta esta implementada. O Content Script e utilizado o u ´ para manipular o conte´ do da Web, ele e injetado na p´ gina usando APIs definidas por algum a m´ dulo do SDK do Add-On Builder, estas APIs s˜ o demonstradas na Tabela 1. o a
  • 31. 31 Tabela 1 – APIs Add-On Builder API Add-On Code Content Script Os objetos globais definidos no n´ cleo da lin- u X X guagem JavaScript, como Math, Array, e JSON. ´ O m´ todo require() e definido pela vers˜ o 1.0 e a X ¸˜ da especificacao do m´ dulo CommonJS. O re- o ´ quire() e utilizado para importar funcionalida- des de outro m´ dulo e para exportar funciona- o lidades do atual m´ dulo para outro. O require() o est´ dispon´vel no SDK. a ı O console global oferecido pelo SDK Add-On X X Builder. ¸˜ Definicoes globais especificadas por HTML5, X como window, document, e lovalStorage. ¸˜ O objeto global, usado para comunicacao entre X Content Script e Add-on Code. Fonte: Mozilla FOUNDATION (2012). A ferramenta Leakut foi implementada utilizando, al´ m da linguagem JavaScript j´ re- e a latada, HTML e CSS. O JavaScript foi utilizado juntamente com o Content Script do Add-On Builder na captura dos campos dos cabecalhos HTTP, Host, Referer e Cookie, estes campos ¸ a e a ¸˜ s˜ o avaliados para descobrir a existˆ ncia ou n˜ o vazamento de informacoes. A linguagem de ¸˜ ¸˜ marcacao HTML e a folha de estilo CSS s˜ o utilizados para implementacao da tela de resposta a ao usu´ rio. a
  • 32. 32 ´ 4 ANALISE DOS VAZAMENTOS ENCONTRADOS Neste cap´tulo s˜ o apresentados os resultados an´ lises dos vazamentos relatados no ı a a ı ¸˜ cap´tulo anterior. Na secao 4.1 encontra-se a ocorrˆ ncia de identificadores em URLs da RSO e ¸ a ¸˜ Orkut. Os vazamentos encontrados via cabecalhos HTTP est˜ o na secao 4.2. 4.1 Identificadores em URL Orkut ¸˜ Como relatado no cap´tulo 3 informacoes encontradas em URLs podem ajudar a iden- ı tificar usu´ rios em RSOs (KRISHNAMURTHY, 2010). Analisando as URLs Orkut foram encon- a trados identificadores que s˜ o exibidos nestas e podem representar um perigo para o usu´ rio a a ¸˜ da RSO. Tendo em consideracao este fator a ocorrˆ ncia de IDs nas URLs da RSO Orkut foi e ¸˜ ´ verificada na base de dados descrita. Como j´ foi descrito na secao 3.1 esta base e formada de a ¸˜ transacoes Web fornecidas por um provedor de Internet banda larga brasileiro. Nesta base exis- ¸˜ tem cerca de 45,6 milh˜ es de transacoes das quais 8.827.302 pertencem ao Orkut, isto equivale o ¸˜ a 19% do total de transacoes como pode ser observado na Figura 6. ¸˜ Figura 6 – Gr´ fico das transacoes Orkut na base de dados estudada a Fonte: Dados da pesquisa. ´ O Orkut possui identificadores para usu´ rios, albuns e fotos, mas foram verificado so- a
  • 33. 33 mente os IDs dos usu´ rios, pois estes podem ser utilizados mais facilmente por agregadores a para seus fins. Como estes identificadores est˜ o diretamente no texto do endereco URL qual- a ¸ a a ¸˜ quer individuo pode acess´ -los o que deixa f´ cil a agregacao de identificadores que mais tarde ¸˜ podem ser utilizados para conseguir outras informacoes de forma maliciosa. A busca destes identificadores foi feita atrav´ s de queries SQL, estas foram executadas e ¸˜ para descobrir o total de transacoes Orkut e quantos identificadores diferentes encontrados neste ¸˜ ¸˜ total de transacoes. Para encontrar os IDs foi pesquisado no campo da tabela de transacoes e ¸ ¸˜ SQL que cont´ m o endereco URL da transacao neste campo foi procurado o texto padr˜ o do ID a do Orkut, que e definido pela express˜ o regular “(.*)uid=[0-9]*”1 . Os resultados das queries ´ a armazenados em arquivos texto e para leitura dos mesmos foi implementado um programa Java, ¸˜ este verifica a quantidade de transacoes com IDs de usu´ rios como tamb´ m os identificadores a e ´ unicos. Figura 7 – Gr´ fico das URLs com identificadores no Orkut a Fonte: Criada pela autora. ¸˜ ¸˜ As transacoes verificadas foram somente as transacoes pertencentes ao protocolo HTTP, ´ ¸˜ isto demonstra que este protocolo e altamente utilizado pelo Orkut. Das 8.827.302 transacoes a ¸˜ pertencentes ao Orkut, um total de 8.599.886 s˜ o transacoes HTTP. Como j´ relatado anteri- a ¸˜ ormente os dados buscados nestas transacoes foram URLs Orkut com identificadores de seus a ¸˜ usu´ rios. Os resultados da avaliacao das URLs podem ser visualizados no gr´ fico da Figura 7. a 1 (.*)uid=[0-9]* - esta express˜ o regular representa a URL Orkut, onde “(.*)” refere-se ao texto da URL seguido a por “uid=” e “[0-9]*” define 0 ou mais algarismos
  • 34. 34 ¸˜ Foram encontradas 39.445 transacoes com identificadores de usu´ rios no texto das URLs. Des- a a ´ tes identificadores encontrados 29.671 s˜ o unicos, ou seja identificadores diferentes usu´ rios. a ¸˜ Embora a quantidade de IDs em URLs destas transacoes n˜ o seja alta, considera-se que foram a ¸˜ analisados somente transacoes pertencentes ao protocolo HTTP e com os identificadores de usu´ rios, ignorando os outros tipos de identificadores. Mesmo assim este fato ainda pode ser a considerado relevante, pois este identificadores representam 29.671 identificadores livres para ¸˜ que agregadores consigam mais informacoes destes usu´ rios, sendo que estes est˜ o livres para a a ¸˜ visualizacao de qualquer indiv´duo na Web. ı 4.2 An´ lise dos vazamentos encontrados atrav´ s de cabecalhos HTTP a e ¸ ¸˜ Os vazamentos aqui encontrados acontecem na comunicacao da RSO com os sites ex- a a ´ ternos, quando o usu´ rio seleciona algum link de propaganda, quando a p´ gina Web e carregada ¸ e a ´ seu cabecalho HTTP cont´ m dados do usu´ rio da RSO. Este vazamento e demonstrado na Fi- ¸˜ gura 8, onde as informacoes contidas no servidor do Orkut s˜ o vazadas para o servidor de a e ¸˜ ¸˜ terceiros, atrav´ s da selecao do link de propaganda onde informacoes do usu´ rios s˜ o enviadas a a a ¸˜ a p´ gina requisitada. Estas informacoes s˜ o enviadas ao servidor de terceiros onde encontra-se a a p´ gina visitada. O vazamento ocorre no campo Referer contido no cabecalho HTTP da p´ gina, a ¸ a ¸˜ a relacao entre estes est´ indicada na Figura 8 por setas. a ¸˜ As informacoes pessoais s˜ o enviadas em meio ao texto contido neste campo em vari´ veis a a ı ı ¸˜ espec´ficas, estas podem ser vistas no cap´tulo 3. O campo Referer tem como funcao especifi- car para p´ gina Web atual o local de onde foi chamada, como outra p´ gina, assim este cont´ m a a e dados enviados pela p´ gina anterior caso este tenha partido de uma. Mas, muitas vezes, s˜ o a a ¸˜ enviadas informacoes adicionais n˜ o necess´ rias a p´ gina, em meio aos dados. Este envio pode a a a ¸˜ acontecer de forma consciente ou n˜ o, formando-se assim o vazamento de informacoes. a ¸˜ Tais vari´ veis podem ser utilizadas a fim de conseguir informacoes significativas do a usu´ rio ou podem ser interceptadas. A partir desta an´ lise foi detectado o melhor tipo de va- a a zamento a ser detectado pela ferramenta implementada. Estas vari´ veis foram utilizadas na a ¸˜ criacao da ferramenta que ser´ apresentada na no cap´tulo 5. a ı