O documento descreve os procedimentos realizados para construir uma amostra representativa de sites brasileiros na web, incluindo buscas em mecanismos de busca e listas de domínios, com o objetivo de mapear os fluxos de informação entre sites brasileiros e de outros países.
Fluxos de informação entre sites brasileiros e estrangeiros
1. Profª Drª Suely Fragoso Theo Lucas de S. Felizzola Grupo de Pesquisa Mídias Digitais Profª Ms. Rosana Vieira de Souza Pesquisadora Associada (2004) Coordenação (2004-2007) Maria Cândida L. Di Primio Ana Lúcia Migowski da Silva Marcelo Fichdickt Vetter Bolsista PIBIC (2004 e 2005) Bolsista UNIBIC (2005 e 2006) Bolsista PIBIC (2005 a 2007) Bolsista AT (2006 e 2007) Programa de Pós Graduação em Ciências da Comunicação http://www.midiasdigitais.org
2.
3.
4.
5. não de Língua Inglesa altos níveis de alfabetidade (99%) nações desenvolvidas único outro país ‘em desenvolvimento’ no topo da tabela Hemisfério Sul Língua Inglesa Hemisfério Sul Língua Inglesa Hemisfério Sul, Língua Inglesa Tabela 1: Dados de Halavais (1998 , p. 62), reorganizados conforme a média de links por site
6.
7. International Internet Hyperlink Structure. Reproduzido de Barnett and Jun, 2004 , slide 15 (aparece também em Barnett et al., 2003). A espessura da linha de conexão é proporcional ao número de hiperlinks entre dois países (50.000 é o número mínimo para uma conexão ser indicada). A intensidade do círculo que representa cada país indica sua centralidade na. o Brasil ocupa uma posição bastante próxima do centro
8. International Internet Infrastructure. Reproduzido de Barnett and Jun, 2004 , slide 16 (aparece também em Barnett et al., 2003). A espessura da linha de conexão é proporcional à largura de banda disponível entre dois países (13Mbps é o valor mínimo para que uma conexão seja indicada). As cores indicam os clusters de pertencimento Em relação à infraestrutura da Internet, o Brasil ocupa uma posição bem mais periférica
9. a centralidade do Brasil na rede de hiperconexões se deve Dados de Barnett et al. (2003 , s.p.) e Barnett and Jun (2004 , s.p.) parcialmente reproduzidos e reorganizados em ordem crescente de diferença entre InDegree e OutDegree ao alto número de links que os sites .br recebem ( inlinks ), bem maior do que o número de links que eles enviam ( outlinks )
10.
11. a proeminência de inlinks para sites com domínio .br é um tanto paradoxal: a quase totalidade dos sites com domínio .br é realmente em português (Veloso et al., 2000; Modesto et al., 2005) a estrutura internacional da web não está concentrada em torno de sites em inglês? os brasileiros não são particularmente sociáveis e desejosos de contato internacional? Por que webmasters de várias nacionalidades criam tantos links para sites de um país Latino Americano em desenvolvimento, cuja língua oficial é o português ? TAMBÉM... mas o Brasil não atrai o interesse das outras nações? se os links significam referenciação
12.
13.
14. Primeira etapa – construir a amostra: Barnett et al. (2003 ) e Barnett e Jun (2004) usaram AltaVista <domain:xx AND link:yy> nós tínhamos conhecimento de alguns problemas possíveis com o uso do AltaVista para obtenção desse tipo de dados, mas nos parecia, a princípio, que a simplicidade do procedimento compensaria por eventuais imprecisões que pudessem acontecer nossos resultados foram extremamente inconsistentes, indicando um nível de instabilidade na ferramenta de busca que inviabilizava seu uso, pelo menos com aquela sintaxe MAS com a sintaxe
15. No alto, à esquerda – resultado de uma busca com a sintaxe <domain:br AND link:uk> . AltaVista encontrou 0 sites . No alto, ao centro – resultado de uma busca com <domain:br> AltaVista encontrou 194,000,000 resultados. No alto, à direita – resultado de uma busca com <link:uk> AltaVista encontrou 448 sites Embaixo, à esquerda – segunda tentativa com <domain:.br AND link:.br> AltaVista encontrou 37 resultados Embaixo, à direita - <link:.br> AltaVista encontrou 65 páginas apenas 65 páginas com link para as outras 194.000.000 de páginas com domínio .br ?!? A maioria das páginas encontradas utilizando a palavra link na busca continham as palavras link e br mas, curiousamente, nem todas tinham sequer essa conexão com os elementos da busca
16. Outros testes demonstraram que as buscas com a expressão <domain> eram consistentes <link:>, entretanto, somente funcionou com URLs completas, não com TLDs Acima, à esquerda - resultados de buscas por sites com domínio .br que enviam links para http://www.aoir.org AltaVista encontrou 9 páginas Embaixo, à esquerda - resultados de buscas com o domínio .ar para sites que enviam links para http://www.unisinos.br AltaVista encontrou 281 resultados wildcards também não ajudaram À direita, acima e embaixo – buscas correspondentes tentando possíveis wildcards AltaVista encontoru 0 resultados todas as vezes
17. uma alternativa seria construir a amostra com crawlers inexperiência da equipe mesmo com um crawler já pronto amostras construídas com crawlers o processo demandaria muito da infra-estrutura da universidade retomamos a opção de usar sistemas de busca ...quais sistemas usar, como e com que sintaxe? então... sofrem influência gravitacional do ponto de início opção arriscada e por isso precisam ser muito grandes para ser representativas
18. Na impossibilidade de trabalhar com uma amostra suficientemente grande para garantir representatividade estatística a solução é construir uma amostra menor, selecionando os sites com um conjunto de procedimentos capaz de garantir representatividade qualitativa modos de accesso a websites b) seguindo links c) sabendo a URL de antemão a) encontrar o site com buscadores base da Hyperlink Analysis, do PageRank etc de acordo com o uso de buscadores para construir a amostra adicionar os 100 Top-ten Third-Level Domain indicados pelo Internet Systems Consortium na época da construção da amostra como a maioria dos sistemas de busca utiliza atualmente algoritmos com princípios do Page Rank, (a) garante (b) depende de indutores de visibilidade que podem ser internos ou externos à Web
19. porém, assim como o AltaVista , nenhum sistema de busca que testamos era capaz de realizar buscas conjugando restrição de domínios e localização de inlinks do modo como a pesquisa demandava trata-se de um procedimento misto , que combina as possibilidades dos sistemas de busca e seus grandes bancos de dados com o mapeamento de sites usando crawlers de alcance limitado formulamos um conjunto de técnicas para coletar e processar dados para amostras de porções da Web com representatividade qualitativa é um processo em várias etapas, que não se destina especificamente à análise quantitativa do fluxo de informações sugerido pela presença de hiperlinks, mas procura facilitar e viabilizar abordagens qualitativas de estudo dos padrões internacionais de hiperlinkagem
20.
21. 4) Checamos e registramos o número total de DNS registrados para o ccTLD e cada SLD nos dias das buscas não é possível calcular representatividade apenas pelo número de resultados que as ferramentas de busca 5) os resultados de cada sistema de busca foram inicialmente gravados em formato HTML na realidade as ferramentas só dão acesso a entre 800 e 1.000 endereços, independente do número de resultados que alegam ter encontrado A eficiência dos algoritmos de clusterização das ferramentas faz muita diferença (nenhum dos dois sistemas utilizados eliminou 100% as repetições) 6) no total foram reunidas 28 listas (14 cada dia, 7 cada buscador engine - 1 ccTLD e 6 SLDs), contendo em média 900 resultados cada total da amostra bruta = ~ 25,200 URLs
22. 8) nas listas de URLs limpas constaram apenas os DNS, sem subdiretórios 9) as listas de DNSs foram organizadas com um script em Perl especialmente produzido para a pesquisa endereços repetidos foram substituídos por indicações do número de ocorrências na lista original 7) as listas em formato HTML foram limpas manualmente, restando apenas as URLs, uma embaixo da outra
23. 11) como uma escolha seria aleatória, optamos por trabalhar com a somatória dos resultados dos dois dias para cada categoria e cada buscador 10) Uma comparação entre as listas limpas e com contagem de ocorrências indicou importantes variações nos resultados obtidos com o Google nas duas datas de busca iniciamos o trabalho com 14 listas, cada uma com cerca de 1,800 URLs após a declusterização, a lista combinada de resultados para cada categoria nos dois dias continha entre 1,000 e 1,500 DNSs diferentes as URLs dos SLDs pré-selecionados que figuraram muitas vezes na lista .br foram adicionadas às listas específicas de cada SLD 12) as URLs pertencentes aos SLDs que figuraram na lista .br foram identificadas e retiradas da lista 13) as listas finais foram comparadas com outro script em Perl o script anotava quais sistes haviam sido indicados por quais buscadores preservando a informação (previamente registrada) sobre o número de ocorrências de cada DNS
24. 15) a amostra foi constituída levando em conta o número de ocorrências das URLs do CCTLD e cada SLDs, preservando certa proporcionalidade com o número total de DNS registrados em cada caso 14) as listas somadas e comparadas foram organizadas por número de ocorrência das URLs 16) o corpus previsto incluía 180 URLs. O mapeamento de 6 endereços não foi possível ou seria redundante (aliases), ficando o corpus final constituído por 102 URLs
26. localização de inlinks 17) para localizar os links enviados para os sites da amostra por sites pertencentes a domínios diferentes de .br, foram realizadas buscas com a sintaxe <domain:.xx AND link:URL> 18) numa primeira etapa, as buscas foram concentradas sobre os ccTLDs de um conjunto de países com os quais o Brasil mantém relações econômicas, comerciais e culturais mais intensas e que foram considerados os mais prováveis para o intercâmbio de links de, .ar, .ca, .cl, .co, .cu, .ec, .es, .us, .fr, .mx, .pt, .gb/.uk, .uy, .ve realizamos buscas por inlinks também desde cinco TLDs genéricas .org, .com, .edu, .net, .gov 19) posteriormente, as buscas por inlinks foram complementadas com ccTLDs que apareceram com frequência nos mapeamentos de outlinks nesses casos, as buscas foram concentradas nos sites com SLDs correspondentes àqueles da verificação dos outlinks .br - .it, .nl, .jp, .;au, .ch, .dk, .be, .at, .se, .fi .com.br - .cn, .it, .jp, .;au, .gov.br - .it, .nl, .jp, .au, .ru, .ch, .be, .pe, .za, .gov, .at, .bo, .nz, .py, .int, .sg, .gt .org.br - .it, .info, .nl, .be, .ch, .au, .fi, .za .edu.br - .ru, .ch
27. 20) os resultados das buscas foram salvos em formato HTML e posteriormente as listas foram limpas manualmente, restando apenas as URLs, uma embaixo da outra 21) os resultados foram organizados em arquivos independentes para cada site da amostra. Os arquivos reúnem as URLs encontradas nas buscas por cada TLD e indicam o número total de ocorrências 22) o número total de URLs encontradas para cada TLD buscado para o ccTLD .br e cada tipo de SLD pertencente ao .br foi registrado em uma tabela 23) os totais foram ordenados por ordem decrescente de ocorrência do TLD
28. Número de inlinks por TLD para .br e seus principais SLDs
29. localização de outlinks 24) para a localização dos outlinks, foi utilizado um crawler freeware 25) cada URL do corpus foi rastreada até 5 níveis de profundidade vários crawlers foram testados, o que melhor se adaptou às necessidades da pesquisa foi o Astra Site Manager ( Mercury Interactive Corporation, 1999) 26) as URLs correspondentes a TLDs estrangeiros foram identificadas na lista dos links encontrados em cada mapa
30. 27) os resultados foram organizados em arquivos independentes para cada site da amostra. Os arquivos reúnem as URLs encontradas em cada mapa e indicam o número total de ocorrências
31. 23) Os totais foram ordenados por ordem decrescente de ocorrência do TLD Número de outlinks por TLD para .br e seus principais SLDs
32.
33. 2) maior ocorrência de inlinks desde sites estrangeiros para sites .br (apontada em trabalhos anteriores, mas paradoxal) pela primeira vez com uma amostragem representativa e focada em sites brasileiros Número de outlinks por TLD para .br e seus principais SLDs Número de inlinks por TLD para .br e seus principais SLDs
34. Número de inlinks por TLD para .br e seus principais SLDs as maiores quantidades de inlinks vêm dos TLDs .com e .net seguidos por .org e .edu , A Alemanha aparece entre as 5 origens mais frequentes de inlinks para .br e quase todos os SLDs A Argentina é a origem mais frequentes de inlinks na América Latina
35. Em elaboração os números totais de inlinks e outlinks de cada TLD para .br e seus SLDs estão sendo projetados em mapas-mundi para melhor visualização para isso, são agrupados em cinco faixas de grandeza
37. Próximos passos o que realmente esses links representam? observar as âncoras de partida e de chegada e seus contextos (efetivo conteúdo das páginas) concluir os mapas concluir a interpretação dos resultados - até fevereiro de 2008, data de encerramento da pesquisa: - próxima investigação: início previsto para março de 2008 aumentar a granularidade da amostra
38. Profª Drª Suely Fragoso Theo Lucas de S. Felizzola Grupo de Pesquisa Mídias Digitais Profª Ms. Rosana Vieira de Souza Pesquisadora Associada (2004) Coordenação (2004-2007) Maria Cândida L. Di Primio Ana Lúcia Migowski da Silva Marcelo Fichdickt Vetter Bolsista PIBIC (2004 e 2005) Bolsista UNIBIC (2005 e 2006) Bolsista PIBIC (2005 a 2007) Bolsista AT (2006 e 2007) Programa de Pós Graduação em Ciências da Comunicação http://www.midiasdigitais.org