SlideShare uma empresa Scribd logo
1 de 38
Profª Drª   Suely Fragoso Theo Lucas de S. Felizzola Grupo de Pesquisa Mídias Digitais Profª Ms.   Rosana Vieira de Souza Pesquisadora Associada (2004) Coordenação (2004-2007) Maria Cândida L. Di Primio Ana Lúcia Migowski da Silva Marcelo Fichdickt Vetter Bolsista PIBIC  (2004 e 2005) Bolsista UNIBIC  (2005 e 2006) Bolsista PIBIC  (2005 a 2007) Bolsista AT  (2006 e 2007) Programa de Pós Graduação em Ciências da Comunicação http://www.midiasdigitais.org
Premissas  Fundamentais da Pesquisa: ,[object Object],[object Object],e com isso reposicionam centros e periferias áreas com maior concentração de população mais urbanizadas alteram as relações de proximidade e distância centros políticos e econômicos concentração de capital (econômico, social, cultural) periferias distantes dos centros economicamente afetadas pelo atrito das distâncias custo de comunicação e transporte modo industrial de produção modo informacional de produção tráfego informacional não é tão diretamente afetado pelas proximidades e distâncias físicas divisão global norte-sul
é totalmente dependente das instâncias materiais (fios, cabos, satélites, servidores) que dão sustentação às redes é perpetrado por ações humanas realizadas por indivíduos geograficamente situados  o espaço físico também afeta os fluxos comunicacionais nas redes digitais Por outro lado,  ,[object Object],e afetam as Existência de correlações diretas entre a posição politico-economica durante a hegemonia do modo industrial de produção e a acessibilidade da internet nos países e continentes demonstrada e discutida em  Fragoso, 2003  e  Fragoso e Maldonado, 2007 porque o chamado ciberespaço
proporcionalmente , são realizadas poucas investigações empíricas da Web no Brasil sites com domínio registrad no Brasil (ccTLD  .br  ) aparecem com frequência nas amostras globais de pesquisadores estrangeiros pesquisas estadunidenses que  não tinham  foco nos sites com domínio  .br  indicaram alguns padrões interessantes de conectibilidade de e para os sites brasileiros Halavais, 1998  – encontrou uma média de  13.66 links  por site  .br   ,[object Object],posiciona o ccTLD  .br  na   sexta maior conectibilidade internacional ,[object Object],country code Top Level Domain .br  é o 11º ccTLD em número de hosts  (dados de Julho de 2007,  Internet Systems Consortium, 2007  ) 2º nas Américas, atrás apenas dos EUA (.com, .net e .edu) 1º nas América Latina, acima de México (.mx) e Argentina (.ar) ,[object Object],problemas com a amostra de sites .br de Halavais
não de Língua Inglesa altos níveis de alfabetidade (99%) nações desenvolvidas único outro país ‘em desenvolvimento’ no topo da tabela Hemisfério Sul Língua Inglesa Hemisfério Sul Língua Inglesa Hemisfério Sul,  Língua Inglesa Tabela 1:  Dados de  Halavais (1998 , p. 62), reorganizados  conforme a média de links por site
Barnett et al.,  2003 Barnett and Jun,  2004 ,[object Object],[object Object],[object Object],buscavam verificar o grau de centralidade de cada nação da amostra inicial autores discutem a posição da Noruega,  mais central que as demais nações nórdicas mais próxima dos EUA que esperado rede de TLDs resultou completamente interconectada EUA ocupando a posição mais central,  seguido por  Austrália Reino Unido China  Japão  Canadá  Alemanha  a posição do Brasil também é muito interessante também trabalharam com amostras que incluíam sites  .br
International Internet Hyperlink Structure.  Reproduzido de  Barnett and Jun, 2004 , slide 15  (aparece também em Barnett et al., 2003). A espessura da linha de conexão é proporcional ao número de hiperlinks entre dois países (50.000 é o número mínimo para uma conexão ser indicada). A intensidade do círculo que representa cada país indica sua centralidade na.  o Brasil ocupa uma posição bastante próxima do centro
International Internet Infrastructure.  Reproduzido de  Barnett and Jun, 2004 , slide 16  (aparece também em Barnett et al., 2003). A espessura da linha de conexão é proporcional à largura de banda disponível entre dois países (13Mbps é o valor mínimo para que uma conexão seja indicada). As cores indicam os clusters de pertencimento Em relação à infraestrutura da  Internet,  o Brasil ocupa uma posição bem  mais periférica
a  centralidade do Brasil  na rede de hiperconexões se deve Dados de  Barnett et al.  (2003 , s.p.) e  Barnett and Jun (2004 , s.p.) parcialmente reproduzidos e reorganizados em ordem crescente de diferença entre InDegree e OutDegree ao alto número de links que os sites  .br recebem  ( inlinks ), bem maior do que o número de links que eles enviam ( outlinks )
[object Object],[object Object],[object Object],Hiperlinks  = nações ricas em informação  enviam links  para nações pobres em informação !?! links  não são análogos a corredores pelos quais a informação flui,  links funcionam como  referenciação  do site de destino criam-se links para páginas que são  consideradas relevantes [não é grande novidade, este é o raciocínio de base do algoritmo  PageRank ( Brin and Page, 1998 ) ] IMnsHO... Barnett et al. (2003) Barnett e Jun, (2004) World System Theory   ( Wallerstein, 1979 ) os dados deles corroboram a  para
a proeminência de inlinks  para sites com domínio  .br  é um tanto  paradoxal:  a quase totalidade dos sites com domínio .br é realmente  em português   (Veloso et al., 2000; Modesto et al., 2005) a estrutura internacional da web não está concentrada em torno de sites em inglês?  os brasileiros não são particularmente sociáveis e desejosos de contato internacional? Por que webmasters de várias nacionalidades  criam tantos links para sites de um país Latino Americano em desenvolvimento,  cuja língua oficial é o português ?  TAMBÉM... mas  o Brasil não  atrai o interesse  das outras nações? se os links significam referenciação
- verificar os potenciais fluxos de informação de e para sites brasileiros ,[object Object],- mapear os links entre os sites com domínio  .br  e outros domínios - projetar os fluxos potenciais de informação (os padrões de linkagem) sobre o  mapa-mundi  geopolítico e as novas fronteiras internacionais do Brasil no ciberespaço - enxergar a reconfiguração das proximidades e distâncias entre o Brasil e outros países no mundo contemporâneo  Objetivos  da Pesquisa
[object Object],[object Object],[object Object],entretanto , conferir (por amostragem) o conteúdo e pertencimento dos websites que hospedam hiperlinks nos fluxos mais proeminentes problema da imprecisão da pesquisa a partir de ccTLDs ( Veloso et al., 2000 ;  Modesto et al., 2005 )
Primeira etapa  – construir a amostra: Barnett  et al. (2003 ) e  Barnett e Jun (2004)  usaram  AltaVista <domain:xx AND link:yy>  nós tínhamos conhecimento de alguns  problemas  possíveis com o uso do  AltaVista  para obtenção desse tipo de dados, mas nos parecia, a princípio, que a  simplicidade do procedimento  compensaria por  eventuais imprecisões  que pudessem acontecer  nossos resultados foram  extremamente inconsistentes,  indicando um nível de instabilidade na ferramenta de busca que inviabilizava seu uso, pelo menos com aquela sintaxe MAS com a sintaxe
No alto, à esquerda  – resultado de uma busca com a sintaxe  <domain:br AND link:uk> .  AltaVista  encontrou  0  sites . No alto, ao centro –  resultado de uma busca com <domain:br>  AltaVista  encontrou  194,000,000  resultados.  No alto, à direita  –  resultado de uma busca com <link:uk> AltaVista  encontrou   448 sites Embaixo, à esquerda  – segunda tentativa com  <domain:.br AND link:.br>  AltaVista   encontrou 37 resultados Embaixo, à direita  - <link:.br> AltaVista   encontrou 65 páginas apenas 65  páginas  com link para as outras  194.000.000 de páginas com domínio .br ?!? A maioria das páginas encontradas utilizando a palavra link na busca  continham as palavras link e br  mas, curiousamente, nem todas tinham sequer essa conexão com os elementos da busca
Outros testes demonstraram que as buscas com a expressão  <domain>  eram consistentes <link:>,  entretanto, somente funcionou com  URLs completas, não com TLDs Acima, à esquerda  -  resultados de buscas por  sites com domínio .br  que enviam links para  http://www.aoir.org   AltaVista  encontrou  9  páginas  Embaixo, à esquerda  -  resultados de buscas com o domínio  .ar  para sites que enviam links para  http://www.unisinos.br  AltaVista  encontrou  281  resultados  wildcards  também não ajudaram À direita, acima e embaixo  – buscas correspondentes tentando possíveis  wildcards  AltaVista  encontoru  0  resultados todas as vezes
uma alternativa seria construir a amostra com  crawlers inexperiência  da equipe mesmo com um  crawler já pronto amostras construídas com crawlers o processo demandaria  muito da infra-estrutura da universidade retomamos a opção de usar sistemas de busca ...quais sistemas usar, como e com que sintaxe? então... sofrem influência gravitacional do ponto de início opção arriscada e por isso precisam ser muito grandes para ser representativas
Na impossibilidade de trabalhar com uma amostra suficientemente grande para garantir representatividade estatística a solução é construir uma amostra menor, selecionando os sites com um conjunto de procedimentos capaz de garantir representatividade qualitativa modos de accesso a websites  b) seguindo links c) sabendo a URL de antemão a) encontrar o site com buscadores base da Hyperlink Analysis, do PageRank etc de acordo com o uso de buscadores para construir a amostra adicionar os 100 Top-ten Third-Level Domain indicados pelo Internet Systems Consortium na época da construção da amostra como a maioria dos sistemas de busca utiliza atualmente algoritmos com princípios do Page Rank, (a) garante (b) depende de indutores de visibilidade que podem ser internos ou externos à Web
porém,  assim como o  AltaVista ,  nenhum sistema de busca  que testamos  era capaz  de realizar buscas conjugando  restrição de domínios  e  localização de inlinks  do modo como a pesquisa demandava trata-se de um  procedimento misto , que combina as  possibilidades dos sistemas de busca  e seus  grandes bancos de dados  com o  mapeamento de sites  usando  crawlers de alcance limitado formulamos um  conjunto de técnicas  para  coletar  e  processar  dados para  amostras  de porções da  Web  com  representatividade qualitativa é um  processo em várias etapas,  que não se destina especificamente à análise quantitativa do fluxo de informações sugerido pela presença de hiperlinks,  mas procura  facilitar e viabilizar  abordagens  qualitativas  de estudo dos  padrões internacionais de hiperlinkagem
Procedimentos  Realizados: 1) utilizamos os dois sistemas públicos de busca mais populares,  Google  e  Yahoo !  2) complementamos as buscas gerais pelo ccTLD .br com buscas por alguns domínios de segundo nível (SLD) Google  e  Yahoo ! são realmente dois provedores distintos, que trabalham com bancos de dados diferentes e independentes  ( Fragoso, 2007 ) ,[object Object],[object Object],[object Object],3) aumentamos a redundância repetindo as buscas com cada ferramenta por cada domínio e subdomínio em dois dias diferentes .br, .com.br, .org.br, .gov.br, .edu.br, .ind.br  e  .inf.br
4) Checamos e registramos o número total de DNS registrados para o ccTLD e cada SLD nos dias das buscas não é possível calcular representatividade apenas pelo número de resultados que as ferramentas de busca 5) os resultados de cada sistema de busca foram inicialmente gravados em formato  HTML na realidade as ferramentas só dão acesso a entre 800 e 1.000 endereços, independente do número de resultados que alegam ter encontrado A eficiência dos algoritmos de clusterização das ferramentas faz muita diferença (nenhum dos dois sistemas utilizados eliminou 100% as repetições) 6) no total foram reunidas  28 listas  (14 cada dia, 7 cada buscador engine - 1 ccTLD e 6 SLDs),  contendo em média  900 resultados  cada total da amostra bruta =  ~ 25,200 URLs
8) nas listas de URLs limpas constaram apenas os DNS, sem subdiretórios 9) as listas de DNSs foram organizadas com um script em Perl especialmente produzido para a pesquisa endereços repetidos foram substituídos por indicações do número de ocorrências na lista original 7) as listas em formato  HTML  foram limpas manualmente, restando apenas as URLs, uma embaixo da outra
11) como uma escolha seria aleatória, optamos por trabalhar com a somatória dos resultados dos dois dias para cada categoria e cada buscador   10) Uma comparação entre as listas limpas e com contagem de ocorrências indicou importantes variações nos resultados obtidos com o  Google  nas duas datas de busca iniciamos o  trabalho com 14 listas, cada uma com cerca de 1,800 URLs   após a declusterização, a lista combinada de resultados para cada categoria nos dois dias continha entre  1,000 e 1,500 DNSs diferentes   as URLs dos SLDs pré-selecionados que figuraram muitas vezes na lista  .br  foram adicionadas às listas específicas de cada SLD  12) as URLs pertencentes aos SLDs que figuraram na lista  .br  foram identificadas e retiradas da lista 13) as listas finais foram comparadas com outro script em Perl o script anotava quais sistes haviam sido indicados por quais buscadores preservando a informação (previamente registrada) sobre o número de ocorrências de cada DNS
15) a amostra foi constituída levando em conta o número de ocorrências das URLs do CCTLD e cada SLDs, preservando certa proporcionalidade com o número total de DNS registrados em cada caso 14) as listas somadas e comparadas foram organizadas por número de ocorrência das URLs 16) o corpus previsto incluía 180 URLs. O mapeamento de 6 endereços não foi possível ou seria redundante (aliases), ficando o corpus final constituído por 102 URLs
102 total www.novae.inf.br--  //  www.power.inf.br--  //  www.acritica-cg.inf.br--  //  www.redebrasil.inf.br--  //  www.callcenter.inf.br www.front.inf.br--  www.datavenia.inf.br  mudou para datavenia.net 6 .inf.br www.obvio.ind.br  //  www.unipar.ind.br  //  www.hd.ind.br  //  www.innova.ind.br  //  www.micromed.ind.br  //  www.taf.ind.br  //  www.tato.ind.br  //  www.csm.ind.br  8 .ind.br www.rio.rj.gov.br  //  www.radiobras.gov.br  //  www.mct.gov.br  //  www.receita.fazenda.gov.br  //  www.planalto.gov.br  //  www.capes.gov.br  //  www.mj.gov.br  //  www.mre.gov.br  //  www.camara.gov.br   //  www.ibge.gov.br  //  www.bndes.gov.br  //  www.iphan.gov.br  //  www.aids.gov.br  //  www.fomezero.gov.br  //  www.mme.gov.br  //  www.caixa.gov.br  //  www.senado.gov.br  //  www.stj.gov.br  //  www.finep.gov.br  //  www.portoalegre.rs.gov.br  //  www.presidencia.gov.br  //  www.comprasnet.gov.br  //  www.periodicos.capes.gov.br  //  www.inep.gov.br  //  www.portaldoexportador.gov.br  www.camara.gov.br  igual a www2.camara.gov.br 25 .gov.br www.bioline.org.br  //  www.sbc.org.br  //  www.pt.org.br  //  www.forumsocialmundial.org.br  //  www.inee.org.br  //  www.mst.org.br  //  www.sosmatatlantica.org.br  //  www.abrasco.org.br  //  www.itaucultural.org.br   //  www.abc.org.br   //  www.wwf.org.br   11 .org.br www.puc-campinas.edu.br   //  www.ufjf.edu.br  //  www.unibero.edu.br  //  www.dsc.ufcg.edu.br  //  www.ibmecsp.edu.br  //  www.ucam.edu.br  //  www.ufpel.edu.br  //  minerva.ufpel.edu.br  //  www.ufam.edu.br  //  www.scamilo.edu.br  //  www.saofrancisco.edu.br   www.cederj.br  não é mapeável (não dá acesso ao crawler) 11 .edu.br www.mercadolivre.com.br   //  www.estadao.com.br   //  www.uol.com.br   //  www.terra.com.br   //  www.folha.uol.com.br   //  www.campus.com.br   //  jbonline.terra.com.br  //  www.conectiva.com.br   www.submarino.com.br   //  www.correios.com.br   //  www.bb.com.br   //  www.santander.com.br   //  www.tvcultura.com.br www.aol.com.br  desativado durante a  realização da pesquisa 13 .com.br noticias.usp.br //  registro.br //  sft.if.usp.br //  www.biblioteca.ufrgs.br //    www.bireme.br //    www.cbpf.br   //  www.cdbrasil.cnpm.embrapa.br   //  www.cespe.unb.br   //  www.cnpq.br //    www.faperj.br   //  www.fapesp.br   //  www.ibict.br   //  www.if.ufrgs.br   //  www.ime.usp.br //    www.impa.br  /  www.inpe.br   //  www.puccamp.br   //  www.puc-rio.br //    www.rnp.br   //  www.tecgraf.puc-rio.br   //  www.ufmg.br   //  www.ufpe.br   //  www.ufrgs.br //    www.unb.br //    www.unicamp.br //    www.usp.br   //  www2.ufscar.br  //  www21.sede.embrapa.br www.scielo.br  não mapeável www.usp.br  igual a www2.usp.br 28 .br observações total por domínio dominio URLs selecionadas para mapeamento
localização de  inlinks 17) para localizar os links enviados para os sites da amostra por sites pertencentes a domínios diferentes de .br, foram realizadas buscas com a sintaxe  <domain:.xx AND link:URL> 18) numa primeira etapa, as buscas foram concentradas sobre os ccTLDs de um conjunto de países com os quais o Brasil mantém relações econômicas, comerciais e culturais mais intensas e que foram considerados os mais prováveis para o intercâmbio de links de, .ar, .ca, .cl, .co, .cu, .ec, .es, .us, .fr, .mx, .pt, .gb/.uk, .uy, .ve realizamos buscas por inlinks também desde cinco TLDs genéricas .org, .com, .edu, .net, .gov  19) posteriormente, as buscas por inlinks foram complementadas com ccTLDs que apareceram com frequência nos mapeamentos de outlinks nesses casos, as buscas foram concentradas nos sites com SLDs correspondentes àqueles da verificação dos outlinks  .br   -   .it, .nl, .jp, .;au, .ch, .dk, .be, .at, .se, .fi .com.br   -  .cn, .it, .jp, .;au, .gov.br   -  .it, .nl, .jp, .au, .ru, .ch, .be, .pe, .za, .gov, .at, .bo, .nz, .py, .int, .sg, .gt .org.br   -  .it, .info, .nl, .be, .ch, .au, .fi, .za .edu.br   -  .ru, .ch
20) os resultados das buscas foram salvos em formato HTML e posteriormente as listas foram limpas manualmente, restando apenas as URLs, uma embaixo da outra 21) os resultados foram organizados em arquivos independentes para cada site da amostra. Os arquivos reúnem as URLs encontradas nas buscas por cada TLD e indicam o número total de ocorrências  22) o número total de URLs encontradas para cada TLD buscado para o ccTLD .br e cada tipo de SLD pertencente ao .br foi registrado em uma tabela 23) os totais foram ordenados por ordem decrescente de ocorrência do TLD
Número de  inlinks  por TLD  para .br e seus principais SLDs
localização de  outlinks 24) para a localização dos outlinks, foi utilizado um crawler freeware 25) cada URL do corpus foi rastreada até 5 níveis de profundidade vários crawlers foram testados, o que melhor se adaptou às necessidades da pesquisa foi o  Astra Site Manager  ( Mercury Interactive Corporation,  1999) 26) as URLs correspondentes a TLDs estrangeiros foram identificadas na lista dos links encontrados em cada mapa
27) os resultados foram organizados em arquivos independentes para cada site da amostra. Os arquivos reúnem as URLs encontradas em cada mapa e indicam o número total de ocorrências
23) Os totais foram ordenados por ordem decrescente de ocorrência do TLD Número de  outlinks  por TLD  para .br e seus principais SLDs
Resultados   1) alguns resultados obtidos eram previsíveis,  por exemplo as maiores quantidades de  outlinks  são dirigidas aos TLDs  .edu ,  .com ,  .org   Número de  outlinks  por TLD  para .br e seus principais SLDs os países que recebem mais links desde sites brasileiros são  EUA  (TLDs genéricos),  Reino Unido  (com exceção de .ind.br),  Alemanha  (.br, .org.br),  Portugal  (.com.br, .inf.br, .edu.br), e  Canadá  (.br) os sites brasileiros que mais enviam links para sites no exterior são os  .br  (universidades, agências de fomento à pesquisa e afins) ,[object Object],[object Object],[object Object]
2) maior ocorrência de inlinks desde sites estrangeiros para sites .br  (apontada em trabalhos anteriores, mas  paradoxal) pela primeira vez com uma amostragem representativa e focada em sites brasileiros  Número de  outlinks  por TLD  para .br e seus principais SLDs Número de  inlinks  por TLD  para .br e seus principais SLDs
Número de  inlinks  por TLD  para .br e seus principais SLDs as maiores quantidades de  inlinks  vêm dos TLDs  .com  e  .net seguidos por  .org  e  .edu ,  A Alemanha aparece entre as 5 origens mais frequentes de  inlinks  para .br e quase todos os SLDs A Argentina é a origem mais frequentes de  inlinks  na América Latina
Em elaboração  os números totais de inlinks e outlinks de cada TLD para .br e seus SLDs  estão sendo projetados em  mapas-mundi  para melhor visualização para isso, são agrupados em cinco faixas de grandeza
(em elaboração)
Próximos passos o que realmente esses links representam? observar as âncoras de partida e de chegada e seus contextos (efetivo conteúdo das páginas) concluir os mapas concluir a interpretação dos resultados - até fevereiro de 2008, data de encerramento da pesquisa: - próxima investigação: início previsto para março de 2008 aumentar a granularidade da amostra
Profª Drª   Suely Fragoso Theo Lucas de S. Felizzola Grupo de Pesquisa Mídias Digitais Profª Ms.   Rosana Vieira de Souza Pesquisadora Associada (2004) Coordenação (2004-2007) Maria Cândida L. Di Primio Ana Lúcia Migowski da Silva Marcelo Fichdickt Vetter Bolsista PIBIC  (2004 e 2005) Bolsista UNIBIC  (2005 e 2006) Bolsista PIBIC  (2005 a 2007) Bolsista AT  (2006 e 2007) Programa de Pós Graduação em Ciências da Comunicação http://www.midiasdigitais.org

Mais conteúdo relacionado

Destaque

Matrimonio
MatrimonioMatrimonio
Matrimoniosal51
 
Alimentacion Saludable
Alimentacion  SaludableAlimentacion  Saludable
Alimentacion Saludablelmartinez
 
D Rb Silicon Valley Ruby Conference
D Rb   Silicon Valley Ruby ConferenceD Rb   Silicon Valley Ruby Conference
D Rb Silicon Valley Ruby Conferencenextlib
 
Podcasting_Educational _Essentials - Vol_2
Podcasting_Educational _Essentials - Vol_2Podcasting_Educational _Essentials - Vol_2
Podcasting_Educational _Essentials - Vol_2Andreas Auwärter
 
Amigos y Companeros
Amigos y CompanerosAmigos y Companeros
Amigos y Companeroslmartinez
 
13phrasesforliving
13phrasesforliving13phrasesforliving
13phrasesforlivinglmartinez
 
Com208 Tv Overview
Com208 Tv OverviewCom208 Tv Overview
Com208 Tv OverviewTracey Eaton
 
Outlook Module 1 Sept 28, 2007
Outlook Module 1  Sept 28, 2007Outlook Module 1  Sept 28, 2007
Outlook Module 1 Sept 28, 2007Bitsy Griffin
 
Donde esta Dios
Donde esta DiosDonde esta Dios
Donde esta Dioslmartinez
 
Outlook Module 2 Sept 28, 2007
Outlook Module 2  Sept 28, 2007Outlook Module 2  Sept 28, 2007
Outlook Module 2 Sept 28, 2007Bitsy Griffin
 
.·.·.·she.·.·.·
 .·.·.·she.·.·.· .·.·.·she.·.·.·
.·.·.·she.·.·.·guest3cb71e
 
Projeto Mauricio Veronez
Projeto Mauricio VeronezProjeto Mauricio Veronez
Projeto Mauricio Veronezsemanact2007
 
Kartvizit99
Kartvizit99Kartvizit99
Kartvizit99tenisx
 
Word Module 3 Sept 28, 2007
Word Module 3 Sept 28, 2007Word Module 3 Sept 28, 2007
Word Module 3 Sept 28, 2007Bitsy Griffin
 

Destaque (19)

Matrimonio
MatrimonioMatrimonio
Matrimonio
 
Necesito
NecesitoNecesito
Necesito
 
Alimentacion Saludable
Alimentacion  SaludableAlimentacion  Saludable
Alimentacion Saludable
 
D Rb Silicon Valley Ruby Conference
D Rb   Silicon Valley Ruby ConferenceD Rb   Silicon Valley Ruby Conference
D Rb Silicon Valley Ruby Conference
 
Podcasting_Educational _Essentials - Vol_2
Podcasting_Educational _Essentials - Vol_2Podcasting_Educational _Essentials - Vol_2
Podcasting_Educational _Essentials - Vol_2
 
Amigos y Companeros
Amigos y CompanerosAmigos y Companeros
Amigos y Companeros
 
13phrasesforliving
13phrasesforliving13phrasesforliving
13phrasesforliving
 
Rutina
RutinaRutina
Rutina
 
Com208 Tv Overview
Com208 Tv OverviewCom208 Tv Overview
Com208 Tv Overview
 
Outlook Module 1 Sept 28, 2007
Outlook Module 1  Sept 28, 2007Outlook Module 1  Sept 28, 2007
Outlook Module 1 Sept 28, 2007
 
INFORED RURAL
INFORED RURALINFORED RURAL
INFORED RURAL
 
Donde esta Dios
Donde esta DiosDonde esta Dios
Donde esta Dios
 
posters.2007
posters.2007posters.2007
posters.2007
 
Outlook Module 2 Sept 28, 2007
Outlook Module 2  Sept 28, 2007Outlook Module 2  Sept 28, 2007
Outlook Module 2 Sept 28, 2007
 
.·.·.·she.·.·.·
 .·.·.·she.·.·.· .·.·.·she.·.·.·
.·.·.·she.·.·.·
 
Projeto Mauricio Veronez
Projeto Mauricio VeronezProjeto Mauricio Veronez
Projeto Mauricio Veronez
 
Kartvizit99
Kartvizit99Kartvizit99
Kartvizit99
 
Biblioteca
BibliotecaBiblioteca
Biblioteca
 
Word Module 3 Sept 28, 2007
Word Module 3 Sept 28, 2007Word Module 3 Sept 28, 2007
Word Module 3 Sept 28, 2007
 

Semelhante a Fluxos de informação entre sites brasileiros e estrangeiros

Dados abertos CAPES: um olhar à luz dos desafios para publicação de dados na web
Dados abertos CAPES: um olhar à luz dos desafios para publicação de dados na webDados abertos CAPES: um olhar à luz dos desafios para publicação de dados na web
Dados abertos CAPES: um olhar à luz dos desafios para publicação de dados na webProjeto RCAAP
 
RioInfo 2010: Seminário de Tecnologia - Mesa 1 - Integração e Convergência Va...
RioInfo 2010: Seminário de Tecnologia - Mesa 1 - Integração e Convergência Va...RioInfo 2010: Seminário de Tecnologia - Mesa 1 - Integração e Convergência Va...
RioInfo 2010: Seminário de Tecnologia - Mesa 1 - Integração e Convergência Va...Rio Info
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semanticaSPUK
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semanticaSPUK
 
Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Regis Magalhães
 
Linked Data Tutorial - Conferencia W3C Brasil 2011
Linked Data Tutorial - Conferencia W3C Brasil 2011Linked Data Tutorial - Conferencia W3C Brasil 2011
Linked Data Tutorial - Conferencia W3C Brasil 2011Regis Magalhães
 
Utilizando dados abertos conectados para gerar inovação
Utilizando dados abertos conectados para gerar inovaçãoUtilizando dados abertos conectados para gerar inovação
Utilizando dados abertos conectados para gerar inovaçãoArmando Barbosa
 
Apresentação Giovana Soares Carneiro UFRGS - CIDADANIA E GOVERNO ELETRÔNICO: ...
Apresentação Giovana Soares Carneiro UFRGS - CIDADANIA E GOVERNO ELETRÔNICO: ...Apresentação Giovana Soares Carneiro UFRGS - CIDADANIA E GOVERNO ELETRÔNICO: ...
Apresentação Giovana Soares Carneiro UFRGS - CIDADANIA E GOVERNO ELETRÔNICO: ...Giovana Soares Carneiro
 
Luis paciência
Luis paciênciaLuis paciência
Luis paciênciaa7004624
 
Síntese Web Semântica U F P E Maio 2009
Síntese  Web  Semântica    U F P E Maio 2009Síntese  Web  Semântica    U F P E Maio 2009
Síntese Web Semântica U F P E Maio 2009gestao
 
A Democracia online: política, Estado e cidadania através de plataformas digi...
A Democracia online: política, Estado e cidadania através de plataformas digi...A Democracia online: política, Estado e cidadania através de plataformas digi...
A Democracia online: política, Estado e cidadania através de plataformas digi...Ciber Comunica
 
Congresso Brasileiro de Biblioteconomia e Documentação
Congresso Brasileiro de Biblioteconomia e DocumentaçãoCongresso Brasileiro de Biblioteconomia e Documentação
Congresso Brasileiro de Biblioteconomia e DocumentaçãoCamila Ribeiro
 

Semelhante a Fluxos de informação entre sites brasileiros e estrangeiros (20)

Aula 04.pdf
Aula 04.pdfAula 04.pdf
Aula 04.pdf
 
O Futuro Da Web
O Futuro Da WebO Futuro Da Web
O Futuro Da Web
 
Dados abertos CAPES: um olhar à luz dos desafios para publicação de dados na web
Dados abertos CAPES: um olhar à luz dos desafios para publicação de dados na webDados abertos CAPES: um olhar à luz dos desafios para publicação de dados na web
Dados abertos CAPES: um olhar à luz dos desafios para publicação de dados na web
 
RioInfo 2010: Seminário de Tecnologia - Mesa 1 - Integração e Convergência Va...
RioInfo 2010: Seminário de Tecnologia - Mesa 1 - Integração e Convergência Va...RioInfo 2010: Seminário de Tecnologia - Mesa 1 - Integração e Convergência Va...
RioInfo 2010: Seminário de Tecnologia - Mesa 1 - Integração e Convergência Va...
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semantica
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semantica
 
Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011Linked Data - Minicurso - SBBD 2011
Linked Data - Minicurso - SBBD 2011
 
Linked Data Tutorial - Conferencia W3C Brasil 2011
Linked Data Tutorial - Conferencia W3C Brasil 2011Linked Data Tutorial - Conferencia W3C Brasil 2011
Linked Data Tutorial - Conferencia W3C Brasil 2011
 
Utilizando dados abertos conectados para gerar inovação
Utilizando dados abertos conectados para gerar inovaçãoUtilizando dados abertos conectados para gerar inovação
Utilizando dados abertos conectados para gerar inovação
 
Apresentação Giovana Soares Carneiro UFRGS - CIDADANIA E GOVERNO ELETRÔNICO: ...
Apresentação Giovana Soares Carneiro UFRGS - CIDADANIA E GOVERNO ELETRÔNICO: ...Apresentação Giovana Soares Carneiro UFRGS - CIDADANIA E GOVERNO ELETRÔNICO: ...
Apresentação Giovana Soares Carneiro UFRGS - CIDADANIA E GOVERNO ELETRÔNICO: ...
 
Luis paciência
Luis paciênciaLuis paciência
Luis paciência
 
WEB 3.0
WEB 3.0WEB 3.0
WEB 3.0
 
Síntese Web Semântica U F P E Maio 2009
Síntese  Web  Semântica    U F P E Maio 2009Síntese  Web  Semântica    U F P E Maio 2009
Síntese Web Semântica U F P E Maio 2009
 
Linked Data
Linked DataLinked Data
Linked Data
 
Programacao para Web I 02 Internet
Programacao para Web I 02  InternetProgramacao para Web I 02  Internet
Programacao para Web I 02 Internet
 
Apresentação Unidade 2
Apresentação Unidade 2Apresentação Unidade 2
Apresentação Unidade 2
 
Srd
SrdSrd
Srd
 
A Democracia online: política, Estado e cidadania através de plataformas digi...
A Democracia online: política, Estado e cidadania através de plataformas digi...A Democracia online: política, Estado e cidadania através de plataformas digi...
A Democracia online: política, Estado e cidadania através de plataformas digi...
 
Congresso Brasileiro de Biblioteconomia e Documentação
Congresso Brasileiro de Biblioteconomia e DocumentaçãoCongresso Brasileiro de Biblioteconomia e Documentação
Congresso Brasileiro de Biblioteconomia e Documentação
 
Apresentação tic euclides
Apresentação tic   euclidesApresentação tic   euclides
Apresentação tic euclides
 

Mais de semanact2007

Tutorial para acessar a Ilha Unisinos no Second Life
Tutorial para acessar a Ilha Unisinos no Second LifeTutorial para acessar a Ilha Unisinos no Second Life
Tutorial para acessar a Ilha Unisinos no Second Lifesemanact2007
 
ApresentaçãO Projeto
ApresentaçãO ProjetoApresentaçãO Projeto
ApresentaçãO Projetosemanact2007
 
Viol^Ncia De G^Nero Ihu
Viol^Ncia De G^Nero IhuViol^Ncia De G^Nero Ihu
Viol^Ncia De G^Nero Ihusemanact2007
 
Projeto Mpk Aditivos
Projeto Mpk AditivosProjeto Mpk Aditivos
Projeto Mpk Aditivossemanact2007
 
ApresentaçãO Web
ApresentaçãO WebApresentaçãO Web
ApresentaçãO Websemanact2007
 
Redes Neurais Aplicacoes
Redes Neurais AplicacoesRedes Neurais Aplicacoes
Redes Neurais Aplicacoessemanact2007
 
Mostra Cient(Ffica Talize Dia27oficialaiaia
Mostra Cient(Ffica  Talize Dia27oficialaiaiaMostra Cient(Ffica  Talize Dia27oficialaiaia
Mostra Cient(Ffica Talize Dia27oficialaiaiasemanact2007
 
M O S T R A W E B X Y
M O S T R A W E B X YM O S T R A W E B X Y
M O S T R A W E B X Ysemanact2007
 

Mais de semanact2007 (12)

Tutorial para acessar a Ilha Unisinos no Second Life
Tutorial para acessar a Ilha Unisinos no Second LifeTutorial para acessar a Ilha Unisinos no Second Life
Tutorial para acessar a Ilha Unisinos no Second Life
 
Mural Enade
Mural EnadeMural Enade
Mural Enade
 
Aprepesqui
AprepesquiAprepesqui
Aprepesqui
 
ApresentaçãO Projeto
ApresentaçãO ProjetoApresentaçãO Projeto
ApresentaçãO Projeto
 
Viol^Ncia De G^Nero Ihu
Viol^Ncia De G^Nero IhuViol^Ncia De G^Nero Ihu
Viol^Ncia De G^Nero Ihu
 
Projeto Mpk Aditivos
Projeto Mpk AditivosProjeto Mpk Aditivos
Projeto Mpk Aditivos
 
Gonzalez Pesquisa
Gonzalez PesquisaGonzalez Pesquisa
Gonzalez Pesquisa
 
ApresentaçãO Web
ApresentaçãO WebApresentaçãO Web
ApresentaçãO Web
 
Redes Neurais Aplicacoes
Redes Neurais AplicacoesRedes Neurais Aplicacoes
Redes Neurais Aplicacoes
 
Mostra Cient(Ffica Talize Dia27oficialaiaia
Mostra Cient(Ffica  Talize Dia27oficialaiaiaMostra Cient(Ffica  Talize Dia27oficialaiaia
Mostra Cient(Ffica Talize Dia27oficialaiaia
 
Sisamo
SisamoSisamo
Sisamo
 
M O S T R A W E B X Y
M O S T R A W E B X YM O S T R A W E B X Y
M O S T R A W E B X Y
 

Fluxos de informação entre sites brasileiros e estrangeiros

  • 1. Profª Drª Suely Fragoso Theo Lucas de S. Felizzola Grupo de Pesquisa Mídias Digitais Profª Ms. Rosana Vieira de Souza Pesquisadora Associada (2004) Coordenação (2004-2007) Maria Cândida L. Di Primio Ana Lúcia Migowski da Silva Marcelo Fichdickt Vetter Bolsista PIBIC (2004 e 2005) Bolsista UNIBIC (2005 e 2006) Bolsista PIBIC (2005 a 2007) Bolsista AT (2006 e 2007) Programa de Pós Graduação em Ciências da Comunicação http://www.midiasdigitais.org
  • 2.
  • 3.
  • 4.
  • 5. não de Língua Inglesa altos níveis de alfabetidade (99%) nações desenvolvidas único outro país ‘em desenvolvimento’ no topo da tabela Hemisfério Sul Língua Inglesa Hemisfério Sul Língua Inglesa Hemisfério Sul, Língua Inglesa Tabela 1: Dados de Halavais (1998 , p. 62), reorganizados conforme a média de links por site
  • 6.
  • 7. International Internet Hyperlink Structure. Reproduzido de Barnett and Jun, 2004 , slide 15 (aparece também em Barnett et al., 2003). A espessura da linha de conexão é proporcional ao número de hiperlinks entre dois países (50.000 é o número mínimo para uma conexão ser indicada). A intensidade do círculo que representa cada país indica sua centralidade na. o Brasil ocupa uma posição bastante próxima do centro
  • 8. International Internet Infrastructure. Reproduzido de Barnett and Jun, 2004 , slide 16 (aparece também em Barnett et al., 2003). A espessura da linha de conexão é proporcional à largura de banda disponível entre dois países (13Mbps é o valor mínimo para que uma conexão seja indicada). As cores indicam os clusters de pertencimento Em relação à infraestrutura da Internet, o Brasil ocupa uma posição bem mais periférica
  • 9. a centralidade do Brasil na rede de hiperconexões se deve Dados de Barnett et al. (2003 , s.p.) e Barnett and Jun (2004 , s.p.) parcialmente reproduzidos e reorganizados em ordem crescente de diferença entre InDegree e OutDegree ao alto número de links que os sites .br recebem ( inlinks ), bem maior do que o número de links que eles enviam ( outlinks )
  • 10.
  • 11. a proeminência de inlinks para sites com domínio .br é um tanto paradoxal: a quase totalidade dos sites com domínio .br é realmente em português (Veloso et al., 2000; Modesto et al., 2005) a estrutura internacional da web não está concentrada em torno de sites em inglês? os brasileiros não são particularmente sociáveis e desejosos de contato internacional? Por que webmasters de várias nacionalidades criam tantos links para sites de um país Latino Americano em desenvolvimento, cuja língua oficial é o português ? TAMBÉM... mas o Brasil não atrai o interesse das outras nações? se os links significam referenciação
  • 12.
  • 13.
  • 14. Primeira etapa – construir a amostra: Barnett et al. (2003 ) e Barnett e Jun (2004) usaram AltaVista <domain:xx AND link:yy> nós tínhamos conhecimento de alguns problemas possíveis com o uso do AltaVista para obtenção desse tipo de dados, mas nos parecia, a princípio, que a simplicidade do procedimento compensaria por eventuais imprecisões que pudessem acontecer nossos resultados foram extremamente inconsistentes, indicando um nível de instabilidade na ferramenta de busca que inviabilizava seu uso, pelo menos com aquela sintaxe MAS com a sintaxe
  • 15. No alto, à esquerda – resultado de uma busca com a sintaxe <domain:br AND link:uk> . AltaVista encontrou 0 sites . No alto, ao centro – resultado de uma busca com <domain:br> AltaVista encontrou 194,000,000 resultados. No alto, à direita – resultado de uma busca com <link:uk> AltaVista encontrou 448 sites Embaixo, à esquerda – segunda tentativa com <domain:.br AND link:.br> AltaVista encontrou 37 resultados Embaixo, à direita - <link:.br> AltaVista encontrou 65 páginas apenas 65 páginas com link para as outras 194.000.000 de páginas com domínio .br ?!? A maioria das páginas encontradas utilizando a palavra link na busca continham as palavras link e br mas, curiousamente, nem todas tinham sequer essa conexão com os elementos da busca
  • 16. Outros testes demonstraram que as buscas com a expressão <domain> eram consistentes <link:>, entretanto, somente funcionou com URLs completas, não com TLDs Acima, à esquerda - resultados de buscas por sites com domínio .br que enviam links para http://www.aoir.org AltaVista encontrou 9 páginas Embaixo, à esquerda - resultados de buscas com o domínio .ar para sites que enviam links para http://www.unisinos.br AltaVista encontrou 281 resultados wildcards também não ajudaram À direita, acima e embaixo – buscas correspondentes tentando possíveis wildcards AltaVista encontoru 0 resultados todas as vezes
  • 17. uma alternativa seria construir a amostra com crawlers inexperiência da equipe mesmo com um crawler já pronto amostras construídas com crawlers o processo demandaria muito da infra-estrutura da universidade retomamos a opção de usar sistemas de busca ...quais sistemas usar, como e com que sintaxe? então... sofrem influência gravitacional do ponto de início opção arriscada e por isso precisam ser muito grandes para ser representativas
  • 18. Na impossibilidade de trabalhar com uma amostra suficientemente grande para garantir representatividade estatística a solução é construir uma amostra menor, selecionando os sites com um conjunto de procedimentos capaz de garantir representatividade qualitativa modos de accesso a websites b) seguindo links c) sabendo a URL de antemão a) encontrar o site com buscadores base da Hyperlink Analysis, do PageRank etc de acordo com o uso de buscadores para construir a amostra adicionar os 100 Top-ten Third-Level Domain indicados pelo Internet Systems Consortium na época da construção da amostra como a maioria dos sistemas de busca utiliza atualmente algoritmos com princípios do Page Rank, (a) garante (b) depende de indutores de visibilidade que podem ser internos ou externos à Web
  • 19. porém, assim como o AltaVista , nenhum sistema de busca que testamos era capaz de realizar buscas conjugando restrição de domínios e localização de inlinks do modo como a pesquisa demandava trata-se de um procedimento misto , que combina as possibilidades dos sistemas de busca e seus grandes bancos de dados com o mapeamento de sites usando crawlers de alcance limitado formulamos um conjunto de técnicas para coletar e processar dados para amostras de porções da Web com representatividade qualitativa é um processo em várias etapas, que não se destina especificamente à análise quantitativa do fluxo de informações sugerido pela presença de hiperlinks, mas procura facilitar e viabilizar abordagens qualitativas de estudo dos padrões internacionais de hiperlinkagem
  • 20.
  • 21. 4) Checamos e registramos o número total de DNS registrados para o ccTLD e cada SLD nos dias das buscas não é possível calcular representatividade apenas pelo número de resultados que as ferramentas de busca 5) os resultados de cada sistema de busca foram inicialmente gravados em formato HTML na realidade as ferramentas só dão acesso a entre 800 e 1.000 endereços, independente do número de resultados que alegam ter encontrado A eficiência dos algoritmos de clusterização das ferramentas faz muita diferença (nenhum dos dois sistemas utilizados eliminou 100% as repetições) 6) no total foram reunidas 28 listas (14 cada dia, 7 cada buscador engine - 1 ccTLD e 6 SLDs), contendo em média 900 resultados cada total da amostra bruta = ~ 25,200 URLs
  • 22. 8) nas listas de URLs limpas constaram apenas os DNS, sem subdiretórios 9) as listas de DNSs foram organizadas com um script em Perl especialmente produzido para a pesquisa endereços repetidos foram substituídos por indicações do número de ocorrências na lista original 7) as listas em formato HTML foram limpas manualmente, restando apenas as URLs, uma embaixo da outra
  • 23. 11) como uma escolha seria aleatória, optamos por trabalhar com a somatória dos resultados dos dois dias para cada categoria e cada buscador 10) Uma comparação entre as listas limpas e com contagem de ocorrências indicou importantes variações nos resultados obtidos com o Google nas duas datas de busca iniciamos o trabalho com 14 listas, cada uma com cerca de 1,800 URLs após a declusterização, a lista combinada de resultados para cada categoria nos dois dias continha entre 1,000 e 1,500 DNSs diferentes as URLs dos SLDs pré-selecionados que figuraram muitas vezes na lista .br foram adicionadas às listas específicas de cada SLD 12) as URLs pertencentes aos SLDs que figuraram na lista .br foram identificadas e retiradas da lista 13) as listas finais foram comparadas com outro script em Perl o script anotava quais sistes haviam sido indicados por quais buscadores preservando a informação (previamente registrada) sobre o número de ocorrências de cada DNS
  • 24. 15) a amostra foi constituída levando em conta o número de ocorrências das URLs do CCTLD e cada SLDs, preservando certa proporcionalidade com o número total de DNS registrados em cada caso 14) as listas somadas e comparadas foram organizadas por número de ocorrência das URLs 16) o corpus previsto incluía 180 URLs. O mapeamento de 6 endereços não foi possível ou seria redundante (aliases), ficando o corpus final constituído por 102 URLs
  • 25. 102 total www.novae.inf.br-- // www.power.inf.br-- // www.acritica-cg.inf.br-- // www.redebrasil.inf.br-- // www.callcenter.inf.br www.front.inf.br-- www.datavenia.inf.br mudou para datavenia.net 6 .inf.br www.obvio.ind.br // www.unipar.ind.br // www.hd.ind.br // www.innova.ind.br // www.micromed.ind.br // www.taf.ind.br // www.tato.ind.br // www.csm.ind.br 8 .ind.br www.rio.rj.gov.br // www.radiobras.gov.br // www.mct.gov.br // www.receita.fazenda.gov.br // www.planalto.gov.br // www.capes.gov.br // www.mj.gov.br // www.mre.gov.br // www.camara.gov.br // www.ibge.gov.br // www.bndes.gov.br // www.iphan.gov.br // www.aids.gov.br // www.fomezero.gov.br // www.mme.gov.br // www.caixa.gov.br // www.senado.gov.br // www.stj.gov.br // www.finep.gov.br // www.portoalegre.rs.gov.br // www.presidencia.gov.br // www.comprasnet.gov.br // www.periodicos.capes.gov.br // www.inep.gov.br // www.portaldoexportador.gov.br www.camara.gov.br igual a www2.camara.gov.br 25 .gov.br www.bioline.org.br // www.sbc.org.br // www.pt.org.br // www.forumsocialmundial.org.br // www.inee.org.br // www.mst.org.br // www.sosmatatlantica.org.br // www.abrasco.org.br // www.itaucultural.org.br // www.abc.org.br // www.wwf.org.br 11 .org.br www.puc-campinas.edu.br // www.ufjf.edu.br // www.unibero.edu.br // www.dsc.ufcg.edu.br // www.ibmecsp.edu.br // www.ucam.edu.br // www.ufpel.edu.br // minerva.ufpel.edu.br // www.ufam.edu.br // www.scamilo.edu.br // www.saofrancisco.edu.br www.cederj.br não é mapeável (não dá acesso ao crawler) 11 .edu.br www.mercadolivre.com.br // www.estadao.com.br // www.uol.com.br // www.terra.com.br // www.folha.uol.com.br // www.campus.com.br // jbonline.terra.com.br // www.conectiva.com.br www.submarino.com.br // www.correios.com.br // www.bb.com.br // www.santander.com.br // www.tvcultura.com.br www.aol.com.br desativado durante a realização da pesquisa 13 .com.br noticias.usp.br // registro.br // sft.if.usp.br // www.biblioteca.ufrgs.br // www.bireme.br // www.cbpf.br // www.cdbrasil.cnpm.embrapa.br // www.cespe.unb.br // www.cnpq.br // www.faperj.br // www.fapesp.br // www.ibict.br // www.if.ufrgs.br // www.ime.usp.br // www.impa.br / www.inpe.br // www.puccamp.br // www.puc-rio.br // www.rnp.br // www.tecgraf.puc-rio.br // www.ufmg.br // www.ufpe.br // www.ufrgs.br // www.unb.br // www.unicamp.br // www.usp.br // www2.ufscar.br // www21.sede.embrapa.br www.scielo.br não mapeável www.usp.br igual a www2.usp.br 28 .br observações total por domínio dominio URLs selecionadas para mapeamento
  • 26. localização de inlinks 17) para localizar os links enviados para os sites da amostra por sites pertencentes a domínios diferentes de .br, foram realizadas buscas com a sintaxe <domain:.xx AND link:URL> 18) numa primeira etapa, as buscas foram concentradas sobre os ccTLDs de um conjunto de países com os quais o Brasil mantém relações econômicas, comerciais e culturais mais intensas e que foram considerados os mais prováveis para o intercâmbio de links de, .ar, .ca, .cl, .co, .cu, .ec, .es, .us, .fr, .mx, .pt, .gb/.uk, .uy, .ve realizamos buscas por inlinks também desde cinco TLDs genéricas .org, .com, .edu, .net, .gov 19) posteriormente, as buscas por inlinks foram complementadas com ccTLDs que apareceram com frequência nos mapeamentos de outlinks nesses casos, as buscas foram concentradas nos sites com SLDs correspondentes àqueles da verificação dos outlinks .br - .it, .nl, .jp, .;au, .ch, .dk, .be, .at, .se, .fi .com.br - .cn, .it, .jp, .;au, .gov.br - .it, .nl, .jp, .au, .ru, .ch, .be, .pe, .za, .gov, .at, .bo, .nz, .py, .int, .sg, .gt .org.br - .it, .info, .nl, .be, .ch, .au, .fi, .za .edu.br - .ru, .ch
  • 27. 20) os resultados das buscas foram salvos em formato HTML e posteriormente as listas foram limpas manualmente, restando apenas as URLs, uma embaixo da outra 21) os resultados foram organizados em arquivos independentes para cada site da amostra. Os arquivos reúnem as URLs encontradas nas buscas por cada TLD e indicam o número total de ocorrências 22) o número total de URLs encontradas para cada TLD buscado para o ccTLD .br e cada tipo de SLD pertencente ao .br foi registrado em uma tabela 23) os totais foram ordenados por ordem decrescente de ocorrência do TLD
  • 28. Número de inlinks por TLD para .br e seus principais SLDs
  • 29. localização de outlinks 24) para a localização dos outlinks, foi utilizado um crawler freeware 25) cada URL do corpus foi rastreada até 5 níveis de profundidade vários crawlers foram testados, o que melhor se adaptou às necessidades da pesquisa foi o Astra Site Manager ( Mercury Interactive Corporation, 1999) 26) as URLs correspondentes a TLDs estrangeiros foram identificadas na lista dos links encontrados em cada mapa
  • 30. 27) os resultados foram organizados em arquivos independentes para cada site da amostra. Os arquivos reúnem as URLs encontradas em cada mapa e indicam o número total de ocorrências
  • 31. 23) Os totais foram ordenados por ordem decrescente de ocorrência do TLD Número de outlinks por TLD para .br e seus principais SLDs
  • 32.
  • 33. 2) maior ocorrência de inlinks desde sites estrangeiros para sites .br (apontada em trabalhos anteriores, mas paradoxal) pela primeira vez com uma amostragem representativa e focada em sites brasileiros Número de outlinks por TLD para .br e seus principais SLDs Número de inlinks por TLD para .br e seus principais SLDs
  • 34. Número de inlinks por TLD para .br e seus principais SLDs as maiores quantidades de inlinks vêm dos TLDs .com e .net seguidos por .org e .edu , A Alemanha aparece entre as 5 origens mais frequentes de inlinks para .br e quase todos os SLDs A Argentina é a origem mais frequentes de inlinks na América Latina
  • 35. Em elaboração os números totais de inlinks e outlinks de cada TLD para .br e seus SLDs estão sendo projetados em mapas-mundi para melhor visualização para isso, são agrupados em cinco faixas de grandeza
  • 37. Próximos passos o que realmente esses links representam? observar as âncoras de partida e de chegada e seus contextos (efetivo conteúdo das páginas) concluir os mapas concluir a interpretação dos resultados - até fevereiro de 2008, data de encerramento da pesquisa: - próxima investigação: início previsto para março de 2008 aumentar a granularidade da amostra
  • 38. Profª Drª Suely Fragoso Theo Lucas de S. Felizzola Grupo de Pesquisa Mídias Digitais Profª Ms. Rosana Vieira de Souza Pesquisadora Associada (2004) Coordenação (2004-2007) Maria Cândida L. Di Primio Ana Lúcia Migowski da Silva Marcelo Fichdickt Vetter Bolsista PIBIC (2004 e 2005) Bolsista UNIBIC (2005 e 2006) Bolsista PIBIC (2005 a 2007) Bolsista AT (2006 e 2007) Programa de Pós Graduação em Ciências da Comunicação http://www.midiasdigitais.org