YouTube.pt                                           O Retrato Português no YouTube                     João Luís Canais  ...
III.    A TECNOLOGIA PARA O CRAWL                                IV.    CATALOGAÇÃO DE RESULTADOS    Para a realização da ...
TABELA I.          RESULTADOS FINAIS DE CONTEÚDOS EXTRAÍDOS                     posteriormente são ultrapassadas pelo géne...
IX.      VIDEOS                              Distribuição Visualizações vs Vídeos e Subscrições                           ...
Numa análise simplificada deste top de palavras mais                                Distribuição da duração de vídeos     ...
XII. “VIDEO TRASH” E A CULTURA DO „SPOOF‟ NA INTERNET                 No nosso estudo sobre a visibilidade da vida polític...
Próximos SlideShares
Carregando em…5
×

YouTube em Portugal - Resumo da Tese de Mestrado

1.106 visualizações

Publicada em

Artigo publicado no âmbito da CISTI\'2012 (7ª Conferência Ibérica de Sistemas e Tecnologias de Informação), a realizar entre 20 e 23 de Junho de 2012, em Madrid, Espanha.

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
1.106
No SlideShare
0
A partir de incorporações
0
Número de incorporações
6
Ações
Compartilhamentos
0
Downloads
22
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

YouTube em Portugal - Resumo da Tese de Mestrado

  1. 1. YouTube.pt O Retrato Português no YouTube João Luís Canais Miguel Neto ISEGI, Universidade Nova de Lisboa ISEGI, Universidade Nova de Lisboa Lisboa, Portugal Lisboa, Portugal joao@canais.com mneto@isegi.unl.ptResumo - Na última década, com a generalização dos acessos de ferramentas de produção e publicação de conteúdos é que estebanda larga, a Internet tornou-se o meio de difusão de conteúdos voyeurismo é verdadeiramente global. O YouTube é o actualmultimédia por excelência. Em particular, o aparecimento dos expoente máximo deste interesse em exibir e observar o queserviços de publicação e partilha de vídeos online são neste uma sociedade global como a nossa é capaz de produzir. Serámomento um dos centros de atenção da Internet, permitindo aos este o ponto de partida para o nosso estudo.seus utilizadores partilhar os seus conteúdos por vastasaudiências. II. PESQUISANDO O YOUTUBE Disponível desde Fevereiro de 2005, o YouTube é a maior O YouTube armazena, todos os dias, uma enormecomunidade de vídeos online com mais de 3 mil milhões de quantidade de vídeos com as mais variadas origens, espalhadasvisualizações por dia. No entanto, uma aplicação baseada na um pouco por todo o mundo. Neste contexto a nossa questão é:Internet é por definição supranacional e supra cultural, como podemos encontrar conteúdos específicos Portugueses?massificando identidades num único conceito sem distinção de A nossa abordagem para encontrar dados sobre vídeos ecultura, geografia ou ideologia. autores portugueses no YouTube consistiu em desenvolver uma aplicação de crawl [1], [2], [3] que, usando a API pública Assim, considerámos importante conhecer o perfil Português [4] do YouTube, é capaz de pesquisar as informações queno YouTube. Será possível descobrir um padrão Português no necessitamos.universo de conteúdos existentes no YouTube? Qual será o perfildestas pessoas? A API do YouTube é uma API de acesso público que permite a uma aplicação cliente realize operações de pesquisa Para tal ser possível iremos pesquisar pelo YouTube directamente nas suas bases de dados. Assim é possívelconteúdos Portugueses, através das facilidades tecnológicas que a procurar por vídeos, autores, e ver conteúdos relacionados.plataforma disponibiliza, para serem catalogados tanto ao nívelde conteúdos como ao nível de utilizadores. Deste conjunto de Tentar encontrar conteúdos e autores Portugueses noinformação não sistematizada iremos extrair informação YouTube a partir do zero, usando apenas o motor de busca, équantitativa e qualitativa que, depois de tratada e devidamente um grande risco devido à qualidade dos dados e ao presenteanalisada, nos irá permitir tentar responder às questões factor de ambiguidade das respostas obtidas num motor deformuladas. pesquisa a partir dos metadados de cada registo. Para ultrapassar este problema a nossa solução utilizou as Palavras-Chave: Portugal; YouTube; Google; Utilizador; coordenadas geoespaciais da lista oficial de códigos postaisAutor; Perfil; Comportamento; Cultura Web; Internet. Portugueses. Usando esta lista de pontos como o nosso "conjunto de partida", a nossa aplicação é capaz de identificar vídeos geograficamente referenciados dentro do território I. INTRODUÇÃO nacional. Na última década, com a generalização dos acessos de Cada vídeo identificado no YouTube fornece um conjuntobanda larga, a Internet tornou-se o meio de difusão de de fontes para identificar outros vídeos do YouTube, tais como:informação e de conteúdos multimédia por excelência. Muitos a lista de vídeos do utilizador, a lista de vídeos favoritos e osdestes conteúdos são pessoais e seriam considerados como vídeos relacionados (vídeos identificados pelo algoritmodescartáveis ou de pouco valor há alguns anos atrás. YouTube como relacionados com o vídeo de origem).Presentemente vídeos e fotografias pessoais, produções A partir do conjunto inicial de vídeos (identificados pelaindependentes ou de baixo custo ou acontecimentos do dia-a- suas coordenadas geoespaciais), é possível obter a lista dedia são publicados e exibidos em frente de milhões de pessoas vídeos publicados pelo utilizador e a lista de vídeosa qualquer instante. relacionados com o vídeo fonte. Aplicando este algoritmo de O interesse por expor e observar a vida alheia não é novo forma recursiva às diferentes listas obtidas em ciclos anteriores,na história humana, mas só agora com a disseminação das é possível avançar em profundidade ao longo da árvore detecnologias de informação e da democratização das conteúdos do YouTube.
  2. 2. III. A TECNOLOGIA PARA O CRAWL IV. CATALOGAÇÃO DE RESULTADOS Para a realização da tarefa de crawl do YouTube foi Para cada vídeo identificado foram catalogados na nossanecessário desenvolver software específico para o efeito. Este base de dados todos os dados possíveis: Video ID, ID de autor,software foi escrito na linguagem c# e com a framework .net título, descrição, palavras-chave, informações técnica sobre o4.0. Como repositório dos dados obtidos nas pesquisas foi vídeo, a lista de categorias, ratings e comentários para cadautilizando o Microsoft SQL Server 2008 R2 e como linguagem vídeo. Antes de ser catalogado na nossa base de dados, cadade interrogação da base de dados foi utilizado o Linq para novo vídeo é avaliado para testar se o seu conteúdo é PortuguêsSQL. ou não. Esta avaliação é feita segundo vários parâmetros: título ou descrição contém palavras-chave em português, o vídeo A arquitectura funcional do sistema (Figura 1) é um modelo contém coordenadas geográficas Portuguesas ou o autor doclássico de implementação baseado em camadas lógicas vídeo é identificado como cidadão Português. Todos estesfuncionais, clientes de webservices para acesso a informação atributos são combinados num factor numérico de confiançaresidente em sistemas remotos, repositório de resultados em para este conteúdo de vídeo, identificando assim se cada vídeobase de dados e as respectivas entidades aplicacionais para é de conteúdo Português ou não. Para cada autor individualimplementação das regras de negócio. identificado foram recolhidas as seguintes informações: nome, idade, país, informações pessoais e interesses, data de criação de registo e data da última visita, contagem de vídeos publicados e contagem de subscritores. V. TRATAMENTO E ANALISE DE DADOS Em cada ciclo de pesquisa (ou crawl) vários milhares de vídeos e de autores (metadados) são armazenados em base de dados. Toda esta informação recolhida pode ser classificada em dois diferentes tipos de informação: informação Figura 1. Arquitetura funcional quantitativa e informação qualitativa [5]. A informação quantitativa ou "factual", como o número de visitas ou a duração do vídeo, são factos objectivos sobre algo. O sistema aqui descrito foi colocado em produção As informações qualitativas incluem títulos, descrições, tags enum servidor alojado no data center do ISEGI em ambiente e palavras-chave, e são, por definição, menos confiáveis paraconectividade controladas, com o seguinte software instalado: este tipo de estudo devido à ambiguidade própria daWindows Server 2008 x64 R2 e Microsoft SQL Server 2008 informação existente na Internet. Apesar destas questões, osR2 Enterprise. Utilizando o proxy/firewall da intranet do dados da análise deve abranger dados quantitativos eISEGI como saída para a Internet foi possível aceder em qualitativas para cobrir todos os aspectos da pesquisa.segurança aos recursos disponíveis pelo YouTube viawebservices para a realização das pesquisas de dados Uma preocupação importante no nosso processo de análisenecessárias para atingir os objectivos do estudo (Figura 2). é a avaliação da qualidade dos dados em si. Uma vez que os dados da amostra, sendo retirados de um sítio na internet, não é certo a existência ou não nestes dados de certos tipos de malformações (exemplo: alguns vídeos não portugueses possuem coordenadas geográficas dentro de Portugal), ou a necessidade de remover a ambiguidade de dados dos campos de texto livre (exemplo: unificar "Lisboa" e "Lisbon" ou "Porto" e "OPorto"). VI. RESULTADOS OBTIDOS Entre 17 de Fevereiro de 2011 e 24 de Abril de 2011 foram executados 5 ciclos de pesquisa variando entre listas de autores previamente identificados e lista de vídeos relacionados com Figura 2. Diagrama da rede em produção pesquisas anteriores. Assim, no final do processo de pesquisa foram obtidos os resultados apresentados na Tabela 1.
  3. 3. TABELA I. RESULTADOS FINAIS DE CONTEÚDOS EXTRAÍDOS posteriormente são ultrapassadas pelo género masculino. Uma Resultados Obtidos possível explicação pode residir no facto das raparigas Variável Valor Percentagem apresentarem um desenvolvimento intelectual muito mais rápido que os rapazes é lógico que elas apresentem uma Vídeos PT 972.494 77% actividade no YouTube mais prematura como autores de Todos Vídeos 1.260.672 100% conteúdos enquanto os rapazes nestas idades agem como consumidores passivos de conteúdos principalmente. Autores PT 49.608 17% Todos Autores 287.282 100% C. Distribuição Geográfica de Autores VII. AUTORES A distribuição geográfica dos autores Portugueses estáA. Distribuição de Género plenamente alinhada com a demografia Portuguesa, 50% dos autores identificados estão localizados em Lisboa e Porto, A distribuição de géneros indica que: 81% são declarados conforme é visível na Figura 5.como sendo do género masculino, contra apenas 16% dedeclarados como sendo do género feminino (Figura 3. ). Noentanto, temos de encarar o valor do género masculino comosendo excessivo visto que muitas organizações sãoidentificadas como sendo do género masculino. São exemplosdesta tipificação errada: rtp (RTP), bloconoparlamento (Blocode Esquerda) ou ordemtoc (Ordem dos Técnicos Oficiais deContas), etc. YouTube distribuição de género 3% 16% Figura 5. Distribuição de autores em relação à sua localização M F n/a De igual forma, o mesmo padrão é visível na distribuição 81% de vídeos publicados em relação aos seus autores. Assim 61% dos vídeos publicados são de autores identificados como sendo de Lisboa e Porto (Figura 6. ). Figura 3. Distribuição de GénerosB. Pirâmide Etária Pirâmide Etária 90-99 70-79 Figura 6. Distribuição de vídeos em relação à sua localização dos autores 50-59 40-44 30-34 Na Figura 7. é visível a existência de uma relação entre o 20-24 número de visualizações e o número de subscritores, i.e., um 10-14 maior número de visualizações tende a indicar um maior 0 número de subscritores. No entanto, o mesmo tipo de relação 0% 5% 10% 15% 20% 25% 30% 35% não é visível para o número de conteúdos publicados. Não é possível definir uma relação entre o número de conteúdos M F publicados de um autor e o seu acumulado de visualizações. O caso mais visível é o de „Cristiano Ronaldo‟, com uma relação de 34.893 subscrições para apenas 19 conteúdos publicados. Figura 4. Pirâmide Etária Ou seja, e como é natural, existem outros factores externos, Na pirâmide etária apresentada na Figura 4. , os valores independentes da quantidade, que definem a popularidade deapresentados indicam um claro domínio do género feminino um autor no You Tube.entre os 10 anos e os 19 anos de idade sendo que
  4. 4. IX. VIDEOS Distribuição Visualizações vs Vídeos e Subscrições Numa visão directa sobre os conteúdos vídeo verificamos 1.6E+06 que o ritmo de crescimento de novos vídeos é constante, 1.4E+06 1.2E+06 estando presentemente numa média de 30 mil vídeos mensais # Visualizações 1.0E+06 1 2 desde o início do ano de 2010 (Figura 9. ). 8.0E+05 6.0E+05 7 4.0E+05 3 9 4 6 Publicação de Vídeos por Mês 2.0E+05 8 5 10 0.0E+00 4.0E+04 3.5E+04 3.0E+04 # Subscrições # Vídeos 2.5E+04 # Vídeos 2.0E+04 1.5E+04 1.0E+04Figura 7. Distribuição de visualizaçãoes vs vídeos publicados e subscrições 5.0E+03 0.0E+00 2005-9 2006-3 2006-6 2006-9 2007-3 2007-6 2007-9 2008-3 2008-6 2008-9 2009-3 2009-6 2009-9 2010-3 2010-6 2010-9 2011-3 2005-12 2006-12 2007-12 2008-12 2009-12 2010-12 VIII. CATEGORIAS Número de Vídeos O YouTube fornece aos seus utilizadores um conjunto decategorias onde permite catalogar e agrupar os seus conteúdos(vídeos) segundo temas ou áreas específicas. Figura 9. Evolução da publicação de vídeos por mês Nota: No nosso trabalho não foi possível encontrar uma justificação, técnica ou de negócio, para a quebra de valoresA. Distribuição de vídeos por categoria e origem verificada em Dezembro de 2008. Apesar de não ser possível comprovar a nossa teoria, persiste a nossa convicção sobre A distribuição de vídeos por categorias e origem permite- uma possível falha de dados na origem (YouTube).nos observar que os conteúdos portugueses são em tudosemelhantes aos conteúdos não portugueses. As 4 principaiscategorias Portuguesas (Music, Entertainment, People, Sports e No top de vídeos mais visitados verificamos que a grandeAutos), são as mesmas quatro categorias principais em vídeos maioria são reposts de conteúdos de domínio público,não PT, como é visível na Figura 8. essencialmente vídeos musicais internacionais. Visto que com este tipo de listagem não seria possível realizar uma análise crítica aos conteúdos Portugueses, realizamos uma filtragem aos conteúdos para obter um novo Distribuição de Vídeos por Categoria e Origem top (25+) apenas com conteúdos Portugueses. As principais áreas de vídeos publicados são os conteúdos televisivos e Trailers Movies musicais (40% dos conteúdos são destes dois temas somados) e Shows vídeos sobre Cristiano Ronaldo são 12%. No entanto, o Howto primeiro lugar é de conteúdos destinados ao público infantil Nonprofit (musicas infantis), e que neste top representam 36% dos Tech conteúdos. Animals Education A duração de um vídeo é um valor de referência para Film diferentes aplicações e decisões de negócio, em termos gerais a News duração de um vídeo está tipificada (30” para uma peça de Games promoção, 120” para uma peça de reportagem, 210” para um Travel Comedy vídeo clip, etc). Autos Na distribuição global dos vídeos, na óptica da sua duração, Sports visível na Figura 10. , é possível retirar as seguintes People Entertainment conclusões: Music 1. O primeiro máximo está localizado por volta dos 50 0.00% 5.00% 10.00% 15.00% 20.00% 25.00% 30.00% segundos com cerca de 19,5% da amostra. Vídeos PT Vídeos Não PT 2. Um segundo máximo está localizado por volta dos 240 segundos com 69% da amostra. Figura 8. Distribuição de vídeos por categorias e origem (PT e não PT) 3. O terceiro máximo está localizado por volta dos 600 segundos (ou 10 minutos) contendo 96%.
  5. 5. Numa análise simplificada deste top de palavras mais Distribuição da duração de vídeos utilizadas, podemos concluir que estão presente: 0.80% Os principais clubes de futebol Portugueses: Porto, % Vídeos 0.60% 0.40% Benfica e Sporting; 0.20% 0.00% Estão presentes todos os canais de televisão: RTP, SIC 0 60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 e TVI. Duração (seg.) Estão presentes eventos anuais importantes: natal e carnaval Figura 10. Distribuição da duração de vídeos Estão presentes nomes reconhecidos com sendo de grande audiência no panorama televisivo Português: Morangos, Fedorento e Herman. X. PALAVRAS MAIS UTILIZADAS XI. LIDERES POLITICOS NO YOUTUBE Em cada ciclo de pesquisa (ou crawl), metadados cominformação qualitativa (nome, descrição, keywords) foram Ao longo da elaboração deste estudo foi tido comoprocessadas de forma a criar um top de palavras em relação à interessante uma análise sobre a visibilidade dos líderessua frequência de utilização. políticos nacionais no YouTube. Os dados abaixo apresentados Um primeiro top 25, visível na Figura 11. , foi elaborado referem a pesquisas sobre palavras-chave nos metadados dossem qualquer tipo de tratamento, sendo que algumas destas vídeos. Neste nível de detalhe apenas conseguimos observar apalavras não possuem um significado próprio quando isoladas visibilidade de determinado líder no YouTube, não sendofora de um contexto. possível aferir com esta informação de qual é o sentido político de determinada visibilidade. No entanto é possível observar que determinados momentos da vida política Portuguesa correspondem a um aumento de conteúdos no YouTube. Distribuição de Líderes Políticos 100% 80% 60% 40% 20% 0% José Sócrates Pedro Passos Coelho Manuela Ferreira Leite Paulo Portas Jerónimo de Sousa Francisco Louçã Figura 13. Visibilidade de todos os líderes políticos em % Figura 11. Word cloud de palavras mais utilizadas em Vídeos De forma a criar uma visão mais ampla e real sobre o Numa visão de conjunto, é possível observar que o líder nouniverso de palavras mais utilizadas, fomos extrair as poder durante o período em estudo (José Sócrates) é quem temprincipais palavras com significado, segundo o nosso critério, a maior visibilidade ao nível de conteúdos publicados,da lista de top 250, em Figura 12. acumulando um total de 61% dos vídeos. Enquanto os restantes líderes políticos não vão além dos 9% (Pedro Passos Coelho). De notar o reduzido número de conteúdos publicados de todos os lideres com médias de 1 e 2 vídeos por mês. Por comparação com os mesmos valores para „Herman José‟ (um total de 1614 vídeos contra 2897 vídeos de Herman José no mesmo período) verificamos que a diferença, e por consequência o espaço para crescimento nesta área, é bastante grande. Figura 12. Word cloud de selecção de palavras usadas no título de vídeos
  6. 6. XII. “VIDEO TRASH” E A CULTURA DO „SPOOF‟ NA INTERNET No nosso estudo sobre a visibilidade da vida política, verificamos que esta visibilidade é reduzida, apesar de percentualmente estarem em linha com a representação real dos No seu trabalho, Felinto [6], apresenta o conceito de „lixo partidos políticos.digital‟ e de „spoof‟ “não há dúvida que um dos usos maisdifundidos da internet tem sido o de repositório de detritos Como existe uma grande uniformidade de conteúdos aculturais de natureza audiovisual: flogs, videoblogs e podcasts duração média dos conteúdos Portugueses é idêntica à médiase multiplicam no espaço da rede em velocidade vertiginosa” e geral dos conteúdos. Herman José é o artista com maior“um „spoof‟ é uma paródia, uma farsa, uma imitação”. número de reposts dos seus trabalhos. O tempo de vida de uma conta YouTube é inferior a 2 anos e o número médio de vídeos Este tipo de cultura é potenciado e potencia o princípio por conta cresceu 20% nos últimos 5 anos.viral nas tecnologias, “O êxito de um vídeo pode ser testadopela quantidade de „spoofs‟ que ele gera. Além disso, tambémé possível produzir „spoofs‟ a partir de outros „spoofs‟, XIV. TRABALHOS FUTUROSformando-se cadeias de imitações que se desdobramindefinidamente.” [6]. Como é facilmente observável este trabalho aborda apenas muito superficialmente todo o potencial da informação Também no nosso trabalho é possível encontrar vários recolhida. A diversidade e a quantidade da informaçãoexemplos deste “lixo digital”. Um deles é a exibição pública da existente são factores que dificultam o aprofundamento dovida privada e intima de Cristiano Rolando, onde são estudo. Esta informação, que está constantemente em evoluçãoexaustivamente exibidos detalhes da sua vida privada numa e em mutação, a uma velocidade vertiginosa, requer umserie de vídeos que são repetidamente colocados online por esforço permanente em novas recolhas e análises.diferentes autores, geralmente anónimos (Figura 14. ). Foi nosso desejo de mostrar um caminho para o estudo do universo do YouTube em Portugal. Entregamos agora este trabalho à comunidade científica e empresarial Portuguesa, para que seja observado e analisado. A partir daí, para que possa tornar-se também potenciador de novas oportunidades empresariais, gerador de novos conhecimentos e uma nova fonte de riqueza. REFERÊNCIAS Figura 14. A vida privada de Cristiano Ronaldo [1] D. Chau, S. Pandit, S. Wang and C. Faloutsos, "Parallel crawling for online social networks". Em: Proceedings of the 16th international conference on World Wide Web, 2007 Banff, Alberta, Canada. 1242809: ACM, pp. 1283- XIII. CONCLUSÕES 1284. Concluindo a nossa análise, as grandes conclusões destetrabalho permite-nos concluir que os tipos de conteúdos [2] F. Duarte, F. Benevenuto, V. Almeida and J. Almeida,Portugueses existentes e sua distribuição são idênticos à "Geographical Characterization of YouTube: a Latingeneralidade dos conteúdos existentes no YouTube. Esses American View". Em: Fifth Latin American Webconteúdos são na sua maioria reposts do meio televisivo, de Congress, 2007 Web Conference, 2007. LA-WEB 2007.,telenovelas, conteúdos infantis, música internacional e spoofs pp. 13 - 21.da Internet. A dispersão geográfica dos autores corresponde à [3] X. Cheng, C. Dale and J. Liu, "Statistics and socialdemografia conhecida Portuguesa. Lisboa e Porto dominam network of YouTube videos". 2008 16th Internationaltodos os indicadores. Workshop on Quality of Service, Proceedings. Ieee, New A RTP é o autor de conteúdos com maior número de York: pp. 229-238.visualizações. Apesar da SIC e TVI não abordarem [4] Google Code, YouTube APIs and Tools. Google.com.directamente o YouTube, o número de conteúdos reposts Url:destes canais é equivalente aos da RTP graças à força dos http://code.google.com/intl/pt/apis/youtube/overview.htmlconteúdos publicados por terceiros. [5] K. Lai and D. Wang, "A Measurement Study of External Os autores são na sua maioria do sexo masculino, mas as Links of YouTube". Em: ULEMA, M. (ed.) Globecomraparigas (< 20 anos) dominam percentualmente nestes 2009 - 2009 Ieee Global Telecommunicationsescalões etários e são substancialmente mais activas que os Conference, Vols 1-8. Ieee, New York: pp. 6580-6585.rapazes. [6] E. Felinto, "VIDEOTRASH: O YouTube a Cultura do Cristiano Ronaldo é um dos temas principais abordados nos “Spoof” na Internet". Em: XVI Encontro da Compós,vídeos. Junho 2007, UTP, em Curitiba, PR, Brasil.

×