Artigo publicado no âmbito da CISTI\'2012 (7ª Conferência Ibérica de Sistemas e Tecnologias de Informação), a realizar entre 20 e 23 de Junho de 2012, em Madrid, Espanha.
1. YouTube.pt
O Retrato Português no YouTube
João Luís Canais Miguel Neto
ISEGI, Universidade Nova de Lisboa ISEGI, Universidade Nova de Lisboa
Lisboa, Portugal Lisboa, Portugal
joao@canais.com mneto@isegi.unl.pt
Resumo - Na última década, com a generalização dos acessos de ferramentas de produção e publicação de conteúdos é que este
banda larga, a Internet tornou-se o meio de difusão de conteúdos voyeurismo é verdadeiramente global. O YouTube é o actual
multimédia por excelência. Em particular, o aparecimento dos expoente máximo deste interesse em exibir e observar o que
serviços de publicação e partilha de vídeos online são neste uma sociedade global como a nossa é capaz de produzir. Será
momento um dos centros de atenção da Internet, permitindo aos este o ponto de partida para o nosso estudo.
seus utilizadores partilhar os seus conteúdos por vastas
audiências. II. PESQUISANDO O YOUTUBE
Disponível desde Fevereiro de 2005, o YouTube é a maior O YouTube armazena, todos os dias, uma enorme
comunidade de vídeos online com mais de 3 mil milhões de quantidade de vídeos com as mais variadas origens, espalhadas
visualizações por dia. No entanto, uma aplicação baseada na um pouco por todo o mundo. Neste contexto a nossa questão é:
Internet é por definição supranacional e supra cultural, como podemos encontrar conteúdos específicos Portugueses?
massificando identidades num único conceito sem distinção de A nossa abordagem para encontrar dados sobre vídeos e
cultura, geografia ou ideologia. autores portugueses no YouTube consistiu em desenvolver
uma aplicação de crawl [1], [2], [3] que, usando a API pública
Assim, considerámos importante conhecer o perfil Português [4] do YouTube, é capaz de pesquisar as informações que
no YouTube. Será possível descobrir um padrão Português no necessitamos.
universo de conteúdos existentes no YouTube? Qual será o perfil
destas pessoas? A API do YouTube é uma API de acesso público que
permite a uma aplicação cliente realize operações de pesquisa
Para tal ser possível iremos pesquisar pelo YouTube directamente nas suas bases de dados. Assim é possível
conteúdos Portugueses, através das facilidades tecnológicas que a procurar por vídeos, autores, e ver conteúdos relacionados.
plataforma disponibiliza, para serem catalogados tanto ao nível
de conteúdos como ao nível de utilizadores. Deste conjunto de
Tentar encontrar conteúdos e autores Portugueses no
informação não sistematizada iremos extrair informação YouTube a partir do zero, usando apenas o motor de busca, é
quantitativa e qualitativa que, depois de tratada e devidamente um grande risco devido à qualidade dos dados e ao presente
analisada, nos irá permitir tentar responder às questões factor de ambiguidade das respostas obtidas num motor de
formuladas. pesquisa a partir dos metadados de cada registo. Para
ultrapassar este problema a nossa solução utilizou as
Palavras-Chave: Portugal; YouTube; Google; Utilizador; coordenadas geoespaciais da lista oficial de códigos postais
Autor; Perfil; Comportamento; Cultura Web; Internet. Portugueses. Usando esta lista de pontos como o nosso
"conjunto de partida", a nossa aplicação é capaz de identificar
vídeos geograficamente referenciados dentro do território
I. INTRODUÇÃO nacional.
Na última década, com a generalização dos acessos de Cada vídeo identificado no YouTube fornece um conjunto
banda larga, a Internet tornou-se o meio de difusão de de fontes para identificar outros vídeos do YouTube, tais como:
informação e de conteúdos multimédia por excelência. Muitos a lista de vídeos do utilizador, a lista de vídeos favoritos e os
destes conteúdos são pessoais e seriam considerados como vídeos relacionados (vídeos identificados pelo algoritmo
descartáveis ou de pouco valor há alguns anos atrás. YouTube como relacionados com o vídeo de origem).
Presentemente vídeos e fotografias pessoais, produções
A partir do conjunto inicial de vídeos (identificados pela
independentes ou de baixo custo ou acontecimentos do dia-a-
suas coordenadas geoespaciais), é possível obter a lista de
dia são publicados e exibidos em frente de milhões de pessoas
vídeos publicados pelo utilizador e a lista de vídeos
a qualquer instante.
relacionados com o vídeo fonte. Aplicando este algoritmo de
O interesse por expor e observar a vida alheia não é novo forma recursiva às diferentes listas obtidas em ciclos anteriores,
na história humana, mas só agora com a disseminação das é possível avançar em profundidade ao longo da árvore de
tecnologias de informação e da democratização das conteúdos do YouTube.
2. III. A TECNOLOGIA PARA O CRAWL IV. CATALOGAÇÃO DE RESULTADOS
Para a realização da tarefa de crawl do YouTube foi Para cada vídeo identificado foram catalogados na nossa
necessário desenvolver software específico para o efeito. Este base de dados todos os dados possíveis: Video ID, ID de autor,
software foi escrito na linguagem c# e com a framework .net título, descrição, palavras-chave, informações técnica sobre o
4.0. Como repositório dos dados obtidos nas pesquisas foi vídeo, a lista de categorias, ratings e comentários para cada
utilizando o Microsoft SQL Server 2008 R2 e como linguagem vídeo. Antes de ser catalogado na nossa base de dados, cada
de interrogação da base de dados foi utilizado o Linq para novo vídeo é avaliado para testar se o seu conteúdo é Português
SQL. ou não. Esta avaliação é feita segundo vários parâmetros: título
ou descrição contém palavras-chave em português, o vídeo
A arquitectura funcional do sistema (Figura 1) é um modelo
contém coordenadas geográficas Portuguesas ou o autor do
clássico de implementação baseado em camadas lógicas
vídeo é identificado como cidadão Português. Todos estes
funcionais, clientes de webservices para acesso a informação
atributos são combinados num factor numérico de confiança
residente em sistemas remotos, repositório de resultados em
para este conteúdo de vídeo, identificando assim se cada vídeo
base de dados e as respectivas entidades aplicacionais para
é de conteúdo Português ou não. Para cada autor individual
implementação das regras de negócio.
identificado foram recolhidas as seguintes informações: nome,
idade, país, informações pessoais e interesses, data de criação
de registo e data da última visita, contagem de vídeos
publicados e contagem de subscritores.
V. TRATAMENTO E ANALISE DE DADOS
Em cada ciclo de pesquisa (ou crawl) vários milhares de
vídeos e de autores (metadados) são armazenados em base de
dados. Toda esta informação recolhida pode ser classificada
em dois diferentes tipos de informação: informação
Figura 1. Arquitetura funcional
quantitativa e informação qualitativa [5].
A informação quantitativa ou "factual", como o número de
visitas ou a duração do vídeo, são factos objectivos sobre algo.
O sistema aqui descrito foi colocado em produção
As informações qualitativas incluem títulos, descrições, tags e
num servidor alojado no data center do ISEGI em ambiente e
palavras-chave, e são, por definição, menos confiáveis para
conectividade controladas, com o seguinte software instalado: este tipo de estudo devido à ambiguidade própria da
Windows Server 2008 x64 R2 e Microsoft SQL Server 2008 informação existente na Internet. Apesar destas questões, os
R2 Enterprise. Utilizando o proxy/firewall da intranet do dados da análise deve abranger dados quantitativos e
ISEGI como saída para a Internet foi possível aceder em qualitativas para cobrir todos os aspectos da pesquisa.
segurança aos recursos disponíveis pelo YouTube via
webservices para a realização das pesquisas de dados Uma preocupação importante no nosso processo de análise
necessárias para atingir os objectivos do estudo (Figura 2). é a avaliação da qualidade dos dados em si. Uma vez que os
dados da amostra, sendo retirados de um sítio na internet, não é
certo a existência ou não nestes dados de certos tipos de
malformações (exemplo: alguns vídeos não portugueses
possuem coordenadas geográficas dentro de Portugal), ou a
necessidade de remover a ambiguidade de dados dos campos
de texto livre (exemplo: unificar "Lisboa" e "Lisbon" ou
"Porto" e "OPorto").
VI. RESULTADOS OBTIDOS
Entre 17 de Fevereiro de 2011 e 24 de Abril de 2011 foram
executados 5 ciclos de pesquisa variando entre listas de autores
previamente identificados e lista de vídeos relacionados com
Figura 2. Diagrama da rede em produção
pesquisas anteriores. Assim, no final do processo de pesquisa
foram obtidos os resultados apresentados na Tabela 1.
3. TABELA I. RESULTADOS FINAIS DE CONTEÚDOS EXTRAÍDOS posteriormente são ultrapassadas pelo género masculino. Uma
Resultados Obtidos possível explicação pode residir no facto das raparigas
Variável
Valor Percentagem
apresentarem um desenvolvimento intelectual muito mais
rápido que os rapazes é lógico que elas apresentem uma
Vídeos PT 972.494 77% actividade no YouTube mais prematura como autores de
Todos Vídeos 1.260.672 100% conteúdos enquanto os rapazes nestas idades agem como
consumidores passivos de conteúdos principalmente.
Autores PT 49.608 17%
Todos Autores 287.282 100%
C. Distribuição Geográfica de Autores
VII. AUTORES A distribuição geográfica dos autores Portugueses está
A. Distribuição de Género plenamente alinhada com a demografia Portuguesa, 50% dos
autores identificados estão localizados em Lisboa e Porto,
A distribuição de géneros indica que: 81% são declarados conforme é visível na Figura 5.
como sendo do género masculino, contra apenas 16% de
declarados como sendo do género feminino (Figura 3. ). No
entanto, temos de encarar o valor do género masculino como
sendo excessivo visto que muitas organizações são
identificadas como sendo do género masculino. São exemplos
desta tipificação errada: rtp (RTP), bloconoparlamento (Bloco
de Esquerda) ou ordemtoc (Ordem dos Técnicos Oficiais de
Contas), etc.
YouTube distribuição de género
3%
16%
Figura 5. Distribuição de autores em relação à sua localização
M F n/a
De igual forma, o mesmo padrão é visível na distribuição
81%
de vídeos publicados em relação aos seus autores. Assim 61%
dos vídeos publicados são de autores identificados como sendo
de Lisboa e Porto (Figura 6. ).
Figura 3. Distribuição de Géneros
B. Pirâmide Etária
Pirâmide Etária
90-99
70-79 Figura 6. Distribuição de vídeos em relação à sua localização dos autores
50-59
40-44
30-34 Na Figura 7. é visível a existência de uma relação entre o
20-24 número de visualizações e o número de subscritores, i.e., um
10-14 maior número de visualizações tende a indicar um maior
0 número de subscritores. No entanto, o mesmo tipo de relação
0% 5% 10% 15% 20% 25% 30% 35%
não é visível para o número de conteúdos publicados. Não é
possível definir uma relação entre o número de conteúdos
M F publicados de um autor e o seu acumulado de visualizações. O
caso mais visível é o de „Cristiano Ronaldo‟, com uma relação
de 34.893 subscrições para apenas 19 conteúdos publicados.
Figura 4. Pirâmide Etária
Ou seja, e como é natural, existem outros factores externos,
Na pirâmide etária apresentada na Figura 4. , os valores independentes da quantidade, que definem a popularidade de
apresentados indicam um claro domínio do género feminino um autor no You Tube.
entre os 10 anos e os 19 anos de idade sendo que
4. IX. VIDEOS
Distribuição Visualizações vs Vídeos e Subscrições
Numa visão directa sobre os conteúdos vídeo verificamos
1.6E+06
que o ritmo de crescimento de novos vídeos é constante,
1.4E+06
1.2E+06
estando presentemente numa média de 30 mil vídeos mensais
# Visualizações
1.0E+06 1 2
desde o início do ano de 2010 (Figura 9. ).
8.0E+05
6.0E+05 7
4.0E+05 3 9
4 6 Publicação de Vídeos por Mês
2.0E+05 8
5
10
0.0E+00 4.0E+04
3.5E+04
3.0E+04
# Subscrições # Vídeos 2.5E+04
# Vídeos
2.0E+04
1.5E+04
1.0E+04
Figura 7. Distribuição de visualizaçãoes vs vídeos publicados e subscrições 5.0E+03
0.0E+00
2005-9
2006-3
2006-6
2006-9
2007-3
2007-6
2007-9
2008-3
2008-6
2008-9
2009-3
2009-6
2009-9
2010-3
2010-6
2010-9
2011-3
2005-12
2006-12
2007-12
2008-12
2009-12
2010-12
VIII. CATEGORIAS
Número de Vídeos
O YouTube fornece aos seus utilizadores um conjunto de
categorias onde permite catalogar e agrupar os seus conteúdos
(vídeos) segundo temas ou áreas específicas. Figura 9. Evolução da publicação de vídeos por mês
Nota: No nosso trabalho não foi possível encontrar uma
justificação, técnica ou de negócio, para a quebra de valores
A. Distribuição de vídeos por categoria e origem verificada em Dezembro de 2008. Apesar de não ser possível
comprovar a nossa teoria, persiste a nossa convicção sobre
A distribuição de vídeos por categorias e origem permite- uma possível falha de dados na origem (YouTube).
nos observar que os conteúdos portugueses são em tudo
semelhantes aos conteúdos não portugueses. As 4 principais
categorias Portuguesas (Music, Entertainment, People, Sports e No top de vídeos mais visitados verificamos que a grande
Autos), são as mesmas quatro categorias principais em vídeos maioria são reposts de conteúdos de domínio público,
não PT, como é visível na Figura 8. essencialmente vídeos musicais internacionais.
Visto que com este tipo de listagem não seria possível
realizar uma análise crítica aos conteúdos Portugueses,
realizamos uma filtragem aos conteúdos para obter um novo
Distribuição de Vídeos por Categoria e Origem top (25+) apenas com conteúdos Portugueses. As principais
áreas de vídeos publicados são os conteúdos televisivos e
Trailers
Movies
musicais (40% dos conteúdos são destes dois temas somados) e
Shows
vídeos sobre Cristiano Ronaldo são 12%. No entanto, o
Howto primeiro lugar é de conteúdos destinados ao público infantil
Nonprofit (musicas infantis), e que neste top representam 36% dos
Tech conteúdos.
Animals
Education A duração de um vídeo é um valor de referência para
Film diferentes aplicações e decisões de negócio, em termos gerais a
News duração de um vídeo está tipificada (30” para uma peça de
Games
promoção, 120” para uma peça de reportagem, 210” para um
Travel
Comedy
vídeo clip, etc).
Autos
Na distribuição global dos vídeos, na óptica da sua duração,
Sports
visível na Figura 10. , é possível retirar as seguintes
People
Entertainment
conclusões:
Music
1. O primeiro máximo está localizado por volta dos 50
0.00% 5.00% 10.00% 15.00% 20.00% 25.00% 30.00% segundos com cerca de 19,5% da amostra.
Vídeos PT Vídeos Não PT
2. Um segundo máximo está localizado por volta dos
240 segundos com 69% da amostra.
Figura 8. Distribuição de vídeos por categorias e origem (PT e não PT) 3. O terceiro máximo está localizado por volta dos 600
segundos (ou 10 minutos) contendo 96%.
5. Numa análise simplificada deste top de palavras mais
Distribuição da duração de vídeos
utilizadas, podemos concluir que estão presente:
0.80%
Os principais clubes de futebol Portugueses: Porto,
% Vídeos
0.60%
0.40% Benfica e Sporting;
0.20%
0.00% Estão presentes todos os canais de televisão: RTP, SIC
0 60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 e TVI.
Duração (seg.)
Estão presentes eventos anuais importantes: natal e
carnaval
Figura 10. Distribuição da duração de vídeos Estão presentes nomes reconhecidos com sendo de
grande audiência no panorama televisivo Português:
Morangos, Fedorento e Herman.
X. PALAVRAS MAIS UTILIZADAS
XI. LIDERES POLITICOS NO YOUTUBE
Em cada ciclo de pesquisa (ou crawl), metadados com
informação qualitativa (nome, descrição, keywords) foram Ao longo da elaboração deste estudo foi tido como
processadas de forma a criar um top de palavras em relação à interessante uma análise sobre a visibilidade dos líderes
sua frequência de utilização. políticos nacionais no YouTube. Os dados abaixo apresentados
Um primeiro top 25, visível na Figura 11. , foi elaborado referem a pesquisas sobre palavras-chave nos metadados dos
sem qualquer tipo de tratamento, sendo que algumas destas vídeos. Neste nível de detalhe apenas conseguimos observar a
palavras não possuem um significado próprio quando isoladas visibilidade de determinado líder no YouTube, não sendo
fora de um contexto. possível aferir com esta informação de qual é o sentido político
de determinada visibilidade. No entanto é possível observar
que determinados momentos da vida política Portuguesa
correspondem a um aumento de conteúdos no YouTube.
Distribuição de Líderes Políticos
100%
80%
60%
40%
20%
0%
José Sócrates Pedro Passos Coelho Manuela Ferreira Leite
Paulo Portas Jerónimo de Sousa Francisco Louçã
Figura 13. Visibilidade de todos os líderes políticos em %
Figura 11. Word cloud de palavras mais utilizadas em Vídeos
De forma a criar uma visão mais ampla e real sobre o Numa visão de conjunto, é possível observar que o líder no
universo de palavras mais utilizadas, fomos extrair as poder durante o período em estudo (José Sócrates) é quem tem
principais palavras com significado, segundo o nosso critério, a maior visibilidade ao nível de conteúdos publicados,
da lista de top 250, em Figura 12. acumulando um total de 61% dos vídeos. Enquanto os restantes
líderes políticos não vão além dos 9% (Pedro Passos Coelho).
De notar o reduzido número de conteúdos publicados de todos
os lideres com médias de 1 e 2 vídeos por mês. Por
comparação com os mesmos valores para „Herman José‟ (um
total de 1614 vídeos contra 2897 vídeos de Herman José no
mesmo período) verificamos que a diferença, e por
consequência o espaço para crescimento nesta área, é bastante
grande.
Figura 12. Word cloud de selecção de palavras usadas no título de vídeos
6. XII. “VIDEO TRASH” E A CULTURA DO „SPOOF‟ NA INTERNET No nosso estudo sobre a visibilidade da vida política,
verificamos que esta visibilidade é reduzida, apesar de
percentualmente estarem em linha com a representação real dos
No seu trabalho, Felinto [6], apresenta o conceito de „lixo partidos políticos.
digital‟ e de „spoof‟ “não há dúvida que um dos usos mais
difundidos da internet tem sido o de repositório de detritos Como existe uma grande uniformidade de conteúdos a
culturais de natureza audiovisual: flogs, videoblogs e podcasts duração média dos conteúdos Portugueses é idêntica à média
se multiplicam no espaço da rede em velocidade vertiginosa” e geral dos conteúdos. Herman José é o artista com maior
“um „spoof‟ é uma paródia, uma farsa, uma imitação”. número de reposts dos seus trabalhos. O tempo de vida de uma
conta YouTube é inferior a 2 anos e o número médio de vídeos
Este tipo de cultura é potenciado e potencia o princípio por conta cresceu 20% nos últimos 5 anos.
viral nas tecnologias, “O êxito de um vídeo pode ser testado
pela quantidade de „spoofs‟ que ele gera. Além disso, também
é possível produzir „spoofs‟ a partir de outros „spoofs‟, XIV. TRABALHOS FUTUROS
formando-se cadeias de imitações que se desdobram
indefinidamente.” [6]. Como é facilmente observável este trabalho aborda apenas
muito superficialmente todo o potencial da informação
Também no nosso trabalho é possível encontrar vários recolhida. A diversidade e a quantidade da informação
exemplos deste “lixo digital”. Um deles é a exibição pública da existente são factores que dificultam o aprofundamento do
vida privada e intima de Cristiano Rolando, onde são estudo. Esta informação, que está constantemente em evolução
exaustivamente exibidos detalhes da sua vida privada numa e em mutação, a uma velocidade vertiginosa, requer um
serie de vídeos que são repetidamente colocados online por esforço permanente em novas recolhas e análises.
diferentes autores, geralmente anónimos (Figura 14. ).
Foi nosso desejo de mostrar um caminho para o estudo do
universo do YouTube em Portugal. Entregamos agora este
trabalho à comunidade científica e empresarial Portuguesa,
para que seja observado e analisado. A partir daí, para que
possa tornar-se também potenciador de novas oportunidades
empresariais, gerador de novos conhecimentos e uma nova
fonte de riqueza.
REFERÊNCIAS
Figura 14. A vida privada de Cristiano Ronaldo [1] D. Chau, S. Pandit, S. Wang and C. Faloutsos, "Parallel
crawling for online social networks". Em: Proceedings of
the 16th international conference on World Wide Web,
2007 Banff, Alberta, Canada. 1242809: ACM, pp. 1283-
XIII. CONCLUSÕES 1284.
Concluindo a nossa análise, as grandes conclusões deste
trabalho permite-nos concluir que os tipos de conteúdos [2] F. Duarte, F. Benevenuto, V. Almeida and J. Almeida,
Portugueses existentes e sua distribuição são idênticos à "Geographical Characterization of YouTube: a Latin
generalidade dos conteúdos existentes no YouTube. Esses American View". Em: Fifth Latin American Web
conteúdos são na sua maioria reposts do meio televisivo, de Congress, 2007 Web Conference, 2007. LA-WEB 2007.,
telenovelas, conteúdos infantis, música internacional e spoofs pp. 13 - 21.
da Internet. A dispersão geográfica dos autores corresponde à [3] X. Cheng, C. Dale and J. Liu, "Statistics and social
demografia conhecida Portuguesa. Lisboa e Porto dominam network of YouTube videos". 2008 16th International
todos os indicadores. Workshop on Quality of Service, Proceedings. Ieee, New
A RTP é o autor de conteúdos com maior número de York: pp. 229-238.
visualizações. Apesar da SIC e TVI não abordarem [4] Google Code, YouTube APIs and Tools. Google.com.
directamente o YouTube, o número de conteúdos reposts Url:
destes canais é equivalente aos da RTP graças à força dos http://code.google.com/intl/pt/apis/youtube/overview.html
conteúdos publicados por terceiros.
[5] K. Lai and D. Wang, "A Measurement Study of External
Os autores são na sua maioria do sexo masculino, mas as Links of YouTube". Em: ULEMA, M. (ed.) Globecom
raparigas (< 20 anos) dominam percentualmente nestes 2009 - 2009 Ieee Global Telecommunications
escalões etários e são substancialmente mais activas que os Conference, Vols 1-8. Ieee, New York: pp. 6580-6585.
rapazes.
[6] E. Felinto, "VIDEOTRASH: O YouTube a Cultura do
Cristiano Ronaldo é um dos temas principais abordados nos “Spoof” na Internet". Em: XVI Encontro da Compós,
vídeos. Junho 2007, UTP, em Curitiba, PR, Brasil.