SlideShare uma empresa Scribd logo
1 de 6
Baixar para ler offline
YouTube.pt
                                           O Retrato Português no YouTube


                     João Luís Canais                                                         Miguel Neto
            ISEGI, Universidade Nova de Lisboa                                    ISEGI, Universidade Nova de Lisboa
                     Lisboa, Portugal                                                      Lisboa, Portugal
                    joao@canais.com                                                       mneto@isegi.unl.pt



Resumo - Na última década, com a generalização dos acessos de       ferramentas de produção e publicação de conteúdos é que este
banda larga, a Internet tornou-se o meio de difusão de conteúdos    voyeurismo é verdadeiramente global. O YouTube é o actual
multimédia por excelência. Em particular, o aparecimento dos        expoente máximo deste interesse em exibir e observar o que
serviços de publicação e partilha de vídeos online são neste        uma sociedade global como a nossa é capaz de produzir. Será
momento um dos centros de atenção da Internet, permitindo aos       este o ponto de partida para o nosso estudo.
seus utilizadores partilhar os seus conteúdos por vastas
audiências.                                                                         II.   PESQUISANDO O YOUTUBE
    Disponível desde Fevereiro de 2005, o YouTube é a maior             O YouTube armazena, todos os dias, uma enorme
comunidade de vídeos online com mais de 3 mil milhões de            quantidade de vídeos com as mais variadas origens, espalhadas
visualizações por dia. No entanto, uma aplicação baseada na         um pouco por todo o mundo. Neste contexto a nossa questão é:
Internet é por definição supranacional e supra cultural,            como podemos encontrar conteúdos específicos Portugueses?
massificando identidades num único conceito sem distinção de        A nossa abordagem para encontrar dados sobre vídeos e
cultura, geografia ou ideologia.                                    autores portugueses no YouTube consistiu em desenvolver
                                                                    uma aplicação de crawl [1], [2], [3] que, usando a API pública
    Assim, considerámos importante conhecer o perfil Português      [4] do YouTube, é capaz de pesquisar as informações que
no YouTube. Será possível descobrir um padrão Português no          necessitamos.
universo de conteúdos existentes no YouTube? Qual será o perfil
destas pessoas?                                                         A API do YouTube é uma API de acesso público que
                                                                    permite a uma aplicação cliente realize operações de pesquisa
    Para tal ser possível iremos pesquisar pelo YouTube             directamente nas suas bases de dados. Assim é possível
conteúdos Portugueses, através das facilidades tecnológicas que a   procurar por vídeos, autores, e ver conteúdos relacionados.
plataforma disponibiliza, para serem catalogados tanto ao nível
de conteúdos como ao nível de utilizadores. Deste conjunto de
                                                                        Tentar encontrar conteúdos e autores Portugueses no
informação não sistematizada iremos extrair informação              YouTube a partir do zero, usando apenas o motor de busca, é
quantitativa e qualitativa que, depois de tratada e devidamente     um grande risco devido à qualidade dos dados e ao presente
analisada, nos irá permitir tentar responder às questões            factor de ambiguidade das respostas obtidas num motor de
formuladas.                                                         pesquisa a partir dos metadados de cada registo. Para
                                                                    ultrapassar este problema a nossa solução utilizou as
   Palavras-Chave: Portugal; YouTube; Google; Utilizador;           coordenadas geoespaciais da lista oficial de códigos postais
Autor; Perfil; Comportamento; Cultura Web; Internet.                Portugueses. Usando esta lista de pontos como o nosso
                                                                    "conjunto de partida", a nossa aplicação é capaz de identificar
                                                                    vídeos geograficamente referenciados dentro do território
                       I.    INTRODUÇÃO                             nacional.
    Na última década, com a generalização dos acessos de                Cada vídeo identificado no YouTube fornece um conjunto
banda larga, a Internet tornou-se o meio de difusão de              de fontes para identificar outros vídeos do YouTube, tais como:
informação e de conteúdos multimédia por excelência. Muitos         a lista de vídeos do utilizador, a lista de vídeos favoritos e os
destes conteúdos são pessoais e seriam considerados como            vídeos relacionados (vídeos identificados pelo algoritmo
descartáveis ou de pouco valor há alguns anos atrás.                YouTube como relacionados com o vídeo de origem).
Presentemente vídeos e fotografias pessoais, produções
                                                                        A partir do conjunto inicial de vídeos (identificados pela
independentes ou de baixo custo ou acontecimentos do dia-a-
                                                                    suas coordenadas geoespaciais), é possível obter a lista de
dia são publicados e exibidos em frente de milhões de pessoas
                                                                    vídeos publicados pelo utilizador e a lista de vídeos
a qualquer instante.
                                                                    relacionados com o vídeo fonte. Aplicando este algoritmo de
    O interesse por expor e observar a vida alheia não é novo       forma recursiva às diferentes listas obtidas em ciclos anteriores,
na história humana, mas só agora com a disseminação das             é possível avançar em profundidade ao longo da árvore de
tecnologias de informação e da democratização das                   conteúdos do YouTube.
III.    A TECNOLOGIA PARA O CRAWL                                IV.    CATALOGAÇÃO DE RESULTADOS

    Para a realização da tarefa de crawl do YouTube foi              Para cada vídeo identificado foram catalogados na nossa
necessário desenvolver software específico para o efeito. Este   base de dados todos os dados possíveis: Video ID, ID de autor,
software foi escrito na linguagem c# e com a framework .net      título, descrição, palavras-chave, informações técnica sobre o
4.0. Como repositório dos dados obtidos nas pesquisas foi        vídeo, a lista de categorias, ratings e comentários para cada
utilizando o Microsoft SQL Server 2008 R2 e como linguagem       vídeo. Antes de ser catalogado na nossa base de dados, cada
de interrogação da base de dados foi utilizado o Linq para       novo vídeo é avaliado para testar se o seu conteúdo é Português
SQL.                                                             ou não. Esta avaliação é feita segundo vários parâmetros: título
                                                                 ou descrição contém palavras-chave em português, o vídeo
    A arquitectura funcional do sistema (Figura 1) é um modelo
                                                                 contém coordenadas geográficas Portuguesas ou o autor do
clássico de implementação baseado em camadas lógicas
                                                                 vídeo é identificado como cidadão Português. Todos estes
funcionais, clientes de webservices para acesso a informação
                                                                 atributos são combinados num factor numérico de confiança
residente em sistemas remotos, repositório de resultados em
                                                                 para este conteúdo de vídeo, identificando assim se cada vídeo
base de dados e as respectivas entidades aplicacionais para
                                                                 é de conteúdo Português ou não. Para cada autor individual
implementação das regras de negócio.
                                                                 identificado foram recolhidas as seguintes informações: nome,
                                                                 idade, país, informações pessoais e interesses, data de criação
                                                                 de registo e data da última visita, contagem de vídeos
                                                                 publicados e contagem de subscritores.




                                                                            V.      TRATAMENTO E ANALISE DE DADOS

                                                                    Em cada ciclo de pesquisa (ou crawl) vários milhares de
                                                                 vídeos e de autores (metadados) são armazenados em base de
                                                                 dados. Toda esta informação recolhida pode ser classificada
                                                                 em dois diferentes tipos de informação: informação
                    Figura 1. Arquitetura funcional
                                                                 quantitativa e informação qualitativa [5].
                                                                     A informação quantitativa ou "factual", como o número de
                                                                 visitas ou a duração do vídeo, são factos objectivos sobre algo.
         O sistema aqui descrito foi colocado em produção
                                                                 As informações qualitativas incluem títulos, descrições, tags e
num servidor alojado no data center do ISEGI em ambiente e
                                                                 palavras-chave, e são, por definição, menos confiáveis para
conectividade controladas, com o seguinte software instalado:    este tipo de estudo devido à ambiguidade própria da
Windows Server 2008 x64 R2 e Microsoft SQL Server 2008           informação existente na Internet. Apesar destas questões, os
R2 Enterprise. Utilizando o proxy/firewall da intranet do        dados da análise deve abranger dados quantitativos e
ISEGI como saída para a Internet foi possível aceder em          qualitativas para cobrir todos os aspectos da pesquisa.
segurança aos recursos disponíveis pelo YouTube via
webservices para a realização das pesquisas de dados                 Uma preocupação importante no nosso processo de análise
necessárias para atingir os objectivos do estudo (Figura 2).     é a avaliação da qualidade dos dados em si. Uma vez que os
                                                                 dados da amostra, sendo retirados de um sítio na internet, não é
                                                                 certo a existência ou não nestes dados de certos tipos de
                                                                 malformações (exemplo: alguns vídeos não portugueses
                                                                 possuem coordenadas geográficas dentro de Portugal), ou a
                                                                 necessidade de remover a ambiguidade de dados dos campos
                                                                 de texto livre (exemplo: unificar "Lisboa" e "Lisbon" ou
                                                                 "Porto" e "OPorto").


                                                                                    VI.   RESULTADOS OBTIDOS
                                                                     Entre 17 de Fevereiro de 2011 e 24 de Abril de 2011 foram
                                                                 executados 5 ciclos de pesquisa variando entre listas de autores
                                                                 previamente identificados e lista de vídeos relacionados com
              Figura 2. Diagrama da rede em produção
                                                                 pesquisas anteriores. Assim, no final do processo de pesquisa
                                                                 foram obtidos os resultados apresentados na Tabela 1.
TABELA I.          RESULTADOS FINAIS DE CONTEÚDOS EXTRAÍDOS                     posteriormente são ultrapassadas pelo género masculino. Uma
                                             Resultados Obtidos                      possível explicação pode residir no facto das raparigas
       Variável
                                   Valor                         Percentagem
                                                                                     apresentarem um desenvolvimento intelectual muito mais
                                                                                     rápido que os rapazes é lógico que elas apresentem uma
  Vídeos PT                       972.494                           77%              actividade no YouTube mais prematura como autores de
  Todos Vídeos                   1.260.672                         100%              conteúdos enquanto os rapazes nestas idades agem como
                                                                                     consumidores passivos de conteúdos principalmente.
  Autores PT                      49.608                            17%

  Todos Autores                   287.282                          100%
                                                                                     C. Distribuição Geográfica de Autores

                              VII. AUTORES                                              A distribuição geográfica dos autores Portugueses está
A. Distribuição de Género                                                            plenamente alinhada com a demografia Portuguesa, 50% dos
                                                                                     autores identificados estão localizados em Lisboa e Porto,
    A distribuição de géneros indica que: 81% são declarados                         conforme é visível na Figura 5.
como sendo do género masculino, contra apenas 16% de
declarados como sendo do género feminino (Figura 3. ). No
entanto, temos de encarar o valor do género masculino como
sendo excessivo visto que muitas organizações são
identificadas como sendo do género masculino. São exemplos
desta tipificação errada: rtp (RTP), bloconoparlamento (Bloco
de Esquerda) ou ordemtoc (Ordem dos Técnicos Oficiais de
Contas), etc.

                        YouTube distribuição de género
                                         3%
                                 16%

                                                                                           Figura 5. Distribuição de autores em relação à sua localização
                                                                   M      F    n/a


                                                                                        De igual forma, o mesmo padrão é visível na distribuição
                                                     81%
                                                                                     de vídeos publicados em relação aos seus autores. Assim 61%
                                                                                     dos vídeos publicados são de autores identificados como sendo
                                                                                     de Lisboa e Porto (Figura 6. ).
                       Figura 3. Distribuição de Géneros



B. Pirâmide Etária
                                 Pirâmide Etária

    90-99

    70-79                                                                             Figura 6. Distribuição de vídeos em relação à sua localização dos autores
    50-59

    40-44

    30-34                                                                               Na Figura 7. é visível a existência de uma relação entre o
    20-24                                                                            número de visualizações e o número de subscritores, i.e., um
    10-14                                                                            maior número de visualizações tende a indicar um maior
       0                                                                             número de subscritores. No entanto, o mesmo tipo de relação
            0%    5%       10%         15%         20%     25%      30%       35%
                                                                                     não é visível para o número de conteúdos publicados. Não é
                                                                                     possível definir uma relação entre o número de conteúdos
                                         M     F                                     publicados de um autor e o seu acumulado de visualizações. O
                                                                                     caso mais visível é o de „Cristiano Ronaldo‟, com uma relação
                                                                                     de 34.893 subscrições para apenas 19 conteúdos publicados.
                           Figura 4. Pirâmide Etária
                                                                                     Ou seja, e como é natural, existem outros factores externos,
    Na pirâmide etária apresentada na Figura 4. , os valores                         independentes da quantidade, que definem a popularidade de
apresentados indicam um claro domínio do género feminino                             um autor no You Tube.
entre os 10 anos e os 19 anos de idade sendo que
IX.      VIDEOS

                              Distribuição Visualizações vs Vídeos e Subscrições
                                                                                                                                 Numa visão directa sobre os conteúdos vídeo verificamos
                         1.6E+06
                                                                                                                             que o ritmo de crescimento de novos vídeos é constante,
                         1.4E+06
                         1.2E+06
                                                                                                                             estando presentemente numa média de 30 mil vídeos mensais
   # Visualizações




                         1.0E+06          1             2
                                                                                                                             desde o início do ano de 2010 (Figura 9. ).
                         8.0E+05
                         6.0E+05                                                7
                         4.0E+05              3                                                9
                                                  4                      6                                                                                     Publicação de Vídeos por Mês
                         2.0E+05                                                    8
                                                            5
                                                                                                      10
                         0.0E+00                                                                                                               4.0E+04
                                                                                                                                               3.5E+04
                                                                                                                                               3.0E+04
                                                      # Subscrições                 # Vídeos                                                   2.5E+04




                                                                                                                               # Vídeos
                                                                                                                                               2.0E+04
                                                                                                                                               1.5E+04
                                                                                                                                               1.0E+04
Figura 7. Distribuição de visualizaçãoes vs vídeos publicados e subscrições                                                                    5.0E+03
                                                                                                                                               0.0E+00




                                                                                                                                                          2005-9

                                                                                                                                                          2006-3
                                                                                                                                                          2006-6
                                                                                                                                                          2006-9

                                                                                                                                                          2007-3
                                                                                                                                                          2007-6
                                                                                                                                                          2007-9

                                                                                                                                                          2008-3
                                                                                                                                                          2008-6
                                                                                                                                                          2008-9

                                                                                                                                                          2009-3
                                                                                                                                                          2009-6
                                                                                                                                                          2009-9

                                                                                                                                                          2010-3
                                                                                                                                                          2010-6
                                                                                                                                                          2010-9

                                                                                                                                                          2011-3
                                                                                                                                                         2005-12




                                                                                                                                                         2006-12




                                                                                                                                                         2007-12




                                                                                                                                                         2008-12




                                                                                                                                                         2009-12




                                                                                                                                                         2010-12
                                                      VIII. CATEGORIAS
                                                                                                                                                                         Número de Vídeos
    O YouTube fornece aos seus utilizadores um conjunto de
categorias onde permite catalogar e agrupar os seus conteúdos
(vídeos) segundo temas ou áreas específicas.                                                                                                     Figura 9. Evolução da publicação de vídeos por mês

                                                                                                                                 Nota: No nosso trabalho não foi possível encontrar uma
                                                                                                                             justificação, técnica ou de negócio, para a quebra de valores
A. Distribuição de vídeos por categoria e origem                                                                             verificada em Dezembro de 2008. Apesar de não ser possível
                                                                                                                             comprovar a nossa teoria, persiste a nossa convicção sobre
    A distribuição de vídeos por categorias e origem permite-                                                                uma possível falha de dados na origem (YouTube).
nos observar que os conteúdos portugueses são em tudo
semelhantes aos conteúdos não portugueses. As 4 principais
categorias Portuguesas (Music, Entertainment, People, Sports e                                                                   No top de vídeos mais visitados verificamos que a grande
Autos), são as mesmas quatro categorias principais em vídeos                                                                 maioria são reposts de conteúdos de domínio público,
não PT, como é visível na Figura 8.                                                                                          essencialmente vídeos musicais internacionais.
                                                                                                                                 Visto que com este tipo de listagem não seria possível
                                                                                                                             realizar uma análise crítica aos conteúdos Portugueses,
                                                                                                                             realizamos uma filtragem aos conteúdos para obter um novo
                             Distribuição de Vídeos por Categoria e Origem                                                   top (25+) apenas com conteúdos Portugueses. As principais
                                                                                                                             áreas de vídeos publicados são os conteúdos televisivos e
                       Trailers
                       Movies
                                                                                                                             musicais (40% dos conteúdos são destes dois temas somados) e
                        Shows
                                                                                                                             vídeos sobre Cristiano Ronaldo são 12%. No entanto, o
                        Howto                                                                                                primeiro lugar é de conteúdos destinados ao público infantil
                     Nonprofit                                                                                               (musicas infantis), e que neste top representam 36% dos
                         Tech                                                                                                conteúdos.
                      Animals
                     Education                                                                                                   A duração de um vídeo é um valor de referência para
                          Film                                                                                               diferentes aplicações e decisões de negócio, em termos gerais a
                         News                                                                                                duração de um vídeo está tipificada (30” para uma peça de
                       Games
                                                                                                                             promoção, 120” para uma peça de reportagem, 210” para um
                        Travel
                      Comedy
                                                                                                                             vídeo clip, etc).
                        Autos
                                                                                                                                 Na distribuição global dos vídeos, na óptica da sua duração,
                        Sports
                                                                                                                             visível na Figura 10. , é possível retirar as seguintes
                        People
   Entertainment
                                                                                                                             conclusões:
                        Music
                                                                                                                                          1.    O primeiro máximo está localizado por volta dos 50
                                  0.00%       5.00%             10.00%        15.00%         20.00%        25.00%   30.00%                      segundos com cerca de 19,5% da amostra.

                                                             Vídeos PT       Vídeos Não PT
                                                                                                                                          2.    Um segundo máximo está localizado por volta dos
                                                                                                                                                240 segundos com 69% da amostra.
  Figura 8. Distribuição de vídeos por categorias e origem (PT e não PT)                                                                  3.    O terceiro máximo está localizado por volta dos 600
                                                                                                                                                segundos (ou 10 minutos) contendo 96%.
Numa análise simplificada deste top de palavras mais
                                Distribuição da duração de vídeos
                                                                                            utilizadas, podemos concluir que estão presente:
               0.80%
                                                                                                      Os principais clubes de futebol Portugueses: Porto,
   % Vídeos


               0.60%
               0.40%                                                                                  Benfica e Sporting;
               0.20%
               0.00%                                                                                  Estão presentes todos os canais de televisão: RTP, SIC
                       0   60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960             e TVI.

                                           Duração (seg.)
                                                                                                      Estão presentes eventos anuais importantes: natal e
                                                                                                      carnaval
                       Figura 10. Distribuição da duração de vídeos                                   Estão presentes nomes reconhecidos com sendo de
                                                                                                      grande audiência no panorama televisivo Português:
                                                                                                      Morangos, Fedorento e Herman.
                           X.      PALAVRAS MAIS UTILIZADAS
                                                                                                            XI.   LIDERES POLITICOS NO YOUTUBE
    Em cada ciclo de pesquisa (ou crawl), metadados com
informação qualitativa (nome, descrição, keywords) foram                                        Ao longo da elaboração deste estudo foi tido como
processadas de forma a criar um top de palavras em relação à                                interessante uma análise sobre a visibilidade dos líderes
sua frequência de utilização.                                                               políticos nacionais no YouTube. Os dados abaixo apresentados
    Um primeiro top 25, visível na Figura 11. , foi elaborado                               referem a pesquisas sobre palavras-chave nos metadados dos
sem qualquer tipo de tratamento, sendo que algumas destas                                   vídeos. Neste nível de detalhe apenas conseguimos observar a
palavras não possuem um significado próprio quando isoladas                                 visibilidade de determinado líder no YouTube, não sendo
fora de um contexto.                                                                        possível aferir com esta informação de qual é o sentido político
                                                                                            de determinada visibilidade. No entanto é possível observar
                                                                                            que determinados momentos da vida política Portuguesa
                                                                                            correspondem a um aumento de conteúdos no YouTube.

                                                                                                                  Distribuição de Líderes Políticos

                                                                                               100%
                                                                                                80%
                                                                                                60%
                                                                                                40%
                                                                                                20%
                                                                                                 0%




                                                                                                 José Sócrates             Pedro Passos Coelho     Manuela Ferreira Leite
                                                                                                 Paulo Portas              Jerónimo de Sousa       Francisco Louçã



                                                                                                      Figura 13. Visibilidade de todos os líderes políticos em %
              Figura 11. Word cloud de palavras mais utilizadas em Vídeos

    De forma a criar uma visão mais ampla e real sobre o                                        Numa visão de conjunto, é possível observar que o líder no
universo de palavras mais utilizadas, fomos extrair as                                      poder durante o período em estudo (José Sócrates) é quem tem
principais palavras com significado, segundo o nosso critério,                              a maior visibilidade ao nível de conteúdos publicados,
da lista de top 250, em Figura 12.                                                          acumulando um total de 61% dos vídeos. Enquanto os restantes
                                                                                            líderes políticos não vão além dos 9% (Pedro Passos Coelho).
                                                                                            De notar o reduzido número de conteúdos publicados de todos
                                                                                            os lideres com médias de 1 e 2 vídeos por mês. Por
                                                                                            comparação com os mesmos valores para „Herman José‟ (um
                                                                                            total de 1614 vídeos contra 2897 vídeos de Herman José no
                                                                                            mesmo período) verificamos que a diferença, e por
                                                                                            consequência o espaço para crescimento nesta área, é bastante
                                                                                            grande.




  Figura 12. Word cloud de selecção de palavras usadas no título de vídeos
XII. “VIDEO TRASH” E A CULTURA DO „SPOOF‟ NA INTERNET                 No nosso estudo sobre a visibilidade da vida política,
                                                                  verificamos que esta visibilidade é reduzida, apesar de
                                                                  percentualmente estarem em linha com a representação real dos
    No seu trabalho, Felinto [6], apresenta o conceito de „lixo   partidos políticos.
digital‟ e de „spoof‟ “não há dúvida que um dos usos mais
difundidos da internet tem sido o de repositório de detritos         Como existe uma grande uniformidade de conteúdos a
culturais de natureza audiovisual: flogs, videoblogs e podcasts   duração média dos conteúdos Portugueses é idêntica à média
se multiplicam no espaço da rede em velocidade vertiginosa” e     geral dos conteúdos. Herman José é o artista com maior
“um „spoof‟ é uma paródia, uma farsa, uma imitação”.              número de reposts dos seus trabalhos. O tempo de vida de uma
                                                                  conta YouTube é inferior a 2 anos e o número médio de vídeos
    Este tipo de cultura é potenciado e potencia o princípio      por conta cresceu 20% nos últimos 5 anos.
viral nas tecnologias, “O êxito de um vídeo pode ser testado
pela quantidade de „spoofs‟ que ele gera. Além disso, também
é possível produzir „spoofs‟ a partir de outros „spoofs‟,                           XIV. TRABALHOS FUTUROS
formando-se cadeias de imitações que se desdobram
indefinidamente.” [6].                                                Como é facilmente observável este trabalho aborda apenas
                                                                  muito superficialmente todo o potencial da informação
    Também no nosso trabalho é possível encontrar vários          recolhida. A diversidade e a quantidade da informação
exemplos deste “lixo digital”. Um deles é a exibição pública da   existente são factores que dificultam o aprofundamento do
vida privada e intima de Cristiano Rolando, onde são              estudo. Esta informação, que está constantemente em evolução
exaustivamente exibidos detalhes da sua vida privada numa         e em mutação, a uma velocidade vertiginosa, requer um
serie de vídeos que são repetidamente colocados online por        esforço permanente em novas recolhas e análises.
diferentes autores, geralmente anónimos (Figura 14. ).
                                                                      Foi nosso desejo de mostrar um caminho para o estudo do
                                                                  universo do YouTube em Portugal. Entregamos agora este
                                                                  trabalho à comunidade científica e empresarial Portuguesa,
                                                                  para que seja observado e analisado. A partir daí, para que
                                                                  possa tornar-se também potenciador de novas oportunidades
                                                                  empresariais, gerador de novos conhecimentos e uma nova
                                                                  fonte de riqueza.
                                                                                           REFERÊNCIAS


            Figura 14. A vida privada de Cristiano Ronaldo        [1]   D. Chau, S. Pandit, S. Wang and C. Faloutsos, "Parallel
                                                                        crawling for online social networks". Em: Proceedings of
                                                                        the 16th international conference on World Wide Web,
                                                                        2007 Banff, Alberta, Canada. 1242809: ACM, pp. 1283-
                       XIII. CONCLUSÕES                                 1284.
    Concluindo a nossa análise, as grandes conclusões deste
trabalho permite-nos concluir que os tipos de conteúdos           [2]   F. Duarte, F. Benevenuto, V. Almeida and J. Almeida,
Portugueses existentes e sua distribuição são idênticos à               "Geographical Characterization of YouTube: a Latin
generalidade dos conteúdos existentes no YouTube. Esses                 American View". Em: Fifth Latin American Web
conteúdos são na sua maioria reposts do meio televisivo, de             Congress, 2007 Web Conference, 2007. LA-WEB 2007.,
telenovelas, conteúdos infantis, música internacional e spoofs          pp. 13 - 21.
da Internet. A dispersão geográfica dos autores corresponde à     [3]   X. Cheng, C. Dale and J. Liu, "Statistics and social
demografia conhecida Portuguesa. Lisboa e Porto dominam                 network of YouTube videos". 2008 16th International
todos os indicadores.                                                   Workshop on Quality of Service, Proceedings. Ieee, New
    A RTP é o autor de conteúdos com maior número de                    York: pp. 229-238.
visualizações. Apesar da SIC e TVI não abordarem                  [4]   Google Code, YouTube APIs and Tools. Google.com.
directamente o YouTube, o número de conteúdos reposts                   Url:
destes canais é equivalente aos da RTP graças à força dos               http://code.google.com/intl/pt/apis/youtube/overview.html
conteúdos publicados por terceiros.
                                                                  [5]   K. Lai and D. Wang, "A Measurement Study of External
   Os autores são na sua maioria do sexo masculino, mas as              Links of YouTube". Em: ULEMA, M. (ed.) Globecom
raparigas (< 20 anos) dominam percentualmente nestes                    2009 - 2009 Ieee Global Telecommunications
escalões etários e são substancialmente mais activas que os             Conference, Vols 1-8. Ieee, New York: pp. 6580-6585.
rapazes.
                                                                  [6]   E. Felinto, "VIDEOTRASH: O YouTube a Cultura do
   Cristiano Ronaldo é um dos temas principais abordados nos            “Spoof” na Internet". Em: XVI Encontro da Compós,
vídeos.                                                                 Junho 2007, UTP, em Curitiba, PR, Brasil.

Mais conteúdo relacionado

Semelhante a YouTube em Portugal - Resumo da Tese de Mestrado

Relatório parcial da ic tv digital - daniel aguillar
Relatório parcial da ic tv digital - daniel aguillarRelatório parcial da ic tv digital - daniel aguillar
Relatório parcial da ic tv digital - daniel aguillarDaniel
 
SANTOS globosats experience in applying ontologies to media asset management
SANTOS globosats experience in applying ontologies to media asset managementSANTOS globosats experience in applying ontologies to media asset management
SANTOS globosats experience in applying ontologies to media asset managementFIAT/IFTA
 
Web 2.0 - Uma revisão da Internet
Web 2.0 - Uma revisão da InternetWeb 2.0 - Uma revisão da Internet
Web 2.0 - Uma revisão da InternetRommel Carneiro
 
Tipos de Agregadores -ESPM 2010
Tipos de Agregadores -ESPM 2010Tipos de Agregadores -ESPM 2010
Tipos de Agregadores -ESPM 2010kimthai
 
Curso ica ato m upf passo fundo setembro 2014
Curso ica ato m upf passo fundo setembro 2014Curso ica ato m upf passo fundo setembro 2014
Curso ica ato m upf passo fundo setembro 2014Daniel Flores
 
Apresentação do plano de investigação
Apresentação do plano de investigaçãoApresentação do plano de investigação
Apresentação do plano de investigaçãoBruno Teles
 
Personalização de programas de tv no contexto da tv digital portátil interativa
Personalização de programas de tv no contexto da tv digital portátil interativaPersonalização de programas de tv no contexto da tv digital portátil interativa
Personalização de programas de tv no contexto da tv digital portátil interativaElaine Cecília Gatto
 
Preservação da informação na biblioteca digital
Preservação da informação na biblioteca digitalPreservação da informação na biblioteca digital
Preservação da informação na biblioteca digitalCariniana Rede
 
Anteprojecto grupo 8
Anteprojecto grupo 8Anteprojecto grupo 8
Anteprojecto grupo 8apgrupo8
 
O digital, a sustentabilidade e a viagem do open source ao open data
O digital, a sustentabilidade e a viagem do open source ao open dataO digital, a sustentabilidade e a viagem do open source ao open data
O digital, a sustentabilidade e a viagem do open source ao open dataLuis Borges Gouveia
 
Apresentacao tese de doutorado - Prof. Gustavo Daudt Fischer - dezembro de 2008
Apresentacao tese de doutorado - Prof. Gustavo Daudt Fischer - dezembro de 2008Apresentacao tese de doutorado - Prof. Gustavo Daudt Fischer - dezembro de 2008
Apresentacao tese de doutorado - Prof. Gustavo Daudt Fischer - dezembro de 2008Gustavo Fischer
 
Projeto ead-tvd-luqs-2011
Projeto ead-tvd-luqs-2011Projeto ead-tvd-luqs-2011
Projeto ead-tvd-luqs-2011UNIFOR E UECE
 

Semelhante a YouTube em Portugal - Resumo da Tese de Mestrado (20)

Base de Dados
Base de DadosBase de Dados
Base de Dados
 
Relatório parcial da ic tv digital - daniel aguillar
Relatório parcial da ic tv digital - daniel aguillarRelatório parcial da ic tv digital - daniel aguillar
Relatório parcial da ic tv digital - daniel aguillar
 
23 Coisas @ Eseig’09
23 Coisas @  Eseig’0923 Coisas @  Eseig’09
23 Coisas @ Eseig’09
 
NossoBlog
NossoBlogNossoBlog
NossoBlog
 
SANTOS globosats experience in applying ontologies to media asset management
SANTOS globosats experience in applying ontologies to media asset managementSANTOS globosats experience in applying ontologies to media asset management
SANTOS globosats experience in applying ontologies to media asset management
 
Web 2.0 - Uma revisão da Internet
Web 2.0 - Uma revisão da InternetWeb 2.0 - Uma revisão da Internet
Web 2.0 - Uma revisão da Internet
 
Formacao Web 2.0
Formacao Web 2.0Formacao Web 2.0
Formacao Web 2.0
 
Tipos de Agregadores -ESPM 2010
Tipos de Agregadores -ESPM 2010Tipos de Agregadores -ESPM 2010
Tipos de Agregadores -ESPM 2010
 
Curso ica ato m upf passo fundo setembro 2014
Curso ica ato m upf passo fundo setembro 2014Curso ica ato m upf passo fundo setembro 2014
Curso ica ato m upf passo fundo setembro 2014
 
Apresentação do plano de investigação
Apresentação do plano de investigaçãoApresentação do plano de investigação
Apresentação do plano de investigação
 
Be e o video ferrmentas web 20
Be e o video   ferrmentas web 20Be e o video   ferrmentas web 20
Be e o video ferrmentas web 20
 
Projeto no tube
Projeto no tubeProjeto no tube
Projeto no tube
 
Personalização de programas de tv no contexto da tv digital portátil interativa
Personalização de programas de tv no contexto da tv digital portátil interativaPersonalização de programas de tv no contexto da tv digital portátil interativa
Personalização de programas de tv no contexto da tv digital portátil interativa
 
Preservação da informação na biblioteca digital
Preservação da informação na biblioteca digitalPreservação da informação na biblioteca digital
Preservação da informação na biblioteca digital
 
Anteprojecto grupo 8
Anteprojecto grupo 8Anteprojecto grupo 8
Anteprojecto grupo 8
 
Preservação 2
Preservação 2Preservação 2
Preservação 2
 
Cronograma final 13maio
Cronograma final 13maioCronograma final 13maio
Cronograma final 13maio
 
O digital, a sustentabilidade e a viagem do open source ao open data
O digital, a sustentabilidade e a viagem do open source ao open dataO digital, a sustentabilidade e a viagem do open source ao open data
O digital, a sustentabilidade e a viagem do open source ao open data
 
Apresentacao tese de doutorado - Prof. Gustavo Daudt Fischer - dezembro de 2008
Apresentacao tese de doutorado - Prof. Gustavo Daudt Fischer - dezembro de 2008Apresentacao tese de doutorado - Prof. Gustavo Daudt Fischer - dezembro de 2008
Apresentacao tese de doutorado - Prof. Gustavo Daudt Fischer - dezembro de 2008
 
Projeto ead-tvd-luqs-2011
Projeto ead-tvd-luqs-2011Projeto ead-tvd-luqs-2011
Projeto ead-tvd-luqs-2011
 

YouTube em Portugal - Resumo da Tese de Mestrado

  • 1. YouTube.pt O Retrato Português no YouTube João Luís Canais Miguel Neto ISEGI, Universidade Nova de Lisboa ISEGI, Universidade Nova de Lisboa Lisboa, Portugal Lisboa, Portugal joao@canais.com mneto@isegi.unl.pt Resumo - Na última década, com a generalização dos acessos de ferramentas de produção e publicação de conteúdos é que este banda larga, a Internet tornou-se o meio de difusão de conteúdos voyeurismo é verdadeiramente global. O YouTube é o actual multimédia por excelência. Em particular, o aparecimento dos expoente máximo deste interesse em exibir e observar o que serviços de publicação e partilha de vídeos online são neste uma sociedade global como a nossa é capaz de produzir. Será momento um dos centros de atenção da Internet, permitindo aos este o ponto de partida para o nosso estudo. seus utilizadores partilhar os seus conteúdos por vastas audiências. II. PESQUISANDO O YOUTUBE Disponível desde Fevereiro de 2005, o YouTube é a maior O YouTube armazena, todos os dias, uma enorme comunidade de vídeos online com mais de 3 mil milhões de quantidade de vídeos com as mais variadas origens, espalhadas visualizações por dia. No entanto, uma aplicação baseada na um pouco por todo o mundo. Neste contexto a nossa questão é: Internet é por definição supranacional e supra cultural, como podemos encontrar conteúdos específicos Portugueses? massificando identidades num único conceito sem distinção de A nossa abordagem para encontrar dados sobre vídeos e cultura, geografia ou ideologia. autores portugueses no YouTube consistiu em desenvolver uma aplicação de crawl [1], [2], [3] que, usando a API pública Assim, considerámos importante conhecer o perfil Português [4] do YouTube, é capaz de pesquisar as informações que no YouTube. Será possível descobrir um padrão Português no necessitamos. universo de conteúdos existentes no YouTube? Qual será o perfil destas pessoas? A API do YouTube é uma API de acesso público que permite a uma aplicação cliente realize operações de pesquisa Para tal ser possível iremos pesquisar pelo YouTube directamente nas suas bases de dados. Assim é possível conteúdos Portugueses, através das facilidades tecnológicas que a procurar por vídeos, autores, e ver conteúdos relacionados. plataforma disponibiliza, para serem catalogados tanto ao nível de conteúdos como ao nível de utilizadores. Deste conjunto de Tentar encontrar conteúdos e autores Portugueses no informação não sistematizada iremos extrair informação YouTube a partir do zero, usando apenas o motor de busca, é quantitativa e qualitativa que, depois de tratada e devidamente um grande risco devido à qualidade dos dados e ao presente analisada, nos irá permitir tentar responder às questões factor de ambiguidade das respostas obtidas num motor de formuladas. pesquisa a partir dos metadados de cada registo. Para ultrapassar este problema a nossa solução utilizou as Palavras-Chave: Portugal; YouTube; Google; Utilizador; coordenadas geoespaciais da lista oficial de códigos postais Autor; Perfil; Comportamento; Cultura Web; Internet. Portugueses. Usando esta lista de pontos como o nosso "conjunto de partida", a nossa aplicação é capaz de identificar vídeos geograficamente referenciados dentro do território I. INTRODUÇÃO nacional. Na última década, com a generalização dos acessos de Cada vídeo identificado no YouTube fornece um conjunto banda larga, a Internet tornou-se o meio de difusão de de fontes para identificar outros vídeos do YouTube, tais como: informação e de conteúdos multimédia por excelência. Muitos a lista de vídeos do utilizador, a lista de vídeos favoritos e os destes conteúdos são pessoais e seriam considerados como vídeos relacionados (vídeos identificados pelo algoritmo descartáveis ou de pouco valor há alguns anos atrás. YouTube como relacionados com o vídeo de origem). Presentemente vídeos e fotografias pessoais, produções A partir do conjunto inicial de vídeos (identificados pela independentes ou de baixo custo ou acontecimentos do dia-a- suas coordenadas geoespaciais), é possível obter a lista de dia são publicados e exibidos em frente de milhões de pessoas vídeos publicados pelo utilizador e a lista de vídeos a qualquer instante. relacionados com o vídeo fonte. Aplicando este algoritmo de O interesse por expor e observar a vida alheia não é novo forma recursiva às diferentes listas obtidas em ciclos anteriores, na história humana, mas só agora com a disseminação das é possível avançar em profundidade ao longo da árvore de tecnologias de informação e da democratização das conteúdos do YouTube.
  • 2. III. A TECNOLOGIA PARA O CRAWL IV. CATALOGAÇÃO DE RESULTADOS Para a realização da tarefa de crawl do YouTube foi Para cada vídeo identificado foram catalogados na nossa necessário desenvolver software específico para o efeito. Este base de dados todos os dados possíveis: Video ID, ID de autor, software foi escrito na linguagem c# e com a framework .net título, descrição, palavras-chave, informações técnica sobre o 4.0. Como repositório dos dados obtidos nas pesquisas foi vídeo, a lista de categorias, ratings e comentários para cada utilizando o Microsoft SQL Server 2008 R2 e como linguagem vídeo. Antes de ser catalogado na nossa base de dados, cada de interrogação da base de dados foi utilizado o Linq para novo vídeo é avaliado para testar se o seu conteúdo é Português SQL. ou não. Esta avaliação é feita segundo vários parâmetros: título ou descrição contém palavras-chave em português, o vídeo A arquitectura funcional do sistema (Figura 1) é um modelo contém coordenadas geográficas Portuguesas ou o autor do clássico de implementação baseado em camadas lógicas vídeo é identificado como cidadão Português. Todos estes funcionais, clientes de webservices para acesso a informação atributos são combinados num factor numérico de confiança residente em sistemas remotos, repositório de resultados em para este conteúdo de vídeo, identificando assim se cada vídeo base de dados e as respectivas entidades aplicacionais para é de conteúdo Português ou não. Para cada autor individual implementação das regras de negócio. identificado foram recolhidas as seguintes informações: nome, idade, país, informações pessoais e interesses, data de criação de registo e data da última visita, contagem de vídeos publicados e contagem de subscritores. V. TRATAMENTO E ANALISE DE DADOS Em cada ciclo de pesquisa (ou crawl) vários milhares de vídeos e de autores (metadados) são armazenados em base de dados. Toda esta informação recolhida pode ser classificada em dois diferentes tipos de informação: informação Figura 1. Arquitetura funcional quantitativa e informação qualitativa [5]. A informação quantitativa ou "factual", como o número de visitas ou a duração do vídeo, são factos objectivos sobre algo. O sistema aqui descrito foi colocado em produção As informações qualitativas incluem títulos, descrições, tags e num servidor alojado no data center do ISEGI em ambiente e palavras-chave, e são, por definição, menos confiáveis para conectividade controladas, com o seguinte software instalado: este tipo de estudo devido à ambiguidade própria da Windows Server 2008 x64 R2 e Microsoft SQL Server 2008 informação existente na Internet. Apesar destas questões, os R2 Enterprise. Utilizando o proxy/firewall da intranet do dados da análise deve abranger dados quantitativos e ISEGI como saída para a Internet foi possível aceder em qualitativas para cobrir todos os aspectos da pesquisa. segurança aos recursos disponíveis pelo YouTube via webservices para a realização das pesquisas de dados Uma preocupação importante no nosso processo de análise necessárias para atingir os objectivos do estudo (Figura 2). é a avaliação da qualidade dos dados em si. Uma vez que os dados da amostra, sendo retirados de um sítio na internet, não é certo a existência ou não nestes dados de certos tipos de malformações (exemplo: alguns vídeos não portugueses possuem coordenadas geográficas dentro de Portugal), ou a necessidade de remover a ambiguidade de dados dos campos de texto livre (exemplo: unificar "Lisboa" e "Lisbon" ou "Porto" e "OPorto"). VI. RESULTADOS OBTIDOS Entre 17 de Fevereiro de 2011 e 24 de Abril de 2011 foram executados 5 ciclos de pesquisa variando entre listas de autores previamente identificados e lista de vídeos relacionados com Figura 2. Diagrama da rede em produção pesquisas anteriores. Assim, no final do processo de pesquisa foram obtidos os resultados apresentados na Tabela 1.
  • 3. TABELA I. RESULTADOS FINAIS DE CONTEÚDOS EXTRAÍDOS posteriormente são ultrapassadas pelo género masculino. Uma Resultados Obtidos possível explicação pode residir no facto das raparigas Variável Valor Percentagem apresentarem um desenvolvimento intelectual muito mais rápido que os rapazes é lógico que elas apresentem uma Vídeos PT 972.494 77% actividade no YouTube mais prematura como autores de Todos Vídeos 1.260.672 100% conteúdos enquanto os rapazes nestas idades agem como consumidores passivos de conteúdos principalmente. Autores PT 49.608 17% Todos Autores 287.282 100% C. Distribuição Geográfica de Autores VII. AUTORES A distribuição geográfica dos autores Portugueses está A. Distribuição de Género plenamente alinhada com a demografia Portuguesa, 50% dos autores identificados estão localizados em Lisboa e Porto, A distribuição de géneros indica que: 81% são declarados conforme é visível na Figura 5. como sendo do género masculino, contra apenas 16% de declarados como sendo do género feminino (Figura 3. ). No entanto, temos de encarar o valor do género masculino como sendo excessivo visto que muitas organizações são identificadas como sendo do género masculino. São exemplos desta tipificação errada: rtp (RTP), bloconoparlamento (Bloco de Esquerda) ou ordemtoc (Ordem dos Técnicos Oficiais de Contas), etc. YouTube distribuição de género 3% 16% Figura 5. Distribuição de autores em relação à sua localização M F n/a De igual forma, o mesmo padrão é visível na distribuição 81% de vídeos publicados em relação aos seus autores. Assim 61% dos vídeos publicados são de autores identificados como sendo de Lisboa e Porto (Figura 6. ). Figura 3. Distribuição de Géneros B. Pirâmide Etária Pirâmide Etária 90-99 70-79 Figura 6. Distribuição de vídeos em relação à sua localização dos autores 50-59 40-44 30-34 Na Figura 7. é visível a existência de uma relação entre o 20-24 número de visualizações e o número de subscritores, i.e., um 10-14 maior número de visualizações tende a indicar um maior 0 número de subscritores. No entanto, o mesmo tipo de relação 0% 5% 10% 15% 20% 25% 30% 35% não é visível para o número de conteúdos publicados. Não é possível definir uma relação entre o número de conteúdos M F publicados de um autor e o seu acumulado de visualizações. O caso mais visível é o de „Cristiano Ronaldo‟, com uma relação de 34.893 subscrições para apenas 19 conteúdos publicados. Figura 4. Pirâmide Etária Ou seja, e como é natural, existem outros factores externos, Na pirâmide etária apresentada na Figura 4. , os valores independentes da quantidade, que definem a popularidade de apresentados indicam um claro domínio do género feminino um autor no You Tube. entre os 10 anos e os 19 anos de idade sendo que
  • 4. IX. VIDEOS Distribuição Visualizações vs Vídeos e Subscrições Numa visão directa sobre os conteúdos vídeo verificamos 1.6E+06 que o ritmo de crescimento de novos vídeos é constante, 1.4E+06 1.2E+06 estando presentemente numa média de 30 mil vídeos mensais # Visualizações 1.0E+06 1 2 desde o início do ano de 2010 (Figura 9. ). 8.0E+05 6.0E+05 7 4.0E+05 3 9 4 6 Publicação de Vídeos por Mês 2.0E+05 8 5 10 0.0E+00 4.0E+04 3.5E+04 3.0E+04 # Subscrições # Vídeos 2.5E+04 # Vídeos 2.0E+04 1.5E+04 1.0E+04 Figura 7. Distribuição de visualizaçãoes vs vídeos publicados e subscrições 5.0E+03 0.0E+00 2005-9 2006-3 2006-6 2006-9 2007-3 2007-6 2007-9 2008-3 2008-6 2008-9 2009-3 2009-6 2009-9 2010-3 2010-6 2010-9 2011-3 2005-12 2006-12 2007-12 2008-12 2009-12 2010-12 VIII. CATEGORIAS Número de Vídeos O YouTube fornece aos seus utilizadores um conjunto de categorias onde permite catalogar e agrupar os seus conteúdos (vídeos) segundo temas ou áreas específicas. Figura 9. Evolução da publicação de vídeos por mês Nota: No nosso trabalho não foi possível encontrar uma justificação, técnica ou de negócio, para a quebra de valores A. Distribuição de vídeos por categoria e origem verificada em Dezembro de 2008. Apesar de não ser possível comprovar a nossa teoria, persiste a nossa convicção sobre A distribuição de vídeos por categorias e origem permite- uma possível falha de dados na origem (YouTube). nos observar que os conteúdos portugueses são em tudo semelhantes aos conteúdos não portugueses. As 4 principais categorias Portuguesas (Music, Entertainment, People, Sports e No top de vídeos mais visitados verificamos que a grande Autos), são as mesmas quatro categorias principais em vídeos maioria são reposts de conteúdos de domínio público, não PT, como é visível na Figura 8. essencialmente vídeos musicais internacionais. Visto que com este tipo de listagem não seria possível realizar uma análise crítica aos conteúdos Portugueses, realizamos uma filtragem aos conteúdos para obter um novo Distribuição de Vídeos por Categoria e Origem top (25+) apenas com conteúdos Portugueses. As principais áreas de vídeos publicados são os conteúdos televisivos e Trailers Movies musicais (40% dos conteúdos são destes dois temas somados) e Shows vídeos sobre Cristiano Ronaldo são 12%. No entanto, o Howto primeiro lugar é de conteúdos destinados ao público infantil Nonprofit (musicas infantis), e que neste top representam 36% dos Tech conteúdos. Animals Education A duração de um vídeo é um valor de referência para Film diferentes aplicações e decisões de negócio, em termos gerais a News duração de um vídeo está tipificada (30” para uma peça de Games promoção, 120” para uma peça de reportagem, 210” para um Travel Comedy vídeo clip, etc). Autos Na distribuição global dos vídeos, na óptica da sua duração, Sports visível na Figura 10. , é possível retirar as seguintes People Entertainment conclusões: Music 1. O primeiro máximo está localizado por volta dos 50 0.00% 5.00% 10.00% 15.00% 20.00% 25.00% 30.00% segundos com cerca de 19,5% da amostra. Vídeos PT Vídeos Não PT 2. Um segundo máximo está localizado por volta dos 240 segundos com 69% da amostra. Figura 8. Distribuição de vídeos por categorias e origem (PT e não PT) 3. O terceiro máximo está localizado por volta dos 600 segundos (ou 10 minutos) contendo 96%.
  • 5. Numa análise simplificada deste top de palavras mais Distribuição da duração de vídeos utilizadas, podemos concluir que estão presente: 0.80% Os principais clubes de futebol Portugueses: Porto, % Vídeos 0.60% 0.40% Benfica e Sporting; 0.20% 0.00% Estão presentes todos os canais de televisão: RTP, SIC 0 60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 e TVI. Duração (seg.) Estão presentes eventos anuais importantes: natal e carnaval Figura 10. Distribuição da duração de vídeos Estão presentes nomes reconhecidos com sendo de grande audiência no panorama televisivo Português: Morangos, Fedorento e Herman. X. PALAVRAS MAIS UTILIZADAS XI. LIDERES POLITICOS NO YOUTUBE Em cada ciclo de pesquisa (ou crawl), metadados com informação qualitativa (nome, descrição, keywords) foram Ao longo da elaboração deste estudo foi tido como processadas de forma a criar um top de palavras em relação à interessante uma análise sobre a visibilidade dos líderes sua frequência de utilização. políticos nacionais no YouTube. Os dados abaixo apresentados Um primeiro top 25, visível na Figura 11. , foi elaborado referem a pesquisas sobre palavras-chave nos metadados dos sem qualquer tipo de tratamento, sendo que algumas destas vídeos. Neste nível de detalhe apenas conseguimos observar a palavras não possuem um significado próprio quando isoladas visibilidade de determinado líder no YouTube, não sendo fora de um contexto. possível aferir com esta informação de qual é o sentido político de determinada visibilidade. No entanto é possível observar que determinados momentos da vida política Portuguesa correspondem a um aumento de conteúdos no YouTube. Distribuição de Líderes Políticos 100% 80% 60% 40% 20% 0% José Sócrates Pedro Passos Coelho Manuela Ferreira Leite Paulo Portas Jerónimo de Sousa Francisco Louçã Figura 13. Visibilidade de todos os líderes políticos em % Figura 11. Word cloud de palavras mais utilizadas em Vídeos De forma a criar uma visão mais ampla e real sobre o Numa visão de conjunto, é possível observar que o líder no universo de palavras mais utilizadas, fomos extrair as poder durante o período em estudo (José Sócrates) é quem tem principais palavras com significado, segundo o nosso critério, a maior visibilidade ao nível de conteúdos publicados, da lista de top 250, em Figura 12. acumulando um total de 61% dos vídeos. Enquanto os restantes líderes políticos não vão além dos 9% (Pedro Passos Coelho). De notar o reduzido número de conteúdos publicados de todos os lideres com médias de 1 e 2 vídeos por mês. Por comparação com os mesmos valores para „Herman José‟ (um total de 1614 vídeos contra 2897 vídeos de Herman José no mesmo período) verificamos que a diferença, e por consequência o espaço para crescimento nesta área, é bastante grande. Figura 12. Word cloud de selecção de palavras usadas no título de vídeos
  • 6. XII. “VIDEO TRASH” E A CULTURA DO „SPOOF‟ NA INTERNET No nosso estudo sobre a visibilidade da vida política, verificamos que esta visibilidade é reduzida, apesar de percentualmente estarem em linha com a representação real dos No seu trabalho, Felinto [6], apresenta o conceito de „lixo partidos políticos. digital‟ e de „spoof‟ “não há dúvida que um dos usos mais difundidos da internet tem sido o de repositório de detritos Como existe uma grande uniformidade de conteúdos a culturais de natureza audiovisual: flogs, videoblogs e podcasts duração média dos conteúdos Portugueses é idêntica à média se multiplicam no espaço da rede em velocidade vertiginosa” e geral dos conteúdos. Herman José é o artista com maior “um „spoof‟ é uma paródia, uma farsa, uma imitação”. número de reposts dos seus trabalhos. O tempo de vida de uma conta YouTube é inferior a 2 anos e o número médio de vídeos Este tipo de cultura é potenciado e potencia o princípio por conta cresceu 20% nos últimos 5 anos. viral nas tecnologias, “O êxito de um vídeo pode ser testado pela quantidade de „spoofs‟ que ele gera. Além disso, também é possível produzir „spoofs‟ a partir de outros „spoofs‟, XIV. TRABALHOS FUTUROS formando-se cadeias de imitações que se desdobram indefinidamente.” [6]. Como é facilmente observável este trabalho aborda apenas muito superficialmente todo o potencial da informação Também no nosso trabalho é possível encontrar vários recolhida. A diversidade e a quantidade da informação exemplos deste “lixo digital”. Um deles é a exibição pública da existente são factores que dificultam o aprofundamento do vida privada e intima de Cristiano Rolando, onde são estudo. Esta informação, que está constantemente em evolução exaustivamente exibidos detalhes da sua vida privada numa e em mutação, a uma velocidade vertiginosa, requer um serie de vídeos que são repetidamente colocados online por esforço permanente em novas recolhas e análises. diferentes autores, geralmente anónimos (Figura 14. ). Foi nosso desejo de mostrar um caminho para o estudo do universo do YouTube em Portugal. Entregamos agora este trabalho à comunidade científica e empresarial Portuguesa, para que seja observado e analisado. A partir daí, para que possa tornar-se também potenciador de novas oportunidades empresariais, gerador de novos conhecimentos e uma nova fonte de riqueza. REFERÊNCIAS Figura 14. A vida privada de Cristiano Ronaldo [1] D. Chau, S. Pandit, S. Wang and C. Faloutsos, "Parallel crawling for online social networks". Em: Proceedings of the 16th international conference on World Wide Web, 2007 Banff, Alberta, Canada. 1242809: ACM, pp. 1283- XIII. CONCLUSÕES 1284. Concluindo a nossa análise, as grandes conclusões deste trabalho permite-nos concluir que os tipos de conteúdos [2] F. Duarte, F. Benevenuto, V. Almeida and J. Almeida, Portugueses existentes e sua distribuição são idênticos à "Geographical Characterization of YouTube: a Latin generalidade dos conteúdos existentes no YouTube. Esses American View". Em: Fifth Latin American Web conteúdos são na sua maioria reposts do meio televisivo, de Congress, 2007 Web Conference, 2007. LA-WEB 2007., telenovelas, conteúdos infantis, música internacional e spoofs pp. 13 - 21. da Internet. A dispersão geográfica dos autores corresponde à [3] X. Cheng, C. Dale and J. Liu, "Statistics and social demografia conhecida Portuguesa. Lisboa e Porto dominam network of YouTube videos". 2008 16th International todos os indicadores. Workshop on Quality of Service, Proceedings. Ieee, New A RTP é o autor de conteúdos com maior número de York: pp. 229-238. visualizações. Apesar da SIC e TVI não abordarem [4] Google Code, YouTube APIs and Tools. Google.com. directamente o YouTube, o número de conteúdos reposts Url: destes canais é equivalente aos da RTP graças à força dos http://code.google.com/intl/pt/apis/youtube/overview.html conteúdos publicados por terceiros. [5] K. Lai and D. Wang, "A Measurement Study of External Os autores são na sua maioria do sexo masculino, mas as Links of YouTube". Em: ULEMA, M. (ed.) Globecom raparigas (< 20 anos) dominam percentualmente nestes 2009 - 2009 Ieee Global Telecommunications escalões etários e são substancialmente mais activas que os Conference, Vols 1-8. Ieee, New York: pp. 6580-6585. rapazes. [6] E. Felinto, "VIDEOTRASH: O YouTube a Cultura do Cristiano Ronaldo é um dos temas principais abordados nos “Spoof” na Internet". Em: XVI Encontro da Compós, vídeos. Junho 2007, UTP, em Curitiba, PR, Brasil.