Organização e gerenciamento de conteúdos jornalísticos na Web Semântica

4.947 visualizações

Publicada em

Defesa da dissertação de mestrado em Comunicação Midiática de Iuri Lammel.

Publicada em: Educação
1 comentário
0 gostaram
Estatísticas
Notas
  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
4.947
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
0
Comentários
1
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Organização e gerenciamento de conteúdos jornalísticos na Web Semântica

  1. 1. Universidade Federal de Santa Maria Centro de Ciências Sociais e Humanas Programa de Pós-Graduação em ComunicaçãoDissertação de MestradoIuri Lammel Organização e gerenciamento de conteúdos jornalísticos na Web Semântica
  2. 2. Banca examinadoraDr.ª Luciana MielniczukOrientadora / UFSMDr.ª Suzana BarbosaComunicação / UFBADr. Giovani Rubert LibrelottoCiência da Computação / UFSM
  3. 3. Consideraçõespreliminares■ Comunicação e Computação■ Banca mista■ O tema “Web Semântica” na Comunicação
  4. 4. ProblemaQuais seriam aspotencialidades que aWeb Semântica ofereceriapara a organização e ogerenciamento dosconteúdos jornalísticos?
  5. 5. ObjetivosObjetivo principalIdentificar contribuições do uso das tecnologiassemânticas na organização e gerenciamentodos produtos jornalísticos digitais
  6. 6. ObjetivosObjetivos específicos ■ Identificar quais tecnologias semânticas são utilizadas nos casos selecionados ■ Compreender como elas são aplicadas ■ Identificar quais as razões do uso ■ Relacionar os dados obtidos na investigação dos casos selecionados ao atual paradigma do JDBD, para compreender as possíveis contribuições da proposta da Web Semântica à prática do jornalismo digital
  7. 7. Referencial teórico■ Jornalismo de dados■ Web Semântica
  8. 8. Jornalismo de dados
  9. 9. Jornalismo de dadosJornalismo Digital ■ Seis características (PALACIOS, 2003) ■ Três gerações (MIELNICZUK, 2003)
  10. 10. Jornalismo de dadosJornalismo Digital emBase de Dados (JDBD) ■ Quarta geração do jornalismo digital ■ Produtos jornalísticos estruturados em base de dados (BARBOSA, 2007; MACHADO, 2006) ■ Bases de dados ■ BDs como forma cultural (MANOVICH, 2001) ■ Database aesthetics
  11. 11. Jornalismo de dadosCategorias do JDBD ■ dinamicidade ■ automatização ■ flexibilidade ■ inter-relacionamento/Hiperlinkagem ■ densidade informativa ■ diversidade temática ■ visualização ■ convergência
  12. 12. Jornalismo de dadosData Journalism ■ Conceitos de data journalism ■ Funções do data journalist (The Guardian) ■ Visualização de dados (RODRIGUES, 2009) ■ Aplicativos jornalísticos
  13. 13. Web Semântica
  14. 14. Web SemânticaA atual web ■ Documentos em HTML para leitura humana ■ Processameno do computador é utilizado para formatação visual do documento ■ Processamento avançado não é aproveitado para interpretar significados dos documentos ■ HTML tem pouca semântica ■ XML tem bastante semântica, mas é arbitrária
  15. 15. Web SemânticaA atual web
  16. 16. Web SemânticaO que é a Web Semântica (WS) ■ Uma expansão para a atual World Wide Web ■ Proposta de Berners-Lee, Hendler e Lassila ■ A web se tornaria uma rede “mais inteligente” ■ Os computadores teriam capacidade de compreender os significados dos dados
  17. 17. Web SemânticaComo funciona a WS ■ Além do documento para humanos, a WS fornece metadados para os computadores ■ Os metadados descrevem o conteúdo ■ A descrição é realizada na lógica das triplas: sujeito - predicado - objeto, que permite associar recursos a valores semânticos ■ Além dos metadados em triplas, a WS fornece as ontologias: “uma especificação explícita de uma conceituação” (GRUBER, 1993)
  18. 18. Web SemânticaSolução tecnológica da W3C ■ Metadados em triplas: Resource Description Framework (RDF) BLOG X Es demolest, sinvel ipiciis Maio ea volupta tquatec tatiscipsant quo é escrito por essi optistissime non conse et, que com- nihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magnienisita comniet maio. Nequunt moloreperem. Odi doloritest od qui quistioribus autatquo vid qui derat. Sinvel ipiciis demolest Maio ea volupta tquatec tatiscipsant quo essi optistissime non conse et, que com- nihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magissime non conse et, que comnihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magnienisita com- niet maio. Nequunt moloreperem. Odi Sujeito Predicado Objeto
  19. 19. Web SemânticaSolução tecnológica da W3C ■ Ontologias: Web Ontology Language (OWL) BLOG X Es demolest, sinvel ipiciis Propriedades: Nono nono nono Maio ea volupta tquatec tatiscipsant quo essi optistissime non conse et, que com- nihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magnienisita comniet maio. Nequunt moloreperem. Odi doloritest od qui quistioribus autatquo vid qui derat. Sinvel ipiciis demolest Nono nono nono Maio ea volupta tquatec tatiscipsant quo essi optistissime non conse et, que comnihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magissime non conse et, que comnihil est ea. Piet et la quodicia estiis quis et inveles suntini BLOG Y magnam, et faceptat laborum ento mag- nienisita comniet maio. Nequunt molorep- Nono nono nono Es demolest, sinvel ipiciis BLOG K Maio ea volupta tquatec tatiscipsant quo essi optistissime non conse et, que com- nihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magnienisita comniet maio. Es demolest, sinvel ipiciis Nequunt moloreperem. Odi doloritest od qui quistioribus autatquo vid qui derat. Maio ea volupta tquatec tatiscipsant quo Sinvel ipiciis demolest Nono nono nono essi optistissime non conse et, que com- nihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat Maio ea volupta tquatec tatiscipsant laborum ento magnienisita comniet maio. quo essi optistissime non conse et, Nequunt moloreperem. Odi doloritest od que comnihil est ea. Piet et la quodicia qui quistioribus autatquo vid qui derat. estiis quis et inveles suntini magnam, et faceptat laborum ento magissime non Sinvel ipiciis demolest conse et, que comnihil est ea. Piet et la quodicia estiis quis et inveles suntini Maio ea volupta tquatec tatiscipsant magnam, et faceptat laborum ento mag- quo essi optistissime non conse et, nienisita comniet maio. Nequunt molorep- que comnihil est ea. Piet et la quodicia Nono nono nono estiis quis et inveles suntini magnam, et faceptat laborum ento magissime non conse et, que comnihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento mag- nienisita comniet maio. Nequunt molorep- Nono nono nono Nono nono nonoClasse: blogs Classe: humanos
  20. 20. Web SemânticaOutros conceitos importantes ■ Agentes inteligentes ■ Técnica de tagging, para a extração de conceitos em conteúdos não estruturados ■ Softwares de processamento de linguagem natural, para extração de conceitos em conteúdos não estruturados com
  21. 21. Web SemânticaLinked Data ■ Proposta de Berners-Lee (2006) ■ É um projeto que reúne iniciativas que publicam dados nos padrões da W3C ■ Os repositórios de dados são abertos e vinculados uns aos outros (Linked Open Data)
  22. 22. Web SemânticaLinked Data Maio de 2007 Setembro de 2011
  23. 23. Web SemânticaLinked Data
  24. 24. Procedimentosmetodológico
  25. 25. Metodologia■ Pesquisa exploratória■ Estudo de caso■ Análise com as oito categorias do JDBD
  26. 26. World Cup2010
  27. 27. World Cup 2010Descrição do casoÉ um site jornalístico especial para abrigar todoo conteúdo jornalístico da BBC relacionado àCopa do Mundo de 2010
  28. 28. World Cup 2010Descrição do caso ■ Times – Jogadores – Grupos – Partidas ■ Mais de 800 páginas publicadas de forma automatizada ■ Cada página agrega diferentes informações oriundas de diferentes locais
  29. 29. World Cup 2010Tecnologias semânticas ■ Triplas em RDF ■ Repositório semântico triple store BigOWLIM ■ Ontologia própria sobre a Copa do Mundo ■ Técnica de tagging ■ Processamento de Linguagem Natural ■ SPARQL ■ Dados e metadados da Linked Data
  30. 30. World Cup 2010 (OLIVER, 2010)
  31. 31. World Cup 2010 (O’DONAVAN, 2010)
  32. 32. World Cup 2010Dinamicidade ■ Produto altamente dinâmico ■ Não encontramos indícios de potencialização significativa em relação aos atuais produtos jornalísticos em base de dados
  33. 33. World Cup 2010Automatização ■ Publicação com automatização total ■ Modificou o fluxo editorial (workflow) na criação de conteúdos e no gerenciamento do site: passa do modelo tradicional de “publicar matérias e páginas index” para “publicar conteúdos e checar se as sugestões de tags estão corretas” (O’DONAVAN, 2010)
  34. 34. World Cup 2010Flexibilidade ■ Descentralização da produção ■ RDF e Linked Data tornam o sistema “incrivelmente flexível” (O’DONAVAN, 2010) ■ “O modelo de tripla RDF também facilita a modelagem ágil, enquanto que a modelagem do esquema relacional tradicional é menos flexível e também incrementa a complexidade da query” (Rayfield, 2010).
  35. 35. World Cup 2010Inter-relacionamento/Hiperlinkagem ■ Potencializa com a geração automática de links, tanto para conteúdos internos quanto para conteúdos externos (Linked Data) ■ URIs únicos para os conceitos minimizam a possibilidade de ambiguidade na geração automática de links
  36. 36. World Cup 2010Densidade informativa ■ A interoperabilidade potencializa a convergência de conteúdos diversificados e oriundos de sites externos (ex.: Linked Data)
  37. 37. World Cup 2010Diversidade temática ■ O site trata de apenas um tema ■ ... porém, as tecnologias semânticas agregam conteúdos em diferentes formatos sobre um assunto específico (identificado por uma URI). Logo, o sistema tem potencial para agregar temas diversificados sobre um assunto identificado pela URI
  38. 38. World Cup 2010Visualização ■ O site não aproveitou a dinamicidade dos dados para explorar recursos visuais mais elaborados e dinâmicos na narrativa ■ Houve gráficos simples gerados a partir de dados oriundos de fontes externas
  39. 39. World Cup 2010Convergência ■ Há convergência de diferentes formatos de mídia e de gêneros (notícia, blog, estatística...) ■ As mídias são agregadas a um conceito, pois possuem tags associadas a tal conceito ■ Mais do que a convergência de mídias: as tecnologias semânticas permitiram a convergência de produções oriundas de diversas fontes da web
  40. 40. BBCWildlife
  41. 41. BBC WildlifeDescrição do casoÉ um site que reúne uma grande produçãode conteúdos sobre o mundo natural, maisespecificamente biológico, como animaisselvagens, plantas, fungos e seres pré-históricos
  42. 42. BBC WildlifeDescrição do caso ■ Páginas únicas para: ■ espécies (e outros níveis) ■ habitats ■ comportamentos/adaptações ■ biorregiões ■ Milhares de páginas publicadas de forma automatizada ■ Cada página agrega diferentes informações oriundas de diferentes locais
  43. 43. BBC WildlifeTecnologias semânticas ■ Triplas em RDF ■ Versão serializada das páginas (RDF/XML) ■ Ontologia própria sobre o mundo natural ■ Técnica de tagging (vocabulário controlado) ■ URIs baseados nos identificadores da DBpedia ■ Dados e metadados da Linked Data
  44. 44. BBC Wildlife (OLIVER, 2010)
  45. 45. BBC WildlifeFuncionamento ■ Termos da Wikipedia como vocabulário ■ Uso dos termos para tagging dos vídeos da BBC e de conteúdos externos ao site ■ Também há metadados oriundas de outros sites (ex.: habitats e biorregiões da WWF) ■ Páginas agregam os clipes de vídeo da BBC e os conteúdos externos através da associação das tags com a ontologia
  46. 46. BBC WildlifeDinamicidade ■ Produto altamente dinâmico ■ Não encontramos indícios de potencialização significativa em relação aos atuais produtos jornalísticos em base de dados
  47. 47. BBC WildlifeAutomatização ■ Automatização total na publicação de mídias, descrições e listas de links ■ Automatização baseada no modelo conceitual da ontologia Wildlife
  48. 48. BBC WildlifeFlexibilidade ■ Descentralização da produção ■ Estrutura de navegação baseada na ontologia. Assim, a alteração na estrutura de navegação de milhares de páginas se torna mais flexível
  49. 49. BBC WildlifeInter-relacionamento/Hiperlinkagem ■ As inferências realizadas com o inter- relacionamento baseado em ontologias permitem que o sistema origine coleções de conceitos relacionados ao assunto da página, gerados no formato de listas de links contextualizados, que funcionam como menus de navegação
  50. 50. BBC WildlifeDensidade informativa ■ A interoperabilidade potencializa a convergência de conteúdos diversificados e oriundos de sites externos (ex.: Linked Data) ■ As listas contextualizadas de links aumentam a densidade informativa da matéria
  51. 51. BBC WildlifeDiversidade temática ■ O site trata de apenas um tema ■ ... porém, as tecnologias semânticas agregam conteúdos em diferentes formatos sobre um assunto específico (identificado por uma URI). Logo, o sistema tem potencial para agregar temas diversificados sobre um assunto identificado pela URI ■ As listas de links levam a informações com outros temas sobre o assunto em questão
  52. 52. BBC WildlifeVisualização ■ O site não aproveitou a dinamicidade dos dados para explorar recursos visuais mais elaborados e dinâmicos na narrativa ■ As páginas seguem a estética base de dados
  53. 53. BBC WildlifeConvergência ■ Há convergência de diferentes formatos de mídia e de gêneros (notícia, blog, estatística...) ■ As mídias são agregadas a um conceito, pois possuem tags associadas a tal conceito ■ Mais do que a convergência de mídias: as tecnologias semânticas permitiram a convergência de produções oriundas de diversas fontes da web (Wikipedia, BBC News...)
  54. 54. Resultados e conclusões
  55. 55. Resultados econclusões ■ Em relação ao JDBD, há continuidades e há potencializações ■ As potencializações ocorrem, principalmente, na combinação das características do JDBD com a automatização (ontologias) ■ Defendemos uma possível ruptura: a interoperabilidade automatizada
  56. 56. Resultados econclusõesInteroperabilidade automatizada ■ Permite o reaproveitamento automatizado de dados produzidos por terceiros ou por outras equipes da mesma organização ■ Diversifica as fontes de dados, o que pode enriquecer o produto em diferentes categorias, como a hiperlinkagem, a diversidade informativa e a diversidade temática
  57. 57. Resultados econclusõesInteroperabilidade automatizada ■ Permite o compartilhamento de informações entre vários projetos complementares entre si, que podem formar uma base de conhecimento colaborativa (ex.: Linked Data) ■ Para que isso ocorra, é necessário que surjam mais iniciativas que sigam a lógica da WS e que compartilhem seus dados de forma aberta
  58. 58. Estudos futuros
  59. 59. Estudos futurosPesquisa comparativa ■ Realizar uma comparação entre um produto que emprega tecnologias semânticas e outro que não utiliza ■ Uma oportunidade: Olimpíadas 2012
  60. 60. Estudos futurosOpen Graph do Facebookcomo sistema semântico ■ Estudar o impacto que o sistema semântico da rede Facebook na organização e no gerenciamento de conteúdos informacionais ■ O Facebook utiliza a lógica das triplas com poucos verbos (curtir, ler, comentar...), mas divulgou que deverá lançar novos verbos, como cozinhar, comer, viajar e correr
  61. 61. Estudos futurosAtivação da memória ■ Estudar como as tecnologias semânticas podem ativar a memória jornalística, ao reaproveitar conteúdos armazenados em arquivos e, a partir deste reaproveitamento, gerar novos produtos (ex.: caso BBC Wildlife)

×