Universidade do Vale do Rio dos SINOS - UNISINOS
               Comunicação Digital – Turma 2009




             Pesquisa com a ferramenta Eurekha:
“O uso do Twitter por um grupo de jornalistas da TV Record RS”




                    Ediqueli Bianca da Silva
                   Webminig – Silvio Cazella




               São Leopoldo, dezembro de 2011
                          SUMÁRIO

                                                                 1
LISTA DE IMAGENS:


Imagem 1: Processo da Mineração de textos ..............................................................04


Imagem 2: Escolha o nome do projeto ........................................................................05


Imagem 3: Escolha os arquivos ...................................................................................05


Imagem 4: Arquivos escolhidos ...................................................................................06


Imagem 5: Definir Stopwords .......................................................................................06


Imagem 6: Verificar ocorrências ..................................................................................07


Imagem 7: Relacionamento entre arquivos .................................................................07


Imagem 8: Conteúdos agrupados ................................................................................08


Imagem 9: Matriz de similaridades ..............................................................................08


Imagem 10: Grupos de Cluster ....................................................................................09


INTRODUÇÃO ….........................................................................................................03


MINERAÇÃO DE TEXTOS …......................................................................................04


A PESQUISA - DESENVOLVIMENTO ….....................................................................05


CONCLUSÃO …...........................................................................................................09


BIBILIGRAFIA …..........................................................................................................10

                                                                                                                         2
INTRODUÇÃO


        Penúltimo semestre do curso de Comunicação Digital1 da UNISINOS, época de
escrever minha monografia. Tantos livros e artigos para ler. Para selecionar e melhor
organizar os materiais, utilizarei a ferramenta Eurekha.
        O objetivo dessa pesquisa, é verificar se os artigos que selecionei na internet,
realmente, me auxiliariam na construção do meu Trabalho de Conclusão de Curso. O tema
do meu TCC é o uso do Twitter2 por um grupo de nove3 jornalistas da TV Record RS.
        Durante meu estudo, vou analisar como esses profissionais de comunicação utilizam
essa Mídia Social. Para isso, precisarei me apoiar em artigos escritos por pesquisadores da
área, como Raquel Recuero, Alex Primo, Gabriela Zago e Adriana Amaral.
        Esses pesquisadores produzem muito material e, para selecionar os que interessam
para a pesquisa, utilizei a ferramenta Eurekha para otimizar a seleção de conteúdo e,
consequentemente, aumentar o tempo disponível para a construção do meu trabalho.
        Nesse artigo, além de apresentar o desenvolvimento da pesquisa, descreverei,
brevemente, a ferramenta, e mostrarei as conclusões, a partir da análise de agrupamento
criado com o auxílio da ferramenta.




1
  Site do Curso: unisinos.br/digital
2
  Segundo o próprio site, o Twitter é uma rede de informação em tempo real que conecta você às últimas
informações sobre o que há de mais interessante. Basta encontrar os perfis que você mais se identifica e seguir
as conversas. Ele pode ser acessado pela URL: https://twitter.com/
3
  São eles: Aline Schneider, Carmel Mostardeiro, Farid Germano Filho, Giórgia Bazotti, Leandro Olegário,
Marcus Reis, Matheus Felipe, Mônica Rossi e Valessa Viega Prado.
                                                                                                              3
MINERAÇÃO DE TEXTOS


      A mineração de textos (Text Mining), também conhecida como Descoberta de
Conhecimento em Textos (KDT), refere-se a extração de informação (chamada de
conhecimento),    de documentos não estruturados. O processo de mineração de textos está
dividido em três etapas: Pré-processamento, Mineração e Pós-processamento.
      No pré-processamento, os artigos são selecionados e salvos no formato de texto
puro“.txt” (sem títulos, imagens, cabeçalhos, rodapés, numeração de páginas), apenas com
letras e números. A próxima etapa, mineração, é realizada por um software chamado
“Eurekha”. Esse software agrupa documentos, que possuam conteúdo semelhante e separar
documentos de assuntos diferentes.
      Nela, são identificadas as “Stopwords” e é feita a clusterização dos textos.
“Stopwords” são palavras que o usuário, que está realizando a mineração de textos, deseja
que o software ignore durante a análise do projeto. Alguns exemplos dessas palavras são
advérbios, artigos, numerais, pronomes e vogais.
      A segunda etapa, Clusterização dos textos, também conhecida como Identificação de
clusters, refere-se a identificação de co-relacionamentos entre os documentos e o
agrupamento dos mesmos por similaridades. A terceira, e última, etapa é o Pós-
processamento. Nela, os arquivos “.txt” são agrupados, de acordo com seus conceitos, para
melhor identificação das similaridades do conteúdo.   Para melhor compreender, veja o
gráfico abaixo.




Imagem 1: Processo da Mineração de textos.



                                                                                       4
A PESQUISA - DESENVOLVIMENTO


       Para desenvolver minha pesquisa, selecionei treze artigos disponibilizados em sites e
blogs de alguns autores que escrevem sobre comunicação, em especial o Twitter e o
jornalismo. Retirei os títulos, as imagens, os cabeçalhos e rodapés, a numeração de páginas,
e salvei-os no formato “.txt”.


       Abri o programa Eurekha, e criei o nome do meu projeto.




Imagem 2: Escolha o nome do projeto.


       Depois, inseri os meus arquivos “.txt” no software.




Imagem 3: Escolha os arquivos.




                                                                                          5
Imagem 4: Arquivos escolhidos.


      O próximo passo é definir as “Stopwords”.




Imagem 5: Definir Stopwords.


      Depois, verifiquei a totalidade de palavras e o número de ocorrências.




                                                                               6
Imagem 6: Verificar ocorrências.


      O próximo passo foi identificar os relacionamentos entre arquivos e verificar o
conteúdo que foi agrupado pelo software.




Imagem 7: Relacionamento entre arquivos.




                                                                                   7
Imagem 8: Conteúdos agrupados.


      Antes de finalizar o trabalho, visualizei a matriz de similaridades.




Imagem 9: Matriz de similaridades.




                                                                             8
CONCLUSÃO


        Como é possível verificar na imagem 10, os arquivos são divididos em quatro grupos.
O primeiro, chamado de 1 (em vermelho), concentra três (A, G e I) dos treze artigos, com
27.27% de similaridade entre eles. O segundo, chamado de 2 (em verde), também concentra
três (B, C e D) dos treze artigos, com 27.27% de similaridade entre eles.
        Já, o terceiro, chamado de 3 (em amarelo), que concentra dois (E e H) dos treze
artigos, possui 18,18% de similaridade entre eles. O quarto e último grupo formado, que é
chamado de 4 (em azul), concentra três dos treze artigos, com 27.27% de similaridade entre
eles.
        É importante destacar que, apenas dois (F e J) dos treze artigos não puderam ser
agrupadas em algum grupo.




Imagem 10: Grupos de Cluster.


        Com a realização desse artigo, percebi que a utilização de ferramenta Eurekha e com
a clusterização de documentos de textos “.txt”, a realização de muitos trabalhos acadêmicos,
podem ser facilitadas ou até mesmo ter seu tempo de realização, significativamente,
reduzido. Recomendo a aplicação a todos os alunos, mas principalmente àqueles que estão
realizando seu Trabalho de Conclusão de Curso.
                                                                                          9
BIBILIGRAFIA


•   Tutorial Eurekha: moodle.unisinos.br/file.php/3455/Tutorial_Eurekha.pdf
Sites:
•   twitter.com/about
•   inf.ufrgs.br/~wives/wiki/doku.php?id=eurekha
•   sare.unianhanguera.edu.br/index.php/rcext/article/viewPDFInterstitial/413/409




                                                                                    10

Artigo webminig

  • 1.
    Universidade do Valedo Rio dos SINOS - UNISINOS Comunicação Digital – Turma 2009 Pesquisa com a ferramenta Eurekha: “O uso do Twitter por um grupo de jornalistas da TV Record RS” Ediqueli Bianca da Silva Webminig – Silvio Cazella São Leopoldo, dezembro de 2011 SUMÁRIO 1
  • 2.
    LISTA DE IMAGENS: Imagem1: Processo da Mineração de textos ..............................................................04 Imagem 2: Escolha o nome do projeto ........................................................................05 Imagem 3: Escolha os arquivos ...................................................................................05 Imagem 4: Arquivos escolhidos ...................................................................................06 Imagem 5: Definir Stopwords .......................................................................................06 Imagem 6: Verificar ocorrências ..................................................................................07 Imagem 7: Relacionamento entre arquivos .................................................................07 Imagem 8: Conteúdos agrupados ................................................................................08 Imagem 9: Matriz de similaridades ..............................................................................08 Imagem 10: Grupos de Cluster ....................................................................................09 INTRODUÇÃO ….........................................................................................................03 MINERAÇÃO DE TEXTOS …......................................................................................04 A PESQUISA - DESENVOLVIMENTO ….....................................................................05 CONCLUSÃO …...........................................................................................................09 BIBILIGRAFIA …..........................................................................................................10 2
  • 3.
    INTRODUÇÃO Penúltimo semestre do curso de Comunicação Digital1 da UNISINOS, época de escrever minha monografia. Tantos livros e artigos para ler. Para selecionar e melhor organizar os materiais, utilizarei a ferramenta Eurekha. O objetivo dessa pesquisa, é verificar se os artigos que selecionei na internet, realmente, me auxiliariam na construção do meu Trabalho de Conclusão de Curso. O tema do meu TCC é o uso do Twitter2 por um grupo de nove3 jornalistas da TV Record RS. Durante meu estudo, vou analisar como esses profissionais de comunicação utilizam essa Mídia Social. Para isso, precisarei me apoiar em artigos escritos por pesquisadores da área, como Raquel Recuero, Alex Primo, Gabriela Zago e Adriana Amaral. Esses pesquisadores produzem muito material e, para selecionar os que interessam para a pesquisa, utilizei a ferramenta Eurekha para otimizar a seleção de conteúdo e, consequentemente, aumentar o tempo disponível para a construção do meu trabalho. Nesse artigo, além de apresentar o desenvolvimento da pesquisa, descreverei, brevemente, a ferramenta, e mostrarei as conclusões, a partir da análise de agrupamento criado com o auxílio da ferramenta. 1 Site do Curso: unisinos.br/digital 2 Segundo o próprio site, o Twitter é uma rede de informação em tempo real que conecta você às últimas informações sobre o que há de mais interessante. Basta encontrar os perfis que você mais se identifica e seguir as conversas. Ele pode ser acessado pela URL: https://twitter.com/ 3 São eles: Aline Schneider, Carmel Mostardeiro, Farid Germano Filho, Giórgia Bazotti, Leandro Olegário, Marcus Reis, Matheus Felipe, Mônica Rossi e Valessa Viega Prado. 3
  • 4.
    MINERAÇÃO DE TEXTOS A mineração de textos (Text Mining), também conhecida como Descoberta de Conhecimento em Textos (KDT), refere-se a extração de informação (chamada de conhecimento), de documentos não estruturados. O processo de mineração de textos está dividido em três etapas: Pré-processamento, Mineração e Pós-processamento. No pré-processamento, os artigos são selecionados e salvos no formato de texto puro“.txt” (sem títulos, imagens, cabeçalhos, rodapés, numeração de páginas), apenas com letras e números. A próxima etapa, mineração, é realizada por um software chamado “Eurekha”. Esse software agrupa documentos, que possuam conteúdo semelhante e separar documentos de assuntos diferentes. Nela, são identificadas as “Stopwords” e é feita a clusterização dos textos. “Stopwords” são palavras que o usuário, que está realizando a mineração de textos, deseja que o software ignore durante a análise do projeto. Alguns exemplos dessas palavras são advérbios, artigos, numerais, pronomes e vogais. A segunda etapa, Clusterização dos textos, também conhecida como Identificação de clusters, refere-se a identificação de co-relacionamentos entre os documentos e o agrupamento dos mesmos por similaridades. A terceira, e última, etapa é o Pós- processamento. Nela, os arquivos “.txt” são agrupados, de acordo com seus conceitos, para melhor identificação das similaridades do conteúdo. Para melhor compreender, veja o gráfico abaixo. Imagem 1: Processo da Mineração de textos. 4
  • 5.
    A PESQUISA -DESENVOLVIMENTO Para desenvolver minha pesquisa, selecionei treze artigos disponibilizados em sites e blogs de alguns autores que escrevem sobre comunicação, em especial o Twitter e o jornalismo. Retirei os títulos, as imagens, os cabeçalhos e rodapés, a numeração de páginas, e salvei-os no formato “.txt”. Abri o programa Eurekha, e criei o nome do meu projeto. Imagem 2: Escolha o nome do projeto. Depois, inseri os meus arquivos “.txt” no software. Imagem 3: Escolha os arquivos. 5
  • 6.
    Imagem 4: Arquivosescolhidos. O próximo passo é definir as “Stopwords”. Imagem 5: Definir Stopwords. Depois, verifiquei a totalidade de palavras e o número de ocorrências. 6
  • 7.
    Imagem 6: Verificarocorrências. O próximo passo foi identificar os relacionamentos entre arquivos e verificar o conteúdo que foi agrupado pelo software. Imagem 7: Relacionamento entre arquivos. 7
  • 8.
    Imagem 8: Conteúdosagrupados. Antes de finalizar o trabalho, visualizei a matriz de similaridades. Imagem 9: Matriz de similaridades. 8
  • 9.
    CONCLUSÃO Como é possível verificar na imagem 10, os arquivos são divididos em quatro grupos. O primeiro, chamado de 1 (em vermelho), concentra três (A, G e I) dos treze artigos, com 27.27% de similaridade entre eles. O segundo, chamado de 2 (em verde), também concentra três (B, C e D) dos treze artigos, com 27.27% de similaridade entre eles. Já, o terceiro, chamado de 3 (em amarelo), que concentra dois (E e H) dos treze artigos, possui 18,18% de similaridade entre eles. O quarto e último grupo formado, que é chamado de 4 (em azul), concentra três dos treze artigos, com 27.27% de similaridade entre eles. É importante destacar que, apenas dois (F e J) dos treze artigos não puderam ser agrupadas em algum grupo. Imagem 10: Grupos de Cluster. Com a realização desse artigo, percebi que a utilização de ferramenta Eurekha e com a clusterização de documentos de textos “.txt”, a realização de muitos trabalhos acadêmicos, podem ser facilitadas ou até mesmo ter seu tempo de realização, significativamente, reduzido. Recomendo a aplicação a todos os alunos, mas principalmente àqueles que estão realizando seu Trabalho de Conclusão de Curso. 9
  • 10.
    BIBILIGRAFIA • Tutorial Eurekha: moodle.unisinos.br/file.php/3455/Tutorial_Eurekha.pdf Sites: • twitter.com/about • inf.ufrgs.br/~wives/wiki/doku.php?id=eurekha • sare.unianhanguera.edu.br/index.php/rcext/article/viewPDFInterstitial/413/409 10