Com o crescimento da Internet, os usuários cada dia mais buscam informações em diversas áreas, dentre as quais, se pode se destacar a procura por conteúdos esportivos, principalmente relacionados ao futebol. Sites esportivos costumam relatar os lances de uma partida, minuto a minuto, de modo textual. No fim da partida um jornalista faz um resumo referente à partida, dando ênfase às informações mais importantes que foram descritas no relato. Neste contexto, o propósito deste trabalho foi desenvolver um sistema que, com auxílio de uma taxonomia, de relatos de lances, de regras de produção e de templates, cria um sumário automático de uma partida de futebol. Os resultados obtidos mostram o potencial de se utilizar essa abordagem para a criação de sumários automáticos relacionados à partidas de futebol.
1. O documento apresenta um breve histórico dos estudos métricos da informação desde o século XIX, como a bibliometria, cientometria e infometria. 2. Aborda conceitos como leis de Lotka, Bradford e Zipf e como os estudos evoluíram para análises de co-citação e mapeamentos da ciência. 3. Destaca tendências atuais como visualização de dados e a aproximação dos estudos métricos com ciências sociais.
Representando a computação autonômica por meio da engenharia ontológica Leonardo Sepulcri
Artigo apresentado no XV SIMPEP
Resumo: A computação autonômica assume que cada vez mais a indústria de Tecnologia da
Informação cria sistemas mais complexos. As operações realizadas em nosso dia a dia, das
mais simples às mais complicadas, se tornam mais e mais dependentes dos sistemas
tecnológicos. A inteligência nos sistemas e ambientes de, desde sua concepção até sua
operacionalização deve-se fazer presente, possibilitando, às organizações, redução de custos,
flexibilidade, disponibilidade, melhoria e maximização de performance. Emerge
naturalmente a necessidade de entendimento do relacionamento existente entre estes dois
importantes domínios de conhecimento, a Computação Autonômica e o Ambiente de
Tecnologia da Informação. O presente estudo tem por objetivo representar tal
relacionamento, baseando-se em uma abordagem oriunda da engenharia ontológica
complementada por recursos tradicionais da metodologia científica. A utilidade da pesquisa
está em contribuir para o desenvolvimento do ambiente de tecnologia da informação e dos
sistemas computacionais, com a utilização dos referenciais integrados identificados na
pesquisa. O resultado principal é uma ontologia denominada ONTO ACTI.
Bibliometria, Cienciometria, Webometria E InformetriaJonathas Carvalho
O documento discute os principais métodos quantitativos em biblioteconomia e ciência da informação, incluindo bibliometria, cienciometria, webometria e informetria. Define cada método e descreve brevemente suas leis e aplicações, como a lei de Lotka sobre a produtividade de autores e a lei de Bradford sobre a produtividade de periódicos.
1. O documento descreve experiências em agrupamento automático de textos em português usando similaridade entre documentos.
2. Dois conjuntos de textos (resumos acadêmicos e artigos jornalísticos) foram submetidos a agrupamento baseado no cálculo da similaridade entre os documentos.
3. O estudo avalia os benefícios de análise, classificação e distribuição automatizada de textos.
Novas possibilidades da pesquisa qualitativa via sistemas caqdasRonan Tocafundo
O documento discute o uso de sistemas de análise de dados qualitativos assistidos por computador (CAQDAS) na pesquisa sociológica. Explica que esses sistemas permitem codificar texto para categorizar e relacionar ideias de forma hierárquica. Também fornecem ferramentas para buscas automáticas que podem agilizar a análise, especialmente em grandes conjuntos de dados.
Sistemas de informação envolvem 3 elementos: entrada de dados, processamento e saída de informação. Dados são fatos isolados e informações surgem quando dados são organizados e interpretados. Metadados são dados que fornecem contexto sobre outros dados.
Um sistema inteligente baseado em ontologia para apoio ao esclarecimento de...Raul Lopes
Este documento apresenta um resumo de três frases ou menos do seguinte documento:
1) O documento descreve a arquitetura de um sistema de perguntas e respostas baseado em ontologias que tem a capacidade de atualizar automaticamente sua base de conhecimento.
2) O sistema é capaz de analisar perguntas, recuperar respostas de bancos de dados e da web, e gerar respostas para o usuário.
3) A arquitetura proposta utiliza agentes de software e um banco de ontologias para fornecer respostas
1. O documento apresenta um breve histórico dos estudos métricos da informação desde o século XIX, como a bibliometria, cientometria e infometria. 2. Aborda conceitos como leis de Lotka, Bradford e Zipf e como os estudos evoluíram para análises de co-citação e mapeamentos da ciência. 3. Destaca tendências atuais como visualização de dados e a aproximação dos estudos métricos com ciências sociais.
Representando a computação autonômica por meio da engenharia ontológica Leonardo Sepulcri
Artigo apresentado no XV SIMPEP
Resumo: A computação autonômica assume que cada vez mais a indústria de Tecnologia da
Informação cria sistemas mais complexos. As operações realizadas em nosso dia a dia, das
mais simples às mais complicadas, se tornam mais e mais dependentes dos sistemas
tecnológicos. A inteligência nos sistemas e ambientes de, desde sua concepção até sua
operacionalização deve-se fazer presente, possibilitando, às organizações, redução de custos,
flexibilidade, disponibilidade, melhoria e maximização de performance. Emerge
naturalmente a necessidade de entendimento do relacionamento existente entre estes dois
importantes domínios de conhecimento, a Computação Autonômica e o Ambiente de
Tecnologia da Informação. O presente estudo tem por objetivo representar tal
relacionamento, baseando-se em uma abordagem oriunda da engenharia ontológica
complementada por recursos tradicionais da metodologia científica. A utilidade da pesquisa
está em contribuir para o desenvolvimento do ambiente de tecnologia da informação e dos
sistemas computacionais, com a utilização dos referenciais integrados identificados na
pesquisa. O resultado principal é uma ontologia denominada ONTO ACTI.
Bibliometria, Cienciometria, Webometria E InformetriaJonathas Carvalho
O documento discute os principais métodos quantitativos em biblioteconomia e ciência da informação, incluindo bibliometria, cienciometria, webometria e informetria. Define cada método e descreve brevemente suas leis e aplicações, como a lei de Lotka sobre a produtividade de autores e a lei de Bradford sobre a produtividade de periódicos.
1. O documento descreve experiências em agrupamento automático de textos em português usando similaridade entre documentos.
2. Dois conjuntos de textos (resumos acadêmicos e artigos jornalísticos) foram submetidos a agrupamento baseado no cálculo da similaridade entre os documentos.
3. O estudo avalia os benefícios de análise, classificação e distribuição automatizada de textos.
Novas possibilidades da pesquisa qualitativa via sistemas caqdasRonan Tocafundo
O documento discute o uso de sistemas de análise de dados qualitativos assistidos por computador (CAQDAS) na pesquisa sociológica. Explica que esses sistemas permitem codificar texto para categorizar e relacionar ideias de forma hierárquica. Também fornecem ferramentas para buscas automáticas que podem agilizar a análise, especialmente em grandes conjuntos de dados.
Sistemas de informação envolvem 3 elementos: entrada de dados, processamento e saída de informação. Dados são fatos isolados e informações surgem quando dados são organizados e interpretados. Metadados são dados que fornecem contexto sobre outros dados.
Um sistema inteligente baseado em ontologia para apoio ao esclarecimento de...Raul Lopes
Este documento apresenta um resumo de três frases ou menos do seguinte documento:
1) O documento descreve a arquitetura de um sistema de perguntas e respostas baseado em ontologias que tem a capacidade de atualizar automaticamente sua base de conhecimento.
2) O sistema é capaz de analisar perguntas, recuperar respostas de bancos de dados e da web, e gerar respostas para o usuário.
3) A arquitetura proposta utiliza agentes de software e um banco de ontologias para fornecer respostas
O documento discute:
1) O que é um sistema de informação e como ele é composto por elementos interrelacionados;
2) As funções de um sistema de recuperação de informação, incluindo indexação, armazenamento e recuperação de dados;
3) Como os computadores influenciaram esses processos de indexação e recuperação ao automatizá-los.
Neste artigo, apresentamos pesquisas que utilizaram Big Data, Machine Learning e Text Mining em problemas macroeconômicos e discutimos as principais técnicas e tecnologias adotadas bem como aplicamos elas na análise de sentimento do Banco Central do Brasil (BCB) sobre a economia. Por meio de técnicas de Web Scraping e Text Mining, acessamos e extraímos as palavras usadas na escrita das atas divulgadas pelo Comitê de Política Monetária (Copom) no site do BCB. Após isso, comparando tais palavras com um dicionário de sentimentos (Inquider) mantido pela Universidade de Harvard, foi possível criar um índice de sentimento para a autoridade monetária. Nossos resultados confirmam que tal abordagem pode contribuir para a avaliação econômica dado que a série temporal do índice proposto está relacionada com variáveis macroeconômicas importantes para as decisões do BCB.
O documento discute as bases epistemológicas do telejornalismo, propondo uma categorização de cinco fases com características históricas e influência no formato da informação. Apresenta também as principais correntes teóricas que permitem analisar o jornalismo televisivo, como os estudos de rotinas produtivas e critérios de noticiabilidade. Por fim, aborda os formatos de notícia e gêneros jornalísticos no telejornalismo.
O documento discute conceitos e fundamentos de sistemas, abordando sistemas de informação em empresas, sistemas contábeis/financeiros em organizações e análise de sistemas, destacando o método estruturado. Também apresenta tópicos sobre desenvolvimento de sistemas e exercícios sobre sistemas.
Análise bibliométrica de produção científica sobre gestão do conhecimento co...Angelina Licório
Este artigo resume um estudo bibliométrico da produção científica sobre gestão do conhecimento disponível na base de dados Scielo entre 1990-2012. Os resultados apontam para uma pequena quantidade de artigos publicados e inconsistências metodológicas. Conclui-se que há necessidade de mais pesquisas na área para ampliar o entendimento sobre o tema.
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila
1) O documento descreve um projeto de mestrado que tem como objetivo desenvolver um sistema de recomendação de artigos científicos que avalia métodos de extração de palavras-chave.
2) Foram avaliados vários métodos de extração de palavras-chave e expressões, incluindo frequência de palavras e uso de tags.
3) O sistema recomenda artigos baseados nos documentos armazenados pelos usuários e permite compartilhamento de conteúdo.
Recurso de ensino-aprendizagem construído na disciplina de LETRAMENTO INFORMACIONAL das professoras Kelley Cristine Gasque e Elmira Simeão. Faculdade de Ciência da Informação da Universidade de Brasília.
Revisão de metadados para confiabilidade de artigos publicados em acesso abertoPortal de Periódicos UFSC
O documento discute a importância da conferência de qualidade dos metadados para melhorar a confiabilidade dos periódicos científicos da UFSC. A conferência garante que as informações sobre os artigos estejam consistentes em diferentes plataformas digitais, melhorando a recuperação de informações e a interoperabilidade. Os editores percebem o serviço como útil para a qualidade das revistas, apesar de exigir tempo e esforço.
Revisão de metadados para confiabilidade de artigos publicados em acesso abertoJuliana Gulka
Resumo expandido apresentado no XXVIII Congresso Brasileiro de Biblioteconomia e Documentação, em Vitória - ES, por Juliana Aparecida Gulka e Lúcia da Silveira.
O documento discute os primeiros automatismos, a evolução da informática e suas aplicações nas unidades de informação. Também aborda os tipos de bases de dados, pesquisa de informação, serviços de indexação e difusão do conhecimento.
Este documento apresenta um resumo de um estudo sobre definições e etapas de construção de taxonomias corporativas com base na literatura. O estudo analisou 30 definições de taxonomia e identificou 11 métodos comuns para construir taxonomias corporativas. Os resultados fornecem uma visão geral dos principais aspectos e etapas envolvidas na construção de taxonomias corporativas.
Aula 1 - Cobertura e indexação das bases de dadosLeticia Strehl
O documento apresenta os componentes e paradigmas da recuperação da informação, incluindo: (1) o conjunto de documentos, métodos de indexação e pontos de acesso, (2) abordagens orientadas a sistemas versus usuários e tarefas versus integrativas, e (3) o uso de citações e folksonomias na representação de conceitos.
Novas abordagens da avaliação do comportamento tático no futebolDenis Alves
1) O documento propõe novas métricas quantitativas para avaliar o desempenho tático no futebol, como o centroid de equipe e o índice de dispersão.
2) Essas métricas visam fornecer uma análise mais interpretativa dos processos de jogo do que os métodos notacionais tradicionais.
3) O futebol é visto como um sistema dinâmico onde as interações entre jogadores geram comportamentos coletivos complexos que potencializam o desempenho individual e coletivo.
Após a leitura do artigo de Regina Branski, Recuperação de Informações na Web, foi realizada a atividade de um resumo crítico. Este resumo é de autoria minha, baseado em informações secundárias, através de outras leituras realizadas por mim que se encontram disponíveis nas referências.
Produzido para disciplina de pesquisa bibliográfica.
O documento apresenta breves biografias de 6 mulheres que atuam na área de tecnologia da informação: Márcia Carioni, Camila Achutti, Adriana da Costa, Andressa Martins, Cissa Gatto e Bárbara Castro. As biografias destacam suas formações acadêmicas, experiências profissionais e projetos relacionados à inclusão digital e empoderamento de mulheres na tecnologia.
Este documento apresenta uma introdução à aplicação da inteligência artificial e aprendizado de máquina na medicina. Ele discute tópicos como diagnóstico médico, assistência cirúrgica e gestão de saúde, além de aplicações como descoberta de medicamentos, ferramentas da Amazon para armazenamento e análise de dados médicos, e questões éticas relacionadas ao uso de IA na saúde. O documento também apresenta as credenciais e pesquisas da autora na área.
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Elaine Cecília Gatto
1. O documento descreve a metodologia proposta para classificação multirrótulo chamada Partições Híbridas para Classificação Multirrótulo (HPML), que utiliza particionamentos compostos por grupos de rótulos correlacionados.
2. A metodologia HPML é composta por várias variantes (HPML.A, HPML.B, etc) que diferem na forma de modelar as correlações entre rótulos e particioná-los.
3. Uma série de experimentos é realizada utilizando diversos conjuntos de dados reais
O documento descreve um método em 4 passos para explorar correlações entre rótulos e particionar o espaço de rótulos na classificação multirrótulo: 1) modelar correlações entre os rótulos, 2) agrupar correlações e gerar partições híbridas, 3) validar partições híbridas e escolher a melhor, 4) teste.
O documento apresenta a autora Elaine Cecília Gatto, sua formação acadêmica em engenharia de computação e ciência da computação, experiência profissional como professora e pesquisadora. A autora discute como pesquisas científicas em aprendizado de máquina, como random forest e KNN, impactam bibliotecas e pacotes de código aberto amplamente utilizados.
O documento discute a falta de representação feminina na ciência, tecnologia, engenharia e matemática e as soluções para empoderar as mulheres nestas áreas. Apresenta estatísticas sobre as dificuldades enfrentadas por mulheres em construir carreiras nestas áreas e a diferença salarial. Discute iniciativas para direcionar meninas para estas áreas desde a infância e criar um ambiente mais acolhedor e igualitário.
Mais conteúdo relacionado
Semelhante a Implementação de um Sumarizador Automático de Partidas de Futebol Baseado em Taxonomia
O documento discute:
1) O que é um sistema de informação e como ele é composto por elementos interrelacionados;
2) As funções de um sistema de recuperação de informação, incluindo indexação, armazenamento e recuperação de dados;
3) Como os computadores influenciaram esses processos de indexação e recuperação ao automatizá-los.
Neste artigo, apresentamos pesquisas que utilizaram Big Data, Machine Learning e Text Mining em problemas macroeconômicos e discutimos as principais técnicas e tecnologias adotadas bem como aplicamos elas na análise de sentimento do Banco Central do Brasil (BCB) sobre a economia. Por meio de técnicas de Web Scraping e Text Mining, acessamos e extraímos as palavras usadas na escrita das atas divulgadas pelo Comitê de Política Monetária (Copom) no site do BCB. Após isso, comparando tais palavras com um dicionário de sentimentos (Inquider) mantido pela Universidade de Harvard, foi possível criar um índice de sentimento para a autoridade monetária. Nossos resultados confirmam que tal abordagem pode contribuir para a avaliação econômica dado que a série temporal do índice proposto está relacionada com variáveis macroeconômicas importantes para as decisões do BCB.
O documento discute as bases epistemológicas do telejornalismo, propondo uma categorização de cinco fases com características históricas e influência no formato da informação. Apresenta também as principais correntes teóricas que permitem analisar o jornalismo televisivo, como os estudos de rotinas produtivas e critérios de noticiabilidade. Por fim, aborda os formatos de notícia e gêneros jornalísticos no telejornalismo.
O documento discute conceitos e fundamentos de sistemas, abordando sistemas de informação em empresas, sistemas contábeis/financeiros em organizações e análise de sistemas, destacando o método estruturado. Também apresenta tópicos sobre desenvolvimento de sistemas e exercícios sobre sistemas.
Análise bibliométrica de produção científica sobre gestão do conhecimento co...Angelina Licório
Este artigo resume um estudo bibliométrico da produção científica sobre gestão do conhecimento disponível na base de dados Scielo entre 1990-2012. Os resultados apontam para uma pequena quantidade de artigos publicados e inconsistências metodológicas. Conclui-se que há necessidade de mais pesquisas na área para ampliar o entendimento sobre o tema.
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila
1) O documento descreve um projeto de mestrado que tem como objetivo desenvolver um sistema de recomendação de artigos científicos que avalia métodos de extração de palavras-chave.
2) Foram avaliados vários métodos de extração de palavras-chave e expressões, incluindo frequência de palavras e uso de tags.
3) O sistema recomenda artigos baseados nos documentos armazenados pelos usuários e permite compartilhamento de conteúdo.
Recurso de ensino-aprendizagem construído na disciplina de LETRAMENTO INFORMACIONAL das professoras Kelley Cristine Gasque e Elmira Simeão. Faculdade de Ciência da Informação da Universidade de Brasília.
Revisão de metadados para confiabilidade de artigos publicados em acesso abertoPortal de Periódicos UFSC
O documento discute a importância da conferência de qualidade dos metadados para melhorar a confiabilidade dos periódicos científicos da UFSC. A conferência garante que as informações sobre os artigos estejam consistentes em diferentes plataformas digitais, melhorando a recuperação de informações e a interoperabilidade. Os editores percebem o serviço como útil para a qualidade das revistas, apesar de exigir tempo e esforço.
Revisão de metadados para confiabilidade de artigos publicados em acesso abertoJuliana Gulka
Resumo expandido apresentado no XXVIII Congresso Brasileiro de Biblioteconomia e Documentação, em Vitória - ES, por Juliana Aparecida Gulka e Lúcia da Silveira.
O documento discute os primeiros automatismos, a evolução da informática e suas aplicações nas unidades de informação. Também aborda os tipos de bases de dados, pesquisa de informação, serviços de indexação e difusão do conhecimento.
Este documento apresenta um resumo de um estudo sobre definições e etapas de construção de taxonomias corporativas com base na literatura. O estudo analisou 30 definições de taxonomia e identificou 11 métodos comuns para construir taxonomias corporativas. Os resultados fornecem uma visão geral dos principais aspectos e etapas envolvidas na construção de taxonomias corporativas.
Aula 1 - Cobertura e indexação das bases de dadosLeticia Strehl
O documento apresenta os componentes e paradigmas da recuperação da informação, incluindo: (1) o conjunto de documentos, métodos de indexação e pontos de acesso, (2) abordagens orientadas a sistemas versus usuários e tarefas versus integrativas, e (3) o uso de citações e folksonomias na representação de conceitos.
Novas abordagens da avaliação do comportamento tático no futebolDenis Alves
1) O documento propõe novas métricas quantitativas para avaliar o desempenho tático no futebol, como o centroid de equipe e o índice de dispersão.
2) Essas métricas visam fornecer uma análise mais interpretativa dos processos de jogo do que os métodos notacionais tradicionais.
3) O futebol é visto como um sistema dinâmico onde as interações entre jogadores geram comportamentos coletivos complexos que potencializam o desempenho individual e coletivo.
Após a leitura do artigo de Regina Branski, Recuperação de Informações na Web, foi realizada a atividade de um resumo crítico. Este resumo é de autoria minha, baseado em informações secundárias, através de outras leituras realizadas por mim que se encontram disponíveis nas referências.
Produzido para disciplina de pesquisa bibliográfica.
Semelhante a Implementação de um Sumarizador Automático de Partidas de Futebol Baseado em Taxonomia (15)
O documento apresenta breves biografias de 6 mulheres que atuam na área de tecnologia da informação: Márcia Carioni, Camila Achutti, Adriana da Costa, Andressa Martins, Cissa Gatto e Bárbara Castro. As biografias destacam suas formações acadêmicas, experiências profissionais e projetos relacionados à inclusão digital e empoderamento de mulheres na tecnologia.
Este documento apresenta uma introdução à aplicação da inteligência artificial e aprendizado de máquina na medicina. Ele discute tópicos como diagnóstico médico, assistência cirúrgica e gestão de saúde, além de aplicações como descoberta de medicamentos, ferramentas da Amazon para armazenamento e análise de dados médicos, e questões éticas relacionadas ao uso de IA na saúde. O documento também apresenta as credenciais e pesquisas da autora na área.
Além do Aprendizado Local e Global: Particionando o espaço de classes em prob...Elaine Cecília Gatto
1. O documento descreve a metodologia proposta para classificação multirrótulo chamada Partições Híbridas para Classificação Multirrótulo (HPML), que utiliza particionamentos compostos por grupos de rótulos correlacionados.
2. A metodologia HPML é composta por várias variantes (HPML.A, HPML.B, etc) que diferem na forma de modelar as correlações entre rótulos e particioná-los.
3. Uma série de experimentos é realizada utilizando diversos conjuntos de dados reais
O documento descreve um método em 4 passos para explorar correlações entre rótulos e particionar o espaço de rótulos na classificação multirrótulo: 1) modelar correlações entre os rótulos, 2) agrupar correlações e gerar partições híbridas, 3) validar partições híbridas e escolher a melhor, 4) teste.
O documento apresenta a autora Elaine Cecília Gatto, sua formação acadêmica em engenharia de computação e ciência da computação, experiência profissional como professora e pesquisadora. A autora discute como pesquisas científicas em aprendizado de máquina, como random forest e KNN, impactam bibliotecas e pacotes de código aberto amplamente utilizados.
O documento discute a falta de representação feminina na ciência, tecnologia, engenharia e matemática e as soluções para empoderar as mulheres nestas áreas. Apresenta estatísticas sobre as dificuldades enfrentadas por mulheres em construir carreiras nestas áreas e a diferença salarial. Discute iniciativas para direcionar meninas para estas áreas desde a infância e criar um ambiente mais acolhedor e igualitário.
Explorando correlações entre rótulos para o particionamento do espaço de rótu...Elaine Cecília Gatto
Este documento apresenta uma proposta para explorar correlações entre rótulos em problemas de classificação multirrótulo com o objetivo de gerar partições híbridas do espaço de rótulos que otimizem o desempenho dos classificadores. A proposta envolve modelar correlações entre rótulos usando métodos como Apriori ou medidas de similaridade e, em seguida, particionar os rótulos com base nas correlações usando agrupamento hierárquico para gerar partições híbridas entre as tradicionais partições globais e locais
Community Detection for Multi-Label Classification - Seminários UFSCarElaine Cecília Gatto
1) O documento apresenta um método híbrido para classificação multirrótulo que combina abordagens globais e locais;
2) O método gera múltiplas partições híbridas dos dados usando técnicas de detecção de comunidades em grafos;
3) Os resultados experimentais mostraram que as partições híbridas tiveram desempenho competitivo ou superior em comparação com abordagens globais e locais convencionais.
O documento apresenta uma palestra sobre classificação multirrótulo, discutindo os tipos de classificação, desafios da classificação multirrótulo e abordagens tradicionais como global e local. A palestra também introduz o método de Partições Híbridas para Classificação Multirrótulo (HPML), que busca encontrar múltiplas partições nos dados que melhorem o desempenho do classificador em relação às abordagens tradicionais.
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
1. O documento descreve uma estratégia para particionar o espaço de rótulos em problemas de classificação multirrótulo explorando correlações entre os rótulos.
2. A estratégia gera várias partições denominadas "híbridas" que consideram grupos de rótulos correlacionados, entre as tradicionais partições globais e locais.
3. Uma dessas partições híbridas é escolhida e testada, sendo comparada com as partições globais e locais, esperando-se que melhore
The document presents a proposal for using community detection methods to generate hybrid partitions for multi-label classification. It introduces the limitations of global and local multi-label approaches and proposes a hybrid approach called HPML. HPML uses community detection on label co-occurrence graphs to identify correlated groups of labels and generate partitions for classification. Experiments applying HPML to 20 datasets show its partitions perform competitively with local and better than global partitions on average, demonstrating the value of exploring label correlations through community detection for multi-label classification. However, room for improvement remains as classifiers still struggle with some datasets, suggesting further research is needed on multi-label methods and evaluation.
Mulheres na Campus Party assumir o feminismo ou não – Blogueiras Feministas.pdfElaine Cecília Gatto
1) A autora descreve sua experiência participando da Campus Party Brasil e as preocupações iniciais com o machismo e comentários inadequados que poderia enfrentar como uma das poucas mulheres no evento.
2) No entanto, o evento foi melhor do que o esperado, com boa representação feminina entre os palestrantes. Ela também conheceu a comunidade Lulus, um grupo de apoio para mulheres.
3) A autora ficou impressionada com o grupo Garotas Geeks, que desafia estereótipos sobre mulheres e tecnologia de forma divertida
O documento discute a discriminação de gênero no mercado de TI e ambientes online, com mulheres reclamando da falta de respeito. Também aborda a retirada de licenças Creative Commons do site da Ministério da Cultura e as altas temperaturas na Campus Party.
Explorando Correlações entre Rótulos usando Métodos de Detecção de Comu...Elaine Cecília Gatto
O documento apresenta uma abordagem para classificação multirrótulo que explora correlações entre rótulos usando métodos de detecção de comunidade. A abordagem propõe gerar partições híbridas globais e locais dos rótulos usando esses métodos e avalia seu desempenho em comparação com partições convencionais. Os resultados indicam que as partições híbridas obtiveram desempenho melhor ou competitivo em diversos conjuntos de dados.
EXPLORANDO CORRELAÇÕES PARA O PARTICIONAMENTO DO ESPAÇO DE RÓTULOS EM PROBLEM...Elaine Cecília Gatto
1. O documento descreve uma estratégia para particionar o espaço de rótulos em problemas de classificação multirrótulo explorando correlações entre os rótulos. A estratégia gera partições híbridas entre as tradicionais partições globais e locais.
2. A estratégia inicia modelando as correlações entre os rótulos e então realiza o particionamento do espaço de rótulos para encontrar várias partições híbridas. Uma dessas partições é escolhida para teste e é comparada com as
O documento descreve o desdobramento e escalonamento de um loop MIPS de 4 instruções para melhorar o seu desempenho no pipeline. Inicialmente, o loop é desdobrado em 4 cópias, renomeando os registradores em cada cópia. Em seguida, as instruções são reordenadas para remover dependências e evitar bolhas no pipeline. O código desdobrado e escalonado consegue executar em menos ciclos de clock do que o código original não otimizado.
Este documento fornece um resumo de instruções e arquitetura MIPS de 32 bits. Ele inclui:
1) Os tipos de instruções MIPS e seus campos;
2) Os registradores e seus usos;
3) Os principais modos de endereçamento e instruções;
4) Exemplos passo-a-passo de conversão entre linguagem de alto nível e assembly.
O documento resume as principais instruções de desvio incondicional e condicional do MIPS. Inclui instruções de chamada de procedimento, comparação de registradores e desvios baseados em condições do registrador de ponto flutuante.
Como descobrir e classificar coisas usando machine learning sem compilcaçãoElaine Cecília Gatto
O documento discute diferentes tipos de classificação de dados usando aprendizado de máquina, incluindo classificação binária, multiclasse, multirrótulo e hierárquica multirrótulo. Ele fornece definições de classificação de dados e exemplos de como esses métodos podem ser aplicados para analisar sentimentos, detectar spam e diagnosticar doenças.
Sistema de Bibliotecas UCS - Chronica do emperador Clarimundo, donde os reis ...Biblioteca UCS
A biblioteca abriga, em seu acervo de coleções especiais o terceiro volume da obra editada em Lisboa, em 1843. Sua exibe
detalhes dourados e vermelhos. A obra narra um romance de cavalaria, relatando a
vida e façanhas do cavaleiro Clarimundo,
que se torna Rei da Hungria e Imperador
de Constantinopla.
Atividade letra da música - Espalhe Amor, Anavitória.Mary Alvarenga
A música 'Espalhe Amor', interpretada pela cantora Anavitória é uma celebração do amor e de sua capacidade de transformar e conectar as pessoas. A letra sugere uma reflexão sobre como o amor, quando verdadeiramente compartilhado, pode ultrapassar barreiras alcançando outros corações e provocando mudanças positivas.
Implementação de um Sumarizador Automático de Partidas de Futebol Baseado em Taxonomia
1. Implementação de um Sumarizador Automático de
Partidas de Futebol Baseado em Taxonomia
Érivan F. Silva¹, Patrick Pedreira Silva², Elvio Gilberto da Silva3, Elaine Cecília
Gatto4
Curso de Ciência da Computação – Universidade do Sagrado Coração (USC)
Caixa Postal 17032-254 – Bauru – SP – Brasil
Centro de Ciências Exatas e Sociais Aplicadas
erivanfrank@hotmail.com, patrick.silva@usc.br, egsilva@usc.br,
elaine.gatto@usc.br
Abstract. The Internet continues to grow, driven by ever greater amounts of
online information, in this way the search for sportive content, mainly about
soccer, has increased. Due to rights restrictions, coverage of some events (in
particular live sport) is not available, thus some sites cover, textually, a soccer
match using a person to describe the events as they happen. At the end of the
match a journalist makes a summary about the match, emphasizing the most
important information that have been described. In this context, the aim of this
research is to develop a system that using an taxonomy, matches reports,
production rules and templates, and ultimately creates an automatic summary
of a soccer match.
Resumo. Com o crescimento da Internet, os usuários cada dia mais buscam
informações em diversas áreas, dentre as quais, se pode se destacar a procura
por conteúdos esportivos, principalmente relacionados ao futebol. Sites
esportivos costumam relatar os lances de uma partida, minuto a minuto, de
modo textual. No fim da partida um jornalista faz um resumo referente à
partida, dando ênfase às informações mais importantes que foram descritas
no relato. Neste contexto, o propósito deste trabalho foi desenvolver um
sistema que, com auxílio de uma taxonomia, de relatos de lances, de regras de
produção e de templates, cria um sumário automático de uma partida de
futebol. Os resultados obtidos mostram o potencial de se utilizar essa
abordagem para a criação de sumários automáticos relacionados à partidas
de futebol.
1. Introdução
No âmbito do Processamento Automático das Línguas Naturais (PLN), área de pesquisa
multidisciplinar em que se busca simular computacionalmente competências linguísticas
como, por exemplo, sumarização, os sistemas de PLN geralmente possuem
componentes (bases conceituais) em que está armazenado o “conhecimento”. As bases
conceituais, em especial, contêm um “modelo do mundo” ou uma abstração da
realidade, em que são descritos tipos de objetos, eventos, propriedades e
relacionamentos entre esses tipos (ALLEN, 1995; REITER, DALE, 2000).
2. Esse tipo de base desempenha um papel fundamental nos sistemas de PLN
porque limita a “visão de mundo” simulada pelo sistema (DIAS-DA-SILVA, 1996). Em
outras palavras, uma base conceitual comumente armazena o que se denomina
“taxonomia”. Uma taxonomia é uma especificação explícita e formal de uma
conceitualização compartilhada (STUDER et al, 1998), que lida com a natureza e a
organização do ser, representando conhecimento simplesmente por meio de uma coleção
de categorias e subcategorias (MAEDCHE, 2002).
Esse termo foi recentemente adotado também pelas comunidades de Inteligência
Artificial e Gestão de Conhecimento para se referir a conceitos e termos que podem ser
usados para descrever alguma área do conhecimento ou construir uma representação
desse (RICH e KNIGHT, 1993; RUSSEL e NORVIG, 1995). No PLN as taxonomias
têm sido amplamente empregadas em várias aplicações com o objetivo de melhorar o
desempenho dos sistemas computacionais nessas tarefas (GUARINO, 2009).
As taxonomias constituem-se, portanto, em uma ferramenta simples e útil que,
dentre suas várias aplicações, podemos citar a criação automática de sumários. A
sumarização, em geral, é uma atividade bastante comum. Quando se narra um evento a
uma pessoa, costuma-se fazer um resumo do que aconteceu e não uma narração
completa e detalhada. Exemplos de sumários escritos incluem notícias de jornais,
artigos de revistas, resumo de textos científicos, entre muitos outros. Por sua utilidade e
frequência, há um grande interesse em automatizar esse processo de geração de
sumários (HOVY e LIN, 1997; RAU e BRANDOW, 1993).
O crescimento cada vez maior do número de usuários que recorrem à Internet
como fonte de informação tem acarretado um aumento substancial da quantidade de
conteúdo relacionado a esportes, dentre os quais se destaca o futebol. Além disso,
provedores de conteúdo têm expandido a disponibilidade de eventos esportivos a serem
transmitidos para todo o mundo em resposta ao significativo aumento de interesse de
audiência. Devido às restrições relacionadas à transmissão ao vivo de imagens, por
conta de direitos de transmissão, sites esportivos usam o recurso de narração textual dos
jogos com relato lance a lance das jogadas e estatísticas.
As partidas de futebol, por exemplo, podem ser acompanhadas pelos usuários
usando este recurso. Assim, essa tendência aponta para a necessidade de
desenvolvimento de ferramentas efetivas e eficientes para coletar, processar e distribuir
essas informações e, deste modo, reduzir esforços de empresas e usuários ao buscar o
que lhes interessa.
Neste projeto foi desenvolvida e utilizada uma taxonomia relacionada ao futebol
na tarefa de gerar sumários que relatem informações referentes à partidas de futebol
narradas textualmente (com base em eventos pré-cadastrados em um banco de dados),
de modo similar ao que é feito em sites esportivos. A hipótese é que a informação
recuperada da taxonomia (estatísticas sobre os jogos) permitirá que o sistema determine
conteúdos relevantes para a geração de um sumário condizente com os fatos relatados
em uma partida de futebol, trazendo uma “análise” do jogo que, em última instância,
poderá substituir os sumários gerados manualmente. O sistema faz a identificação de
fatos relevantes através da contagem de categorias presentes na taxonomia proposta.
3. 2. Referencial Teórico
Uma taxonomia possui um conjunto de termos organizados como uma hierarquia de
categorias e subcategorias, provendo uma estrutura básica na qual se pode construir uma
base de conhecimento (Figura 1) (MAEDCHE, 2002; GÓMEZ-PEREZ, 1999;
NOVELLO, 2002).
Figura 1. Representação taxonômica dos meios de transportes
Segundo Perna et al (2009) o PLN é a área da Ciência da Computação que
estuda o desenvolvimento de programas de computador que analisam, reconhecem ou
geram textos em linguagens humanas. O principal uso do PLN está nas interfaces, com
o intuito de melhorar a comunicação entre aplicativos e usuários (LIDDY, 2003). Esta
técnica de interface permite ao usuário operar aplicativos em linguagens naturais.
Com o grande aumento de informação via Web, torna-se necessário o
desenvolvimento de aplicativos capazes de tratar adequadamente estas informações. A
sumarização automática é uma técnica que lida com esse objetivo e que vem sendo
explorada desde a década de 50, quando começaram a surgir os primeiros métodos para
a produção de extratos (LUHN, 1958).
Todo o processo de sumarização se dá a partir um conjunto de informações que
tratam de um mesmo assunto e, com isto, torna-se possível a produção de um sumário,
ou seja, um resumo do assunto (HUTCHINS, 1987; MAYBURY, 1993).
Preferencialmente a produção de um sumário leva em consideração a coesão e a
coerência na sua geração. Para isso, se faz necessário uma base de conhecimento que
contem a descrição do conteúdo necessário para a sua geração.
Sistemas de produção (ou sistemas de regras de produção) estão fundamentados
na Inteligência Artificial. Estes sistemas analisam um conjunto de regras e
comportamentos, sendo caracterizados como um processo de busca que usa estratégias
de seleção para determinar qual a regra mais apropriada a ser disparada em situação. A
associação de tais sistemas à uma taxonomia podem servir de base para a criação de um
sistema de PLN, como o proposto nesta investigação que, na fase atual, permite apenas
gerar sumários considerando a taxonomia e sua representação em um banco de dados.
3. Trabalhos correlatos
A construção de sumários automáticos baseada em taxonomias é bastante explorada em
diversos trabalhos, por exemplo, Lin (1995) adota essa estratégia para criar sumários de
textos. Ele estende a contagem de palavras, como maneira de identificar os tópicos de
um texto, para a contagem de conceitos, propondo um método para identificar
4. automaticamente suas ideias centrais. Essa contagem é feita utilizando uma taxonomia
para realizar generalizações, como, por exemplo, inferir que um texto que traga as
palavras laptop e handheld pode tratar do tópico computadores portáteis. Para isso, é
definido um peso para cada conceito e esse peso representa a frequência de ocorrência
dos itens lexicais. No final, as sentenças que possuem os conceitos com maiores pesos
são selecionadas para composição do sumário.
Usando uma metodologia similar de sumarização, Wu e Liu (2003) utilizaram
artigos jornalísticos como corpus para elaborar e construir a taxonomia utilizada na
sumarização dos documentos, que é codificada como uma estrutura em árvore onde cada
nó representa um conceito. Um processo de mapeamento verifica a correspondência
entre as palavras do texto e os conceitos taxonômicos, atribuindo-lhes pesos. O peso de
cada conceito em relação ao texto a ser sumarizado é calculado somando-se a frequência
das palavras que aparecem no documento e que correspondam ao conceito. A seleção de
parágrafos é feita pontuando-os de acordo com a presença de palavras que
correspondem aos conceitos principais identificados: para cada palavra relacionada a um
conceito identificado anteriormente, o parágrafo recebe uma quantidade de pontos
relativa ao peso do conceito considerado.
Tiun et al. (2001) exploraram a taxonomia do Yahoo para a criação de sumários
formados apenas por palavras-chave que representem os tópicos principais de um
documento. Um conjunto de palavras-chave é extraído de sentenças significativas do
documento e, posteriormente, é mapeado no conjunto de seus conceitos taxonômicos.
Essa correspondência é feita comparando-se cada uma delas a um conjunto de itens
lexicais que estão associados a cada conceito da taxonomia. O mapeamento entre
palavras-chave e conceitos visa definir o peso de cada conceito no documento. Esse
peso é calculado pela soma da freqüência das palavras-chave, no texto, coincidentes
com os itens lexicais que descrevem o conceito presentes na taxonomia. Os tópicos com
maiores pesos são exibidos como sumário do documento analisado.
De modo geral, os trabalhos apresentados demonstram o potencial de utilização
de taxonomias para a criação de sumários. A motivação comum a todos eles é a de que a
análise de palavras isoladas em um texto, sem nenhuma consideração sobre o
relacionamento semântico entre elas pode ser um fator limitante no processamento de
documentos. Desta forma, todos eles adotam como elemento fundamental uma
taxonomia. Todos esses aspectos foram observados e considerados para a elaboração da
nossa proposta. A seguir, apresentamos uma síntese das características principais dos
trabalhos descritos, já que eles apresentam estratégias e recursos que foram adaptados
e/ou incorporados às nossas estratégias de sumarização, contribuindo para nossa
investigação.
4. Metodologia
Após terem sido recolhidos todos os conhecimentos e informações relacionadas para a
execução do trabalho, iniciou-se a fase de desenvolvimento da “Taxonomia do Futebol”.
Este desenvolvimento consistiu principalmente na construção de relações entre dados
(categorias e subcategorias), permitindo que os vários conceitos associados ao futebol
pudessem ser representados por meio de uma taxonomia.
5. Posteriormente, foi implementado um protótipo do sistema que faz uso desta
taxonomia para gerar um resumo automático de partidas de futebol. Para o
desenvolvimento do protótipo foram utilizadas as linguagens de programação
JavaScript, HTML, CSS, PHP e o banco de dados MySql.
Segundo Hutchis (1987), a análise do conteúdo de documentos é uma das
atividades mais importantes de um sistema de informação e entender o modo como
profissionais (indexadores ou sumarizadores humanos) produzem seus textos pode levar
a avanços consideráveis para a automação do processo. Dessa forma, podemos abstrair
que sumarização é retirar dos textos mais complexos informações mais relevantes. A
Figura 2 apresenta um trecho de um exemplo de “relato lance a lance” retirado do site
UOL1
. Este trecho descreve as ações de uma partida em tempo real. Observa-se que ao
final da narração é escrito, por um jornalista, um resumo (sumarização humana,
portanto, manual) onde se descreve em poucas palavras as informações mais relevantes
da partida. A proposta desta investigação foi justamente automatizar essa etapa, já que
as transmissões de eventos esportivos, essencialmente associados ao futebol, são cada
vez mais usuais. Tais transmissões exigem maiores investimentos no seu tratamento
interno, para arquivo e geração de estatísticas no menor tempo possível, demandando
obviamente, cada vez mais recursos humanos.
Figura 2. Relato de Lance-Lance de uma partida de futebol
1
Relato Lance-Lance http://esporte.uol.com.br/futebol/campeonatos/liga-dos-campeoes/pos-
jogo/2012/04/24/chelsea-elimina-o-barca-com-golaco-de-ramires-e-penalti-perdido-de-messi.htm
6. A automatização do processo relatado consistiu, portanto, em propor e
implementar uma ferramenta em ambiente web (offline), que através de relatos lance a
lance fornecidos como entradas (considerando apenas eventos textuis pré-cadastrados),
é capaz de gerar um sumário automático, a partir de uma taxonomia, templates e regras
de produção, abstraindo as ações das equipes e dos jogadores, durante a partida.
5. Funcionamento da ferramenta proposta
Os dados de entrada da ferramenta foram representados por eventos pré-cadastrados no
sistema. Esses eventos correspondem às ações realizadas por jogadores, técnicos e
juízes durante uma partida de futebol. Posteriormente é feita a distribuição tática das
equipes dentro de campo, com os nomes dos respectivos jogadores pertencentes às
equipes, conforme mostra a Figura 3.
Figura 3. Distribuição dos times na interface do sistema
A escolha das equipes é fundamental para que, posteriormente, o sistema possa
representar tais informações na taxonomia e selecionar, com base em regras e nas
categorias registradas na taxonomia as situações ocorridas durante a partida (pode-se,
por exemplo, saber se um time jogou defensivamente ou ofensivamente, verificando o
número de jogadas ofensivas/defensivas de cada equipe).
Para que ao final da partida um sumário possa ser gerado houve a necessidade de
limitar o que está sendo informado como entrada ao sistema, pois foge do escopo deste
trabalho uma análise em nível mais profundo, envolvendo os aspectos sintáticos,
semânticos e pragmáticos da língua. Sendo assim, foi criado um banco de dados que é
preenchido com informações referentes a um relato lance-lance (eventos) relacionado a
uma partida de futebol. A “narração” textual da partida se dará a partir de eventos que
estão registrados no banco de dados, eventos estes que, posteriormente, serão utilizados
7. na composição do sumário. Estes eventos estão estruturados de forma a conter sempre
as seguintes informações contidas na Figura 4.
Figura 4. Campos para registrar lances das partidas
Campo 01 – Tempo de jogo – Quando ocorreu a ação (seguindo o padrão europeu de
partidas de futebol que vai 0 a 90 minutos).
Campo 02 – Ações – Estão disponíveis 60 registros (eventos) relacionados a partidas de
futebol, contemplando as ações de gol, falta, cartão, drible, passe, defesa e chute.
Campo 3 – Região - Indica em que região do campo ocorreu certa ação.
Campo 4 – Ataque/Defesa - Distingue se a ação ocorreu no ataque ou na defesa, com
isto é possível identificar a área de maior atuação da equipe.
Campo 5 – Time – Identificação de um dos dois times.
Campo 6 – Jogadores – Identificação do jogador que gerou a ação.
Todos os registros feitos durante uma partida de futebol servem para indicar a
ocorrência de uma categoria/subcategoria da taxonomia para que, posteriormente o
resumo seja gerado, tendo como base um conjunto de regras de produção. Tais
informações poderão dar um diagnóstico da partida e, consequentemente, refletir no
texto do sumário gerado. Tal procedimento é repetido a cada partida. Com os dados
devidamente registrados consegue-se fazer um levantamento das ações de cada time
como, por exemplo, saber qual o número de gols marcados durante a partida. Também é
possível obter informações mais detalhadas como, por exemplo, saber se o gol marcado
por uma equipe foi de pênalti ou de falta.
Com base no levantamento das ações que podem ocorrer durante uma partida de
futebol foi criada a taxonomia representada na Figura 5.
8. Figura 5. Taxonomia gerada das ações inerentes ao futebol
Desde modo, a partir das informações extraídas do banco de dados, considerando
um dos templates atualmente disponíveis, um sumário é gerado. Os templates são
pequenos textos pré-formatados registrados no banco de dados. Através das estatísticas
que o sistema obtém durante o registro de lances que descrevem a partida é possível, por
meio de um processo automático guiado pelas regras de produção, escolher o melhor
template que se encaixa nas ações registradas. Como exemplo, uma das regras verifica
se um time obteve maior número de gols do que o outro, com isto é possível eliminar
todos os templates referentes a placares de empate, escolhendo outro que descreva a
vitória de uma das equipes. A seguir (Figura 6) é apresentado um exemplo de template.
[TIME A] vence [TIME B] em um jogo com amplo domínio
O [TIME- A] começou a partida indo para cima do [TIME-B] e conseguiu abrir o placar logo no
primeiro tempo com um gol de [JOGADOR-GOL]. O [TIME-B] criou oportunidades, mas não conseguiu
o empate. O ritmo do segundo tempo foi o mesmo, mas em tarde inspirada [JOGADOR-GOL] aproveitou
a oportunidade e aumentou a contagem, com a vantagem ampla no placar o [TIME-A] só segurou o
resultado e esperou o apito do arbitro para vencer a partida.
Figura 6. Template associado à regra de amplo domínio de uma equipe
A seguir é mostrado um exemplo de uma regra de produção associada ao
template anterior (Figura 6). Para que essa regra seja “disparada” é verificado se houve
um vencedor na partida (informação obtida tendo por base o número de gols de cada
equipe) e se a vitória ocorreu com amplo domínio de uma das equipes (obtida com base
no número de passes, faltas, chutes e dribles).
SE VENCEDOR="SIM" E ESTILO_VITÓRIA="AMPLO_DOMÍNIO" ENTÃO
ESCOLHA="TEMPLATE_AMPLO_DOMÍNIO"
9. Além dos textos-base formulados com a ajuda dos templates, informações
complementares como, por exemplo, jogador que se destacou na partida ou jogador
mais faltoso, podem ser adicionadas ao sumário final, enriquecendo-o. Entretanto, cabe
destacar que no estágio atual da pesquisa essas informações adicionais ainda não são
consideradas pelo sistema.
Deste modo, a combinação de regras com os dados presentes na taxonomia
juntamente com templates pré-definidos, permite ao sistema gerar os sumários com
informações sobre as partidas de futebol. A Figura 7 mostra resumidamente o
funcionamento do sistema.
Figura 7. Resumo do funcionamento do sistema
Observa-se que o sumário é gerado considerando alguns passos principais: 1) o
usuário do sistema deve fornecer o relato lance-a-lance de uma partida de futebol, 2)
estas informações são armazenadas automaticamente na taxonomia representada no
banco de dados, 3) ao final da partida, os dados são recuperados, um dos templates é
escolhido e preenchido pelo sistema, gerando o sumário (relato) da partida.
6. Resultados
Com alguns templates devidamente cadastrados no sistema foi possível obter os
sumários de acordo com a metodologia proposta e, adicionalmente, enriquecê-los
conforme relatado a seguir.
A Figura 8 mostra um resumo gerado pelo sistema, considerando as informações
cadastradas no decorrer da partida e registradas no banco de dados, considerando a
estrutura da taxonomia proposta. A ideia é de que o template seja preenchido após
contagem de frequência de termos usados no registro da partida. Para tornar os sumários
mais informativos, optou-se por inserir em alguns templates informações como, por
exemplo, o jogador que fez o gol e o tempo que isto aconteceu.
Com o intuito de enriquecer ainda mais as informações oferecidas pelo
resumo, também é exibido como resposta do sistema as estatísticas da partida,
considerando a contagem das categorias taxonômicas registradas no banco de dados.
Assim, a Figura 9 mostra as informações detalhadas de duas equipes durante uma
partida como, por exemplo, a quantidade de gols de cada time, faltas cometidas, etc.
10. Figura 8. Resumo gerado de empate por 0x0
Figura 9. Estatística referente ao resumo gerado
Adicionalmente, existem templates que contemplam situações de empate,
vitórias por placar mínimo (1X0) (Figura 10), vitórias com amplo domínio de uma das
equipes (Figura 11), vitórias com apenas um gol de diferença (Figura 12) e vitórias por
goleada (Figura 13).
Figura 10. Resumo gerado por apenas um gol marcado
11. Figura 11. Resumo gerado com amplo domínio sobre o adversário
Figura 12. Resumo gerado por vitória apertada
Figura 13. Resumo gerado de placar por goleada
Vale salientar que ao se iniciar o sistema todo o processo é reiniciado,
possibilitando gerar outro resumo contendo outras informações diferentes, ainda que o
template a ser utilizado seja o mesmo.
7. Considerações Finais
O protótipo aqui implementado constitui uma alternativa que visa contribuir para o
desenvolvimento ferramentas que buscam reduzir esforços de empresas e usuários na
sumarização automática. Ele representa as informações de uma partida de futebol por
meio de uma taxonomia implementada em um banco de dados, permitindo a criação de
12. relatos automáticos com análises de partidas de futebol transmitidas textualmente pela
Internet.
O futebol é um esporte rico em estatísticas, permitindo a extração de
informações como, por exemplo, aquelas referentes à ação de gol e outras jogadas.
Mesmo com esta grande quantidade de informações foi necessária à criação de seis
templates (resumos de partidas de futebol) pré-formatados, que contêm posições-chave
que são substituídas através de métodos computacionais, levando em consideração as
estatísticas levantadas. Tal procedimento visou criar sumários informativos (com textos
coerentes e coesos) que, de algum modo, se assemelhassem à forma de escrita dos
resumos manuais encontrados em sites da Internet.
Com o grande conjunto de informações que o futebol proporciona abre-se um
grande leque de aprimoramento do presente trabalho. Num primeiro momento existe a
possibilidade na melhora da atual aplicação, aumentando as regras e, com isto, obter
sumários mais adequados a cada situação de uma partida disputada. Para que isto seja
possível há a necessidade de aumentar a quantidade de templates disponíveis e também
aumentar tanto os dados (como, por exemplo, táticas que foi usada pelos times e se a
mesma teve mudança durante a partida) quanto às regras para a geração do sumário.
Outra limitação do sistema que será alvo de trabalhos futuros refere-se ao registro ações
envolvendo mais de um jogador, por exemplo, um fez uma falta em outro e por isto foi
expulso. Nesta situação atualmente é necessário cadastrar as duas ações separadamente
(uma para quem fez a falta e foi expulso e outra para quem sofreu a falta).
Como o sistema é offline abre-se a possibilidade de trabalhar com um sistema
on-line em que os dados (relatos lance-a-lance) sejam extraídos automaticamente de
sites esportivos, já que nesta investigação não há PLN em texto livre. Para que isto seja
possível há a necessidade de uma abordagem profunda no processamento da linguagem
e, portanto, também da psicologia cognitiva para gerar a compreensão dos textos-fonte
e, posteriormente, extrair as informações que guiarão a produção dos sumários
correspondentes.
Na aplicação atual todos os dados foram cadastrados diretamente no banco de
dados MySql, com isto fica difícil acompanhar a as evoluções das equipes durante uma
temporada como, por exemplo, a troca de jogadores. Este problema pode ser
solucionado com a implantação de um administrador que consegue realizar qualquer
tipo de alteração na base de dados.
Mesmo com a elaboração de poucos templates e limitações que esta abordagem
superficial oferece, e com a ausência de experimentos e avaliações formais do sistema, o
objetivo inicial do trabalho foi cumprido, mostrando o potencial de se utilizar essa
abordagem para a criação de sumários automáticos relacionado à partidas de futebol.
Referências
DIAS-DA-SILVA, B. C. A face tecnológica dos estudos da linguagem: O
processamento automático das línguas naturais. Araraquara, 1996. 272p. Tese
(Doutorado em Letras) - Faculdade de Ciências e Letras, Universidade Estadual
Paulista, Araraquara.
13. GOMEZ-PÉREZ, A., Tutorial on Ontological Engineering, Internacional Joint
Conference on Artificial Intelligence – IJCAI, 1999.
GUARINO; N., MASOLO;C., VETERE; G. (1999). Ontoseek: Content-based access to
the web. IEEE Intelligent Systems, 14(3):70–80.
HOVY; E., LIN, C. (1997). Automated Text Summarization in SUMMARIST. In: I.
MANI,MAYBURY; M. (eds.) “Intelligent Scalable Text Summarization”.ACL 1997
Workshop, pp. 39-46. Madrid, Spain.
HUTCHINS, JOHN; (1987). Summarization: Some problems and Methods. In: Jones.
Meaning: The frontier of informatics. Cambridge. London, pp. 151-173.
LIDDY; E. D. (2003). Natural Language Processing. IN: Encyclopedia of Library and
Information Science. New York: Marcel Dekker.
LIN, C. Knowledge-based automatic topic identification. In: ANNUAL MEETING ON
ASSOCIATION FOR COMPUTATIONAL LINGUISTICS,33., 1995, Morristown.
Proceedings… Cambridge: MIT Press, 2004. p. 308-310.
LUHN, H. P.; A Business Intelligence System. IBM Journal of Research and
Development,IBM, v.2, n.4, p. 314 – 319, 1958.
MAEDCHE; A., STAAB; S. Measuring similarity between ontologies. In: Proceedings
of the European Conference on EKAW, 2002.
MAYBURY; M. (1993). Automated Event Summarization Techniques. In: Seminar
Report of Summarizing Text for Intelligent Communication Seminar. Dagstuhl,
Germany
NOVELLO, T. C. Ontologias, sistemas baseados em conhecimento e modelos de banco
de dados. Universidade Federal do Rio Grande do Sul, 2002.
PERNA, C., DELGADO, H., & FINATO, M. (2010). Linguagens especializadas em
corpórea. RIO GRANDE DO SUL: EDPRUCRS.
RAU; L. F. , BRANDOW; R. (1993). Domain-Independent Summarization of News. In:
B. NIGGEMEYER; J. , HOBBS,SPARCK; J. (eds.), Seminar Report of
Summarizing Text for Intelligent Communication Seminar. Dagstuhl, Germany.
RICH, E., KNIGHT, K. Inteligência Artificial. 2. ed. [s.l.] : McGraw-Hill, 1993.
RUSSEL, NORVIG, 1995. Artificial Intelligence: A Modern Approach. Prentice-Hall,
Saddle River, NJ, 1995.
TIUN, S.; ABDULLAH, R.; KONG, T. E. Automatic topicidentification using ontology
hierarchy. In: CICLING: CONFERENCE ON INTELLIGENT TEXT PROCESSING
AND COMPUTATIONAL LINGUISTICS,2., 2001, Mexico City. Proceedings…
Heildelberg : Springer-Verlag, 2001. p. 444-453.
WU, C. W.; LIU, C. L. Ontology-based text summarization for business news articles.
In: ISCA: INTERNATIONAL CONFERENCE ON COMPUTERS ANDTHEIR
APPLICATIONS, 18., 2003, Honolulu. Proceedings… Cary: ISCA, 2003. p. 389-
392.