Este documento apresenta um método para geração semi-automática de taxonomias usando clustering para generalização de regras de associação. Experimentos iniciais mostraram que algoritmos de clustering podem agrupar produtos similares em clusters, o que pode ser usado para construir taxonomias de primeiro nível de forma mais rápida do que manualmente. Análises adicionais são necessárias para validar esta abordagem e incorporá-la ao algoritmo GART.
A carta foi escrita por alunos de um curso de gestão de projetos da USP para solicitar uma doação de R$10.000 ou qualquer valor à empresa XXX. Os fundos arrecadados seriam usados para dois projetos sociais: um para fornecer itens de higiene e doces a um leprosário e outro para comprar livros infantis para bibliotecas de instituições parceiras. A carta pede apoio financeiro da empresa para o sucesso dos projetos e melhora da vida de pessoas carentes.
Uma universidade no estado da Paraíba solicitou à Secretaria de Cultura do estado a doação de produtos culturais como CDs, DVDs e livros para uma atividade extraclasse com 50 alunos em uma viagem pedagógica à cidade de Areia no dia 19 de outubro de 2013. A atividade envolverá trabalho com mídia, cultura e imaginário popular.
Arrecadação de donativos para instituições carentesKetsugou
O documento descreve um projeto de arrecadação e doação de roupas, calçados, cobertores e brinquedos para instituições carentes liderado pelo Grêmio Estudantil Ketsugou da Etec Takashi Morita. O projeto tem como objetivo promover a solidariedade e ajudar instituições como AME, AACD e APAE. O documento fornece detalhes sobre o período da campanha, processo de arrecadação e distribuição das doações, divulgação e contatos responsáveis.
A proposta de patrocínio é para a competição universitária Engenharíadas, que reúne escolas de engenharia em São Paulo por 4 dias com 18 modalidades esportivas. O documento oferece opções de patrocínio nos uniformes das equipes e equipamentos com alcance de até 10 mil pessoas, arrecadando de R$10 a R$40 por camisa patrocinada.
O memorando informa que as avaliações bimestrais da escola serão realizadas nos dias 28, 29 e 30 de janeiro pela manhã, com duas baterias de provas antes e depois da merenda, separadas por 20 minutos. Além disso, nos três dias não haverá aulas à tarde para que os alunos possam estudar em casa para as provas.
2º ofício de solicitação de estagiário para consolidação de leisHeloisa Cerri
A vereadora Heloisa Cerri solicita à Câmara Municipal de Divinópolis a contratação urgente de um estagiário para auxiliar o técnico legislativo Vander Lúcio Penha no trabalho de Consolidação das Leis Municipais, que está estagnado desde o ano passado devido à falta de um estagiário. A solicitação já havia sido feita anteriormente sem sucesso.
Oficio 13 2013 solicitação de reunião com preseidência da câmaraFolha de Pernambuco
O Partido Socialismo e Liberdade solicita uma reunião com o presidente da Câmara de Vereadores do Recife para discutir o funcionamento do Conselho de Cidadãos e da Tribuna Popular, conforme definido no Regimento Interno da Casa.
Um servidor do Instituto Federal do Ceará campus de Acaraú solicita à coordenação de pesquisa e inovação auxílio financeiro para participar de um evento importante no qual apresentará trabalhos científicos representando o campus. O servidor pede um número de diárias e justifica a importância do evento e sua participação.
A carta foi escrita por alunos de um curso de gestão de projetos da USP para solicitar uma doação de R$10.000 ou qualquer valor à empresa XXX. Os fundos arrecadados seriam usados para dois projetos sociais: um para fornecer itens de higiene e doces a um leprosário e outro para comprar livros infantis para bibliotecas de instituições parceiras. A carta pede apoio financeiro da empresa para o sucesso dos projetos e melhora da vida de pessoas carentes.
Uma universidade no estado da Paraíba solicitou à Secretaria de Cultura do estado a doação de produtos culturais como CDs, DVDs e livros para uma atividade extraclasse com 50 alunos em uma viagem pedagógica à cidade de Areia no dia 19 de outubro de 2013. A atividade envolverá trabalho com mídia, cultura e imaginário popular.
Arrecadação de donativos para instituições carentesKetsugou
O documento descreve um projeto de arrecadação e doação de roupas, calçados, cobertores e brinquedos para instituições carentes liderado pelo Grêmio Estudantil Ketsugou da Etec Takashi Morita. O projeto tem como objetivo promover a solidariedade e ajudar instituições como AME, AACD e APAE. O documento fornece detalhes sobre o período da campanha, processo de arrecadação e distribuição das doações, divulgação e contatos responsáveis.
A proposta de patrocínio é para a competição universitária Engenharíadas, que reúne escolas de engenharia em São Paulo por 4 dias com 18 modalidades esportivas. O documento oferece opções de patrocínio nos uniformes das equipes e equipamentos com alcance de até 10 mil pessoas, arrecadando de R$10 a R$40 por camisa patrocinada.
O memorando informa que as avaliações bimestrais da escola serão realizadas nos dias 28, 29 e 30 de janeiro pela manhã, com duas baterias de provas antes e depois da merenda, separadas por 20 minutos. Além disso, nos três dias não haverá aulas à tarde para que os alunos possam estudar em casa para as provas.
2º ofício de solicitação de estagiário para consolidação de leisHeloisa Cerri
A vereadora Heloisa Cerri solicita à Câmara Municipal de Divinópolis a contratação urgente de um estagiário para auxiliar o técnico legislativo Vander Lúcio Penha no trabalho de Consolidação das Leis Municipais, que está estagnado desde o ano passado devido à falta de um estagiário. A solicitação já havia sido feita anteriormente sem sucesso.
Oficio 13 2013 solicitação de reunião com preseidência da câmaraFolha de Pernambuco
O Partido Socialismo e Liberdade solicita uma reunião com o presidente da Câmara de Vereadores do Recife para discutir o funcionamento do Conselho de Cidadãos e da Tribuna Popular, conforme definido no Regimento Interno da Casa.
Um servidor do Instituto Federal do Ceará campus de Acaraú solicita à coordenação de pesquisa e inovação auxílio financeiro para participar de um evento importante no qual apresentará trabalhos científicos representando o campus. O servidor pede um número de diárias e justifica a importância do evento e sua participação.
Guia completo para definição de estatística de modelos e algoritmos de machin...Geanderson Lenz
1. O documento apresenta um guia completo sobre definição de estatística e algoritmos de machine learning utilizados em projetos de data science para negócios.
2. Inclui seções sobre aprendizagem supervisionada, não supervisionada, reinforcement learning e drivers de escolha de modelos.
3. Fornece descrições de algoritmos como regressão linear, logística, árvores de decisão e random forest com códigos em R e Python.
Clustering é uma técnica de agrupamento de dados não supervisionado onde objetos similares são agrupados em clusters. Existem vários algoritmos de clustering que diferem na forma como formam os grupos e eficiência. Clustering é amplamente usado em mineração de dados e análise estatística.
Este documento descreve uma atividade prática supervisionada sobre sistemas de apoio à decisão para engenharia de produção. A atividade é dividida em três etapas e tem como objetivo auxiliar os alunos no desenvolvimento de competências para a tomada de decisão em processos produtivos. Na primeira etapa, os alunos analisam os processos decisórios e como sistemas de apoio podem melhorar a produção de bicicletas. Na segunda etapa, eles estudam fatores que influenciam a demanda e quais informações alimentari
Este documento apresenta um exemplo prático de clustering usando o programa Orange. O professor Seiji quer analisar os dados de alunos que abandonaram ou continuaram um curso para identificar padrões. Usando a técnica de k-means no Orange, é possível visualizar os clusters formados e analisar que um grupo sem computador e reprovado teve mais evasão, enquanto um com computador e aprovado teve mais continuidade.
A análise e compreensão das estratégias de ordenação são tarefas corriqueiras no processo de aprendizagem de complexidade computacional. Os métodos mais clássicos são debatidos e suas respectivas complexidades teóricas são confrontadas, porém muitas vezes, não há um aprofundamento e muitas características relevantes de determinadas técnicas são deixadas de lado não ocorrendo um confrontamento prático desses métodos.
Além disso não existe disponível, ate o momento, uma ferramenta gratuita para aferição da complexidade das estratégias de ordenação que leve em consideração a natureza das amostras a serem classificadas. Para preencher essa lacuna propomos um Assistente de Avaliação de Estratégias de Ordenação que possui como principais funcionalidades a geração de aglomerados numéricos aleatórios, a execução de determinadas estratégias sobre esses aglomerados e a exibição do esforço computacional e temporal necessários a execução.
Modelagem e Simulação de Sistemas ProdutivosAdeildo Telles
Este documento apresenta uma introdução sobre modelagem e simulação de sistemas produtivos, abordando tópicos como: objetivos de aprendizagem, definição de simulação, vantagens e desvantagens da simulação, e exemplos de sistemas que podem ser modelados e simulados.
O documento apresenta um algoritmo genético para resolver o problema de escalonamento de tarefas em máquinas paralelas, visando minimizar o tempo máximo de finalização. O algoritmo utiliza técnicas como crossover, mutação e seleção através de torneios para alocar as tarefas nas máquinas. Testes com diferentes configurações do algoritmo foram realizados para avaliar seu desempenho no escalonamento de tarefas do grafo Gauss 18.
1) O documento discute o uso do método de Unidade de Esforço de Produção (UEP) para medir os custos de produção em uma indústria metalúrgica.
2) Ele apresenta uma revisão da literatura sobre o método UEP e descreve as etapas para aplicá-lo, incluindo dividir a fábrica em postos operativos e calcular o custo por hora de cada posto.
3) O estudo de caso aplicou essas etapas em uma empresa real, calculando os custos dos principais postos operativos e
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Eduardo de Lucena Falcão
Este documento discute várias abordagens para resolver o problema da multiplicação de cadeias de matrizes de forma otimizada, incluindo: (1) programação dinâmica para encontrar a ordem ótima de multiplicação, (2) minimização de cache miss ao modificar a ordem de loops, e (3) uso de threads para explorar processadores multicore. O objetivo é analisar esses métodos e medir seu impacto no desempenho.
Análise empírica de algoritmos de ordenaçãoOrlando Junior
Trabalho apresentado à Universidade Federal do ABC como parte para aprovação no curso de Análise de Algoritmos e Estrutura de Dados.
O objetivo principal deste trabalho é estudar empiricamente a complexidade de tempo dos algoritmos de ordenação interna.
Palestrante: Etéocles da Silva Cavalcanti
Não é um assunto novo e nem uma novidade, mas ... modelos de filas são ferramentas importantes para os profissionais que atuam na área de Capacity Planning e estão cada vez mais inseridos em muitos produtos e ferramentas, mas ... quando modelos analíticos estão disponíveis para serem utilizados, tornam-se um problema sério pelo fato de há uma barreira quanto do seu uso e seus resultados, normalmente por falta de conhecimento, conceitos, premissas, métricas estatísticas e sobre os modelos. Esse assunto realmente tem uma complexidade teórica estatística muito alta e se entramos nos detalhes teóricos passamos a temer sobre seu uso e resultados. O objetivo é apresentar de uma forma simples e direta que modelagem analítica é ainda uma ferramenta importante e que devemos e podemos utilizá-la melhor se tivermos conhecimento melhor do seu uso e seus resultados. A simples construção de ferramentas que calcule todas as métricas estatísticas dos componentes de um sistema de fila, gera a oportunidade de realizarmos simulações com pequenas mudanças de parâmetros. Nos estudos de capacidade a utilização de teoria das filas passam a ter mais consistência e sua flexibilidade nas análises e/ou questionamentos complexos trazem respostas rápidas e consistentes aos nossos gestores na tomada de decisão.
1. Com o aumento de volumes de dados, ferramentas como data mining são necessárias para analisar dados de forma otimizada e extrair conhecimento e padrões. 2. Técnicas como descoberta de padrões sequenciais, redes neurais e algoritmos genéticos podem ser usadas para data mining. 3. Data mining tem aplicações em diversas áreas como marketing, finanças e saúde para apoiar tomadas de decisão.
97d0 a interatividade_do_sap_no_processo_tpm_nas_organizacoes_um_estudo_de_ca...Adilson Mereth
Este documento discute a integração entre o sistema ERP SAP e a metodologia de manutenção totalmente produtiva (TPM) utilizando um estudo de caso na Tetra Pak. 1) O SAP fornece dados em tempo real para identificar as principais causas de falhas e melhorar a performance dos indicadores. 2) O TPM busca melhorias contínuas nos resultados confiando em feedback de dados. 3) O estudo de caso mostra como o SAP e o TPM integrados podem processar informações para análise crítica e apoiar decisões ger
O documento apresenta uma introdução aos algoritmos, definindo o que são algoritmos computacionais e não computacionais, e descrevendo elementos básicos como variáveis, estruturas de decisão e repetição, e tipos de dados. O texto também explica a linguagem Portugol e fornece exemplos de expressões matemáticas, lógicas e algoritmos."
Conceitos e técnicas de programação apostilha algoritmoRobson Ferreira
1) O documento apresenta uma introdução aos algoritmos, definindo o que são algoritmos computacionais e não computacionais e dando exemplos de cada um.
2) É explicada a estrutura básica de um algoritmo computacional, dividido em dados e código, e apresentados os operadores matemáticos, lógicos e relacionais utilizados no Português Estruturado.
3) São mostrados os conceitos de linearização de expressões, modularização com parênteses e prioridades entre os operadores, necessários para a construção de algoritmos que real
O documento apresenta uma introdução aos algoritmos, definindo o que são algoritmos não computacionais e algoritmos computacionais. Também explica a linearização de expressões matemáticas para construção de algoritmos computacionais e apresenta os principais comandos e estruturas da linguagem Portugol para programação. Por fim, lista exercícios para praticar os diferentes conceitos introduzidos.
Apostila de Introdução aos Algoritmos - usando o VisualgRegis Magalhães
O Visualg é uma excelente ferramenta para o aprendizado de algoritmos, tendo sido criada por Cláudio Morgado de Souza da Apoio Informática Ltda.
As apostilas foram elaboradas por Bruno Tonet e Cristian Koliver do Núcleo de Apoio à Aprendizagem de Programação (NAPRO) da Universidade de Caxias do Sul (UCS).
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katzAndré Pontes Melo
This paper aims to describe the techniques and digital image algorithms in de
veloping a tool able to count Schistosoma mansoni eggs for the Kato-Kats method.
Este Workshop realizado pela SBRC 2015 foca em modelos e algoritmos de sistemas distribuídos, ferramentas e tecnologias de engenharia de software. Os tópicos trabalham modelos e algoritmos de sistemas distribuídos, suporte de programação, projeto, middleware, linguagens de programação para sistemas distribuídos autônomos, modelagem e análise de sistemas distribuídos autônomos, variação e validação, aspectos de confiança em sistemas distribuídos autônomos, aspectos de auto-organização, suporte ao comportamento autônomo em grades, sistemas P2P e redes de sensores, algoritmos e técnicas inspiradas em sistemas biológicos; e rede autônomas.
Guia completo para definição de estatística de modelos e algoritmos de machin...Geanderson Lenz
1. O documento apresenta um guia completo sobre definição de estatística e algoritmos de machine learning utilizados em projetos de data science para negócios.
2. Inclui seções sobre aprendizagem supervisionada, não supervisionada, reinforcement learning e drivers de escolha de modelos.
3. Fornece descrições de algoritmos como regressão linear, logística, árvores de decisão e random forest com códigos em R e Python.
Clustering é uma técnica de agrupamento de dados não supervisionado onde objetos similares são agrupados em clusters. Existem vários algoritmos de clustering que diferem na forma como formam os grupos e eficiência. Clustering é amplamente usado em mineração de dados e análise estatística.
Este documento descreve uma atividade prática supervisionada sobre sistemas de apoio à decisão para engenharia de produção. A atividade é dividida em três etapas e tem como objetivo auxiliar os alunos no desenvolvimento de competências para a tomada de decisão em processos produtivos. Na primeira etapa, os alunos analisam os processos decisórios e como sistemas de apoio podem melhorar a produção de bicicletas. Na segunda etapa, eles estudam fatores que influenciam a demanda e quais informações alimentari
Este documento apresenta um exemplo prático de clustering usando o programa Orange. O professor Seiji quer analisar os dados de alunos que abandonaram ou continuaram um curso para identificar padrões. Usando a técnica de k-means no Orange, é possível visualizar os clusters formados e analisar que um grupo sem computador e reprovado teve mais evasão, enquanto um com computador e aprovado teve mais continuidade.
A análise e compreensão das estratégias de ordenação são tarefas corriqueiras no processo de aprendizagem de complexidade computacional. Os métodos mais clássicos são debatidos e suas respectivas complexidades teóricas são confrontadas, porém muitas vezes, não há um aprofundamento e muitas características relevantes de determinadas técnicas são deixadas de lado não ocorrendo um confrontamento prático desses métodos.
Além disso não existe disponível, ate o momento, uma ferramenta gratuita para aferição da complexidade das estratégias de ordenação que leve em consideração a natureza das amostras a serem classificadas. Para preencher essa lacuna propomos um Assistente de Avaliação de Estratégias de Ordenação que possui como principais funcionalidades a geração de aglomerados numéricos aleatórios, a execução de determinadas estratégias sobre esses aglomerados e a exibição do esforço computacional e temporal necessários a execução.
Modelagem e Simulação de Sistemas ProdutivosAdeildo Telles
Este documento apresenta uma introdução sobre modelagem e simulação de sistemas produtivos, abordando tópicos como: objetivos de aprendizagem, definição de simulação, vantagens e desvantagens da simulação, e exemplos de sistemas que podem ser modelados e simulados.
O documento apresenta um algoritmo genético para resolver o problema de escalonamento de tarefas em máquinas paralelas, visando minimizar o tempo máximo de finalização. O algoritmo utiliza técnicas como crossover, mutação e seleção através de torneios para alocar as tarefas nas máquinas. Testes com diferentes configurações do algoritmo foram realizados para avaliar seu desempenho no escalonamento de tarefas do grafo Gauss 18.
1) O documento discute o uso do método de Unidade de Esforço de Produção (UEP) para medir os custos de produção em uma indústria metalúrgica.
2) Ele apresenta uma revisão da literatura sobre o método UEP e descreve as etapas para aplicá-lo, incluindo dividir a fábrica em postos operativos e calcular o custo por hora de cada posto.
3) O estudo de caso aplicou essas etapas em uma empresa real, calculando os custos dos principais postos operativos e
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Eduardo de Lucena Falcão
Este documento discute várias abordagens para resolver o problema da multiplicação de cadeias de matrizes de forma otimizada, incluindo: (1) programação dinâmica para encontrar a ordem ótima de multiplicação, (2) minimização de cache miss ao modificar a ordem de loops, e (3) uso de threads para explorar processadores multicore. O objetivo é analisar esses métodos e medir seu impacto no desempenho.
Análise empírica de algoritmos de ordenaçãoOrlando Junior
Trabalho apresentado à Universidade Federal do ABC como parte para aprovação no curso de Análise de Algoritmos e Estrutura de Dados.
O objetivo principal deste trabalho é estudar empiricamente a complexidade de tempo dos algoritmos de ordenação interna.
Palestrante: Etéocles da Silva Cavalcanti
Não é um assunto novo e nem uma novidade, mas ... modelos de filas são ferramentas importantes para os profissionais que atuam na área de Capacity Planning e estão cada vez mais inseridos em muitos produtos e ferramentas, mas ... quando modelos analíticos estão disponíveis para serem utilizados, tornam-se um problema sério pelo fato de há uma barreira quanto do seu uso e seus resultados, normalmente por falta de conhecimento, conceitos, premissas, métricas estatísticas e sobre os modelos. Esse assunto realmente tem uma complexidade teórica estatística muito alta e se entramos nos detalhes teóricos passamos a temer sobre seu uso e resultados. O objetivo é apresentar de uma forma simples e direta que modelagem analítica é ainda uma ferramenta importante e que devemos e podemos utilizá-la melhor se tivermos conhecimento melhor do seu uso e seus resultados. A simples construção de ferramentas que calcule todas as métricas estatísticas dos componentes de um sistema de fila, gera a oportunidade de realizarmos simulações com pequenas mudanças de parâmetros. Nos estudos de capacidade a utilização de teoria das filas passam a ter mais consistência e sua flexibilidade nas análises e/ou questionamentos complexos trazem respostas rápidas e consistentes aos nossos gestores na tomada de decisão.
1. Com o aumento de volumes de dados, ferramentas como data mining são necessárias para analisar dados de forma otimizada e extrair conhecimento e padrões. 2. Técnicas como descoberta de padrões sequenciais, redes neurais e algoritmos genéticos podem ser usadas para data mining. 3. Data mining tem aplicações em diversas áreas como marketing, finanças e saúde para apoiar tomadas de decisão.
97d0 a interatividade_do_sap_no_processo_tpm_nas_organizacoes_um_estudo_de_ca...Adilson Mereth
Este documento discute a integração entre o sistema ERP SAP e a metodologia de manutenção totalmente produtiva (TPM) utilizando um estudo de caso na Tetra Pak. 1) O SAP fornece dados em tempo real para identificar as principais causas de falhas e melhorar a performance dos indicadores. 2) O TPM busca melhorias contínuas nos resultados confiando em feedback de dados. 3) O estudo de caso mostra como o SAP e o TPM integrados podem processar informações para análise crítica e apoiar decisões ger
O documento apresenta uma introdução aos algoritmos, definindo o que são algoritmos computacionais e não computacionais, e descrevendo elementos básicos como variáveis, estruturas de decisão e repetição, e tipos de dados. O texto também explica a linguagem Portugol e fornece exemplos de expressões matemáticas, lógicas e algoritmos."
Conceitos e técnicas de programação apostilha algoritmoRobson Ferreira
1) O documento apresenta uma introdução aos algoritmos, definindo o que são algoritmos computacionais e não computacionais e dando exemplos de cada um.
2) É explicada a estrutura básica de um algoritmo computacional, dividido em dados e código, e apresentados os operadores matemáticos, lógicos e relacionais utilizados no Português Estruturado.
3) São mostrados os conceitos de linearização de expressões, modularização com parênteses e prioridades entre os operadores, necessários para a construção de algoritmos que real
O documento apresenta uma introdução aos algoritmos, definindo o que são algoritmos não computacionais e algoritmos computacionais. Também explica a linearização de expressões matemáticas para construção de algoritmos computacionais e apresenta os principais comandos e estruturas da linguagem Portugol para programação. Por fim, lista exercícios para praticar os diferentes conceitos introduzidos.
Apostila de Introdução aos Algoritmos - usando o VisualgRegis Magalhães
O Visualg é uma excelente ferramenta para o aprendizado de algoritmos, tendo sido criada por Cláudio Morgado de Souza da Apoio Informática Ltda.
As apostilas foram elaboradas por Bruno Tonet e Cristian Koliver do Núcleo de Apoio à Aprendizagem de Programação (NAPRO) da Universidade de Caxias do Sul (UCS).
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katzAndré Pontes Melo
This paper aims to describe the techniques and digital image algorithms in de
veloping a tool able to count Schistosoma mansoni eggs for the Kato-Kats method.
Este Workshop realizado pela SBRC 2015 foca em modelos e algoritmos de sistemas distribuídos, ferramentas e tecnologias de engenharia de software. Os tópicos trabalham modelos e algoritmos de sistemas distribuídos, suporte de programação, projeto, middleware, linguagens de programação para sistemas distribuídos autônomos, modelagem e análise de sistemas distribuídos autônomos, variação e validação, aspectos de confiança em sistemas distribuídos autônomos, aspectos de auto-organização, suporte ao comportamento autônomo em grades, sistemas P2P e redes de sensores, algoritmos e técnicas inspiradas em sistemas biológicos; e rede autônomas.
1. Gerac¸˜ao Semi-autom´atica de Taxonomias Usando Clustering
para Generalizac¸˜ao de Regras de Associac¸˜ao
Camila Delefrate Martins , Solange Oliveira Rezende
1
Laborat´orio de Inteligˆencia Computacional
Instituto de Ciˆencias Matem´aticas e de Computac¸˜ao
Universidade de S˜ao Paulo
Av. Trabalhador S˜ao-carlense, 400 - Centro
Caixa Postal: 668 - CEP: 13560-970 - S˜ao Carlos - SP
{camiladm, solange}@icmc.usp.br
Abstract. The data mining process aims to obtain valid, novel, useful and un-
derstandable knowledge. Therefore, it is important to develop technics to sup-
port the user when analysing the extracted knowledge, specially in the case
of association, because this technique generates great volume of rules, which
makes its interpretation a difficult task. Taxonomies can be used to reduce this
volume, but its manual construction is a very hard work. In this paper, it is pre-
sented a method to generate taxonomies using clustering, aiming to obtain more
useful and interesting taxonomies and reducing the time spent on this process.
Resumo. O objetivo do processo de minerac¸˜ao de dados ´e obter conhecimento
v´alido, novo, ´util e compreens´ıvel. Por isso, t´ecnicas que ap´oiem na an´alise do
conhecimento extra´ıdo s˜ao extremamente importantes, principalmente no caso
da t´ecnica de associac¸˜ao, uma vez que ´e gerado um grande volume de regras, o
que dificulta sua interpretac¸˜ao. Taxonomias podem ser utilizadas para reduzir
esse volume, por´em a construc¸˜ao manual das mesmas ´e um trabalho custoso.
Assim, ´e apresentado neste trabalho um m´etodo para identificac¸˜ao de taxono-
mias usando clustering, podendo gerar taxonomias mais ´uteis, interessantes e
reduzindo o tempo gasto no processo.
1. Introduc¸˜ao
O processo de minerac¸˜ao de dados tem como objetivo principal que seus usu´arios fi-
nais possam analisar, compreender e utilizar o conhecimento extra´ıdo de um conjunto de
dados em um sistema inteligente e/ou como apoio em processos de tomada de decis˜ao
[Rezende et al., 2003]. Um dos maiores problemas da t´ecnica de minerac¸˜ao de dados de-
nominada associac¸˜ao ´e o grande volume de regras gerado. Tipicamente, somente uma
pequena frac¸˜ao desse grande volume de regras ´e interessante ao usu´ario, o qual ´e cons-
tantemente sobrecarregado com uma grande quantidade de regras semelhantes. Por esse
motivo, ´e extremamente importante fornecer ferramentas eficientes para apoiar o usu´ario
na an´alise desse grande volume de regras.
Dentro desse contexto, foi desenvolvido o algoritmo GART (Generalization of
Association Rules using Taxonomies), que utiliza taxonomias para generalizar regras de
associac¸˜ao [Domingues, 2004]. A t´ecnica de generalizac¸˜ao utiliza taxonomias para trans-
formar regras espec´ıficas em conceitos gerais, produzindo conjuntos de regras mais com-
pactos e geralmente mais compreens´ıveis aos usu´arios [Srikant e Agrawal, 1997]. Para
utilizar o GART, o usu´ario deve construir e fornecer as taxonomias manualmente, tarefa
V ENIA 1094
2. que consome tempo consider´avel e exige um grande conhecimento do dom´ınio da base
de dados. O desenvolvimento de um m´etodo para a construc¸˜ao semi-autom´atica de taxo-
nomias pode contribuir para soluc¸˜ao desses problemas, provendo aux´ılio durante a etapa
de p´os-processamento do conhecimento.
Neste trabalho ´e apresentado um m´etodo para a construc¸˜ao semi-autom´atica de
taxonomias utilizando a t´ecnica de clustering. Assim, ele est´a organizado da seguinte
maneira: na sec¸˜ao 2 ´e realizada uma descric¸˜ao do uso de taxonomias em regras de
associac¸˜ao. O m´etodo desenvolvido e os experimentos realizados s˜ao descritos na sec¸˜ao 3.
Por fim, na sec¸˜ao 4 s˜ao apresentadas as considerac¸˜oes finais.
2. Uso de Taxonomias em Regras de Associac¸˜ao
Uma regra de associac¸˜ao caracteriza o quanto a presenc¸a de um conjunto de atributos s
nos registros (transac¸˜oes) de uma base de dados implica na presenc¸a de algum outro con-
junto distinto de atributos u nos mesmos registros [Agrawal e Srikant, 1994]. Entretanto,
esta t´ecnica gera um volume muito grande de regras, o que dificulta sua interpretac¸˜ao
pelo usu´ario. O uso de taxonomias em regras de associac¸˜ao pode auxiliar na reduc¸˜ao do
volume de regras extra´ıdas al´em de facilitar a an´alise e compreens˜ao do conhecimento.
As taxonomias refletem uma caracterizac¸˜ao coletiva ou individual de como os
itens podem ser hierarquicamente classificados [Adamo, 2001]. Por exemplo, pode-se
criar uma taxonomia que agrupe tˆenis e sand´alias como calc¸ados e uma outra que agrupe
camisetas e bermudas como roupas leves. Assim, camisetas ou bermudas ⇒ tˆenis ou
sand´alias pode ser uma representac¸˜ao da regra roupas leves ⇒ calc¸ados. As principais
motivac¸˜oes para o emprego de taxonomias em regras de associac¸˜ao s˜ao [Srikant, 2001]:
regras simples (com itens terminais na taxonomia) podem representar conhecimento in-
teressante ao serem agrupadas segundo uma taxonomia; regras muito espec´ıficas podem
ser generalizadas, melhorando a sua compreens˜ao; regras interessantes podem ser identi-
ficadas com o uso de informac¸˜oes contidas nas taxonomias.
A construc¸˜ao manual de taxonomias ´e uma tarefa custosa, considerando-se o
tempo gasto e o conhecimento do dom´ınio necess´ario para sua realizac¸˜ao. Assim, foi
desenvolvido um m´etodo para construc¸˜ao semi-autom´atica de taxonomias utilizando a
t´ecnica clustering para solucionar esse problema. Foram tamb´em realizados experimen-
tos a fim de analisar a viabilidade da utilizac¸˜ao dessa t´ecnica.
3. M´etodo para Identificac¸˜ao de Taxonomias Usando Clustering
Clustering agrupa exemplos baseado nas caracter´ısticas que esses possuem. Objetos per-
tencentes a um mesmo cluster s˜ao mais similares entre si de acordo com alguma medida
de similaridade pr´e-definida, enquanto que objetos pertencentes a clusters diferentes tˆem
uma similaridade menor. Dessa maneira, os agrupamentos gerados no processo de clus-
tering podem ser admitidos como taxonomias.
Na Figura 1 ´e apresentado o m´etodo para identificac¸˜ao de taxonomias usando
clustering. Os agrupamentos gerados pelos algoritmos de clustering s˜ao analisados pelos
especialistas e aqueles que forem v´alidos s˜ao fornecidos como entrada para o GART.
Para verificar a viabilidade da utilizac¸˜ao de clustering na identificac¸˜ao de taxono-
mias foram realizados experimentos com uma base de dados real de um supermercado.
O objetivo desses experimentos ´e verificar se por meio dos agrupamentos realizados pe-
los algoritmos de clustering ´e poss´ıvel identificar uma taxonomia de primeiro n´ıvel. Ou
V ENIA 1095
3. Figura 1: M´etodo para identificac¸ ˜ao de taxonomias usando clustering
seja, se produtos semelhantes seriam agrupados no mesmo cluster, por exemplo todas as
marcas de biscoito agrupadas no cluster x.
Est˜ao sendo realizados experimentos com trˆes tipos de algoritmos de clus-
tering: o probabil´ıstico AutoClass [Cheeseman et al., 1990], o hier´arquico G-cluto
[Rasmussen e Karypis, 2003] e o de otimizac¸˜ao K-means [MacQueen, 1967].
Nos experimentos iniciais, ap´os a execuc¸˜ao dos algoritmos, foram obtidos alguns
agrupamentos interessantes. Alguns deles s˜ao apresentados na Tabela 1.
Tabela 1: Resultados dos algoritmos de clustering na construc¸ ˜ao de taxonomias
AutoClass K-means G-cluto
Produto Cluster Produto Cluster Produto Cluster
Leite A 5 Suco A 16 Creme de leite A 39
Leite B 5 Suco B 16 Creme de leite B 39
Leite C 5 Suco C 16 Creme de leite C 39
Leite D 5 Suco D 16 Creme de leite D 39
Leite E 5 Suco E 16 Creme de leite E 39
Leite F 5 Suco F 16 – –
Leite G 5 Suco G 16 – –
Leite H 5 Suco H 16 – –
Leite I 5 – – – –
Leite J 5 – – – –
Leite L 5 – – – –
Analisando os resultados do algoritmo AutoClass, ´e poss´ıvel observar que os clus-
ters gerados agrupam, entre outros produtos, a maior parte dos produtos de determinada
marca. Por exemplo, no cluster 5 foram agrupadas praticamente todas as marcas de leite
(aproximadamente 75% do total). Outra observac¸˜ao relevante, ´e a visualizac¸˜ao de alguns
clusters com apenas um grupo de produtos, como o cluster 16 que apresenta apenas as
diferentes marcas de ´oleo.
O algoritmo K-means tamb´em obteve bons resultados, gerando clusters visual-
mente mais f´aceis de identificar como contendo apenas determinado produto, por exem-
plo o cluster 16 que ´e formado somente pelas marcas de suco. Esse algoritmo tamb´em
conseguiu agrupar em alguns clusters todas as marcas de determinado produto, caso do
cluster 0 que possui todas as marcas de creme de leite. Por´em, em geral, esse algoritmo
apresentou um desempenho um pouco pior que o AutoClass, uma vez que a maioria das
V ENIA 1096
4. marcas ficou dividida em v´arios clusters.
J´a o algoritmo G-cluto apresentou o pior desempenho para esse experimento, pois
n˜ao conseguiu agrupar grandes quantidades dos produtos. Os melhores resultados foram
obtidos com aproximadamente 5 marcas, como no caso de creme de leite (cluster 39).
Est˜ao sendo realizados outros experimentos com os algoritmos de clustering para
validar a metodologia apresentada neste trabalho e para identificar como ela poderia ser
incorporada ao algoritmo GART.
4. Considerac¸˜oe Finais
Neste trabalho foi apresentado um m´etodo para identificac¸˜ao de taxonomias usando clus-
tering e alguns experimentos j´a realizados para analisar a viabilidade desse m´etodo. Por
meio dos experimentos iniciais apresentados neste trabalho, foi poss´ıvel observar que em
geral os algoritmos de clustering obtiveram agrupamentos de primeiro n´ıvel melhores
do que aqueles que foram constru´ıdos manualmente em experimentos anteriores. Um
bom exemplo ´e o resultado do algoritmo AutoClass que agrupou 11 marcas de leite, en-
quanto que manualmente foi poss´ıvel identificar apenas 3 marcas desse mesmo produto
[Domingues, 2004]. Dever˜ao ainda ser realizados experimentos com outras t´ecnicas que
possam ser utilizadas para agrupar objetos.
Referˆencias
Adamo, J.-M. (2001). Data Mining for Association Rules and Sequential Patterns. SV,
New York, NY.
Agrawal, R. e Srikant, R. (1994). Fast algorithms for mining association rules. In
Bocca, J. B., Jarke, M., e Zaniolo, C. (Eds.), Proceedings of the 20th International
Conference on Very Large Data Bases, VLDB’94, pp. 487–499. Dispon´ıvel em:
http://citeseer.nj.nec.com/agrawal94fast.html [12/04/2004].
Cheeseman, P., Kelly, J., Self, M., Stutz, J., Taylor, W., e Freeman, D. (1990). Autoclass:
A bayesian classification system. In Shavlik, J. W. e Dietterich, T. G. (Eds.), Read-
ings in Machine Learning, pp. 296–306. Kaufmann, San Mateo, CA. Dispon´ıvel em:
http://ic.arc.nasa.gov/ic/projects/bayes-group/autoclass/ [08/03/2005].
Domingues, M. A. (2004). Generalizac¸˜ao de regras de associac¸˜ao. Dissertac¸˜ao de
mestrado, Instituto de Ciˆencias Matem´aticas e de Computac¸˜ao – USP – S˜ao Carlos.
MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate
observations. In Proceedings of 5th Berkeley Symposium on Mathematical Statistics
and Probability, volume 1: Statistics, pp. 281–297.
Rasmussen, M. e Karypis, G. (2003). gcluto: An interactive clustering, visualization, and
analysis system. Relat´orio t´ecnico.
Rezende, S. O., Pugliesi, J. B., Melanda, E. A., e Paula, M. F. (2003). Minerac¸˜ao de
dados. In Rezende, S. O. (Ed.), Sistemas Inteligentes: Fundamentos e Aplicac¸˜oes,
chapter 12, pp. 307–335. Manole, 1 edition.
Srikant, R. (2001). Association rules: Past, present and future. ICCS
2001 International Workshop on Concept Lattice-based theory, methods and
tools for Knowledge Discovery in Databases. Invited Talk. Dispon´ıvel em:
http://www.almaden.ibm.com/cs/people/srikant/talks/assoc.pdf [19/09/2003].
Srikant, R. e Agrawal, R. (1997). Mining generalized association rules. Future Genera-
tion Computer Systems, 13(2/3):161–180.
V ENIA 1097