1. O relatório descreve os resultados de tarefas de mineração de dados aplicadas à base de dados Breast Cancer usando a ferramenta Weka, incluindo classificação, associação e clusterização. 2. Os métodos J48, Naive Bayes e IBK foram usados para classificação, com J48 tendo o melhor desempenho. 3. Apriori foi usado para associação, gerando regras com medidas como suporte, confiança, lift e leverage.
(1) O documento apresenta uma introdução à linguagem Java, abordando sua história, características da plataforma e fundamentos da linguagem como variáveis, operadores e estruturas condicionais;
(2) São apresentados conceitos como tipos primitivos, declaração de classes e variáveis, operadores unários, incremento/decremento e representação de sinal;
(3) O documento também explica conceitos importantes como escopo de variáveis e realiza um exercício prático para fixação dos conceitos apresentados.
Análise Orientada a Objetos - Casos de UsoCursoSENAC
O documento descreve os conceitos de análise orientada a objetos casos de uso. Ele explica que casos de uso representam as funcionalidades do sistema do ponto de vista do usuário, identificando os atores e suas interações com o sistema sem especificar detalhes de implementação. O documento também fornece exemplos e instruções para a elaboração de diagramas de casos de uso.
O documento discute conceitos fundamentais de modelagem de dados, incluindo entidades, atributos, dicionário de dados, classificação de atributos, características de chaves primárias e relacionamentos. Ele define entidades como qualquer coisa do mundo real sobre a qual se deseja armazenar informações, e atributos como propriedades relacionadas a entidades. O documento também descreve tipos de cardinalidade em relacionamentos, como um-para-um, um-para-muitos e muitos-para-muitos.
O documento discute diagramas UML de casos de uso. Resume os principais pontos como: (1) UML é uma linguagem para modelagem de software que inclui diagramas estáticos, dinâmicos e funcionais; (2) Diagramas de casos de uso descrevem o que um sistema faz e incluem casos de uso, atores e o sistema; (3) Casos de uso representam funcionalidades do sistema enquanto atores representam entidades externas que interagem com o sistema.
O documento discute o paradigma funcional de programação e linguagens funcionais. Ele apresenta os problemas da crise do software e como as linguagens funcionais podem ajudar a resolvê-los, permitindo programas mais claros, concisos e seguros. Em seguida, explica os conceitos-chave de programação funcional e fornece exemplos nas linguagens Haskell e Lisp.
Este documento fornece um resumo da linguagem de modelagem UML (Unified Modeling Language). Apresenta os principais diagramas da UML como Diagrama de Casos de Uso, Diagrama de Classes, Diagrama de Sequência e Diagrama de Estados. Também descreve como a UML pode ser usada para modelar sistemas durante todo o ciclo de desenvolvimento de software.
(1) O documento apresenta uma introdução à linguagem Java, abordando sua história, características da plataforma e fundamentos da linguagem como variáveis, operadores e estruturas condicionais;
(2) São apresentados conceitos como tipos primitivos, declaração de classes e variáveis, operadores unários, incremento/decremento e representação de sinal;
(3) O documento também explica conceitos importantes como escopo de variáveis e realiza um exercício prático para fixação dos conceitos apresentados.
Análise Orientada a Objetos - Casos de UsoCursoSENAC
O documento descreve os conceitos de análise orientada a objetos casos de uso. Ele explica que casos de uso representam as funcionalidades do sistema do ponto de vista do usuário, identificando os atores e suas interações com o sistema sem especificar detalhes de implementação. O documento também fornece exemplos e instruções para a elaboração de diagramas de casos de uso.
O documento discute conceitos fundamentais de modelagem de dados, incluindo entidades, atributos, dicionário de dados, classificação de atributos, características de chaves primárias e relacionamentos. Ele define entidades como qualquer coisa do mundo real sobre a qual se deseja armazenar informações, e atributos como propriedades relacionadas a entidades. O documento também descreve tipos de cardinalidade em relacionamentos, como um-para-um, um-para-muitos e muitos-para-muitos.
O documento discute diagramas UML de casos de uso. Resume os principais pontos como: (1) UML é uma linguagem para modelagem de software que inclui diagramas estáticos, dinâmicos e funcionais; (2) Diagramas de casos de uso descrevem o que um sistema faz e incluem casos de uso, atores e o sistema; (3) Casos de uso representam funcionalidades do sistema enquanto atores representam entidades externas que interagem com o sistema.
O documento discute o paradigma funcional de programação e linguagens funcionais. Ele apresenta os problemas da crise do software e como as linguagens funcionais podem ajudar a resolvê-los, permitindo programas mais claros, concisos e seguros. Em seguida, explica os conceitos-chave de programação funcional e fornece exemplos nas linguagens Haskell e Lisp.
Este documento fornece um resumo da linguagem de modelagem UML (Unified Modeling Language). Apresenta os principais diagramas da UML como Diagrama de Casos de Uso, Diagrama de Classes, Diagrama de Sequência e Diagrama de Estados. Também descreve como a UML pode ser usada para modelar sistemas durante todo o ciclo de desenvolvimento de software.
Um diagrama de caso de uso descreve as interações entre atores e um sistema. Mostra atores, casos de uso e seus relacionamentos. Casos de uso representam requisitos funcionais do sistema e especificam o que o sistema deve fazer. Atores são entidades externas que interagem com o sistema em um caso de uso.
El documento describe el modelo de arquitectura de tres capas, el cual separa una aplicación en capas de presentación, lógica de negocio y datos. La capa de presentación contiene la interfaz de usuario, la capa lógica de negocio encapsula las reglas del negocio, y la capa de datos se comunica con la base de datos. Este modelo ofrece ventajas como independencia entre componentes, distribución en múltiples servidores y mejor seguridad.
1) A UML foi desenvolvida por três especialistas em modelagem orientada a objetos para padronizar a notação usada nesse processo.
2) A UML é aplicada em diferentes fases do desenvolvimento de software, desde a análise de requisitos até os testes, usando diagramas como casos de uso, classes e sequência.
3) A UML tem nove tipos de diagramas que representam diferentes aspectos de um sistema, como funcionalidade, estrutura e comportamento.
Análise Orientada a Objetos - Diagrama de SequenciaCursoSENAC
O documento descreve o diagrama de sequência como um diagrama que determina a sequência de eventos em um caso de uso, mostrando quais operações devem ser disparadas entre os objetos envolvidos e em qual ordem para completar o caso de uso. Ele explica os componentes do diagrama de sequência, incluindo atores, objetos, linhas de vida e mensagens.
O documento discute diagramas de classes no contexto de análise e projeto de sistemas. Explica que diagramas de classes mostram as classes, atributos, métodos e relacionamentos de um sistema de forma estática. Também discute conceitos como classes, atributos, métodos, relacionamentos, herança e agregação.
O documento descreve conceitos e técnicas relacionadas a diagramas de casos de uso, incluindo: (1) casos de uso capturam interações entre usuários e sistemas; (2) diagramas de casos de uso ajudam no entendimento dos requisitos funcionais de um sistema; (3) casos de uso representam versões externas do sistema e envolvem atores e sequências de ações.
O documento descreve a ferramenta livre Weka para mineração de dados, desenvolvida na Universidade de Waikato na Nova Zelândia. Apresenta as principais características e vantagens da Weka, como sua interface gráfica e grande variedade de algoritmos de aprendizagem de máquina e pré-processamento de dados. Também explica o formato .ARFF utilizado e onde encontrar mais informações sobre a ferramenta.
Sistema de Gerenciamento de Locadora de Vídeo - DiagramasGleyciana Garrido
O documento apresenta o diagrama de casos de uso, classes e sequência de um sistema de gerenciamento de locadora de vídeo. Inclui descrição dos casos de uso como cadastrar, alterar e excluir clientes, vídeos e usuários. Tem como objetivo automatizar os processos de locação e devolução de DVDs.
Este documento presenta el método de estimación de puntos de casos de uso para calcular el esfuerzo requerido para desarrollar un proyecto de software. Explica cómo calcular los puntos de casos de uso sin ajustar y ajustados considerando factores como los actores, casos de uso, complejidad técnica y ambiental. Finalmente, muestra cómo convertir los puntos de casos de uso ajustados a una estimación de horas-hombre requeridas para el desarrollo.
O documento discute a herança em Java para reestruturar código repetido de classes de funcionários. Propõe criar uma classe Funcionario como superclasse e subclasses Gerente e Professor que herdam atributos e métodos de Funcionario. Isso centraliza informações de funcionários e facilita manutenção caso necessitem adicionar novos atributos ou tipos de funcionários no futuro.
O documento discute arrays em Java. Ele explica que arrays são coleções homogêneas de valores ou objetos, e que para criar e usar um array são necessários três passos: declaração, construção e inicialização. Ele também descreve como acessar, inicializar e percorrer elementos de um array.
Este documento apresenta os principais conceitos da Linguagem de Modelagem Unificada (UML). Resume os principais métodos de engenharia de software orientados a objetos que levaram ao desenvolvimento da UML e descreve os tipos de modelos e diagramas que compõem a UML, incluindo classes, sequências, casos de uso e máquinas de estados.
Um dos pilares da orientação a objetos, o Encapsulamento é o conceito responsável pela definição de acessos as classes e seus métodos e atributos. Juntamente com a Herança e o Polimorfismo, itens essenciais a compreensão deste paradigma de programação.
Métrica de punto de función y lineas de codigoJesús E. CuRias
Este documento describe varios métodos para medir el tamaño y la complejidad del software, incluida la métrica de punto de función y la métrica de líneas de código. La métrica de punto de función mide la funcionalidad entregada al usuario independientemente de la tecnología subyacente, mientras que la métrica de líneas de código proporciona una medida aproximada del tamaño pero no es confiable para medir la productividad o la complejidad. El documento también discute las ventajas y desventajas de estas
Descripción del caso de uso mediante UML:
El diagrama de casos de uso representa la forma en como un Cliente (Actor) opera con el sistema en desarrollo, además de la forma, tipo y orden en como los elementos interactúan (operaciones o casos de uso).
1. O documento descreve o diagrama de fluxo de dados (DFD), uma ferramenta de modelagem que representa um sistema como uma rede de processos funcionais interligados por fluxos e depósitos de dados.
2. Um DFD contém quatro componentes principais: processos, fluxos, depósitos e terminadores. Processos representam funções do sistema, fluxos representam movimento de dados, depósitos representam dados armazenados e terminadores representam entidades externas.
3. Um DFD deve ser desenhado em níveis, com cada nível
O documento explica o que é um diagrama de casos de uso, seus principais componentes e objetivos. Ele descreve como os diagramas de casos de uso mapeiam requisitos funcionais e servem como base para outros diagramas da UML, representando as interações entre atores e casos de uso de uma maneira abstrata e flexível.
O documento descreve os componentes e construção de diagramas de sequência no UML. Especificamente, ele explica que diagramas de sequência ilustram a interação entre objetos através da troca de mensagens, e incluem atores, objetos, mensagens, linhas de vida e foco no controle para representar a criação e destruição de objetos.
El documento describe los conjuntos de entidades débiles y cómo se tratan en el modelo entidad-relación. Las entidades débiles no tienen una clave primaria propia, por lo que se identifican mediante la combinación de su clave con la clave de la entidad fuerte asociada. También explica que una entidad débil siempre debe estar relacionada de forma obligatoria a una única entidad fuerte para poder identificarse completamente.
Este documento fornece instruções passo a passo para instalar e configurar o ambiente de desenvolvimento necessário para utilizar a ferramenta WEKA de mineração de dados. Ele descreve como baixar e instalar o Java SDK, WEKA e Eclipse, e configurar as variáveis de ambiente. Também apresenta exemplos de uso de alguns algoritmos do WEKA, como árvore de decisão, K-Means e Apriori.
Este documento apresenta um resumo sobre o WEKA, um software livre para mineração de dados e aprendizado de máquina. O documento discute os conceitos básicos do WEKA, como usar sua interface gráfica e API para pré-processamento de dados, classificação, visualização e avaliação de modelos.
Um diagrama de caso de uso descreve as interações entre atores e um sistema. Mostra atores, casos de uso e seus relacionamentos. Casos de uso representam requisitos funcionais do sistema e especificam o que o sistema deve fazer. Atores são entidades externas que interagem com o sistema em um caso de uso.
El documento describe el modelo de arquitectura de tres capas, el cual separa una aplicación en capas de presentación, lógica de negocio y datos. La capa de presentación contiene la interfaz de usuario, la capa lógica de negocio encapsula las reglas del negocio, y la capa de datos se comunica con la base de datos. Este modelo ofrece ventajas como independencia entre componentes, distribución en múltiples servidores y mejor seguridad.
1) A UML foi desenvolvida por três especialistas em modelagem orientada a objetos para padronizar a notação usada nesse processo.
2) A UML é aplicada em diferentes fases do desenvolvimento de software, desde a análise de requisitos até os testes, usando diagramas como casos de uso, classes e sequência.
3) A UML tem nove tipos de diagramas que representam diferentes aspectos de um sistema, como funcionalidade, estrutura e comportamento.
Análise Orientada a Objetos - Diagrama de SequenciaCursoSENAC
O documento descreve o diagrama de sequência como um diagrama que determina a sequência de eventos em um caso de uso, mostrando quais operações devem ser disparadas entre os objetos envolvidos e em qual ordem para completar o caso de uso. Ele explica os componentes do diagrama de sequência, incluindo atores, objetos, linhas de vida e mensagens.
O documento discute diagramas de classes no contexto de análise e projeto de sistemas. Explica que diagramas de classes mostram as classes, atributos, métodos e relacionamentos de um sistema de forma estática. Também discute conceitos como classes, atributos, métodos, relacionamentos, herança e agregação.
O documento descreve conceitos e técnicas relacionadas a diagramas de casos de uso, incluindo: (1) casos de uso capturam interações entre usuários e sistemas; (2) diagramas de casos de uso ajudam no entendimento dos requisitos funcionais de um sistema; (3) casos de uso representam versões externas do sistema e envolvem atores e sequências de ações.
O documento descreve a ferramenta livre Weka para mineração de dados, desenvolvida na Universidade de Waikato na Nova Zelândia. Apresenta as principais características e vantagens da Weka, como sua interface gráfica e grande variedade de algoritmos de aprendizagem de máquina e pré-processamento de dados. Também explica o formato .ARFF utilizado e onde encontrar mais informações sobre a ferramenta.
Sistema de Gerenciamento de Locadora de Vídeo - DiagramasGleyciana Garrido
O documento apresenta o diagrama de casos de uso, classes e sequência de um sistema de gerenciamento de locadora de vídeo. Inclui descrição dos casos de uso como cadastrar, alterar e excluir clientes, vídeos e usuários. Tem como objetivo automatizar os processos de locação e devolução de DVDs.
Este documento presenta el método de estimación de puntos de casos de uso para calcular el esfuerzo requerido para desarrollar un proyecto de software. Explica cómo calcular los puntos de casos de uso sin ajustar y ajustados considerando factores como los actores, casos de uso, complejidad técnica y ambiental. Finalmente, muestra cómo convertir los puntos de casos de uso ajustados a una estimación de horas-hombre requeridas para el desarrollo.
O documento discute a herança em Java para reestruturar código repetido de classes de funcionários. Propõe criar uma classe Funcionario como superclasse e subclasses Gerente e Professor que herdam atributos e métodos de Funcionario. Isso centraliza informações de funcionários e facilita manutenção caso necessitem adicionar novos atributos ou tipos de funcionários no futuro.
O documento discute arrays em Java. Ele explica que arrays são coleções homogêneas de valores ou objetos, e que para criar e usar um array são necessários três passos: declaração, construção e inicialização. Ele também descreve como acessar, inicializar e percorrer elementos de um array.
Este documento apresenta os principais conceitos da Linguagem de Modelagem Unificada (UML). Resume os principais métodos de engenharia de software orientados a objetos que levaram ao desenvolvimento da UML e descreve os tipos de modelos e diagramas que compõem a UML, incluindo classes, sequências, casos de uso e máquinas de estados.
Um dos pilares da orientação a objetos, o Encapsulamento é o conceito responsável pela definição de acessos as classes e seus métodos e atributos. Juntamente com a Herança e o Polimorfismo, itens essenciais a compreensão deste paradigma de programação.
Métrica de punto de función y lineas de codigoJesús E. CuRias
Este documento describe varios métodos para medir el tamaño y la complejidad del software, incluida la métrica de punto de función y la métrica de líneas de código. La métrica de punto de función mide la funcionalidad entregada al usuario independientemente de la tecnología subyacente, mientras que la métrica de líneas de código proporciona una medida aproximada del tamaño pero no es confiable para medir la productividad o la complejidad. El documento también discute las ventajas y desventajas de estas
Descripción del caso de uso mediante UML:
El diagrama de casos de uso representa la forma en como un Cliente (Actor) opera con el sistema en desarrollo, además de la forma, tipo y orden en como los elementos interactúan (operaciones o casos de uso).
1. O documento descreve o diagrama de fluxo de dados (DFD), uma ferramenta de modelagem que representa um sistema como uma rede de processos funcionais interligados por fluxos e depósitos de dados.
2. Um DFD contém quatro componentes principais: processos, fluxos, depósitos e terminadores. Processos representam funções do sistema, fluxos representam movimento de dados, depósitos representam dados armazenados e terminadores representam entidades externas.
3. Um DFD deve ser desenhado em níveis, com cada nível
O documento explica o que é um diagrama de casos de uso, seus principais componentes e objetivos. Ele descreve como os diagramas de casos de uso mapeiam requisitos funcionais e servem como base para outros diagramas da UML, representando as interações entre atores e casos de uso de uma maneira abstrata e flexível.
O documento descreve os componentes e construção de diagramas de sequência no UML. Especificamente, ele explica que diagramas de sequência ilustram a interação entre objetos através da troca de mensagens, e incluem atores, objetos, mensagens, linhas de vida e foco no controle para representar a criação e destruição de objetos.
El documento describe los conjuntos de entidades débiles y cómo se tratan en el modelo entidad-relación. Las entidades débiles no tienen una clave primaria propia, por lo que se identifican mediante la combinación de su clave con la clave de la entidad fuerte asociada. También explica que una entidad débil siempre debe estar relacionada de forma obligatoria a una única entidad fuerte para poder identificarse completamente.
Este documento fornece instruções passo a passo para instalar e configurar o ambiente de desenvolvimento necessário para utilizar a ferramenta WEKA de mineração de dados. Ele descreve como baixar e instalar o Java SDK, WEKA e Eclipse, e configurar as variáveis de ambiente. Também apresenta exemplos de uso de alguns algoritmos do WEKA, como árvore de decisão, K-Means e Apriori.
Este documento apresenta um resumo sobre o WEKA, um software livre para mineração de dados e aprendizado de máquina. O documento discute os conceitos básicos do WEKA, como usar sua interface gráfica e API para pré-processamento de dados, classificação, visualização e avaliação de modelos.
O modelo de regressão é então usado para prever o resultado de uma variável dependente desconhecida, dados os valores das variáveis independentes.
Nesta aula, mostro um passo a passo com a bordage teórica e prática de como fazer regressão linear utilizando o WEKA
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendaçãosaspi2
Este documento discute a aplicação de técnicas de mineração de dados em sistemas de recomendação. Apresenta os conceitos de sistemas de recomendação, mineração de dados, regras de associação e classificação baseada em associação. Propõe uma metodologia que utiliza algoritmos de classificação baseada em associação fuzzy para validação em um sistema de recomendação.
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Caio Moreno
O documento discute como as estratégias de Business Intelligence (BI) podem ajudar as empresas a tomarem decisões mais rápidas e seguras por meio de ferramentas como data warehouse, cubos OLAP, relatórios e dashboards. O Pentaho é apresentado como uma plataforma de código aberto para BI que oferece essas funcionalidades de forma gratuita.
O documento apresenta estudos de caso sobre segurança na internet conduzidos pelo professor João Gabriel Lima, incluindo o ataque ao site Ashley Madison, ataques de malvertising escondendo malware em pixels de banners publicitários e o grande ataque DDoS de 2016 contra servidores da Dyn que causou instabilidade em diversos sites e serviços.
Filiação partidária e risco de corrupção de servidores públicos federaisRommel Carvalho
O documento discute o uso de aprendizado de máquina para analisar a relação entre filiação partidária e risco de corrupção entre servidores públicos federais brasileiros. Os dados mostraram uma correlação positiva entre filiação partidária e casos de corrupção. Um modelo de floresta aleatória obteve os melhores resultados, identificando variáveis-chave como tempo de filiação e motivo de cancelamento.
Uso de mineração de dados e textos para cálculo de preços de referência em co...Rommel Carvalho
Uma das grandes responsabilidades da CGU é identificar as compras do governo com valores diferentes dos praticados pelo mercado. Dessa forma, é possível mensurar o grau de eficiência das compras realizadas pelos órgãos governamentais. Essa informação é útil tanto para o auditor, que é responsável por fiscalizar o uso dos recursos públicos, como para o gestor, que pode melhorar seus processos observando as melhores práticas de outras unidades do governo. Dada a enorme quantidade e a diversidade das compras realizadas pelo Governo, essa análise se torna praticamente inviável sem a ajuda de algum mecanismo automatizado. No entanto, para que essa análise automatizada seja possível, é preciso ter antes de tudo, uma base de dados com os preços médios, ou de referência, para cada produto que se deseja analisar. Apesar de todas as compras do Governo Federal serem inseridas em um sistema único e centralizado, as informações armazenadas não são detalhadas e estruturadas o suficiente para se calcular esses preços de referência.
Essa palestra apresenta a metodologia desenvolvida na CGU, baseada em técnicas de mineração de dados, para extrair as informações necessárias desse sistema centralizado de forma a possibilitar o cálculo de preços de referência para produtos comprados pelo Governo Federal. Além disso, são apresentadas também algumas análises feitas com base no banco de preços criado a partir dessa metodologia de forma a enfatizar sua importância para a melhoria da gestão dos recursos públicos.
Rommel Novaes Carvalho - Controladoria-Geral da União
Coordenador-Geral do Observatório da Despesa Pública da CGU (http://www.cgu.gov.br/assuntos/informacoes-estrategicas/observatorio-da-despesa-publica), realizou seu PhD e Pós-Doc na George Mason University, EUA, na área de Inteligência Artificial, Web Semântica e Mineração de Dados e também é professor do Mestrado Profissional em Computação Aplicada da UnB
O documento apresenta ferramentas para mineração de dados como Weka e Mahout. Discute as funcionalidades do Weka como classificação, clusterização e associação de regras. Apresenta exemplos de uso do Weka para classificação de veículos e associação de departamentos de supermercado. Introduz o Mahout como biblioteca escalável para aprendizagem de máquina em Hadoop.
O documento discute o uso de ferramentas de pesquisa como Lucene, Solr e Hibernate Search para adicionar funcionalidades de busca a aplicações. Apresenta Lucene como uma biblioteca de código aberto para indexação e pesquisa de documentos e Solr como uma implementação de servidor de pesquisa baseada no Lucene. Discute também o Hibernate Search para integrar pesquisas a bancos de dados usando Hibernate.
O documento descreve os conceitos e ferramentas de Business Intelligence (BI) e como a suíte Pentaho pode ser usada para desenvolver soluções de BI. A suíte Pentaho inclui ferramentas para modelagem de dados, ETL, análise e visualização de dados que podem ser usadas para construir um sistema completo de BI.
Aplicação de técnicas de mineração de textos para classificação automática de...Rommel Carvalho
O uso de classificação automática de textos tem se tornado cada vez mais comum nos últimos anos. Contudo, ao se trabalhar com classificação em larga escala, a complexidade aumenta consideravelmente. Foi realizado um estudo de caso, aplicado à triagem de denúncias na Controladoria Geral da União, utilizando uma grande quantidade de categorias a serem classificadas. A solução proposta empregou aprendizagem de máquina e classificação multilabel. Essas técnicas tiveram como objetivo a construção de um modelo capaz de solucionar adversidades inerentes a este contexto, apresentando ganhos significativos
Patrícia Helena Maia Alves de Andrade - Controladoria-Geral da União
Analista de Finanças e Controle da CGU, atuando na área de mineração de textos e análise de dados, na Diretoria de Pesquisa e Informações Estratégicas. Atualmente está finalizando o Mestrado Profissional em Computação Aplicada na Universidade de Brasília
Extração de informações de texto e cálculo de similaridade usando Apache LuceneAndré Luis Schwerz
O documento descreve os processos de extração de informações de texto e cálculo de similaridade usando Apache Lucene, incluindo tokenização, normalização, remoção de stopwords, stemming, indexação e busca. É apresentado o fluxo completo desde a preparação dos dados até a recuperação dos resultados de uma consulta. Por fim, é proposta uma atividade prática de indexação e busca em textos da bíblia usando o framework Lucene.
Apresentação do @LeoNaressi no Social Media Week 2013 sobre text mining (mineração de textos), análise preditiva e sua aplicação em monitoramento de redes sociais
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???Alessandro Binhara
Atualmente o facebook recebe diariamente cerca de 380 milhões de fotos por dia, isso significa um custo de milhares de computadores para conseguir armazenar esse volume de dados. Mas por que o facebook, google e outros mantem serviço gratuitos se tem um custo alto para operar esses serviços? Conheça um pouco da tecnologia por trás desse serviços, a legalidade do armazenamento e rastreamento dos dados, e por que essa empresa investem tanto para dar um serviço de graça.
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreVivaldo Jose Breternitz
O documento discute Big Data, Analytics e o Cientista de Dados. Aborda o que é Big Data e como os dados são coletados e processados. Explora o que é Analytics e como extrair conhecimento dos dados. Define o Cientista de Dados e as qualificações e habilidades necessárias para a profissão.
MinerAll: Uma ferramenta para extração e mineração de dados de repositórios d...Igor Steinmacher
Apresentação do artigo "MinerAll: Uma ferramenta para extração e mineração de dados de repositórios de software livre" por José Teodoro da Silva no WSL em 2011
De dev para data scientist 3 coisas que aprendiRodrigo Vieira
Dica 1: Aprenda estatística básica usando recursos online e focando em um problema prático de cada vez. Dica 2: Encontre um problema real para resolver com data science. Dica 3: Aplique o método científico, não descarte resultados e mantenha tudo documentado e reprodutível.
Usabilidade de interface para busca e recuperação de informação na webRobson Santos
O documento discute interfaces para busca de informação em bibliotecas online. Foi desenvolvido um protótipo de interface e avaliado por meio de questionários e grupos focais, que resultaram em recomendações de melhoria. Os resultados indicaram que o protótipo facilitou a busca de forma efetiva, eficiente e satisfatória para os usuários.
O documento discute como criar um Produto Mínimo Viável (MVP) em três etapas: 1) Definir a proposta de valor e benefícios mínimos, 2) Testar hipóteses com clientes através de métricas como conversão e engajamento, 3) Analisar os resultados e aprender para melhorar o produto de forma iterativa.
A linguagem C# aproveita conceitos de muitas outras linguagens,
mas especialmente de C++ e Java. Sua sintaxe é relativamente fácil, o que
diminui o tempo de aprendizado. Todos os programas desenvolvidos devem
ser compilados, gerando um arquivo com a extensão DLL ou EXE. Isso torna a
execução dos programas mais rápida se comparados com as linguagens de
script (VBScript , JavaScript) que atualmente utilizamos na internet
Em um mundo cada vez mais digital, a segurança da informação tornou-se essencial para proteger dados pessoais e empresariais contra ameaças cibernéticas. Nesta apresentação, abordaremos os principais conceitos e práticas de segurança digital, incluindo o reconhecimento de ameaças comuns, como malware e phishing, e a implementação de medidas de proteção e mitigação para vazamento de senhas.
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...Faga1939
Este artigo tem por objetivo apresentar como ocorreu a evolução do consumo e da produção de energia desde a pré-história até os tempos atuais, bem como propor o futuro da energia requerido para o mundo. Da pré-história até o século XVIII predominou o uso de fontes renováveis de energia como a madeira, o vento e a energia hidráulica. Do século XVIII até a era contemporânea, os combustíveis fósseis predominaram com o carvão e o petróleo, mas seu uso chegará ao fim provavelmente a partir do século XXI para evitar a mudança climática catastrófica global resultante de sua utilização ao emitir gases do efeito estufa responsáveis pelo aquecimento global. Com o fim da era dos combustíveis fósseis virá a era das fontes renováveis de energia quando prevalecerá a utilização da energia hidrelétrica, energia solar, energia eólica, energia das marés, energia das ondas, energia geotérmica, energia da biomassa e energia do hidrogênio. Não existem dúvidas de que as atividades humanas sobre a Terra provocam alterações no meio ambiente em que vivemos. Muitos destes impactos ambientais são provenientes da geração, manuseio e uso da energia com o uso de combustíveis fósseis. A principal razão para a existência desses impactos ambientais reside no fato de que o consumo mundial de energia primária proveniente de fontes não renováveis (petróleo, carvão, gás natural e nuclear) corresponde a aproximadamente 88% do total, cabendo apenas 12% às fontes renováveis. Independentemente das várias soluções que venham a ser adotadas para eliminar ou mitigar as causas do efeito estufa, a mais importante ação é, sem dúvidas, a adoção de medidas que contribuam para a eliminação ou redução do consumo de combustíveis fósseis na produção de energia, bem como para seu uso mais eficiente nos transportes, na indústria, na agropecuária e nas cidades (residências e comércio), haja vista que o uso e a produção de energia são responsáveis por 57% dos gases de estufa emitidos pela atividade humana. Neste sentido, é imprescindível a implantação de um sistema de energia sustentável no mundo. Em um sistema de energia sustentável, a matriz energética mundial só deveria contar com fontes de energia limpa e renováveis (hidroelétrica, solar, eólica, hidrogênio, geotérmica, das marés, das ondas e biomassa), não devendo contar, portanto, com o uso dos combustíveis fósseis (petróleo, carvão e gás natural).
As classes de modelagem podem ser comparadas a moldes ou
formas que definem as características e os comportamentos dos
objetos criados a partir delas. Vale traçar um paralelo com o projeto de
um automóvel. Os engenheiros definem as medidas, a quantidade de
portas, a potência do motor, a localização do estepe, dentre outras
descrições necessárias para a fabricação de um veículo
1. Relatório de Utilização da Ferramenta Weka
Francisco Glaubos Nunes Clímaco
2 de junho de 2014
1 Introdução
Este é um relatório de trabalho proposto no qual o objetivo era escolher uma
base de dados, aplicar as tarefas de mineração de dados: classificação, associação
e clusterização e analisar os resultados obtidos por cada método de cada tarefa.
1.1 A base de dados
A base utilizada neste trabalho foi a Breast Cancer, que foi obtida a partir do
Centro Médico da Universidade, Instituto de Oncologia, Ljubljana, Iugoslávia
[2]. Esta base possui informações acerca de pacientes com câncer de mama e
inclui no total 286 instâncias: 201 de uma classe, 85 de outra classe e 277 sem
valores ausentes, estas são descritas por nove atributos (Tabela 1) , alguns são
lineares e outros são nominais:
1. Class: Não-Recorrência ou Recorrência de sintomas do câncer de mama
nos pacientes após o tratamento.
2. age: Idade do paciente no momento do diagnóstico.
3. menopause: Estado de menopausa do paciente no momento do diagnós-
tico.
4. tumor-size: O tamanho do tumor em milímetros.
5. inv-nodes: Faixa de 0 a 39 linfonodos auxiliares, que mostram o câncer de
mama no momento do exame histológico.
6. nodes-cap: A penetração do tumor na cápsula do linfonodo ou não.
7. deg-malign: Faixa de grau 1 a 3, que define o grau histológico do tumor,
o nível de malignidade do tumor.
8. breast:O câncer poder ocorrer em qualquer mama.
9. breast-quad: Se for considerado o mamilo como um ponto central, a mama
pode ser dividida em quatro quadrantes.
10. irradiat: Se o paciente possui ou não histórico de terapia de radiação (raio-
x).
1
2. Atributo Valor
Class: no-recurrence-events, recurrence-events.
age: 10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99.
menopause: lt40, ge40, premeno.
tumor-size: 0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59.
inv-nodes: 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26,27-29, 30-32, 33-35, 36-39.
node-caps: yes, no.
deg-malig: 1, 2, 3.
breast: left, right.
breast-quad: left-up, left-low, right-up, right-low, central.
irradiat: yes, no.
Tabela 1: Base de dados Breast Cancer
.
Uma visualização gráfica da Tabela 1, em forma de histograma mostrando
cada atributo da base de dados e seu domínio foi gerada pela ferramenta Weka
e pode ser vista na Figura 1.
Figura 1: Representação gráfica dos atributos, gerada pela ferramenta Weka.
1.2 Tarefas
Com o objetivo de extrair informações relevantes em relação a base de dados
Breast Cancer, utilizou-se três tipos de tarefas de mineração de dados: classifica-
ção, associação e clusterização. Para a análise de classificação foram utilizados
o método Nayve Bayes, IBK e J48. No IBK foi variado o valor do atributo
K, a fim de se observar melhor sua influência no sucesso de classificação deste
método.
Na tarefa de associação foi utilizado o algoritmo Apriori com o objetivo de
extrair regras de associação variando alguns parâmetros como suporte mínimo,
confiança, Lift e Leverage, e após uma análise dos resultados.
Para realizar a tarefa de clusterização, foram executados os procedimentos
2
3. K-means e DSCAN, variando os parâmetros de entrada e posteriormente reali-
zando uma análise dos resultados com base nos centróides dos clusters.
2 Tarefas de Mineração de Dados
2.1 Classificação
Classificação é o processo que visa encontrar modelos ou funções que descrevam
ou distinguam classes ou conceitos de dados, com o intuito de permitir que o
modelo ou função preveja a classe daqueles objetos que não possuem um label
que indique sua classe [1]. Para os experimentos utilizou-se por default o Cross-
Validation com k=10.
2.1.1 Nayve Bayes
É um classificador probabilístico baseado no Teorema de Bayes.Sua ideia prin-
cipal é calcular a probabilidade de certa instância de entrada pertencer a cada
uma das classes.
Este método foi executado pela ferramenta Weka e os resultados estão na
Figura 2. O resumo dos resultados dessa execução pode ser apresentado da
seguinte forma: o algoritmo Nayve Bayes classificou corretamente 205 e incor-
retamente 81 instâncias, e a partir da matriz de confusão ainda pode-se con-
cluir que 33 instâncias foram classificadas como reccurence-events, quando de
fato pertencem a classe no-reccurence-events, e que 48 foram da mesma forma
incorretamente classificadas como no-reccurence-events quando na verdade per-
tencem a classe reccurence-events.
Figura 2: Resultados da execução do método Nayve Bayes.
3
4. 2.1.2 IBK
É uma estratégia baseada no algoritmo K-NN, no qual parte da ideia de que
em um espaço n-dimensional, um ponto P e os seus K vizinhos mais próximos,
pertencem a mesma classe. A proximidade entre dois pontos nesse espaço é cal-
culada por meio da distância Euclidiana entre estes pontos, foi testado também
com a distância de Manhattan, porém os resultados são os mesmos.
A seguir na Figura 3, o resultado da execução do IBK com k=1, ou seja, a
instância irá pertencer a classe predominante entre si e seu vizinho mais próximo.
Figura 3: Resultados do método IBK com k=1.
De forma empírica, foi-se alterando o valor do parâmetro K de forma cres-
cente a partir de K=1 e foi observado que os resultados melhoraram até certo
ponto: variando o valor de K de 1 até 4, as instâncias são melhores classificadas
a medida que K cresce, porém quando K recebe o valor 5, a qualidade de clas-
sificação das instâncias diminui. O gráfico abaixo representa o comportamento
de K em função da qualidade de classificação:
4
5. 1 2 3 4 5 6
72.5
73
73.5
74
74.5
k-vizinhos mais próximos
instânciascorretamenteclassificadas(%)
Na Figura 4, o resultado da melhor calssificação do IBK: 213 instâncias clas-
sificadas corretamente (74.47%) e 73 (25.52%) classificadas incorretamente, e
a partir da matriz de confusão, sete instâncias classificadas como reccurence-
events, quando deveriam ser da classe no-reccurence-events e 66 instâncias clas-
sificadas de forma incorreta como no-reccurence-events, pois pertencem a classe
recurrence-events.
Figura 4: Resultados do método IBK com k=4.
5
6. 2.1.3 J48
É uma implementação Java do algoritmo C4.5, presente na ferramenta Weka.
O C4.5 é uma estratégia que cria uma árvore de decisão baseada na entrada de
um conjunto de dados com seus respectivos labels. Os resultados da execução
do J48 podem ser visualizados na Figura 5, utilizou-se a configuração default da
ferramenta Weka: número mínimo de objetos por folha = 2 e fator de confiança
= 0.3.
Figura 5: Resultados do método j48
Após a obtenção do resultado com a configuração default testou-se o J48 va-
riando o atributo confidence factor. De acordo com o incremento ou decremento
deste fator de confiança, pode-se obter uma árvore de decisão mais ou menos
detalhada, uma vez que quando se diminui o fator de confiança se força uma
poda maior na árvore, gerando consequentemente um modelo mais genérico,
Figura 6.
6
7. Figura 6: Árvore gerada pela ferramenta Weka após a execução do J48.
A Figura 7 a seguir mostra os resultados da variação do confidence factor e
sua influência direta na qualidade de classificação do J48.
69 70 71 72 73 74 75 76
0
0.2
0.4
0.6
quantidade de instâncias corretamente classificadas (%)
valordoconfidencefactor
Figura 7: Representação do crescimento da qualidade de classificação em função
do confidence factor.
7
8. Analizando o gráfico da Figura 7, pode-se observar que o fator de confiança
igual a 0.3 definido por default não convergia para o pior caso de classifica-
ção, mas também não era o ideal para o J48, ao decrementá-lo observou-se que
a quantidade de instâncias corretamente classificadas aumentou, entretanto, a
partir do momento exato em que o confidence factor é igual 0.2, a qualidade
de classificação se mantém constante (75.5245%). Não se pode afirmar mais
a respeito de maneira empírica devido há uma limitação na ferramenta Weka
(quando se atribui valores muito pequenos ao confidence factor, aparece a se-
guinte mensagem de erro: Problem evaluating classifier), mas há uma possibi-
lidade de o limite da qualidade de classificação manter-se constante quando o
fator de confiança tende a zero.
2.1.4 Comparação entre as estratégias utilizadas
Ao se comparar os resultados obtidos pelas três estratégias abordadas para clas-
sificação da base, se observou que globalmente o método com melhor desempe-
nho foi o J48 que classificou corretamente 216 instâncias e incorretamente 70
(utilizando confidence factor igual a 0.2), em seguida o melhor classificador para
a base foi o IBK com k igual a 4 que classificou corretamente 213 instâncias e 73
de forma incorreta, e por último o Nayve Bayes com o pior desempenho, obteve
205 instâncias classificadas de maneira correta e 85 incorreta. Figura 8.
Figura 8: Desempenho global dos classificadores
Contudo, foi observado que localmente essa classificação dos classificadores
não se repete, pois analizando de forma isolada a classe no-recurrence-events,
nota-se que o IBK classificou corretamente 194 instâncias pertecentes a esta
classe, enquanto o J48 classificou 191 corretamente e seguido pelo Nayve Bayes
que de maneira correta classificou 180 instâncias dessa classe. Este tipo de
observação também é válida referente a classe recurrence-events. Figura 9.
8
9. Figura 9: Desempenho local dos classificadores em relação a classe no-
recurrence-events
2.2 Associação
Pode ser definida como a tarefa de extrair regras de associação que representam
padrões entre itens de uma aplicação, com certa frequência [1].
2.2.1 Apriori
É uma estratégia que parte da seguinte ideia: se um padrão de tamanho k não
é frequente, então seu super-padrão de tamanho k+1 também não será.
Primeiramente buscou-se utilizar o Modelo Suporte/Confiança, com suporte
mínimo igual a 0.5 e confiança igual a 0.9. As três melhores regras geradas por
esse método foram:
• R1: inv−nodes = 0−2, irradiat = no, Class = no−recurrence−events
⇒ node − caps = no confiança:(0.99)
• R2: inv − nodes = 0 − 2, irradiat = no ⇒ node − caps = no confi-
ança:(0.97)
• R3: node−caps = no, irradiat = no, Class = no−recurrence−events ⇒
inv − nodes = 0 − 2 confiança:(0.96)
O Modelo Suporte/Confiança gera um número grande de regras de associa-
ção, e que muitas vezes são redundantes, óbvias e até contraditórias, não sendo
interessante ao usuário. Para resolver esse problema, outras medidas de inte-
resse são utilizadas para se definir quais regras são de fato relevantes ao usuário
[3].
Por meio da medida Lift é possível verificar o quanto mais frequente é o con-
sequente quando seu antecedente ocorre, se para uma regra tem-se Lift=1, então
o antecedente e o consequente desta regra são independentes, e para minMetric
9
10. Lift > 1, quanto maior o Lift, mais relevante será a regra. Para o experimento,
foi definido minMetric do Lift=1.1 e a seguir as três melhores regras extraídas:
• R4: inv − nodes = 0 − 2 ⇒ node − caps = no, irradiat = no conf:(0.83)
lift:(1.26)
• R5: node − caps = no, irradiat = no ⇒ inv − nodes = 0 − 2 conf:(0.94)
lift:(1.26)
• R6: node − caps = no ⇒ inv − nodes = 0 − 2, irradiat = no conf:(0.8)
lift:(1.25)
Da regra R4, concluiu-se que os itens inv−nodes = 0−2 e node−caps = no,
irradiat = no possuem dependência positiva (o suporte real da regra é 1.26 vezes
maior que o suporte esperado). O mesmo raciocínio serve para as regras R5 e
R6.
Uma outra medida explorada foi a Rule Interest (RI) ou leverage, que indica
a diferença entre o suporte real e o suporte esperado de uma regra de asso-
ciação. Esta medida varia entre -0.25 e 0.25, quanto maior este valor, mais
interessante será a regra. Assim como a medida Lift, o RI verifica a dependên-
cia do consequente em relação ao seu antecedente, portanto, uma outra medida
(Conviction) será utilizada para verificar se de fato a regra obtida utilizando
essas duas medidas é relevante. Os resultados da utilização do RI e verificação
com minMetric do Conviction igual a 0.9 são detalhados abaixo:
• R7: inv − nodes = 0 − 2 ⇒ node − caps = no, irradiat = no conf:(0.83)
lift:(1.26) < lev:(0.13)> conv:(1.97)
• R8: node − caps = no, irradiat = no ⇒ inv − nodes = 0 − 2 conf:(0.94)
lift:(1.26) < lev:(0.13)> conv:(4)
• R9: inv − nodes = 0 − 2 ⇒ node − caps = no conf:(0.94) lift:(1.22)
<lev:(0.12)> conv:(3.67)
A partir dessas novas três melhores regras geradas observou-se que após a
utilização do RI e a verificação de convicção, R7=R4, R8=R5 e a regra R9
tomou a posição que era de R6, ou seja, R4 e R5 encontradas na extração
anterior de fato eram regras relevantes, enquanto que R6 nem tanto, por esse
motivo R6 sai do conjunto das melhores três regras e dá lugar a R9 que possui
uma convicção melhor.
2.3 Clusterização
É o processo de agrupamento de um conjunto de objetos dentro de classes de
objetos similares [1]. Para a execução deste experimento, o atributo classe foi
desconsiderado, porém utilizado posteriormente para verificar a qualidade da
clusterização obtida.
2.3.1 SimpleKmeans
É um algoritmo baseado na ideia do K-means, onde se tem como entrada o
parâmetro k, que diz respeito ao número de clusters que o método irá gerar. Para
a primeira execução deste algoritmo foi-se utilizado k=2 e Distância Euclidiana
como parâmetros, os resultados pode ser vistos na Figura 10.
10
11. Figura 10: Centroides dos clusters para o SimpleKmeans.
Por meio da Figura 10, pode-se perceber que alguns atributos não distin-
guiram bem os clusters, por exemplo o atributo menopause que teve seu valor
premeno pertencente tanto ao cluster 0 como ao 1. Dessa forma, 25.5245% das
instâncias não foram corretamente clusterizadas. Apesar de a base de dados já
possuir dois grupos definidos (no-recurrence-events e recurrence-events), testou-
se a variância do K a fim de se obter uma possível melhoria na clusterização.
1 1.5 2 2.5 3 3.5 4
80
100
120
140
160
valor do parâmetro K
instânciasincorretamenteclusterizadas
Figura 11: Qualidade da clusterização em função da variância do K.
Os resultados da Figura 11 mostram que exatamente dois clusters clusteri-
zam melhor as instâncias, todos os valores de K=2 clusterizam pior que K=2, e
a medida que se aproxima de K=2, a clusterização melhora.
2.3.2 DBSCAN
É um método baseado em densidade e não utiliza o número de clusters desejados
como parâmetro de entrada. O parâmetro de entrada epsilon significa o raio
de vizinhança com o qual o algoritmo irá trabalhar e minPoints, o número
11
12. instâncias não clusterizadas epsilon minPoints
258 0.9 2
286 (todas) 0.9 3
286 (todas) 0.9 4
286 (todas) 0.9 6
1 2 2
1 2 3
1 2 4
1 2 6
Tabela 2: Variação dos parâmetros epsilon e minPoints.
mínimo de pontos necessários para se ter uma região densa. O experimento foi
executado inicialmente com o epsilon=0.9 e minPoints=6 que são definidos por
padrão na ferramenta Weka. Posteriormente, encetou-se com limite inferior da
variação, minPoints=2, porque baseado no conhecimento prévio da existência
de duas classe na base de dados, intuitivamente o valor 2 iria resultar em uma
clusterização melhor, e com limite superior o valor 6, porque para valores maiores
que 6 o resultado era constante.
A partir da Tabela 2 pode-se notar que com o parâmetro epsilon=0.9 os
resultados são ruins, pois em todos os casos (com exceção do minPoints igual
a 2) de variação do minPoints o algoritmo não consegue clusterizar nenhuma
instância. Porém, com o valor de epsilon alterado para 2, os resultados já
melhoram bastante, apenas uma instância não consegue ser clusterizada e isso
se repete para todas as variações de minPoints.
Após identificar um epsilon que permita uma boa clusterização, verificou-se
a qualidade desta tarefa. De início utilizou-se o que se tinha de melhor até
então (epsilon=2) e foi-se variando os valores de minPoints. O resultado desse
experimento foi que não importa o valor que minPoints assumisse, sempre 85
instâncias eram clusterizadas incorretamente.
Uma nova tentativa de calibração de parâmetros foi feita, desta vez descon-
siderando a intuição de o valor 2 ser o limite inferior das variações de epsilon.
Após alguns testes o epsilon foi calibrado para 1.5, por um lado, esse novo va-
lor aumentou a qualidade de clusterização das instâncias (Figura 12), mas por
outro, decrementou o número de instâncias clusterizadas (Figura 13). Apesar
destes resultados, não foi possível saber se a qualidade de clusterização aumen-
tou realmente ou se clusterizou-se com mais qualidade instâncias mais fáceis e
as mais difíceis de serem clusterizadas simplesmente não foram utilizadas, como
se o algoritmo DBSCAN decrementasse sua possibilidade de errar com esse novo
valor de epsilon.
12
13. 2 3 4 5 6 7
50
60
70
80
valor do minPoints
instânciasincorretamenteclusterizadas
Figura 12: Qualidade da clusterização com epsilon fixo em 1.5.
2 3 4 5 6 7
10
20
30
40
50
60
valor do minPoints
instânciasnãoclusterizadas
Figura 13: Instâncias não clusterizadas com epsilon fixo em 1.5.
3 Conclusão
A realização de experimentos por meio das tarefas de mineração de dados foi
interessante, uma vez que foi possível observar como de fato a classificação, a
extração de regras de associação e a clusterização funcionam com bases reais.
Apesar de não se possuir um conhecimento adequado sobre a ferramenta Weka
que permitisse um aproveitamento melhor durante as análises de resultados,
acredito que o resultado de aprendizagem sobre mineração de dados em geral
foi positivo.
Sobre os resultados dos experimentos, a tarefa que obteve um êxito maior
13
14. em relação a base breast cancer foi a tarefa de classificação, além de classificar
bem as instâncias, observou-se uma flexibilidade interessante em relação à clas-
sificação global e local de tal maneira que o usuário pode obter resultados bons
referentes a apenas uma classe ou as duas, ou seja, em função da perspectiva do
usuário sobre a base de dados.
Após todos os experimentos, concluiu-se principalmente que os parâmetros
de entrada utilizados nas estratégias é um fator determinante para o sucesso
destas. Durante os experimentos, foi observado que se faz necessário um traba-
lho exaustivo na calibragem dos parâmetros até que se obtenha um resultado de
qualidade, nesse sentido, uma ideia para automatizar esse processo seria a im-
plementação de uma meta-heurísitca que recebesse como entrada, um problema:
a base de dados, o algoritmo e seu parâmetros, e retornasse uma solução: um
conjunto de parâmetros que melhor atendesse às necessidades do algoritmo em
função da base.
4 Referências Bibliográficas
-
[1] Jiawei Han. 2005. Data Mining: Concepts and Techniques. Morgan Kauf-
mann Publishers Inc., San Francisco, CA, USA.
[2] Website: http://archive.ics.uci.edu/ml/datasets/Breast+Cancer. Acessado
em 30/04/2014.
[3] GONÇALVES, E. C. - “Regras de Associação e suas Medidas de Interesse
Objetivas e Subjetivas”
14