O documento apresenta os conceitos de mineração de dados, texto e web. Discute a importância do tema e apresenta alguns exemplos de aplicações como extrair conhecimento médico a partir de registros, agrupar notícias e identificar padrões de navegação em sites.
O documento introduz o tema da mineração de informações, definindo seu objetivo de apresentar a importância do tema e conceitos relacionados. Ele também fornece exemplos de aplicações e discute componentes importantes como atributos, dados e algoritmos para gerar hipóteses."
Apresentação de treinamento nos conceitos de PDCA para a equipe operacional.
Apresenta de forma rápida as principais ferramentas e a sequencia, sem aprofundamento matemático nas avaliações.
O documento apresenta os passos do ciclo PDCA para solução de problemas, incluindo identificação do problema, análise do fenômeno e do processo, plano de ação, execução, verificação e ajuste para padronização.
TDC2018SP | Trilha Data Science - Utilizando dados para melhorar seus sistema...tdc-globalcode
O documento discute como utilizar dados para melhorar sistemas e negócios. Ele aborda problemas comuns no uso de dados, como coletar dados mas não armazená-los ou utilizá-los. Também fornece um exemplo de como identificar um problema em um sistema de elevador e como automatizar soluções usando análises de dados e machine learning. Finalmente, discute arquiteturas e padrões para coletar, armazenar e analisar dados de forma a gerar valor contínuo para os negócios.
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
Este documento resume um livro sobre mineração de dados na web usando R. Ele discute 1) o projeto R e suas características, 2) a definição de dados e a diferença entre dados brutos e processados, e 3) como representar dados no R usando vetores, matrizes e data frames.
1) O documento apresenta as informações iniciais sobre a disciplina de Estrutura de Dados ministrada pelo professor Daniel Caetano, incluindo objetivos, plano de ensino, trabalhos e critérios de aprovação.
2) Serão abordados diversos tipos de estruturas de dados lineares e não lineares, bem como formas de armazenamento e manipulação desses dados.
3) Funções serão introduzidas como forma de organizar algoritmos reutilizáveis para inserir, remover e buscar elementos nas estruturas de dados.
Uma introdução à mineração de informações na era do Big DataFabrício Barth
O documento apresenta uma introdução sobre mineração de informações na era do Big Data. Resume os principais tópicos a serem abordados, incluindo a manipulação de dados estruturados e não-estruturados, agrupamento, classificação e web data mining.
(Transformar) Desenvolvendo o Projeto Sessão 02Ink_conteudos
O documento discute o processo e próximos passos para o Projeto Final do Projeto Transformar, que fornecerá até R$10 mil para projetos que aumentem o impacto das organizações. O documento explica como as organizações devem apresentar seus projetos em 1o de dezembro por meio de uma apresentação e vídeo, e serão avaliadas por uma banca em 15 de dezembro. As organizações devem descrever como seus projetos resolverão problemas centrais e como expandirão seu impacto por meio de métricas e planos
O documento introduz o tema da mineração de informações, definindo seu objetivo de apresentar a importância do tema e conceitos relacionados. Ele também fornece exemplos de aplicações e discute componentes importantes como atributos, dados e algoritmos para gerar hipóteses."
Apresentação de treinamento nos conceitos de PDCA para a equipe operacional.
Apresenta de forma rápida as principais ferramentas e a sequencia, sem aprofundamento matemático nas avaliações.
O documento apresenta os passos do ciclo PDCA para solução de problemas, incluindo identificação do problema, análise do fenômeno e do processo, plano de ação, execução, verificação e ajuste para padronização.
TDC2018SP | Trilha Data Science - Utilizando dados para melhorar seus sistema...tdc-globalcode
O documento discute como utilizar dados para melhorar sistemas e negócios. Ele aborda problemas comuns no uso de dados, como coletar dados mas não armazená-los ou utilizá-los. Também fornece um exemplo de como identificar um problema em um sistema de elevador e como automatizar soluções usando análises de dados e machine learning. Finalmente, discute arquiteturas e padrões para coletar, armazenar e analisar dados de forma a gerar valor contínuo para os negócios.
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
Este documento resume um livro sobre mineração de dados na web usando R. Ele discute 1) o projeto R e suas características, 2) a definição de dados e a diferença entre dados brutos e processados, e 3) como representar dados no R usando vetores, matrizes e data frames.
1) O documento apresenta as informações iniciais sobre a disciplina de Estrutura de Dados ministrada pelo professor Daniel Caetano, incluindo objetivos, plano de ensino, trabalhos e critérios de aprovação.
2) Serão abordados diversos tipos de estruturas de dados lineares e não lineares, bem como formas de armazenamento e manipulação desses dados.
3) Funções serão introduzidas como forma de organizar algoritmos reutilizáveis para inserir, remover e buscar elementos nas estruturas de dados.
Uma introdução à mineração de informações na era do Big DataFabrício Barth
O documento apresenta uma introdução sobre mineração de informações na era do Big Data. Resume os principais tópicos a serem abordados, incluindo a manipulação de dados estruturados e não-estruturados, agrupamento, classificação e web data mining.
(Transformar) Desenvolvendo o Projeto Sessão 02Ink_conteudos
O documento discute o processo e próximos passos para o Projeto Final do Projeto Transformar, que fornecerá até R$10 mil para projetos que aumentem o impacto das organizações. O documento explica como as organizações devem apresentar seus projetos em 1o de dezembro por meio de uma apresentação e vídeo, e serão avaliadas por uma banca em 15 de dezembro. As organizações devem descrever como seus projetos resolverão problemas centrais e como expandirão seu impacto por meio de métricas e planos
Metodologia de Análise e
Solução de Problemas
Felipe Morais Menezes, Me.
Tito Rossi, Me.
Ricardo Gazzana Schneider, Me.
Cícero Giordani da Silveira, Me.
O documento discute ferramentas estatísticas e não estatísticas para análise de dados e solução de problemas, incluindo brainstorming, gráficos de Pareto e mapeamento de processos. Estas ferramentas podem ajudar a identificar problemas, priorizar causas e melhorar processos. O documento fornece um exemplo de como os proprietários de uma cafeteria usaram essas ferramentas para entender problemas de vendas e melhorar o atendimento aos clientes.
Anotações de aula da disciplina Modelagem de Sistemas de Informação de Rede do curso de Gestão de Tecnologia da Informação - 3º semestre - UNIP Paulista.
Este documento fornece orientações sobre como desenvolver o planejamento estratégico de uma organização, incluindo como definir metas, monitorá-las por meio de painéis de controle, e desenvolver estratégias e planos de ação para alcançar essas metas.
1) O documento apresenta o plano de aula de uma disciplina de Fundamentos de Sistemas de Informação que abordará conceitos como dados, informação, sistemas e tecnologia da informação. 2) Serão discutidos temas como planejamento estratégico de SI, infraestrutura de TI, segurança da informação e sistemas de gestão empresarial. 3) A avaliação dos alunos consistirá em provas, trabalhos em grupo e seminários sobre sistemas de informação.
Os Perfis dos Cientistas de Dados nos Estados UnidosThiago Mosqueiro
O documento discute perfis de cientistas de dados nos Estados Unidos, incluindo: (1) o ambiente de pesquisa e desenvolvimento em empresas é ágil e baseado em feedback contínuo, (2) cientistas de dados lidam com problemas ambíguos e focam em abordagens baseadas em dados, (3) existem diferentes perfis como analistas de dados, cientistas de dados, cientistas de pesquisa e cientistas aplicados.
PT-BR - Apresentado na Semana Integrar EST-UEA (2021). Mostro sobre as diferenças de aplicação de Machine Learning na academia e na Indústria, quais os prós e contras de cada cenário e como colocar as expectativas corretamente em ambos os contextos.
ENG - Presented in Semana Integrar EST-UEA (2021). I show the differences between the approach of Machine Learning in academia and industry, what are the pros and cons in each above scenario, and how to set correctly the expectations in both situations.
Capítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimentoEverton Souza
Este documento discute como melhorar a tomada de decisão e a gestão do conhecimento nas organizações. Ele aborda os diferentes tipos de decisão, como os sistemas de informação podem ajudar no processo decisório e os benefícios da gestão do conhecimento. Além disso, apresenta exemplos de sistemas usados para apoiar a tomada de decisão e gestão do conhecimento, como sistemas de informações gerenciais, sistemas de apoio à decisão e sistemas especialistas.
Construindo Chatbots com Design Thinking e framework i*: um método estruturadoMeire Helen Batista Dias
O documento apresenta um método estruturado para construção de chatbots utilizando Design Thinking e o framework i*. O método consiste em cinco etapas: levantar necessidades, desenvolver requisitos, criar design, gerar protótipo e validar protótipo. Além disso, apresenta um estudo de caso sobre o desenvolvimento de um chatbot para tirar dúvidas sobre medicamentos.
Análise de aderência de práticas ágeis na cultura de startups de software: o ...Marvin Ferreira
Este documento apresenta uma proposta de pesquisa para mapear práticas ágeis utilizadas em startups de software brasileiras. O estudo irá identificar as práticas mais comuns através de um questionário e analisar sua aplicabilidade considerando restrições de recursos. Os resultados poderão fornecer um ponto de partida para adoção de práticas ágeis em startups.
2. FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO - 22.06.22.pdfPedro Alcantara
O documento discute os conceitos fundamentais de sistemas e sistemas de informação. Apresenta os principais componentes de um sistema de informação e os tipos de sistemas, além de abordar os processos e atividades envolvidos no desenvolvimento de software, como levantamento de requisitos, análise, projeto, implementação e testes. Por fim, discute as carreiras relacionadas a sistemas de informação.
Mini-seminários da disciplina de Teste Formal de Usabilidade, Pós-graduação em Ergodesign de Interfaces da PUC-Rio / Laboratório de Ergonomia e Usabilidade de Interfaces / LEUI. Prof. Luiz Agner, 2010.
Practice 4 :: Gestão de Projetos de SW OO :: Métricas, Estimação e PlanificaçõesRogerio P C do Nascimento
Este documento discute a gestão de projetos de software orientado a objetos. Ele apresenta métricas comuns usadas para estimar o esforço necessário para desenvolvimento de software, como número de classes, casos de uso e subsistemas. Também descreve o modelo de métricas de Lorenz e Kidd adotado pela Lacertae Software, que usa classes-chave, classes de suporte e multiplicadores para estimar o número de classes e esforço de um projeto.
O documento discute a Metodologia de Planeamento de Projectos por Objectivos (MPPO). A MPPO enfatiza a participação dos atores-chave no diagnóstico e planeamento de projetos através de ferramentas como a lista de problemas, árvore de problemas e quadro de medidas. O documento explica como construir uma árvore de problemas estabelecendo relações causais entre os problemas identificados no diagnóstico de um campo de intervenção.
Quais as habilidades técnicas todo PM precisa saber - Petrus Gomes | Closecare Product Camp Brasil
Este documento discute as habilidades técnicas importantes para PMs, incluindo análise de dados, métricas de produto e experiência do usuário. Ele fornece exemplos de como PMs podem usar ferramentas de análise para priorizar ideias e melhorar o engajamento dos usuários. Finalmente, discute como PMs precisam entender marketing, crescimento e SEO para alcançar objetivos de negócios.
(Transformar) Desenvolvendo o projeto Sessão 03Ink_conteudos
O documento fornece direcionamentos e modelos para a apresentação de projetos no Projeto Transformar. Ele inclui tópicos como aprendizados da organização, descrição do projeto proposto, cronograma de atividades e orçamento. O objetivo é que as organizações propõem projetos que expandam seu impacto e melhorem processos após participação no programa.
Mineração de padrões frequentes - Pós Graduação em Big DataFabrício Barth
1) O documento apresenta os objetivos e conceitos básicos de mineração de padrões frequentes e regras de associação em grandes bases de dados transacionais;
2) Os algoritmos Apriori e medidas como suporte, confiança e lift são discutidos como forma de identificar padrões úteis nos dados;
3) Exemplos ilustram como as regras geradas podem ser usadas em cenários como análise de mercado e recomendação.
Redução de dimensionalidade - Pós Graduação em Big DataFabrício Barth
1) O documento discute a técnica de redução de dimensionalidade chamada Análise de Componentes Principais (PCA).
2) A PCA projeta os dados de múltiplas dimensões para poucas dimensões principais para compactar e simplificar os dados.
3) A PCA calcula os autovetores e valores singulares da matriz de covariância dos dados para definir as novas dimensões principais.
Metodologia de Análise e
Solução de Problemas
Felipe Morais Menezes, Me.
Tito Rossi, Me.
Ricardo Gazzana Schneider, Me.
Cícero Giordani da Silveira, Me.
O documento discute ferramentas estatísticas e não estatísticas para análise de dados e solução de problemas, incluindo brainstorming, gráficos de Pareto e mapeamento de processos. Estas ferramentas podem ajudar a identificar problemas, priorizar causas e melhorar processos. O documento fornece um exemplo de como os proprietários de uma cafeteria usaram essas ferramentas para entender problemas de vendas e melhorar o atendimento aos clientes.
Anotações de aula da disciplina Modelagem de Sistemas de Informação de Rede do curso de Gestão de Tecnologia da Informação - 3º semestre - UNIP Paulista.
Este documento fornece orientações sobre como desenvolver o planejamento estratégico de uma organização, incluindo como definir metas, monitorá-las por meio de painéis de controle, e desenvolver estratégias e planos de ação para alcançar essas metas.
1) O documento apresenta o plano de aula de uma disciplina de Fundamentos de Sistemas de Informação que abordará conceitos como dados, informação, sistemas e tecnologia da informação. 2) Serão discutidos temas como planejamento estratégico de SI, infraestrutura de TI, segurança da informação e sistemas de gestão empresarial. 3) A avaliação dos alunos consistirá em provas, trabalhos em grupo e seminários sobre sistemas de informação.
Os Perfis dos Cientistas de Dados nos Estados UnidosThiago Mosqueiro
O documento discute perfis de cientistas de dados nos Estados Unidos, incluindo: (1) o ambiente de pesquisa e desenvolvimento em empresas é ágil e baseado em feedback contínuo, (2) cientistas de dados lidam com problemas ambíguos e focam em abordagens baseadas em dados, (3) existem diferentes perfis como analistas de dados, cientistas de dados, cientistas de pesquisa e cientistas aplicados.
PT-BR - Apresentado na Semana Integrar EST-UEA (2021). Mostro sobre as diferenças de aplicação de Machine Learning na academia e na Indústria, quais os prós e contras de cada cenário e como colocar as expectativas corretamente em ambos os contextos.
ENG - Presented in Semana Integrar EST-UEA (2021). I show the differences between the approach of Machine Learning in academia and industry, what are the pros and cons in each above scenario, and how to set correctly the expectations in both situations.
Capítulo 10 - Como melhorar a tomada de decisão e a gestão do conhecimentoEverton Souza
Este documento discute como melhorar a tomada de decisão e a gestão do conhecimento nas organizações. Ele aborda os diferentes tipos de decisão, como os sistemas de informação podem ajudar no processo decisório e os benefícios da gestão do conhecimento. Além disso, apresenta exemplos de sistemas usados para apoiar a tomada de decisão e gestão do conhecimento, como sistemas de informações gerenciais, sistemas de apoio à decisão e sistemas especialistas.
Construindo Chatbots com Design Thinking e framework i*: um método estruturadoMeire Helen Batista Dias
O documento apresenta um método estruturado para construção de chatbots utilizando Design Thinking e o framework i*. O método consiste em cinco etapas: levantar necessidades, desenvolver requisitos, criar design, gerar protótipo e validar protótipo. Além disso, apresenta um estudo de caso sobre o desenvolvimento de um chatbot para tirar dúvidas sobre medicamentos.
Análise de aderência de práticas ágeis na cultura de startups de software: o ...Marvin Ferreira
Este documento apresenta uma proposta de pesquisa para mapear práticas ágeis utilizadas em startups de software brasileiras. O estudo irá identificar as práticas mais comuns através de um questionário e analisar sua aplicabilidade considerando restrições de recursos. Os resultados poderão fornecer um ponto de partida para adoção de práticas ágeis em startups.
2. FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO - 22.06.22.pdfPedro Alcantara
O documento discute os conceitos fundamentais de sistemas e sistemas de informação. Apresenta os principais componentes de um sistema de informação e os tipos de sistemas, além de abordar os processos e atividades envolvidos no desenvolvimento de software, como levantamento de requisitos, análise, projeto, implementação e testes. Por fim, discute as carreiras relacionadas a sistemas de informação.
Mini-seminários da disciplina de Teste Formal de Usabilidade, Pós-graduação em Ergodesign de Interfaces da PUC-Rio / Laboratório de Ergonomia e Usabilidade de Interfaces / LEUI. Prof. Luiz Agner, 2010.
Practice 4 :: Gestão de Projetos de SW OO :: Métricas, Estimação e PlanificaçõesRogerio P C do Nascimento
Este documento discute a gestão de projetos de software orientado a objetos. Ele apresenta métricas comuns usadas para estimar o esforço necessário para desenvolvimento de software, como número de classes, casos de uso e subsistemas. Também descreve o modelo de métricas de Lorenz e Kidd adotado pela Lacertae Software, que usa classes-chave, classes de suporte e multiplicadores para estimar o número de classes e esforço de um projeto.
O documento discute a Metodologia de Planeamento de Projectos por Objectivos (MPPO). A MPPO enfatiza a participação dos atores-chave no diagnóstico e planeamento de projetos através de ferramentas como a lista de problemas, árvore de problemas e quadro de medidas. O documento explica como construir uma árvore de problemas estabelecendo relações causais entre os problemas identificados no diagnóstico de um campo de intervenção.
Quais as habilidades técnicas todo PM precisa saber - Petrus Gomes | Closecare Product Camp Brasil
Este documento discute as habilidades técnicas importantes para PMs, incluindo análise de dados, métricas de produto e experiência do usuário. Ele fornece exemplos de como PMs podem usar ferramentas de análise para priorizar ideias e melhorar o engajamento dos usuários. Finalmente, discute como PMs precisam entender marketing, crescimento e SEO para alcançar objetivos de negócios.
(Transformar) Desenvolvendo o projeto Sessão 03Ink_conteudos
O documento fornece direcionamentos e modelos para a apresentação de projetos no Projeto Transformar. Ele inclui tópicos como aprendizados da organização, descrição do projeto proposto, cronograma de atividades e orçamento. O objetivo é que as organizações propõem projetos que expandam seu impacto e melhorem processos após participação no programa.
Mineração de padrões frequentes - Pós Graduação em Big DataFabrício Barth
1) O documento apresenta os objetivos e conceitos básicos de mineração de padrões frequentes e regras de associação em grandes bases de dados transacionais;
2) Os algoritmos Apriori e medidas como suporte, confiança e lift são discutidos como forma de identificar padrões úteis nos dados;
3) Exemplos ilustram como as regras geradas podem ser usadas em cenários como análise de mercado e recomendação.
Redução de dimensionalidade - Pós Graduação em Big DataFabrício Barth
1) O documento discute a técnica de redução de dimensionalidade chamada Análise de Componentes Principais (PCA).
2) A PCA projeta os dados de múltiplas dimensões para poucas dimensões principais para compactar e simplificar os dados.
3) A PCA calcula os autovetores e valores singulares da matriz de covariância dos dados para definir as novas dimensões principais.
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataFabrício Barth
O documento discute a hierarquia de modelos de aprendizagem de máquina, distinguindo entre aprendizagem supervisionada e não supervisionada. Aprendizagem supervisionada constrói modelos preditivos usando dados rotulados, enquanto aprendizagem não supervisionada gera modelos descritivos sem rótulos. Exemplos de técnicas supervisionadas incluem regressão, classificação e exemplos não supervisionados incluem agrupamento, associação e sumarização.
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
Este documento discute o contexto de Big Data, Ciência de Dados e Processo de Descoberta de Conhecimento (KDD). A quantidade de dados gerados aumentou drasticamente e vem de fontes variadas, incluindo dados estruturados e não estruturados. O objetivo continua sendo sintetizar, organizar e tomar decisões baseadas nos dados, porém os desafios são maiores devido ao volume, variedade e velocidade dos dados atuais. O processo KDD é usado para extrair conhecimento e insights dos dados por meio de aquisição,
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataFabrício Barth
Este documento fornece um resumo sobre pré-processamento de dados e análise exploratória no R. Ele discute conceitos como tipos de dados, representação de dados no R, subsetting e análise exploratória. O documento também apresenta exemplos de dados brutos e processados e discute a importância de organizar os dados em formato tidy.
Algoritmos de Agrupamento - Aprendizado não supervisionadoFabrício Barth
(1) O documento discute algoritmos de agrupamento não supervisionado e seus aplicativos;
(2) Dois tipos principais de agrupamento são descritos: agrupamento plano e hierárquico;
(3) O algoritmo K-means é explicado como um exemplo de agrupamento plano hard e seu funcionamento iterativo é detalhado.
O documento discute a coleta de dados de dispositivos móveis e como esses dados podem ser usados para reconhecimento de atividades humanas através de classificadores de machine learning. Ele fornece exemplos de como dados de celulares, relógios e outros dispositivos podem ser usados para inferir localização, atividades físicas e comportamentos. O documento também descreve experimentos para classificar atividades como andar, subir escadas e sentar usando dados de acelerômetros.
Oficina: construção de modelos descritivos e preditivos utilizando RFabrício Barth
- O documento apresenta uma oficina sobre construção de modelos descritivos e preditivos utilizando a linguagem R.
- Serão abordados conceitos de aprendizagem de máquina, análise de mensagens do Twitter usando agrupamento e desenvolvimento de algoritmos anti-spam.
- O objetivo é apresentar exemplos práticos de construção de modelos utilizando a linguagem R.
Esta apresentação foi realizada no Cloud Latam 2014 em São Paulo - Brasil. O objetivo desta apresentação foi descrever algumas iniciativas em Big Data no VAGAS.com
Palestra realizada no http://conalytics.com.br/ 2014. Apresenta um exemplo de mineração de texto em mensagens do twitter e um case de desenvolvimento de anti-spam. Todos os exemplos de Web Data mining são apresentados com a linguagem de programação R.
Web Data Mining com R: identificação de spam utilizando Random ForestFabrício Barth
O documento discute a identificação de spam utilizando florestas aleatórias. Ele apresenta algoritmos de aprendizado de máquina como ID3 e florestas aleatórias para construção de modelos preditivos de árvores de decisão. O documento também fornece exemplos de classificação de spam usando algoritmos J48 e RandomForest.
Web Data Mining com R: design de projetos para criação de modelos preditivosFabrício Barth
O documento discute o design de projetos para criação de modelos preditivos usando web data mining com R. Ele descreve as principais etapas como escolher os dados corretos, dividir os dados em conjuntos de treinamento, teste e validação, selecionar atributos, identificar modelos, avaliar erros e realizar validação cruzada.
Web Data Mining em R: agrupamento de mensagens do twitterFabrício Barth
O documento descreve os principais componentes e etapas para agrupar mensagens do Twitter, incluindo a coleta de dados, pré-processamento, representação dos documentos em vetores, e algoritmos de agrupamento como K-means.
Web Data Mining com R: criação de regras de associação a partir da navegação ...Fabrício Barth
O documento descreve o processo de mineração de padrões na Web para criar regras de associação a partir da navegação de usuários em sites. O processo inclui pré-processamento de logs, identificação de usuários e seções, criação de uma matriz de transações e mineração de itens frequentes e regras de associação.
Web Data Mining com r: aprendizagem de máquinaFabrício Barth
1) O documento discute aprendizagem de máquina e mineração de dados na web usando R. 2) Aprendizagem de máquina permite que computadores aprendam sem programação explícita. 3) Exemplos de aprendizagem supervisionada e não supervisionada são apresentados.
Data Science, Machine Learning and Big DataFabrício Barth
O documento discute como ciência de dados, aprendizado de máquina e big data podem ser usados para prever crimes, terremotos e recomendar itens para usuários. Ele explica que esses projetos manipulam grandes volumes de dados variados para criar modelos preditivos.
Este documento descreve um projeto de desenvolvimento de software chamado Simple Maps realizado por estudantes de ADS sob a orientação do professor Fabricio Barth. O projeto tem o objetivo de criar um serviço para que usuários possam inserir objetos multimídia em mapas e será desenvolvido em 4 sprints de 3 semanas cada utilizando o framework SCRUM.
Ferramentas Java para Recuperação e Mineração de InformaçõesFabrício Barth
O documento discute ferramentas Java para recuperação e mineração de informações. Ele aborda conceitos como agrupamento de documentos usando vetores de atributos/valores e técnicas como remoção de stop-words e stemming para reduzir a dimensionalidade dos vetores.
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoFabrício Barth
O documento descreve um sistema de suporte ao planejamento e orçamento de projetos que armazena informações sobre projetos anteriores e recursos utilizados para estimar custos e propor planos para novos projetos com base em objetivos fornecidos. O sistema retorna múltiplos planos para comparação considerando custo e tempo e é integrado a outras ferramentas de gerenciamento de projetos.
As classes de modelagem podem ser comparadas a moldes ou
formas que definem as características e os comportamentos dos
objetos criados a partir delas. Vale traçar um paralelo com o projeto de
um automóvel. Os engenheiros definem as medidas, a quantidade de
portas, a potência do motor, a localização do estepe, dentre outras
descrições necessárias para a fabricação de um veículo
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...Faga1939
Este artigo tem por objetivo apresentar como ocorreu a evolução do consumo e da produção de energia desde a pré-história até os tempos atuais, bem como propor o futuro da energia requerido para o mundo. Da pré-história até o século XVIII predominou o uso de fontes renováveis de energia como a madeira, o vento e a energia hidráulica. Do século XVIII até a era contemporânea, os combustíveis fósseis predominaram com o carvão e o petróleo, mas seu uso chegará ao fim provavelmente a partir do século XXI para evitar a mudança climática catastrófica global resultante de sua utilização ao emitir gases do efeito estufa responsáveis pelo aquecimento global. Com o fim da era dos combustíveis fósseis virá a era das fontes renováveis de energia quando prevalecerá a utilização da energia hidrelétrica, energia solar, energia eólica, energia das marés, energia das ondas, energia geotérmica, energia da biomassa e energia do hidrogênio. Não existem dúvidas de que as atividades humanas sobre a Terra provocam alterações no meio ambiente em que vivemos. Muitos destes impactos ambientais são provenientes da geração, manuseio e uso da energia com o uso de combustíveis fósseis. A principal razão para a existência desses impactos ambientais reside no fato de que o consumo mundial de energia primária proveniente de fontes não renováveis (petróleo, carvão, gás natural e nuclear) corresponde a aproximadamente 88% do total, cabendo apenas 12% às fontes renováveis. Independentemente das várias soluções que venham a ser adotadas para eliminar ou mitigar as causas do efeito estufa, a mais importante ação é, sem dúvidas, a adoção de medidas que contribuam para a eliminação ou redução do consumo de combustíveis fósseis na produção de energia, bem como para seu uso mais eficiente nos transportes, na indústria, na agropecuária e nas cidades (residências e comércio), haja vista que o uso e a produção de energia são responsáveis por 57% dos gases de estufa emitidos pela atividade humana. Neste sentido, é imprescindível a implantação de um sistema de energia sustentável no mundo. Em um sistema de energia sustentável, a matriz energética mundial só deveria contar com fontes de energia limpa e renováveis (hidroelétrica, solar, eólica, hidrogênio, geotérmica, das marés, das ondas e biomassa), não devendo contar, portanto, com o uso dos combustíveis fósseis (petróleo, carvão e gás natural).
A linguagem C# aproveita conceitos de muitas outras linguagens,
mas especialmente de C++ e Java. Sua sintaxe é relativamente fácil, o que
diminui o tempo de aprendizado. Todos os programas desenvolvidos devem
ser compilados, gerando um arquivo com a extensão DLL ou EXE. Isso torna a
execução dos programas mais rápida se comparados com as linguagens de
script (VBScript , JavaScript) que atualmente utilizamos na internet
Em um mundo cada vez mais digital, a segurança da informação tornou-se essencial para proteger dados pessoais e empresariais contra ameaças cibernéticas. Nesta apresentação, abordaremos os principais conceitos e práticas de segurança digital, incluindo o reconhecimento de ameaças comuns, como malware e phishing, e a implementação de medidas de proteção e mitigação para vazamento de senhas.
5. Alguns dados...
Relação Horário x Dia x Quantidade de Notícias Produzidas
500
450
400
350
300
250
200
150
100
50
0
500
400
Notícias
300
200
100
0
0
2
4
6
8
Horário
10 12
30
14 16
20
10
18 20
22 0
40
50
60
70
80
90
Dia
Quantidade de not´
ıcias publicadas na Web por apenas seis ve´
ıculos de not´
ıcias.
Importˆncia do Tema —
a
Alguns dados...
5
6. Alguns dados...
Notícias publicadas na Internet
160000
Estadão
Folha
G1
Globo Online
Terra
Último Segundo
Total
140000
Quantidade (Notícias)
120000
100000
80000
60000
40000
20000
0
0
Importˆncia do Tema —
a
5
10
Alguns dados...
15
20
25
30
35
40 45 50
Tempo (Dias)
55
60
65
70
75
80
85
6
7. Por que minerar informa¸oes?
c˜
• Explicitar conhecimento m´dico a partir de registros
e
m´dicos.
e
• Sumarizar tendˆncias de publica¸˜es de artigos e
e
co
patentes sobre um determinado tema.
• Sumarizar e filtrar not´
ıcias relevantes.
Importˆncia do Tema —
a
Por que minerar informa¸˜es?
co
7
8. • Sumarizar a opini˜o expressa na Web sobre a sua
a
empresa.
• Identificar padr˜es de navega¸˜o em sites.
o
ca
• Identificar grupos de usu´rios com perfil similar em
a
ambientes de escrita colaborativa.
Importˆncia do Tema —
a
Por que minerar informa¸˜es?
co
8
10. Diagn´stico para o uso de lentes de
o
contato
O setor de oftalmologia de um hospital da cidade de S˜o
a
Paulo possui, no seu banco de dados, um hist´rico de
o
pacientes que procuraram o hospital queixando-se de
problemas na vis˜o.
a
A conduta, em alguns casos, realizada pelo corpo cl´
ınico
de oftalmologistas do hospital ´ indicar o uso de lentes ao
e
paciente.
Problema: Extrair do banco de dados do hospital
uma hip´tese que explica que paciente deve usar ou
o
n˜o lente de contatos.
a
Explicitar conhecimento m´dico a partir de registros m´dicos —
e
e
Diagn´stico para o uso de lentes de contato
o
10
12. Componentes
• Que objetos s˜o relevantes para a cria¸˜o da hip´tese?
a
ca
o
• Como represent´-los?
a
• Que linguagem de representa¸˜o de conhecimento
ca
deve-se utilizar para representar a hip´tese?
o
• Que algoritmo utilizar para gerar a hip´tese?
o
Quais s˜o os componentes deste sistema? —
a
Componentes
12
13. • Que objetos s˜o relevantes?
a
Depois de um estudo detalhado do problema com
especialistas da ´rea...
a
Idade do paciente.
Se o paciente tem ou n˜o miopia.
a
Se o paciente tem ou n˜o astigmatismo.
a
Qual ´ a taxa de lacrimejamento dos olhos do
e
paciente.
• Como represent´-los? Atributo/Valor
a
Quais s˜o os componentes deste sistema? —
a
Componentes
13
14. Atributos
• idade (jovem, adulto, idoso)
• miopia (m´
ıope, hiperm´trope)
e
• astigmatismo (n˜o, sim)
a
• taxa de lacrimejamento (reduzido, normal)
• lentes de contato (forte, fraca, nenhuma)
Quais s˜o os componentes deste sistema? —
a
Atributos
14
18. Extra¸˜o de “conhecimento”
ca
• O que foi apresentado nos slides anteriores pode ser
considerado como conhecimento? N˜o
a
• Pode ser apresentado como uma informa¸˜o que
ca
consegue explicar a tomada de decis˜o dos
a
especialistas? N˜o
a
• O que fazer?
Quais s˜o os componentes deste sistema? —
a
Extra¸˜o de “conhecimento”
ca
18
19. Extra¸˜o de “conhecimento”
ca
• Extrair a informa¸˜o realmente relevante.
ca
• Utilizar uma linguagem de representa¸˜o
ca
compreens´ ao ser humano.
ıvel
Quais s˜o os componentes deste sistema? —
a
Extra¸˜o de “conhecimento”
ca
19
20. ´
Arvore de decis˜o
a
• Cada nodo interno testa um atributo.
• Cada aresta corresponde a um valor de atributo.
• Cada nodo folha retorna uma classifica¸˜o.
ca
Quais s˜o os componentes deste sistema? —
a
´
Arvore de decis˜o
a
20
21. ´
Algoritmos Indutores de Arvores de
Decis˜o
a
• Que algoritmo utilizar para gerar hip´teses na
o
forma de ´rvores de decis˜o?
a
a
• ID3, C4.5[2]: s˜o algoritmos indutores de ´rvore de
a
a
decis˜o, top-down, recursivos e que fazem uso do
a
conceito de entropia para identificar os melhores
atributos que representam o conjunto de dados.
Quais s˜o os componentes deste sistema? —
a
´
Algoritmos Indutores de Arvores de Decis˜o
a
21
23. Sistema Especialista: Regras de Produ¸˜o
ca
• Baseado na premissa que o processo de tomada de
decis˜o humano pode ser modelado por meio de regras
a
˜
do tipo SE condi¸˜es ENTAO conclus˜es [FACA
co
o
¸
a¸˜es]
co
• Convertendo uma ´rvore de decis˜o em regras de
a
a
produ¸˜o:
ca
Quais s˜o os componentes deste sistema? —
a
Sistema Especialista: Regras de Produ¸˜o
ca
23
24. ˜
• SE lacrimejamento=reduzido ENTAO lente=nenhuma
˜
• SE lacrimejamento=normal E astigmatismo=n˜o ENTAO
a
lente=fraca
• SE lacrimejamento=normal E astigmatismo=sim E
˜
miopia=miope ENTAO lente=forte
• SE lacrimejamento=normal E astigmatismo=sim E
˜
miopia=hipermetrope ENTAO lente=nenhuma
Quais s˜o os componentes deste sistema? —
a
Sistema Especialista: Regras de Produ¸˜o
ca
24
25. Um pouco de c´digo...
o
• Gerar a ´rvore de decis˜o usando o RapidMinera .
a
a
• Codificar as regras de produ¸˜o usando o Drools
ca
Expert b .
a http://www.rapidminer.com
b http://www.jboss.org/drools/drools-expert.html
Quais s˜o os componentes deste sistema? —
a
Um pouco de c´digo...
o
25
27. O que fazer com grandes quantidades de
documentos?
• Not´
ıcias, patentes, artigos...
• Para tirar proveito desta informa¸˜o ´ necess´rio
ca e
a
organiz´-la de alguma forma:
a
Agrupamento de not´
ıcias, patentes, artigos.
Classifica¸˜o, Recomenda¸˜o e Filtragem de
ca
ca
Not´
ıcias.
Organizar documentos —
O que fazer com grandes quantidades de documentos?
27
28. Exemplo de agrupamento
E quando n˜o ´ poss´ fazer manualmente?
a e
ıvel
Organizar documentos —
Exemplo de agrupamento
28
29. Defini¸oes de Algoritmos de Agrupamento
c˜
• O objetivo dos algoritmos de agrupamento ´ colocar
e
os objetos similares em um mesmo grupo e objetos
n˜o similares em grupos diferentes.
a
• Normalmente, objetos s˜o descritos e agrupados
a
usando um conjunto de atributos e valores.
• N˜o existe nenhuma informa¸˜o sobre a classe ou
a
ca
categoria dos objetos.
Organizar documentos —
Defini¸˜es de Algoritmos de Agrupamento
co
29
30. Formato de um documento
... Esta disciplina tem como objetivo apresentar os principais
conceitos da ´rea de Inteligˆncia Artificial, caracterizar as
a
e
principais t´cnicas e m´todos, e implementar alguns problemas
e
e
cl´ssicos desta ´rea sob um ponto de vista introdut´rio.
a
a
o
A estrat´gia de trabalho, o conte´do ministrado e a forma
e
u
depender˜o dos projetos selecionados pelos alunos.
a
Inicialmente, os alunos dever˜o trazer os seus Projetos de
a
Conclus˜o de Curso, identificar intersec¸oes entre o projeto e a
a
c˜
disciplina, e propor atividades para a disciplina. ...
Organizar documentos —
Formato de um documento
30
31. Atributo/Valor usando vetores
Como representar os documentos?
→
−
di = (pi1 , pi2 , · · · , pin)
(1)
• Os atributos s˜o as palavras que aparecem nos
a
documentos.
• Se todas as palavras que aparecem nos documentos
forem utilizadas, o vetor n˜o ficar´ muito grande?
a
a
Organizar documentos —
Atributo/Valor usando vetores
31
32. Diminuindo a dimensionalidade do vetor
• Como filtrar as palavras que devem ser usadas como
atributos?
• Em todos os idiomas existem ´tomos (palavras) que
a
n˜o significam muito. Stop-words
a
Esta disciplina tem como objetivo apresentar os principais
conceitos da ´rea de Inteligˆncia Artificial, caracterizar as
a
e
principais t´cnicas e m´todos, e implementar alguns problemas
e
e
cl´ssicos desta ´rea sob um ponto de vista introdut´rio.
a
a
o
···
Organizar documentos —
Diminuindo a dimensionalidade do vetor
32
33. Diminuindo ainda mais a
dimensionalidade do vetor
• Algumas palavras podem aparecer no texto de diversas
maneiras: t´cnica, t´cnicas, implementar,
e
e
implementa¸˜o...
ca
• Stemming - encontrar o radical da palavra e usar
apenas o radical.
Organizar documentos —
Diminuindo ainda mais a dimensionalidade do vetor
33
34. Atributo/Valor usando vetores
• J´ conhecemos os atributos.
a
• E os valores?
Booleana - se a palavra aparece ou n˜o no
a
documento (1 ou 0)
Por freq¨ˆncia do termo - a freq¨ˆncia com que
ue
ue
a palavra aparece no documento (normalizada ou
n˜o)
a
Pondera¸˜o tf-idf - o peso ´ proporcional ao
ca
e
n´mero de ocorrˆncias do termo no documento e
u
e
inversamente proporcional ao n´mero de
u
documentos onde o termo aparece.
Organizar documentos —
Atributo/Valor usando vetores
34
35. Por freq¨ˆncia do termo
ue
(apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33)
(projet,1.0) (introdutori,0.33) (objet,0.33) (inteligente,0.33)
(conclusa,0.33) (selecion,0.33) (intersecco,0.33) (classic,0.33)
(identific,0.33) (conceit,0.33) (trabalh,0.33) (disciplin,1.0)
(traz,0.33)
Organizar documentos —
Por freq¨ˆncia do termo
ue
35
37. Componentes para uma solu¸˜o...
ca
Organizar documentos —
Componentes para uma solu¸˜o...
ca
37
38. Pr´-processamento dos documentos: um
e
pouco de c´digo...
o
Converter texto em TF-IDF usando o RapidMiner.
Organizar documentos —
Pr´-processamento dos documentos: um pouco de c´digo...
e
o
38
39. Que algoritmo de agrupamento utilizar?
Organizar documentos —
Que algoritmo de agrupamento utilizar?
39
40. Algoritmos para Agrupamento - K-means
• K significa o n´mero de agrupamentos (que deve ser
u
informado ` priori).
a
• Sequˆncia de a¸˜es iterativas.
e
co
• A parada ´ baseada em algum crit´rio de qualidade
e
e
dos agrupamentos (por exemplo, similaridade m´dia).
e
Organizar documentos —
Algoritmos para Agrupamento - K-means
40
41. Algoritmo para Agrupamento - K-means
5
5
4
4
3
3
2
2
1
1
0
0
1
2
3
4
5
6
7
1
8
2
3
4
5
6
7
8
(2) Sorteio dos pontos centrais dos agrupamentos
(1) Objetos que devem ser agrupados
5
5
4
4
3
3
2
2
1
1
0
0
1
2
3
4
5
6
7
8
(3) Atribuição dos objetos aos agrupamentos
Organizar documentos —
Algoritmo para Agrupamento - K-means
1
2
3
4
5
6
7
8
(4) Definição do centro do agrupamento
41
42. Algoritmos para agrupamento dos
documentos - Weka
Execu¸˜o do K-means no Wekaa .
ca
a http://www.cs.waikato.ac.nz/ml/weka/
Organizar documentos —
Algoritmos para agrupamento dos documentos - Weka
42
43. Algoritmo para agrupamento dos
documentos - Resultados
¤
§
A
A
A
A
A
A
A
A
A
A
A
A
A
A
¦
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
0.1
0.1
0.3
0.3
0.3
0.8
0.1
0.1
0.1
0.6
0.6
0.1
0.2
0.1
Organizar documentos —
,0.1
,0.2
,0.4
,0.1
,0.1
,0.7
,0.1
,0.1
,0.1
,0.5
,0.5
,0.1
,0.8
,0.1
,0.1
,0.3
,0.5
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.8
,0.1
,0.1
,0.1
,0.8
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.7
,0.1
,0.1
,0.8
,0.9
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.9
,0.1
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
no
no
no
no
no
no
no
no
no
no
no
no
no
no
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
1
1
0
1
1
0
1
1
1
0
0
1
0
1
Algoritmo para agrupamento dos documentos - Resultados
¥
43
51. Que informa¸oes um Wiki tem?
c˜
Documento
Vers˜o
a
Editor
Data
Documento
Vers˜o
a
Editor
Data
d1
1
···
d2
4
2
···
d3
1
u7
u5
···
d1
u1
u2
d1
3
···
d3
2
4
···
d3
3
u6
u6
···
d1
u2
u3
d1
5
···
d4
1
1
···
d4
2
u8
u9
···
d2
u4
u4
d2
2
···
d5
1
3
···
d5
2
u10
u11
···
d2
u5
u6
···
···
···
···
Exemplo de hist´rico de cria¸˜o e altera¸˜o de p´ginas em um Wiki.
o
ca
ca
a
Minerando ambientes colaborativos de escrita (Wiki) —
Que informa¸oes um Wiki tem?
c˜
51
52. O que eu posso fazer com isto?
(a)
(b)
u1
u2
Legenda:
uI = usuário i
d1
dI = documento i
u3
u4
u10
d5
u5
d2
u6
u11
u7
u8
d3
d4
u9
Minerando ambientes colaborativos de escrita (Wiki) —
111111111111
000000000000
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
d2
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
d3
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
d1
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
1111111
0000000
1111111
0000000
d5
1111111
0000000
1111111
0000000
1111111
0000000
1111111
0000000
d4
1111111
0000000
1111111
0000000
1111111
0000000
1111111
0000000
O que eu posso fazer com isto?
Similaridade:
111
000
111
000
alta
média
baixa
52
53. Exemplo
Execu¸˜o de uma aplica¸˜o usando estes conceitos.
ca
ca
Minerando ambientes colaborativos de escrita (Wiki) —
Exemplo
53
55. Considera¸oes Finais
c˜
• Caso sobre conhecimento m´dico: Data Mining.
e
• Agrupamento, classifica¸˜o e filtragem de
ca
documentos: Text Mining.
• Caso Wiki: Web Mining
• O que existe em comum nestes casos?
Considera¸˜es Finais —
co
Considera¸˜es Finais
co
55
57. References
[1] Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997.
[2] J. R. Quinlan. Knowledge Acquisition for Knowledge-Based
Systems, chapter Simplifying Decision Trees. Academic
Press, 1988.
[3] Stuart J. Russel and Peter Norvig. Artificial intelligence: a
modern approach. Prentice-Hall, 2 edition, 2003.
[4] Ian H. Witten and Eibe Frank. Data Mining: Practical
Machine Learning Tools and Techniques. Elsevier, second
edition, 2005.
56-1