O documento apresenta uma palestra sobre ciência de dados, definindo o termo, discutindo tipos de modelos como regressão, classificação e agrupamento, e fornecendo exemplos de aplicação em áreas como biologia.
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
1. O documento discute a área de Ciência de Dados e sua aplicação em tomada de decisões nas empresas.
2. A disponibilidade em massa de dados e o baixo custo computacional tornaram a Ciência de Dados uma área em expansão.
3. A Ciência de Dados pode ser aplicada em diversas áreas como recomendação, crédito, fraude, logística e saúde para geração de insights.
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
O documento discute a área de Ciência de Dados, como ela vem transformando a tomada de decisões e se tornando cada vez mais importante. Apresenta exemplos de como empresas como Netflix, Amazon e Nubank usam dados para melhorar seus negócios. Também aborda o perfil desejado para profissionais de dados e dicas para aqueles que desejam atuar na área.
O que é a ciência de dados (data science). Discussão do conceitoLuis Borges Gouveia
Data science ou a ciência de dados
• É o estudo de onde tem origem a informação, o que
representa e como pode ser transformada numa fonte
valiosa para a criação de negócio e de estratégias para
o contexto em análise
• A exploração de quantidades massivas de dados
estruturados e não estruturados para identificar
padrões que podem ajudar uma organização no
controle de custos, aumento de eficiência,
reconhecimento e descoberta de novos mercados e
oportunidades e aumento de vantagem competitiva
• Transformação de dados disponíveis em informação,
com recurso a técnicas de análise de dados,
experiência, mas também inteligência e criatividade
O documento discute o conceito de Big Data, definindo-o como conjuntos extremamente grandes de dados que precisam de ferramentas especializadas para lidar com volumes e velocidades crescentes. Explica que o Big Data pode ser usado para inovação e tomada de decisão, e destaca o crescimento exponencial na geração de dados oriundo da internet e dispositivos móveis. Também aborda profissões emergentes e soluções tecnológicas para o armazenamento e análise de grandes volumes de dados.
O documento apresenta um resumo sobre Business Intelligence, definindo-o como um conjunto de técnicas para extrair inteligência a partir de dados de negócios e converter volumes de dados em informações relevantes através de relatórios. Também define Data Warehouse como um processo de extrair dados de sistemas operacionais para análises, e lista algumas variações de sistemas BI como data mining, dashboards e orçamentos.
O documento fornece informações sobre uma disciplina de Data Science ministrada pelo professor Álvaro Pinheiro. A ementa inclui tópicos como introdução à ciência de dados, conceitos sobre dados, ciclo de vida dos dados, valor da informação, privacidade e ética. O documento também fornece referências bibliográficas sobre o tema.
Aula 01 - Introdução ao Sistema de InformaçãoDaniel Brandão
O documento apresenta as informações sobre Daniel Brandão, professor de Sistemas de Informação. Ele descreve sua formação acadêmica e áreas de atuação, além de fornecer detalhes sobre a disciplina como ementa, metodologia de avaliação e objetivos.
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
1. O documento discute a área de Ciência de Dados e sua aplicação em tomada de decisões nas empresas.
2. A disponibilidade em massa de dados e o baixo custo computacional tornaram a Ciência de Dados uma área em expansão.
3. A Ciência de Dados pode ser aplicada em diversas áreas como recomendação, crédito, fraude, logística e saúde para geração de insights.
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
O documento discute a área de Ciência de Dados, como ela vem transformando a tomada de decisões e se tornando cada vez mais importante. Apresenta exemplos de como empresas como Netflix, Amazon e Nubank usam dados para melhorar seus negócios. Também aborda o perfil desejado para profissionais de dados e dicas para aqueles que desejam atuar na área.
O que é a ciência de dados (data science). Discussão do conceitoLuis Borges Gouveia
Data science ou a ciência de dados
• É o estudo de onde tem origem a informação, o que
representa e como pode ser transformada numa fonte
valiosa para a criação de negócio e de estratégias para
o contexto em análise
• A exploração de quantidades massivas de dados
estruturados e não estruturados para identificar
padrões que podem ajudar uma organização no
controle de custos, aumento de eficiência,
reconhecimento e descoberta de novos mercados e
oportunidades e aumento de vantagem competitiva
• Transformação de dados disponíveis em informação,
com recurso a técnicas de análise de dados,
experiência, mas também inteligência e criatividade
O documento discute o conceito de Big Data, definindo-o como conjuntos extremamente grandes de dados que precisam de ferramentas especializadas para lidar com volumes e velocidades crescentes. Explica que o Big Data pode ser usado para inovação e tomada de decisão, e destaca o crescimento exponencial na geração de dados oriundo da internet e dispositivos móveis. Também aborda profissões emergentes e soluções tecnológicas para o armazenamento e análise de grandes volumes de dados.
O documento apresenta um resumo sobre Business Intelligence, definindo-o como um conjunto de técnicas para extrair inteligência a partir de dados de negócios e converter volumes de dados em informações relevantes através de relatórios. Também define Data Warehouse como um processo de extrair dados de sistemas operacionais para análises, e lista algumas variações de sistemas BI como data mining, dashboards e orçamentos.
O documento fornece informações sobre uma disciplina de Data Science ministrada pelo professor Álvaro Pinheiro. A ementa inclui tópicos como introdução à ciência de dados, conceitos sobre dados, ciclo de vida dos dados, valor da informação, privacidade e ética. O documento também fornece referências bibliográficas sobre o tema.
Aula 01 - Introdução ao Sistema de InformaçãoDaniel Brandão
O documento apresenta as informações sobre Daniel Brandão, professor de Sistemas de Informação. Ele descreve sua formação acadêmica e áreas de atuação, além de fornecer detalhes sobre a disciplina como ementa, metodologia de avaliação e objetivos.
O documento apresenta um resumo sobre Business Intelligence. Explica que BI é o processo de transformar dados em informações úteis para tomada de decisões, descrevendo conceitos como data warehouse, ETL, OLAP e data mining. Também destaca os benefícios de BI para empresas, como melhorar processos decisórios e antecipar mudanças no mercado.
O documento discute a história e conceitos-chave de bancos de dados. Aborda a evolução dos bancos de dados desde os anos 1960, com o surgimento de modelos hierárquicos e relacionais. Também define termos como dados, informações, metadados e transações. Explica os principais tipos de bancos de dados e sistemas gerenciadores de banco de dados.
O documento discute Business Intelligence (BI) e a gestão de dados nas organizações. BI é definido como a coleta de informações adequadas para tomadas de decisão e conexão de sistemas para gerar insights. Embora as organizações coletem muitos dados, frequentemente falta transformá-los em informações úteis para os gestores.
O documento discute o conceito de Big Data e como a enorme quantidade de dados digitais gerados diariamente podem ser analisados para diferentes fins, como prever crimes, fazer negócios ou catalogar o cosmos. A geração exponencial de dados está ligada ao crescimento da internet, das redes sociais e dos dispositivos conectados. Empresas como a Amazon e o Walmart usam análises de Big Data em suas estratégias de negócios.
O documento discute como a 7-eleven perdeu capacidade de decisão sobre pedidos de fornecedores à medida que cresceu, levando a vendas perdidas e estoque excessivo. A empresa desenvolveu seu próprio sistema de informação e banco de dados para alcançar "inteligência de negócios" e retomar o controle das decisões.
O documento apresenta uma palestra sobre ciência de dados, definindo o termo, discutindo os principais tipos de modelos como classificação, regressão e agrupamento, e fornecendo exemplos de aplicações como análise de sentimento e previsão de preços de imóveis.
1) O documento introduz o conceito de ciência de dados, que envolve a coleta, transformação e armazenamento de dados, além da geração de informações e conhecimento a partir dos dados com o uso de técnicas de computação, estatística e domínios de aplicação.
2) A ciência de dados difere da ciência da computação ao tentar modelar saídas a partir de entradas de dados ao invés de definir funções exatas.
3) O curso abordará técnicas de coleta, análise e visual
O documento descreve o que é Business Intelligence (BI) e Power BI, como o Power BI funciona e como ele pode ser usado para analisar e compartilhar dados. O Power BI permite unificar dados de várias fontes, organizá-los no Power BI Desktop, processá-los com fórmulas DAX, publicá-los no Power BI Service para compartilhamento em painéis interativos em tempo real.
O documento discute o conceito de Big Data, definindo-o como o foco em grandes volumes de dados e velocidades de processamento. Explora os 5 V's do Big Data (Velocidade, Volume, Variedade, Veracidade e Valor) e apresenta exemplos de como empresas usam Big Data para identificar padrões e tomar decisões mais rápidas. Finalmente, discute tecnologias como Hadoop usadas para armazenar e processar grandes volumes de dados distribuídos.
BI - Uso e Benefícios ( Business Intelligence )Marco Garcia
A apresentação discute os benefícios e usos de Business Intelligence (BI), incluindo como BI pode transformar dados em informações valiosas para tomada de decisão, os principais componentes de um sistema de BI como data warehouse e data marts, e como empresas podem começar a implementar BI.
O documento resume conceitos fundamentais de mineração de dados, incluindo: 1) Visão geral do processo KDD e das etapas de extração de informações dos dados; 2) Tarefas comuns de mineração de dados como classificação e associação; 3) Técnicas como árvores de decisão e redes neurais. O documento também discute ferramentas como o Weka e aplicações práticas de mineração de dados.
O documento discute os conceitos de tecnologia da informação e sistemas de informação. Define TI como o conjunto de atividades e soluções de computação para armazenar, acessar e usar informações. Define sistemas de informação como grupos de componentes inter-relacionados que trabalham juntos para transformar entradas em saídas de acordo com metas. Descreve os principais componentes de sistemas de informação como entrada, processamento, saída e armazenamento.
O documento discute o Big Data, definindo seus conceitos principais como Volume, Velocidade, Variedade, Veracidade e Valor. Também aborda as ferramentas Hadoop e Cassandra, explicando o que são, suas características e como instalá-las.
Este documento discute o conceito de business intelligence e como pode ser usado para melhorar a tomada de decisão nas organizações. Em particular:
1) Explica o que é business intelligence e como pode ser usado para transformar dados em conhecimento útil.
2) Descreve a arquitetura típica de um sistema de business intelligence e como ele pode integrar diferentes sistemas de informação.
3) Discutem como a business intelligence pode apoiar processos estratégicos como planejamento, orçamento e análise de desempenho.
Este documento fornece um resumo dos principais tópicos discutidos no Módulo I do curso de Bacharelado em Sistemas de Informação da Universidade Aberta do Brasil (UAB). O documento discute a importância das tecnologias da informação e comunicação (TIC) para as empresas, os fundamentos dos sistemas de informação, incluindo conceitos, modelos e tipos de sistemas.
Este documento apresenta a disciplina Sistemas de Informação II ministrada no 1o semestre de 2016. Ele descreve os objetivos, ementa, competências, habilidades, conteúdo, metodologia, programa, avaliação e bibliografia da disciplina.
This document discusses how big data analytics is used in the telecom business. It defines big data and analytics, and explains why big data analytics is needed. It provides examples of how major telecom companies like Reliance Jio, Vodafone, and Globe Telecom are using big data analytics for applications like fraud prevention, targeted marketing, customer segmentation, and network optimization. Case studies show how these companies are gaining business benefits and competitive advantages from analyzing the large amounts of customer data in their possession.
1) O documento discute os conceitos e importância dos sistemas de informação gerencial para as empresas.
2) Um SIG transforma dados em informações úteis para a tomada de decisão, cobrindo aspectos estratégicos, táticos e operacionais da empresa.
3) Um SIG eficiente apoia processos de decisão melhores, reduz custos e melhora a produtividade e lucratividade da empresa.
Este documento apresenta os objetivos e conceitos fundamentais de sistemas de informação. Discute a importância dos sistemas de informação para as empresas e identifica as cinco áreas principais: conceitos básicos, tecnologias da informação, aplicações empresariais, processos de desenvolvimento e desafios gerenciais. Também fornece exemplos de componentes de sistemas de informação e tipos de sistemas usados em empresas.
Este documento apresenta uma introdução aos padrões de projeto, definindo-os como soluções comuns aplicadas a problemas recorrentes no contexto do projeto de software. Ele explica a origem dos padrões de projeto no trabalho de Christopher Alexander e descreve os principais componentes de um padrão de projeto segundo a linguagem de padrões.
O documento discute:
1) Os objetivos de entender o conceito de sistemas operacionais e a estrutura básica do Linux;
2) As funções do sistema operacional como gerenciador de recursos e máquina estendida;
3) A história dos sistemas operacionais desde as décadas de 1940-1980.
O documento apresenta um resumo sobre Business Intelligence. Explica que BI é o processo de transformar dados em informações úteis para tomada de decisões, descrevendo conceitos como data warehouse, ETL, OLAP e data mining. Também destaca os benefícios de BI para empresas, como melhorar processos decisórios e antecipar mudanças no mercado.
O documento discute a história e conceitos-chave de bancos de dados. Aborda a evolução dos bancos de dados desde os anos 1960, com o surgimento de modelos hierárquicos e relacionais. Também define termos como dados, informações, metadados e transações. Explica os principais tipos de bancos de dados e sistemas gerenciadores de banco de dados.
O documento discute Business Intelligence (BI) e a gestão de dados nas organizações. BI é definido como a coleta de informações adequadas para tomadas de decisão e conexão de sistemas para gerar insights. Embora as organizações coletem muitos dados, frequentemente falta transformá-los em informações úteis para os gestores.
O documento discute o conceito de Big Data e como a enorme quantidade de dados digitais gerados diariamente podem ser analisados para diferentes fins, como prever crimes, fazer negócios ou catalogar o cosmos. A geração exponencial de dados está ligada ao crescimento da internet, das redes sociais e dos dispositivos conectados. Empresas como a Amazon e o Walmart usam análises de Big Data em suas estratégias de negócios.
O documento discute como a 7-eleven perdeu capacidade de decisão sobre pedidos de fornecedores à medida que cresceu, levando a vendas perdidas e estoque excessivo. A empresa desenvolveu seu próprio sistema de informação e banco de dados para alcançar "inteligência de negócios" e retomar o controle das decisões.
O documento apresenta uma palestra sobre ciência de dados, definindo o termo, discutindo os principais tipos de modelos como classificação, regressão e agrupamento, e fornecendo exemplos de aplicações como análise de sentimento e previsão de preços de imóveis.
1) O documento introduz o conceito de ciência de dados, que envolve a coleta, transformação e armazenamento de dados, além da geração de informações e conhecimento a partir dos dados com o uso de técnicas de computação, estatística e domínios de aplicação.
2) A ciência de dados difere da ciência da computação ao tentar modelar saídas a partir de entradas de dados ao invés de definir funções exatas.
3) O curso abordará técnicas de coleta, análise e visual
O documento descreve o que é Business Intelligence (BI) e Power BI, como o Power BI funciona e como ele pode ser usado para analisar e compartilhar dados. O Power BI permite unificar dados de várias fontes, organizá-los no Power BI Desktop, processá-los com fórmulas DAX, publicá-los no Power BI Service para compartilhamento em painéis interativos em tempo real.
O documento discute o conceito de Big Data, definindo-o como o foco em grandes volumes de dados e velocidades de processamento. Explora os 5 V's do Big Data (Velocidade, Volume, Variedade, Veracidade e Valor) e apresenta exemplos de como empresas usam Big Data para identificar padrões e tomar decisões mais rápidas. Finalmente, discute tecnologias como Hadoop usadas para armazenar e processar grandes volumes de dados distribuídos.
BI - Uso e Benefícios ( Business Intelligence )Marco Garcia
A apresentação discute os benefícios e usos de Business Intelligence (BI), incluindo como BI pode transformar dados em informações valiosas para tomada de decisão, os principais componentes de um sistema de BI como data warehouse e data marts, e como empresas podem começar a implementar BI.
O documento resume conceitos fundamentais de mineração de dados, incluindo: 1) Visão geral do processo KDD e das etapas de extração de informações dos dados; 2) Tarefas comuns de mineração de dados como classificação e associação; 3) Técnicas como árvores de decisão e redes neurais. O documento também discute ferramentas como o Weka e aplicações práticas de mineração de dados.
O documento discute os conceitos de tecnologia da informação e sistemas de informação. Define TI como o conjunto de atividades e soluções de computação para armazenar, acessar e usar informações. Define sistemas de informação como grupos de componentes inter-relacionados que trabalham juntos para transformar entradas em saídas de acordo com metas. Descreve os principais componentes de sistemas de informação como entrada, processamento, saída e armazenamento.
O documento discute o Big Data, definindo seus conceitos principais como Volume, Velocidade, Variedade, Veracidade e Valor. Também aborda as ferramentas Hadoop e Cassandra, explicando o que são, suas características e como instalá-las.
Este documento discute o conceito de business intelligence e como pode ser usado para melhorar a tomada de decisão nas organizações. Em particular:
1) Explica o que é business intelligence e como pode ser usado para transformar dados em conhecimento útil.
2) Descreve a arquitetura típica de um sistema de business intelligence e como ele pode integrar diferentes sistemas de informação.
3) Discutem como a business intelligence pode apoiar processos estratégicos como planejamento, orçamento e análise de desempenho.
Este documento fornece um resumo dos principais tópicos discutidos no Módulo I do curso de Bacharelado em Sistemas de Informação da Universidade Aberta do Brasil (UAB). O documento discute a importância das tecnologias da informação e comunicação (TIC) para as empresas, os fundamentos dos sistemas de informação, incluindo conceitos, modelos e tipos de sistemas.
Este documento apresenta a disciplina Sistemas de Informação II ministrada no 1o semestre de 2016. Ele descreve os objetivos, ementa, competências, habilidades, conteúdo, metodologia, programa, avaliação e bibliografia da disciplina.
This document discusses how big data analytics is used in the telecom business. It defines big data and analytics, and explains why big data analytics is needed. It provides examples of how major telecom companies like Reliance Jio, Vodafone, and Globe Telecom are using big data analytics for applications like fraud prevention, targeted marketing, customer segmentation, and network optimization. Case studies show how these companies are gaining business benefits and competitive advantages from analyzing the large amounts of customer data in their possession.
1) O documento discute os conceitos e importância dos sistemas de informação gerencial para as empresas.
2) Um SIG transforma dados em informações úteis para a tomada de decisão, cobrindo aspectos estratégicos, táticos e operacionais da empresa.
3) Um SIG eficiente apoia processos de decisão melhores, reduz custos e melhora a produtividade e lucratividade da empresa.
Este documento apresenta os objetivos e conceitos fundamentais de sistemas de informação. Discute a importância dos sistemas de informação para as empresas e identifica as cinco áreas principais: conceitos básicos, tecnologias da informação, aplicações empresariais, processos de desenvolvimento e desafios gerenciais. Também fornece exemplos de componentes de sistemas de informação e tipos de sistemas usados em empresas.
Este documento apresenta uma introdução aos padrões de projeto, definindo-os como soluções comuns aplicadas a problemas recorrentes no contexto do projeto de software. Ele explica a origem dos padrões de projeto no trabalho de Christopher Alexander e descreve os principais componentes de um padrão de projeto segundo a linguagem de padrões.
O documento discute:
1) Os objetivos de entender o conceito de sistemas operacionais e a estrutura básica do Linux;
2) As funções do sistema operacional como gerenciador de recursos e máquina estendida;
3) A história dos sistemas operacionais desde as décadas de 1940-1980.
Este documento discute vários tópicos relacionados à administração de sistemas operacionais, incluindo gerência de memória, comandos grep e chmod, gerenciamento de pacotes e servidores web Apache.
The document discusses different scheduling algorithms used by operating systems to manage processes. It covers the process model and introduces scheduling algorithms like First-Come, First-Served which processes the oldest job first, Shortest Job First which prioritizes the shortest process, and Round-Robin Scheduling which allows equal processor time to each process in a cyclic way. The document also mentions AWK programming language.
O documento discute o arquivo /proc/meminfo no Linux, que armazena estatísticas sobre o uso de memória. Também apresenta um script shell que calcula a nota média de um aluno e imprime o conceito correspondente, e discute partições fixas, estruturas de controle no shell script, pipelines e listagem de subdiretórios. Por fim, mostra uma função shell para recomendar tamanhos mínimos e máximos de swap de acordo com a quantidade de RAM do sistema.
O documento introduz o conceito de inteligência artificial, discutindo sua definição, o teste de Turing, e exemplos de aplicações como reconhecimento de padrões, veículos autônomos e tradução automática. O documento também discute brevemente abordagens como redes neurais e algoritmos evolucionários.
This document discusses simulated annealing and genetic algorithms for solving optimization problems. It includes code for implementing simulated annealing with a traveling salesman problem. It also includes code for implementing a genetic algorithm with classes for individuals, populations, crossover, mutation, selection and fitness evaluation. The genetic algorithm code finds a solution to a problem by evolving a population of individuals over generations.
O documento discute vários tópicos relacionados à inteligência artificial, incluindo grafos e digrafos, problemas de busca, algoritmos de busca como breadth-first search e depth-first search, algoritmo A*, metaheurísticas como simulated annealing e algoritmos genéticos.
O documento discute os conceitos de dados, informações e conhecimento e apresenta os processos de gestão de eventos e gestão de incidentes em sistemas de informações gerenciais. A gestão de eventos monitora itens de configuração e ferramentas para detectar ocorrências e escalar exceções, enquanto a gestão de incidentes lida com interrupções de serviço de forma reativa para restaurar o nível de serviço o mais rápido possível.
O documento discute testes não funcionais para aplicações, incluindo debug, configuração de elementos, carregamento de dados CSV, cache, padronização de requisições HTTP, exemplos de head manager, expressões regulares, componentes de requisição HTTP e LDAP, bean shell sampler, variáveis, requisições JUnit, controles, asserções, tempos, thread groups e devops.
O documento discute testes de desempenho de software, definindo testes de carga, desempenho e estresse. Também aborda modelagem de carga de trabalho, métricas estatísticas e a ferramenta JMeter para teste de desempenho.
O documento descreve as etapas para realizar um diagrama de Pareto, incluindo determinar o problema, categorias, coleta de dados, tabulação, ordenação dos itens por quantidade decrescente e construção do diagrama com barras e curva acumulada para identificar os principais itens a serem abordados.
O documento discute testes de segurança como pentest, que envolvem encontrar falhas em sistemas através de técnicas como varredura de portas, enumeração de serviços e exploração de vulnerabilidades em aplicações e serviços. Ele também fornece exemplos de comandos para realizar tarefas como varredura de portas e enumeração de serviços SNMP e DNS.
O documento descreve o que é o VMware, um software de virtualização que permite rodar vários sistemas operacionais em uma única máquina física de forma isolada. O VMware cria computadores virtuais que executam sistemas operacionais diferentes do da máquina física de forma independente e segura. Esse recurso é muito usado em centros de dados para melhor aproveitar os recursos das máquinas físicas e aumentar a redundância e segurança sem precisar de tantas máquinas reais.
O documento descreve o que é aprendizado automático, sua relação com mineração de dados e a definição de Herbert Simon. Aprendizado automático é uma subárea da inteligência artificial que cria programas capazes de aprender comportamentos ou padrões a partir de exemplos, assim como humanos. Ele pode ser usado como algoritmo de mineração de dados para extrair padrões de comportamento de bases de dados.
1) O documento discute Business Intelligence, que permite o cruzamento de informações e análise de desempenho de um negócio para apoiar a tomada de decisão.
2) Business Intelligence usa estruturas multidimensionais com medidas, dimensões e hierarquias para fornecer visões analíticas aos gerentes.
3) OLAP é uma técnica multidimensional que permite respostas rápidas a consultas complexas através de agregações pré-construídas.
O documento discute testes de segurança em sistemas vulneráveis, descrevendo o framework Metasploit e seus principais componentes, como o núcleo REX, módulos de exploits e payloads, e interfaces. Também fornece exemplos de comandos do Metasploit para explorar vulnerabilidades em serviços como FTP, IRC e Apache.
O documento discute problemas determinísticos versus não determinísticos e a complexidade de algoritmos. Também explica os conjuntos P, NP e NP-completo e fornece exemplos como a localização de rotas e o problema do caixeiro viajante.
O documento discute como sistemas de ERP, CRM e SCM podem fortalecer relacionamentos com clientes, aumentar faturamento e melhorar organização, estratégia, acompanhamento e profissionalismo ao gerenciar comunicações e dados de clientes em um único sistema.
O documento discute o papel dos cientistas de dados e as habilidades necessárias para a profissão. Resume que cientistas de dados precisam ter fortes habilidades em programação, estatística, aquisição e limpeza de dados e machine learning para analisar grandes volumes de dados de forma a gerar insights valiosos.
Avaliação NOSQL para indexação do TwitterCaliel Costa
A Gestão do Conhecimento, através de suas técnicas e ferramentas, busca ajudar as empresas a aprender e inovar para atingir melhores resultados e serem mais eficientes no mercado. No entanto, essas mesmas empresas possuem cada vez mais informações internas e externas disponíveis e, muitas vezes, essas diversas informações (dados relacionais, e-mails, vídeos, imagens, etc.) precisam ser analisadas em um intervalo curto de tempo. Esse cenário é denominado Big Data.
Os bancos de dados relacionais podem não estar preparados para suprir as necessidades desse cenário. Conforme o volume de dados aumenta, a capacidade de processamento do servidor também deve aumentar para continuar atendendo aplicações e usuários, necessitando de investimentos crescentes em infraestrutura. Para atender a essas necessidades surgiu um novo paradigma de banco de dados chamado NoSQL. O modelo de dados deixa de ser relacional e passa a ser representado como objetos, documentos ou grafos, e a arquitetura do sistema é voltada para múltiplos servidores, propiciando fácil escalabilidade e alta disponibilidade. O trabalho apresenta todo este contexto e caracteriza os principais sistemas de bancos de dados existentes no mercado.
Ele tem como objetivo avaliar a utilização de um banco de dados NoSQL para a indexação de mensagens do Twitter selecionadas através de uma Taxonomia.
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2João Gabriel Lima
Apresentação feita para o LINC (Laboratório de Inteligência Computacional) explicando a otimização do algoritmo de aprendizagem da estrutura da rede bayesiana em um grande volume de dados utilizando MapReduce
O documento discute a descoberta de conhecimento em bases de dados e mineração de dados. Apresenta os conceitos, o processo de KDD, métodos de mineração de dados e exemplos de aplicações. Explica como a análise de grandes volumes de dados pode extrair padrões úteis para tomada de decisões em diversas áreas como marketing, bancos e saúde.
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...FranciscoBrunodeSous
O documento discute a automação do backoffice de uma grande corporação financeira usando visão computacional e redes neurais convolucionais. As principais ideias incluem: (1) digitalizar documentos para extrair informações com OCR, (2) usar algoritmos de visão computacional para pré-processamento de imagens, (3) classificar contratos usando uma CNN pequena.
O documento discute os principais conceitos sobre bancos de dados, incluindo: (1) um banco de dados é uma coleção de dados inter-relacionados sobre um domínio específico; (2) SGBDs são softwares que manipulam as informações do banco de dados; (3) bancos de dados são comumente usados em sistemas de software, sistemas bancários e sites de comércio eletrônico.
Esta é uma versão desatualizada dos slides. A versão aperfeiçoada está no link https://www.slideshare.net/MarcoAntonioFilgueir/workshop-meetup-viso-geral-sobre-big-data-88203595?trk=v-feed
1) O documento discute os conceitos fundamentais de informação, dados e modelos de dados em bancos de dados, incluindo hierárquico, em rede e relacional.
2) É introduzida a noção de banco de dados, sistema de gerenciamento de banco de dados e as vantagens de utilizar bancos de dados.
3) São descritos os níveis de abstração de dados, incluindo físico e lógico.
Apresentação de trabalho para a disciplina de Inteligencia Computacional.
Instituto Federal de Educação, Ciência e Tecnologia do Ceará
IFCE - Curso de Engenharia da Computação.
Este documento resume uma apresentação sobre mineração de dados com SQL Server 2008 R2. Apresenta conceitos básicos de mineração de dados, como classificação, agrupamento, associação e regressão. Detalha os algoritmos de mineração disponíveis no SQL Server e em outros produtos da Microsoft como Excel e Visio. Demonstra como realizar mineração de dados no SQL Server, Integration Services e em add-ins para Office.
1) O documento discute Knowledge Discovery Database (KDD) e Data Mining (DM), explicando que KDD é o processo geral de extração de conhecimento de dados enquanto DM se refere especificamente à etapa de descoberta de padrões.
2) O processo de KDD inclui seleção, pré-processamento, transformação, mineração de dados e interpretação. As tarefas comuns de KDD incluem regras de associação, classificação e agrupamento.
3) Exemplos demonstram como técnicas de DM podem ser us
1. O documento apresenta uma história sobre Ryu, escolhido para analisar grandes volumes de dados do e-commerce Shadaloo usando Apache Hadoop.
2. Explica brevemente o que é Hadoop, sua arquitetura e ferramentas como HDFS, MapReduce, Hive e PIG.
3. Apresenta demonstrações práticas de como usar a sandbox Hortonworks para trabalhar com Hadoop, incluindo upload de dados, criação de tabelas Hive e execução de scripts.
O documento discute como Hadoop, Big Data e Cloud Computing podem ser usados juntos. Apresenta exemplos de onde os dados em grande volume são gerados e como a AWS facilita a coleta, armazenamento, processamento e análise desses dados de forma elástica e econômica.
Machine learning java ce conference 2012 - fortaleza ceLuca Bastos
1) O documento discute machine learning e apresenta o Weka, uma ferramenta de código aberto para aprendizado de máquina.
2) O Weka contém algoritmos de aprendizado supervisionado e não supervisionado, pré-processamento de dados e interfaces gráficas.
3) O documento explica como usar o Weka para classificação, clustering, seleção de atributos e experimentação com diferentes algoritmos.
Hands-on Workshop: Como configurar e utilizar uma estrutura MongoDB para Big ...Big Data Week São Paulo
Hands-on Workshop: Como configurar e utilizar uma estrutura MongoDB para Big Data
No workshop, um ambiente MongoDB distribuído será configurado de maneira a possibilitar a escalabilidade de sua aplicação. Serão abordadas boas práticas para a utilização da infra-estrutura além dos seguintes temas:
- Replicas e sharding;
- Definição, utilização e manutenção de índices;
- Map Reduce vs Aggregate;
- Ferramentas úteis.
Pre-requisitos:
Computador pessoal com MongoDB 2.6 instalado (http://www.mongodb.org/downloads)
No Ubuntu, o pacote é o mongodb-org; repositório disponível em http://docs.mongodb.org/manual/tutorial/install-mongodb-on-ubuntu/.
Gabriel Campos
Co-fundador e CTO da Zahpee.
Bacharel em Ciência da Computação pela UFMG. Há mais de quatro anos atua no desenvolvimento de coleta, processamento e visualização de dados. MongoDB entusiasta e administrador do banco de dados da Zahpee.
O Cassandra é um banco de dados NOSQL orientado à família de coluna que nasceu para resolver problemas com aplicações que precisam operar com gigantescas cargas de dados além de poder escalar com grande facilidade. Ele nasceu no facebook e hoje vem sendo usado intensamente por empresas dos mais variados portes, tais como Netflix, Twitter, Instagram, HP, IBM, dentre muitas outras. Um fator importante que vale ser citado é a sua adoção crescente inclusive em mercados mais conversadores tais como, instituições financeiras e agências governamentais como a NASA.
Assuntos abordados
- Conceito Data Science
- Conceito BigData
- NOSQL
- Histórico
- Tipos de Bancos
- Comparação com o Modelo relacional
- Cassandra
- Arquitetura Cassandra
- Configurações Básica do Cassandra
- Configuração de multi-nodes no Cassandra
- Conhecendo o DevOpsCenter
- Instalando os Agentes
Aprendizado de máquina.
Mineração de dados e big data.
Dados, informação e conhecimento.
Análise de dados e estatística.
Armazenamento analítico.
Processos de mineração de dados.
Tarefas de aprendizado de máquina.
Aplicação: crimes financeiros.
O documento discute o processo de data mining, incluindo suas definições, funções, técnicas e aplicações. Resume que data mining extrai padrões de dados para gerar conhecimento útil para tomada de decisão, utilizando técnicas como árvores de decisão, redes neurais e regras indutivas. Apresenta também exemplos de como empresas aplicaram com sucesso data mining.
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
Este documento discute o contexto de Big Data, Ciência de Dados e Processo de Descoberta de Conhecimento (KDD). A quantidade de dados gerados aumentou drasticamente e vem de fontes variadas, incluindo dados estruturados e não estruturados. O objetivo continua sendo sintetizar, organizar e tomar decisões baseadas nos dados, porém os desafios são maiores devido ao volume, variedade e velocidade dos dados atuais. O processo KDD é usado para extrair conhecimento e insights dos dados por meio de aquisição,
O documento discute Big Data e técnicas de análise de dados. Aborda porque Big Data é importante, fatores-chave como infraestrutura e gestão de dados, e aplicações em empresas. Também explica conceitos como árvores de decisão, redes neurais e algoritmos genéticos.
Este documento discute o uso de inteligência artificial na saúde. Ele apresenta o palestrante Francisco Nauber Bernardo Gois, instrutor de aprendizado de máquina na Secretaria de Saúde do Ceará. O documento também discute tópicos como diagnóstico de câncer cerebral com transfer learning, detecção de tumores cerebrais usando aprendizado de máquina, uso de machine learning explicável e previsão de casos de COVID-19 com redes LSTM.
This document describes the steps to create and train a convolutional neural network (CNN) for image classification. It imports Keras libraries and defines a CNN model with convolutional and max pooling layers, followed by flattening and dense layers. The CNN is trained on images of cats and dogs using data augmentation techniques and is validated. Finally, a single image is input to predict whether it depicts a cat or dog based on the trained CNN model.
1. O documento discute sistemas operacionais seguros, com ênfase em comandos Linux para auditoria e segurança de rede.
2. É apresentado o scanner de rede Nmap, descrevendo seus usos principais como varredura de portas, detecção de sistema operacional e mapeamento de serviços.
3. O documento também lista e explica brevemente alguns ataques comuns como engenharia social, varredura, negação de serviço e exploração de vulnerabilidades, assim como ferramentas para análise de logs e detecção de
The document provides instructions for various Linux commands used to manage and monitor processes, schedule jobs, compare files, join and manipulate text files. It discusses commands like ps, jobs, iostat, vmstat, at, crontab, diff, cut, paste, join, comm, tr and options for configuring Docker.
This document discusses several natural language processing techniques in Python including:
1. Sentence tokenization using the NLTK tokenizer to split text into sentences.
2. Stemming using the Snowball stemmer to reduce words to their root form.
3. Lemmatization to reduce words to their canonical form.
4. Part-of-speech tagging to label tokens with their part of speech like noun, verb, adjective.
5. Frequency distribution and rare word filtering to analyze word frequencies in a corpus.
The document discusses continuous delivery and how to achieve it using Maven. It explains that with continuous delivery, every build is a potential release. The principles of continuous delivery are to eliminate manual bottlenecks, automate wherever possible, and have automated tests you can trust. It describes how Maven can be used to implement a continuous delivery pipeline through its build lifecycle goals like test, verify, and deploy. These goals allow for compiling, unit testing, integration testing, packaging, and deploying builds. The Maven release process is also summarized, which prepares, performs and publishes a new release version.
MapReduce é um modelo de programação para processar grandes volumes de dados em paralelo, dividindo o trabalho em tarefas independentes de mapeamento e redução. O mapeamento gera pares chave-valor a partir dos dados de entrada e a redução combina valores com a mesma chave. Um exemplo simples mostra a utilização de MapReduce para encontrar as temperaturas máximas por cidade a partir de arquivos de dados.
O documento explica o que é um INODE, uma estrutura de dados que contém informações sobre arquivos em um sistema de arquivos, como permissões, proprietários e ponteiros para o conteúdo do arquivo. O espaço reservado para INODES é a razão pela qual o espaço disponível em um dispositivo de armazenamento é menor do que seu tamanho total anunciado.
This document discusses reinforcement learning and provides code examples using the OpenAI Gym environment. It introduces exploration vs exploitation in reinforcement learning and uses the CartPole-v0 environment to sample random actions and run episodes. It also prints out observation and action space details for CartPole-v0 and runs a similar example using the AirRaid-ram-v0 environment.
O documento discute um sistema operacional, mencionando docker-compose up para iniciar dois serviços em portas diferentes (5000 e 5001) e gerenciamento de arquivos.
O documento descreve o treinamento de um modelo de rede neural recorrente para gerar texto no estilo de William Shakespeare. O modelo é treinado em um conjunto de dados de texto de Shakespeare e, em seguida, é capaz de gerar novos textos no estilo de Shakespeare.
This document discusses various Linux system administration tasks such as managing runlevels, services, users, and networking. It provides details on common Linux services, how to start and stop services, and how to create, suspend, and remove user accounts. It also discusses the /etc/passwd and /etc/shadow files for managing user account information.
Redes neurais são sistemas computacionais inspirados nos neurônios biológicos e são usadas para reconhecimento de padrões e aprendizado de máquina. Elas podem aprender tarefas complexas diretamente a partir de dados, sem programação explícita. A aula 9 discute redes neurais como uma técnica de inteligência artificial.
This document discusses ensemble methods for artificial intelligence and provides links to resources on ensemble methods applied to labeling data, predicting French presidential elections, and detecting credit card fraud. It focuses on combining multiple machine learning models to improve performance over single models.
O documento discute o nível de serviço e fornece três informações principais: 1) Acordo do Nível de Serviço (SLA) e Acordo do Nível Operacional (OLA) são as informações-chave deste processo; 2) O processo apoia a geração do Plano de Melhoria de Serviço (SIP) e Plano de Qualidade do Serviço (SQP); 3) O objetivo do processo é garantir que todos os serviços operacionais e desempenho sejam medidos de forma consistente para atender às necessidades dos clientes internos e externos.
O documento discute integração contínua, arquitetura de sistemas operacionais Node.js e REST. Ele apresenta exemplos de código Node.js para criar servidores e rotas, e define REST como um estilo arquitetural para sistemas hipermídia distribuídos.
O documento descreve a matriz de confusão, uma medida efetiva para avaliar o desempenho de um modelo de classificação. A matriz mostra o número de classificações corretas versus preditas para cada classe em um conjunto de exemplos, com os acertos na diagonal principal e erros nos demais elementos. Um classificador ideal teria todos os elementos iguais a zero, indicando nenhum erro.
This document outlines exploiting browsers by hosting a malicious JavaScript file on a local web server. It first generates an HTML file that loads the malicious script from the local IP address and port 3000. It then pulls a BEEF Docker image and runs it, exposing its web interface on port 3000 to serve the hooked JavaScript file.
Os sistemas de informação gerencial são ferramentas que auxiliam os gestores no processo de tomada de decisão. Eles permitem a coleta, armazenamento e análise de dados para geração de relatórios que apoiam a gestão das organizações. O livro aborda os principais conceitos e aplicações desses sistemas para apoiar a administração de empresas.
O documento descreve o servidor Apache, criado em 1995 por Rob McCool para ser um servidor web livre e popular, principalmente no Linux. Ele também discute a diferença entre servidores web e servidores de aplicação, e fornece exemplos de comandos docker para executar o servidor de aplicação JBoss WildFly.
A linguagem C# aproveita conceitos de muitas outras linguagens,
mas especialmente de C++ e Java. Sua sintaxe é relativamente fácil, o que
diminui o tempo de aprendizado. Todos os programas desenvolvidos devem
ser compilados, gerando um arquivo com a extensão DLL ou EXE. Isso torna a
execução dos programas mais rápida se comparados com as linguagens de
script (VBScript , JavaScript) que atualmente utilizamos na internet
As classes de modelagem podem ser comparadas a moldes ou
formas que definem as características e os comportamentos dos
objetos criados a partir delas. Vale traçar um paralelo com o projeto de
um automóvel. Os engenheiros definem as medidas, a quantidade de
portas, a potência do motor, a localização do estepe, dentre outras
descrições necessárias para a fabricação de um veículo
2. NAUBER GOIS
Aluno de Doutorado em Informática Aplicada da Unifor
Área de Estudo: Reinforcement Learning e
metaheurísticas aplicadas a testes de performance.
Analista de Desenvolvimento do Serpro
7. Data scientist: Person who is better at statistics than any
software engineer and better at software engineering than
any statistician – Josh Wills
Data scientist: Pessoa que é melhor em
estatística que quaisquer engenheiros de
software e melhor em engenharia de
software que quaisquer estatístico – Josh
Wills
Usar (coletar, armazenar, publicar) dados
não é data science. É preciso agregar
valor aos dados e permitir novas formas
de uso.
7
13. DESMISTIFICANDO A CIÊNCIA DE DADOS
COLETAR E PROCESSAR OS DADOS
Conduzir experimento de pesquisa.
Coletar amostras de uma população.
Transformar , filtrar e sumarizar os dados.
Preparar os dados para o modelo escolhido
13
14. DESMISTIFICANDO A CIÊNCIA DE DADOS
FORMULAÇÃO DE UM PROBLEMA
Identificação de uma área de interesse e o tipo de modelo
Clustering
14
15. DESMISTIFICANDO A CIÊNCIA DE DADOS
ESCOLHA DO TIPO DE MODELO A SER APLICADO
15
■ k-th Nearest Neighbour
■ Parzen Window
■ Unfolding, Conjoint Analysis,
Cat-PCA
Clustering Classificação Regressão
■ Linear Discriminant Analysis, QDA
■ Logistic Regression (Logit)
■ Decision Trees, LSSVM, NN, VS
■ Classical Linear Regression
■ Ridge Regression
■ NN, CART
+
+
+
+ ++
+
+
++
+
++
+
+
+
+
+
+
+
+
+
-
-
-
-
-
-
+
+
+
+
+
++
+
+
X 1X 1X 1
X 2 X 2
Common Data Mining tasks
23. DESMISTIFICANDO A CIÊNCIA DE DADOS
REGRESSÃO https://plot.ly ('Coefficients: n', array([ 0.00118801]))
Mean squared error: 9.71
Variance score: -2.38
28. OCCAM'S RAZOR
DESMISTIFICANDO A CIÊNCIA DE DADOS
• Se os resultados forem
semelhantes escolha a
solução mais simples.
• Em Data Science prefira
sempre o modelo mais
simples
35. DADOS DE TREINO VS DADOS DE TESTE
• Dados de Treino
• Usados para treinar um
modelo
• Exemplos
• Dados de Teste
• Usados para testar a
performance do modelo
• Dados de validação.
DESMISTIFICANDO A CIÊNCIA DE DADOS
36. Classificação
Nome Idade Renda Profissão Classe
Daniel ≤ 30 Média Estudante Sim
João 31..50 Média-Alta Professor Sim
Carlos 31..50 Média-Alta Engenheiro Sim
Maria 31..50 Baixa Vendedora Não
Paulo ≤ 30 Baixa Porteiro Não
Otavio > 60 Média-Alta Aposentado Não
SE. Idade ≤ 30 Renda é Média Compra-Produto-Eletrônico = SIM.E ENTÃO
39. APRENDIZADO SUPERVISIONADO VS NÃO SUPERVISIONADO
• Supervisionado
• Conhecimento das entradas e
saídas de dados
• Os dados possuem um label
• O objetivo é predizer a classe
ou o label do dado
• Não Supervisionado
• Sem conhecimento prévio
dos dados
• O objetivo é determinar
padrões
DESMISTIFICANDO A CIÊNCIA DE DADOS
48. DESMISTIFICANDO A CIÊNCIA DE DADOS
ANALISANDO TEXTO
Passados quase três meses do final dos Jogos, o Comitê
Rio-2016ainda deve reembolso a
8.000 torcedores que utilizaram sua
plataforma online para revender ingressos.
A entidade reduziu o contingente de consumidores a
quem devia pagamentos, que chegou a 140 mil em 19 de
outubro, data até a qual prometeu quitar os débitos. Mas
ainda não deu fim ao problema.
A entidade afirmou que tem dificuldades para ressarcir o
restante. Alega problemas para encontrar os credores e
inconsistência nos dados bancários fornecidos —muitos
depósitos não foram completados.
De acordo com o comitê, 3.500 pessoas foram
procuradas mas não responderam às mensagens
eletrônicas, 2.500 até deram retorno, porém as
informações repassadas continham algum erro e 2.000
devem receber o reembolso até esta segunda (12), após
terem dados checados.
Uma mutação aparentemente insignificante no
DNA dos ancestrais da humanidade
pode ter contribuído para que nosso cérebro
alcançasse o tamanho descomunal que tem
hoje (três vezes maior que o dos grandes
macacos).
Bastou inserir o gene que contém essa
mutação em fetos de camundongo para que
dobrasse o número de células que dão origem
aos neurônios do córtex, a área cerebral mais
"nobre".
A pesquisa,conduzida por
cientistas do Instituto Max
Planck (Alemanha), é um dos primeiros frutos
da tentativa de usar o genoma para entender
como a evolução humana se desenrolou. Por
enquanto, isso não tem sido fácil –tanto que o
gene analisado pelos pesquisadores no novo
estudo, designado pela indigesta sigla
ARHGAP11B, é o único específico da linhagem
humana a ser associado com a proliferação das
tais células do córtex cerebral.
49. DESMISTIFICANDO A CIÊNCIA DE DADOS
ANÁLISE DE SENTIMENTO
>>> docs_new = ['God is love', 'OpenGL on the GPU is fast']
>>> X_new_counts = count_vect.transform(docs_new)
>>> X_new_tfidf = tfidf_transformer.transform(X_new_counts)
>>> predicted = clf.predict(X_new_tfidf)
>>> for doc, category in zip(docs_new, predicted):
... print('%r => %s' % (doc, twenty_train.target_names[category]))
...
'God is love' => soc.religion.christian
'OpenGL on the GPU is fast' => comp.graphics
54. DESMISTIFICANDO A CIÊNCIA DE DADOS
PERFORMANCE DE UM CLASSIFICADOR
• Acuracia = classificados corretamente /total de exemplos
• Erro = 1-Acuracia
PERFORMANCE DE UMA REGRESSÃO
Uma das formas de avaliar a qualidade do ajuste do modelo é através do coeficiente
de determinação. Basicamente, este coeficiente indica quanto o modelo foi capaz de
explicar os dados coletados. O coeficiente de determinação é dado pela expressão
Razão entre a soma de quadrados da
regressão e a soma de quadrados total.
57. NUMPY
Biblioteca em python para
manipulação de arrays e
matrizes
PANDAS
Biblioteca de Manipulação
de dados e analise em
python
58. DESMISTIFICANDO A CIÊNCIA DE DADOS
NUMPY E PANDAS- LENDO ARQUIVO CSV
import numpy as np
import pandas as pd
import visuals as vs # Supplementary code
from sklearn.cross_validation import ShuffleSplit
# Load the Boston housing dataset
data = pd.read_csv('housing.csv')
prices = data['MEDV']
features = data.drop('MEDV', axis = 1)
59. DESMISTIFICANDO A CIÊNCIA DE DADOS
NUMPY E PANDAS- MÉDIA, MEDIANA E DESVIO PADRÃO
# TODO: Mean price of the data
mean_price = np.mean(prices)
# TODO: Median price of the data
median_price = np.median(prices)
# TODO: Standard deviation of prices of the data
std_price = np.std(prices)
# Show the calculated statistics
print "Statistics for Boston housing dataset:n"
print "Mean price: ${:,.2f}".format(mean_price)
print "Median price ${:,.2f}".format(median_price)
print "Standard deviation of prices: ${:,.
2f}".format(std_price)
60. SKLEARN
•Aplicação simples e
eficiente para data mining e
data analysis
•Feito com NumPy, SciPy,
e matplotlib
•Open source,
commercially usable - BSD
license
62. CLASSIFICAÇÃO NO SKLEARN
# Create a classifier: a support vector classifier
classifier = svm.SVC(gamma=0.001)
# We learn the digits on the first half of the digits
classifier.fit(data[:n_samples / 2], digits.target[:n_samples /
2])
DESMISTIFICANDO A CIÊNCIA DE DADOS
63. CLASSIFICANDO EMAILS
DESMISTIFICANDO A CIÊNCIA DE DADOS
from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
…
classifier.fit(counts, targets)
examples = ['Free Viagra call today!', "I'm going to
attend the Linux users group tomorrow."]
….
predictions = classifier.predict(example_counts)
predictions # [1, 0]
65. LINGUAGEM R
R é uma linguagem e também
um ambiente de
desenvolvimento integrado
para cálculos estatísticos e
gráficos.
Foi criada originalmente por
Ross Ihaka e por Robert
Gentleman no departamento de
Estatística da universidade de
Auckland, Nova Zelândia.
67. ID SEXO CORAÇÃO PESO
1 F 2.0 7.0
2 F 2.0 7.4
3 F 2.0 9.5
4 F 2.1 7.2
5 F 2.1 7.3
6 F 2.1 7.6
7 F 2.1 8.1
8 F 2.1 8.2
library(“MASS")
data(cats)
EXEMPLO DE PROBLEMA - ÁREA (BIOLOGIA) - TIPO: REGRESSÃO
R is a free software environment for
statistical computing and graphics. It
compiles and runs on a wide variety of
UNIX platforms, Windows and MacOS. To
download R, please choose your preferred
CRAN mirror.
67
76. EXEMPLO DE PROBLEMA - PREÇO DE IMÓVEIS EM BOSTON
CÓDIGO DE REGRESSÃO NO SKLEARN
regressor = DecisionTreeRegressor(random_state=42)
params = {"max_depth": [1,2,3,4,5,6,7,8,9,10]}
# TODO: Create the grid search object
grid = GridSearchCV(regressor,
param_grid=params, scoring =
scoring_fnc, cv = cv_sets)
# Fit the grid search object to the data to compute the optimal
model
grid = grid.fit(X, y)
77. EXEMPLO DE PROBLEMA - PREÇO DE IMÓVEIS EM BOSTON
PREDICTING
# Produce a matrix for client data
client_data = [[5, 17, 15], # Client 1
[4, 32, 22], # Client 2
[8, 3, 12]] # Client 3
# Show predictions
for i, price in
enumerate(reg.predict(client_data)):
Predicted selling price for Client 1's home: $414,473.68
Predicted selling price for Client 2's home: $214,302.44
Predicted selling price for Client 3's home: $910,700.00
79. INTERVENÇÃO DE ESTUDANTES
INTERVENÇÃO DE ESTUDANTES
Feature values:
school sex age address famsize Pstatus Medu Fedu Mjob Fjob
0 GP F 18 U GT3 A 4 4 at_home teacher
1 GP F 17 U GT3 T 1 1 at_home other
2 GP F 15 U LE3 T 1 1 at_home other
3 GP F 15 U GT3 T 4 2 health services
4 GP F 16 U GT3 T 3 3 other other
... higher internet romantic famrel freetime goout Dalc Walc health
0 ... yes no no 4 3 4 1 1 3
1 ... yes yes no 5 3 3 1 1 3
2 ... yes yes no 4 3 2 2 3 3
3 ... yes yes yes 3 2 2 1 1 5
4 ... yes no no 4 3 2 1 2 5
absences
0 6
1 4
2 10
3 2
4 4
80. INTERVENÇÃO DE ESTUDANTES
PREPARANDO OS DADOS
# If data type is non-numeric, replace all yes/no values with 1/0
if col_data.dtype == object:
col_data = col_data.replace(['yes', 'no'], [1, 0])
X_train, X_test, y_train, y_test = train_test_split(X_all, y_all,
stratify=y_all, train_size=train_size,test_size=0.24)
SEPARANDO DADOS DE TREINO E TESTE
82. INTERVENÇÃO DE ESTUDANTES
COMPARAÇÃO DE MODELOS
Logistic Regression Pros:
• Implementação eficiente
Logistic Regression Cons:
• Não é performático com muitas features
83. Decision Trees Pros:
• Regras de decisão intuitivas
• Pode utilizar campos não lineares
Decision Trees Cons:
• Alto Bias [Random Forests pode ser a solução]
• Sem ranking score
COMPARAÇÃO DE MODELOS
INTERVENÇÃO DE ESTUDANTES
84. COMPARAÇÃO DE MODELOS
SVM Pros:
• Pode lidar com um grande número de features
SVM Cons:
• Não é performático em um dataset com um maior número de
linhas
INTERVENÇÃO DE ESTUDANTES
96. RELATÓRIOS
RELATÓRIOS
▸ Notebooks online: iPython, Jupyter
▸ permitem a criação de
documentos
▸ interativos em várias linguagens
de análise.
▸ ¨ Reproducible Research!
98. TESTE A/B
Teste A/B é um método de teste onde se comparam duas práticas, A e B,
em que estes são o controle e o tratamento de uma experiência
controlada, com o objetivo de melhorar a percentagem de aprovação.
TESTE A/B