Este documento fornece um resumo sobre pré-processamento de dados e análise exploratória no R. Ele discute conceitos como tipos de dados, representação de dados no R, subsetting e análise exploratória. O documento também apresenta exemplos de dados brutos e processados e discute a importância de organizar os dados em formato tidy.
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
Este documento resume um livro sobre mineração de dados na web usando R. Ele discute 1) o projeto R e suas características, 2) a definição de dados e a diferença entre dados brutos e processados, e 3) como representar dados no R usando vetores, matrizes e data frames.
Questões Corrigidas, em Word: Geradores e Receptores - Conteúdo vinculado a...Rodrigo Penna
Este documento fornece conceitos sobre geradores e receptores elétricos, incluindo suas equações e representações em circuitos. Resume questões corrigidas sobre esses tópicos, explicando como a resistência interna de um gerador afeta a potência das lâmpadas em um circuito e como medir a força eletromotriz e resistência interna de um gerador a partir de seu gráfico.
Fisica tópico 2 – associação de resistores e medidas elétricascomentada
A, B ou C da chave, o circuito está aberto e o chuveiro não funciona
(desligado).
O documento discute associações de resistores elétricos. É apresentada a
resolução de três problemas envolvendo cálculos de resistência equivalente,
• Na posição B, os resistores R1 e R2 estão em série, simulando o
intensidade de corrente e tensão em diferentes configurações de resistores.
modo verão.
• Na posição C, apenas o resistor R2 está incluído no circuito
Questões Corrigidas, em Word: Associação de Resistores e Circuitos - Conteú...Rodrigo Penna
O documento discute circuitos elétricos em série, paralelo e misto. Apresenta exemplos de questões com suas respectivas correções, explicando conceitos como corrente elétrica, resistência e leis de Ohm para cada tipo de circuito.
Objetivos da apresentação
• Introduzir o R como um software para análise de dados, estatística, armazenamento e criação de gráficos, que é também uma linguagem de programação
• Introduzir a operação básica do software R e apresentar algumas das suas funcionalidades e potencialidades
• Partilhar um conjunto de recursos que facilitem a aprendizagem e exploração do R
• Apresentar alguns exemplos do uso de R
• Propor uma comunidade de uso local, para explorar o R
Este documento apresenta informações sobre um curso de aprendizado de R, incluindo o cronograma de eventos SQL Saturday, uma breve biografia do instrutor, e conceitos básicos sobre R como ambiente de trabalho estatístico, história, características, tipos de objetos, funções básicas e estatística descritiva.
Palestra realizada no http://conalytics.com.br/ 2014. Apresenta um exemplo de mineração de texto em mensagens do twitter e um case de desenvolvimento de anti-spam. Todos os exemplos de Web Data mining são apresentados com a linguagem de programação R.
Este documento apresenta os principais conceitos sobre bases de dados relacionais em 3 frases ou menos:
m
á
t
i
c
a
1) Apresenta os conceitos básicos de bases de dados relacionais, incluindo o modelo relacional, restrições de integridade e metodologias de desenho de bases de dados relacionais.
2) Discutem os conceitos-chave de entidades, atributos, relacionamentos, chaves primárias e estrangeiras na modelagem conceitual de dados para criação de uma base de dados relacional.
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
Este documento resume um livro sobre mineração de dados na web usando R. Ele discute 1) o projeto R e suas características, 2) a definição de dados e a diferença entre dados brutos e processados, e 3) como representar dados no R usando vetores, matrizes e data frames.
Questões Corrigidas, em Word: Geradores e Receptores - Conteúdo vinculado a...Rodrigo Penna
Este documento fornece conceitos sobre geradores e receptores elétricos, incluindo suas equações e representações em circuitos. Resume questões corrigidas sobre esses tópicos, explicando como a resistência interna de um gerador afeta a potência das lâmpadas em um circuito e como medir a força eletromotriz e resistência interna de um gerador a partir de seu gráfico.
Fisica tópico 2 – associação de resistores e medidas elétricascomentada
A, B ou C da chave, o circuito está aberto e o chuveiro não funciona
(desligado).
O documento discute associações de resistores elétricos. É apresentada a
resolução de três problemas envolvendo cálculos de resistência equivalente,
• Na posição B, os resistores R1 e R2 estão em série, simulando o
intensidade de corrente e tensão em diferentes configurações de resistores.
modo verão.
• Na posição C, apenas o resistor R2 está incluído no circuito
Questões Corrigidas, em Word: Associação de Resistores e Circuitos - Conteú...Rodrigo Penna
O documento discute circuitos elétricos em série, paralelo e misto. Apresenta exemplos de questões com suas respectivas correções, explicando conceitos como corrente elétrica, resistência e leis de Ohm para cada tipo de circuito.
Objetivos da apresentação
• Introduzir o R como um software para análise de dados, estatística, armazenamento e criação de gráficos, que é também uma linguagem de programação
• Introduzir a operação básica do software R e apresentar algumas das suas funcionalidades e potencialidades
• Partilhar um conjunto de recursos que facilitem a aprendizagem e exploração do R
• Apresentar alguns exemplos do uso de R
• Propor uma comunidade de uso local, para explorar o R
Este documento apresenta informações sobre um curso de aprendizado de R, incluindo o cronograma de eventos SQL Saturday, uma breve biografia do instrutor, e conceitos básicos sobre R como ambiente de trabalho estatístico, história, características, tipos de objetos, funções básicas e estatística descritiva.
Palestra realizada no http://conalytics.com.br/ 2014. Apresenta um exemplo de mineração de texto em mensagens do twitter e um case de desenvolvimento de anti-spam. Todos os exemplos de Web Data mining são apresentados com a linguagem de programação R.
Este documento apresenta os principais conceitos sobre bases de dados relacionais em 3 frases ou menos:
m
á
t
i
c
a
1) Apresenta os conceitos básicos de bases de dados relacionais, incluindo o modelo relacional, restrições de integridade e metodologias de desenho de bases de dados relacionais.
2) Discutem os conceitos-chave de entidades, atributos, relacionamentos, chaves primárias e estrangeiras na modelagem conceitual de dados para criação de uma base de dados relacional.
R e dados abertos, uma perfeita combinaçãoSillas Gonzaga
- O documento discute a combinação entre dados abertos e a linguagem R, apresentando o autor e seu blog sobre análises de dados. Ele também resume as principais funcionalidades da linguagem R e apresenta um caso de estudo sobre análise de dados do Portal da Transparência usando R. Por fim, o documento fornece dicas sobre como aprender R.
Introdução ao Banco de dados - Prof. Daniel BrandãoDaniel Brandão
O documento apresenta informações sobre o professor Daniel Brandão, incluindo sua formação acadêmica e experiência profissional. A ementa da disciplina Banco de Dados II é descrita, com os principais tópicos a serem abordados e as referências bibliográficas. Por fim, o documento lista os temas que serão discutidos ao longo do curso.
Oficina: construção de modelos descritivos e preditivos utilizando RFabrício Barth
- O documento apresenta uma oficina sobre construção de modelos descritivos e preditivos utilizando a linguagem R.
- Serão abordados conceitos de aprendizagem de máquina, análise de mensagens do Twitter usando agrupamento e desenvolvimento de algoritmos anti-spam.
- O objetivo é apresentar exemplos práticos de construção de modelos utilizando a linguagem R.
Mapeamento de Objetos para o Modelo Relacional.pptJoberthSilva
O documento discute o mapeamento de objetos para o modelo relacional, introduzindo os conceitos de objetos persistentes e transientes e as diferenças entre o modelo de classes e o modelo entidade-relacionamento. Também aborda os procedimentos para mapeamento de classes, atributos, associações, agregações, generalizações e classes associativas.
Resumo apresentado na Matéria de Recuperação e Recomendação de Informação do PPGI 2014. Um resumo do Artigo de Borg, Runeson e Ardo (com pitadas da minha experiência profissional). Nesse artigo os autores falam sobre Rastreabilidade de Software feita de forma automatizada através de Modelos e Técnicas de Recuperação da Informação.
Web Data Mining em R: agrupamento de mensagens do twitterFabrício Barth
O documento descreve os principais componentes e etapas para agrupar mensagens do Twitter, incluindo a coleta de dados, pré-processamento, representação dos documentos em vetores, e algoritmos de agrupamento como K-means.
1. O documento apresenta uma introdução ao R, incluindo sua história, características e vantagens.
2. Discute conceitos básicos de programação no R como variáveis, tipos de dados, funções e pacotes.
3. Fornece exemplos de comandos básicos para importar e manipular dados, criar objetos, acessar ajuda e gerenciar o ambiente de trabalho.
Como o R pode despertar sua paixão por dadosSillas Gonzaga
1. O documento discute como aprender a linguagem de programação R para análise de dados, mencionando etapas como cursos online, livros, pacotes importantes, blogs e exercitar a criatividade com projetos.
2. É destacado que o autor possui experiência com vários projetos e conquistas usando R, como análises de dados públicos e mapeamento migratório.
3. São dados conselhos para aprender R, como dominar pacotes importantes e frequentar eventos e meetups sobre o tema.
1) O documento introduz o uso de dados espaciais no R para estudos ambientais, apresentando os principais formatos, conversões e visualizações de dados espaciais no R.
2) É ensinado como importar, projetar e visualizar dados espaciais vetoriais e de malha no R, utilizando pacotes como sf, rgdal e raster.
3) Também é mostrado como relacionar dados espaciais com tabelas de atributos usando juntas no pacote dplyr.
Baixe mais arquivos em http://pastadomau.wikidot.com.
Este trabalho mostra duas extensões do tradicional modelo relacional para banco de dados. Essas extensões do modelo relacional visam ampliar a aplicabilidade do banco de dados sem sacrificar o fundamento relacional.
As duas extensões abordadas são:
- Modelo Baseado em Lógica
- Modelo Relacional Encaixado
Nota importante: essa textura de fundo era moda nos anos 90.
O documento discute as habilidades necessárias para um cientista de dados e onde encontrá-las. Ele descreve o trabalho diário de um cientista de dados, incluindo encontrar problemas, coletar e limpar dados, estabelecer hipóteses, testá-las e comunicar resultados. Também lista habilidades como programação, bancos de dados, machine learning, estatística e matemática, e sugere recursos para aprendê-las.
O documento descreve os passos para modelar uma base de dados relacional a partir de um diagrama entidade-relacionamento (DER). Inclui regras para transformar o DER em um esquema relacional, preservando as entidades, atributos, relações e cardinalidades. Também apresenta atividades práticas para aplicar as regras de transformação e obter o modelo lógico da base de dados.
Este documento apresenta os conceitos básicos de estruturas de dados, incluindo tipos de dados abstratos, organização da memória, compilação de programas e ciclo de desenvolvimento de software. O programa da disciplina inclui listas, pilhas, filas, árvores e tabelas hash.
O documento descreve a instalação e configuração de um servidor web usando o Debian. Ele inclui instruções para instalar e configurar o Apache, PHP, MySQL e phpMyAdmin. Também discute conceitos básicos de banco de dados como modelo conceitual, lógico e físico e integridade referencial.
O documento discute os projetos lógico e físico no modelamento de dados, apresentando as diferenças entre eles. O projeto lógico mostra os tipos de entidade e seus relacionamentos de forma independente de hardware e software. Já o projeto físico depende do software e hardware escolhidos e define a estrutura de armazenamento dos dados. O documento também apresenta o modelo conceitual como forma de representar os dados de maneira independente de implementação.
O documento discute padrões de projeto para implementação de aplicações corporativas em PHP. Apresenta alguns padrões como Table Data Gateway, Row Data Gateway e Active Record para mapeamento objeto-relacional e discussões sobre identidade, associações e composições no mapeamento de objetos para bancos de dados relacionais. Também fornece códigos de exemplo para ilustrar a implementação destes padrões.
O documento apresenta uma introdução ao Python, descrevendo suas principais características como linguagem de programação de alto nível, interpretada e multiplataforma. Apresenta exemplos de uso, tipos de dados, estruturas como listas e dicionários, e ferramentas como IDEs. Por fim, sugere exercícios e referências para aprofundamento no tema.
O documento apresenta os conceitos básicos de modelagem de dados para implantação em um banco de dados, incluindo definições de entidades, atributos, relacionamentos e tabelas. Exemplos práticos ilustram como mapear entidades como cliente, produto e nota fiscal em uma estrutura de banco de dados.
Mineração de padrões frequentes - Pós Graduação em Big DataFabrício Barth
1) O documento apresenta os objetivos e conceitos básicos de mineração de padrões frequentes e regras de associação em grandes bases de dados transacionais;
2) Os algoritmos Apriori e medidas como suporte, confiança e lift são discutidos como forma de identificar padrões úteis nos dados;
3) Exemplos ilustram como as regras geradas podem ser usadas em cenários como análise de mercado e recomendação.
Redução de dimensionalidade - Pós Graduação em Big DataFabrício Barth
1) O documento discute a técnica de redução de dimensionalidade chamada Análise de Componentes Principais (PCA).
2) A PCA projeta os dados de múltiplas dimensões para poucas dimensões principais para compactar e simplificar os dados.
3) A PCA calcula os autovetores e valores singulares da matriz de covariância dos dados para definir as novas dimensões principais.
Mais conteúdo relacionado
Semelhante a Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
R e dados abertos, uma perfeita combinaçãoSillas Gonzaga
- O documento discute a combinação entre dados abertos e a linguagem R, apresentando o autor e seu blog sobre análises de dados. Ele também resume as principais funcionalidades da linguagem R e apresenta um caso de estudo sobre análise de dados do Portal da Transparência usando R. Por fim, o documento fornece dicas sobre como aprender R.
Introdução ao Banco de dados - Prof. Daniel BrandãoDaniel Brandão
O documento apresenta informações sobre o professor Daniel Brandão, incluindo sua formação acadêmica e experiência profissional. A ementa da disciplina Banco de Dados II é descrita, com os principais tópicos a serem abordados e as referências bibliográficas. Por fim, o documento lista os temas que serão discutidos ao longo do curso.
Oficina: construção de modelos descritivos e preditivos utilizando RFabrício Barth
- O documento apresenta uma oficina sobre construção de modelos descritivos e preditivos utilizando a linguagem R.
- Serão abordados conceitos de aprendizagem de máquina, análise de mensagens do Twitter usando agrupamento e desenvolvimento de algoritmos anti-spam.
- O objetivo é apresentar exemplos práticos de construção de modelos utilizando a linguagem R.
Mapeamento de Objetos para o Modelo Relacional.pptJoberthSilva
O documento discute o mapeamento de objetos para o modelo relacional, introduzindo os conceitos de objetos persistentes e transientes e as diferenças entre o modelo de classes e o modelo entidade-relacionamento. Também aborda os procedimentos para mapeamento de classes, atributos, associações, agregações, generalizações e classes associativas.
Resumo apresentado na Matéria de Recuperação e Recomendação de Informação do PPGI 2014. Um resumo do Artigo de Borg, Runeson e Ardo (com pitadas da minha experiência profissional). Nesse artigo os autores falam sobre Rastreabilidade de Software feita de forma automatizada através de Modelos e Técnicas de Recuperação da Informação.
Web Data Mining em R: agrupamento de mensagens do twitterFabrício Barth
O documento descreve os principais componentes e etapas para agrupar mensagens do Twitter, incluindo a coleta de dados, pré-processamento, representação dos documentos em vetores, e algoritmos de agrupamento como K-means.
1. O documento apresenta uma introdução ao R, incluindo sua história, características e vantagens.
2. Discute conceitos básicos de programação no R como variáveis, tipos de dados, funções e pacotes.
3. Fornece exemplos de comandos básicos para importar e manipular dados, criar objetos, acessar ajuda e gerenciar o ambiente de trabalho.
Como o R pode despertar sua paixão por dadosSillas Gonzaga
1. O documento discute como aprender a linguagem de programação R para análise de dados, mencionando etapas como cursos online, livros, pacotes importantes, blogs e exercitar a criatividade com projetos.
2. É destacado que o autor possui experiência com vários projetos e conquistas usando R, como análises de dados públicos e mapeamento migratório.
3. São dados conselhos para aprender R, como dominar pacotes importantes e frequentar eventos e meetups sobre o tema.
1) O documento introduz o uso de dados espaciais no R para estudos ambientais, apresentando os principais formatos, conversões e visualizações de dados espaciais no R.
2) É ensinado como importar, projetar e visualizar dados espaciais vetoriais e de malha no R, utilizando pacotes como sf, rgdal e raster.
3) Também é mostrado como relacionar dados espaciais com tabelas de atributos usando juntas no pacote dplyr.
Baixe mais arquivos em http://pastadomau.wikidot.com.
Este trabalho mostra duas extensões do tradicional modelo relacional para banco de dados. Essas extensões do modelo relacional visam ampliar a aplicabilidade do banco de dados sem sacrificar o fundamento relacional.
As duas extensões abordadas são:
- Modelo Baseado em Lógica
- Modelo Relacional Encaixado
Nota importante: essa textura de fundo era moda nos anos 90.
O documento discute as habilidades necessárias para um cientista de dados e onde encontrá-las. Ele descreve o trabalho diário de um cientista de dados, incluindo encontrar problemas, coletar e limpar dados, estabelecer hipóteses, testá-las e comunicar resultados. Também lista habilidades como programação, bancos de dados, machine learning, estatística e matemática, e sugere recursos para aprendê-las.
O documento descreve os passos para modelar uma base de dados relacional a partir de um diagrama entidade-relacionamento (DER). Inclui regras para transformar o DER em um esquema relacional, preservando as entidades, atributos, relações e cardinalidades. Também apresenta atividades práticas para aplicar as regras de transformação e obter o modelo lógico da base de dados.
Este documento apresenta os conceitos básicos de estruturas de dados, incluindo tipos de dados abstratos, organização da memória, compilação de programas e ciclo de desenvolvimento de software. O programa da disciplina inclui listas, pilhas, filas, árvores e tabelas hash.
O documento descreve a instalação e configuração de um servidor web usando o Debian. Ele inclui instruções para instalar e configurar o Apache, PHP, MySQL e phpMyAdmin. Também discute conceitos básicos de banco de dados como modelo conceitual, lógico e físico e integridade referencial.
O documento discute os projetos lógico e físico no modelamento de dados, apresentando as diferenças entre eles. O projeto lógico mostra os tipos de entidade e seus relacionamentos de forma independente de hardware e software. Já o projeto físico depende do software e hardware escolhidos e define a estrutura de armazenamento dos dados. O documento também apresenta o modelo conceitual como forma de representar os dados de maneira independente de implementação.
O documento discute padrões de projeto para implementação de aplicações corporativas em PHP. Apresenta alguns padrões como Table Data Gateway, Row Data Gateway e Active Record para mapeamento objeto-relacional e discussões sobre identidade, associações e composições no mapeamento de objetos para bancos de dados relacionais. Também fornece códigos de exemplo para ilustrar a implementação destes padrões.
O documento apresenta uma introdução ao Python, descrevendo suas principais características como linguagem de programação de alto nível, interpretada e multiplataforma. Apresenta exemplos de uso, tipos de dados, estruturas como listas e dicionários, e ferramentas como IDEs. Por fim, sugere exercícios e referências para aprofundamento no tema.
O documento apresenta os conceitos básicos de modelagem de dados para implantação em um banco de dados, incluindo definições de entidades, atributos, relacionamentos e tabelas. Exemplos práticos ilustram como mapear entidades como cliente, produto e nota fiscal em uma estrutura de banco de dados.
Semelhante a Pré-processamento [no R] e Análise Exploratória - Curso de Big Data (20)
Mineração de padrões frequentes - Pós Graduação em Big DataFabrício Barth
1) O documento apresenta os objetivos e conceitos básicos de mineração de padrões frequentes e regras de associação em grandes bases de dados transacionais;
2) Os algoritmos Apriori e medidas como suporte, confiança e lift são discutidos como forma de identificar padrões úteis nos dados;
3) Exemplos ilustram como as regras geradas podem ser usadas em cenários como análise de mercado e recomendação.
Redução de dimensionalidade - Pós Graduação em Big DataFabrício Barth
1) O documento discute a técnica de redução de dimensionalidade chamada Análise de Componentes Principais (PCA).
2) A PCA projeta os dados de múltiplas dimensões para poucas dimensões principais para compactar e simplificar os dados.
3) A PCA calcula os autovetores e valores singulares da matriz de covariância dos dados para definir as novas dimensões principais.
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataFabrício Barth
O documento discute a hierarquia de modelos de aprendizagem de máquina, distinguindo entre aprendizagem supervisionada e não supervisionada. Aprendizagem supervisionada constrói modelos preditivos usando dados rotulados, enquanto aprendizagem não supervisionada gera modelos descritivos sem rótulos. Exemplos de técnicas supervisionadas incluem regressão, classificação e exemplos não supervisionados incluem agrupamento, associação e sumarização.
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
Este documento discute o contexto de Big Data, Ciência de Dados e Processo de Descoberta de Conhecimento (KDD). A quantidade de dados gerados aumentou drasticamente e vem de fontes variadas, incluindo dados estruturados e não estruturados. O objetivo continua sendo sintetizar, organizar e tomar decisões baseadas nos dados, porém os desafios são maiores devido ao volume, variedade e velocidade dos dados atuais. O processo KDD é usado para extrair conhecimento e insights dos dados por meio de aquisição,
Algoritmos de Agrupamento - Aprendizado não supervisionadoFabrício Barth
(1) O documento discute algoritmos de agrupamento não supervisionado e seus aplicativos;
(2) Dois tipos principais de agrupamento são descritos: agrupamento plano e hierárquico;
(3) O algoritmo K-means é explicado como um exemplo de agrupamento plano hard e seu funcionamento iterativo é detalhado.
O documento discute a coleta de dados de dispositivos móveis e como esses dados podem ser usados para reconhecimento de atividades humanas através de classificadores de machine learning. Ele fornece exemplos de como dados de celulares, relógios e outros dispositivos podem ser usados para inferir localização, atividades físicas e comportamentos. O documento também descreve experimentos para classificar atividades como andar, subir escadas e sentar usando dados de acelerômetros.
Esta apresentação foi realizada no Cloud Latam 2014 em São Paulo - Brasil. O objetivo desta apresentação foi descrever algumas iniciativas em Big Data no VAGAS.com
Web Data Mining com R: identificação de spam utilizando Random ForestFabrício Barth
O documento discute a identificação de spam utilizando florestas aleatórias. Ele apresenta algoritmos de aprendizado de máquina como ID3 e florestas aleatórias para construção de modelos preditivos de árvores de decisão. O documento também fornece exemplos de classificação de spam usando algoritmos J48 e RandomForest.
Web Data Mining com R: design de projetos para criação de modelos preditivosFabrício Barth
O documento discute o design de projetos para criação de modelos preditivos usando web data mining com R. Ele descreve as principais etapas como escolher os dados corretos, dividir os dados em conjuntos de treinamento, teste e validação, selecionar atributos, identificar modelos, avaliar erros e realizar validação cruzada.
Web Data Mining com R: criação de regras de associação a partir da navegação ...Fabrício Barth
O documento descreve o processo de mineração de padrões na Web para criar regras de associação a partir da navegação de usuários em sites. O processo inclui pré-processamento de logs, identificação de usuários e seções, criação de uma matriz de transações e mineração de itens frequentes e regras de associação.
Web Data Mining com r: aprendizagem de máquinaFabrício Barth
1) O documento discute aprendizagem de máquina e mineração de dados na web usando R. 2) Aprendizagem de máquina permite que computadores aprendam sem programação explícita. 3) Exemplos de aprendizagem supervisionada e não supervisionada são apresentados.
Data Science, Machine Learning and Big DataFabrício Barth
O documento discute como ciência de dados, aprendizado de máquina e big data podem ser usados para prever crimes, terremotos e recomendar itens para usuários. Ele explica que esses projetos manipulam grandes volumes de dados variados para criar modelos preditivos.
Uma introdução à mineração de informações na era do Big DataFabrício Barth
O documento apresenta uma introdução sobre mineração de informações na era do Big Data. Resume os principais tópicos a serem abordados, incluindo a manipulação de dados estruturados e não-estruturados, agrupamento, classificação e web data mining.
Este documento descreve um projeto de desenvolvimento de software chamado Simple Maps realizado por estudantes de ADS sob a orientação do professor Fabricio Barth. O projeto tem o objetivo de criar um serviço para que usuários possam inserir objetos multimídia em mapas e será desenvolvido em 4 sprints de 3 semanas cada utilizando o framework SCRUM.
O documento introduz o tema da mineração de informações, definindo seu objetivo de apresentar a importância do tema e conceitos relacionados. Ele também fornece exemplos de aplicações e discute componentes importantes como atributos, dados e algoritmos para gerar hipóteses."
O documento apresenta os conceitos de mineração de dados, texto e web. Discute a importância do tema e apresenta alguns exemplos de aplicações como extrair conhecimento médico a partir de registros, agrupar notícias e identificar padrões de navegação em sites.
Ferramentas Java para Recuperação e Mineração de InformaçõesFabrício Barth
O documento discute ferramentas Java para recuperação e mineração de informações. Ele aborda conceitos como agrupamento de documentos usando vetores de atributos/valores e técnicas como remoção de stop-words e stemming para reduzir a dimensionalidade dos vetores.
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoFabrício Barth
O documento descreve um sistema de suporte ao planejamento e orçamento de projetos que armazena informações sobre projetos anteriores e recursos utilizados para estimar custos e propor planos para novos projetos com base em objetivos fornecidos. O sistema retorna múltiplos planos para comparação considerando custo e tempo e é integrado a outras ferramentas de gerenciamento de projetos.
2. http://fbarth.net.br/cursoBigData
Sum´ario
• Projeto R
• O que s˜ao dados?
• Caracteriza¸c˜ao dos dados.
• Raw data versus dado tratado.
• Representa¸c˜ao de dados no R.
• An´alise Explorat´oria de dados [no R].
• Exerc´ıcios.
Pr´e-processamento [no R] e An´alise Explorat´oria — Sum´ario 2
3. http://fbarth.net.br/cursoBigData
Projeto R
• http://www.r-project.org/
• R Studio - http://www.rstudio.com/
• ´E free
• ´E a linguagem de programa¸c˜ao mais popular para
an´alise de dados
• Script ´e melhor que clicar e arastar:
´E mais f´acil de comunicar → RMarkdown.
Reproduz´ıvel.
´E necess´ario pensar mais sobre o problema.
• Existe uma quantia grande de pacotes dispon´ıveis
Pr´e-processamento [no R] e An´alise Explorat´oria — Projeto R 3
4. http://fbarth.net.br/cursoBigData
Defini¸c˜ao de dados
”Data are values of qualitative or quantitative variables,
belonging to a set of items.”
http://en.wikipedia.org/wiki/Data
Pr´e-processamento [no R] e An´alise Explorat´oria — Defini¸c˜ao de dados 4
5. http://fbarth.net.br/cursoBigData
”Data are values of qualitative or quantitative variables,
belonging to a set of items.”
Set of items: conjunto de itens (objetos) de interesse.
Pr´e-processamento [no R] e An´alise Explorat´oria — Defini¸c˜ao de dados 5
6. http://fbarth.net.br/cursoBigData
”Data are values of qualitative or quantitative variables,
belonging to a set of items.”
variables: uma medida ou uma caracter´ıstica de um item.
Pr´e-processamento [no R] e An´alise Explorat´oria — Defini¸c˜ao de dados 6
7. http://fbarth.net.br/cursoBigData
”Data are values of qualitative or quantitative variables,
belonging to a set of items.”
qualitative: cidade de origem, sexo, fez ou n˜ao
tratamento.
quantitative: peso, altura, press˜ao do sangue.
Pr´e-processamento [no R] e An´alise Explorat´oria — Defini¸c˜ao de dados 7
8. http://fbarth.net.br/cursoBigData
Caracteriza¸c˜ao dos dados
• A escala define as opera¸c˜oes que podem ser realizadas
sobre os valores do atributo.
• Em rela¸c˜ao `a escala, os atributos podem ser
classificados como nominais, ordinais, discreto e
cont´ınuo.
• Os dois primeiros s˜ao do tipo qualitativo e os dois
´ultimos s˜ao quantitativos.
Pr´e-processamento [no R] e An´alise Explorat´oria — Caracteriza¸c˜ao dos dados 8
9. http://fbarth.net.br/cursoBigData
• Na escala nominal, os valores s˜ao apenas nomes
diferentes, carregando a menor quantidade de
informa¸c˜ao poss´ıvel. N˜ao existe uma rela¸c˜ao de ordem
entre seus valores.
• Os valores em uma escala ordinal refletem tamb´em
uma ordem das categorias representadas. Dessa forma,
al´em dos operadores de igualdade e desigualdade,
operadores como <, >, ≥, ≤ podem ser utilizados.
Pr´e-processamento [no R] e An´alise Explorat´oria — Caracteriza¸c˜ao dos dados 9
10. http://fbarth.net.br/cursoBigData
• Uma vari´avel quantitativa que pode assumir,
teoricamente, qualquer valor entre dois limites recebe
o nome de vari´avel cont´ınua.
• Uma vari´avel que s´o pode assumir valores pertencentes
a um conjunto enumer´avel recebe o nome de vari´avel
discreta.
Pr´e-processamento [no R] e An´alise Explorat´oria — Caracteriza¸c˜ao dos dados 10
11. http://fbarth.net.br/cursoBigData
Raw data versus dados processados
Raw data
• Fonte original dos dados
• Geralmente dif´ıcil para fazer algum tipo de an´alise
http://en.wikipedia.org/wiki/Raw Data
Pr´e-processamento [no R] e An´alise Explorat´oria — Raw data versus dados processados 11
12. http://fbarth.net.br/cursoBigData
Dados processados
• Dados que est˜ao prontos para serem analisados
• O processamento pode incluir merging, subsetting,
transforming, etc...
• Todas as etapas devem ser registradas
http://en.wikipedia.org/wiki/Compute data processing
Pr´e-processamento [no R] e An´alise Explorat´oria — Raw data versus dados processados 12
14. http://fbarth.net.br/cursoBigData
Exemplo de dados brutos
considera¸c˜ao o projeto da aprendizagem que pensa como didaticamente os cursos devem ser projetados com o
uso da tecnologia adequada. Isso inclui levar em conta os aspectos sociais e culturais envolvidos. Deixo abaixo
algumas indica¸c˜oes de leitura que tratam isso. Assim, acho que dizer que tecnologia deve ser usada de forma
respons´avel, n˜ao ´e discutir MOOCs. Outro ponto importante ´e destacar que os MOOCs aparecem no contexto
da educa¸c˜ao aberta e Ciencia aberta e inclui REAs, que costumavam ser chamados de objetos de aprendizem e
agora discutem-se as licen¸cas, as perspectivas de reutiliza¸c˜ao e de localiza¸c˜ao; os peri´odicos abertos que
reagem aos altos valores de assinaturas dos peri´odicos tradicionais, as novas formas de publica¸c˜ao incluindo
blogs; a educa¸c˜ao hibrida; os ambientes pessoais de aprendizagem, etc. No geral
Pr´e-processamento [no R] e An´alise Explorat´oria — Exemplo de dados brutos 14
16. http://fbarth.net.br/cursoBigData
Tidy data
• Cada vari´avel (atributo) forma uma coluna.
• Cada observa¸c˜ao (exemplo) forma uma linha.
• Cada tabela ou arquivo armazena dados sobre uma
observa¸c˜ao (i.e., pessoas / hospitais)
• http://vita.had.co.nz/papers/tidy-data.pdf
Pr´e-processamento [no R] e An´alise Explorat´oria — Tidy data 16
18. http://fbarth.net.br/cursoBigData
Tipos de dados importantes no R
• Classes: Character, Numeric, Integer, Logical
• Objetos: Vector, Matrices, Data frames, List, Factors,
Missing Values
• Operadores: Subsetting, Logical Subsetting
Representa¸c˜ao de dados no R — Tipos de dados importantes no R 18
23. http://fbarth.net.br/cursoBigData
Vectors
Um conjunto de valores da mesma classe.
pesos = c(76.2, 80.3, 90, 117.4)
pesos
## [1] 76.2 80.3 90 117.4
nomes = c("maria", "carlos", "pedro")
nomes
## [1] "maria" "carlos" "pedro"
Representa¸c˜ao de dados no R — Vectors 23
24. http://fbarth.net.br/cursoBigData
Lists
Um conjunto de valores que pode ser heterogˆeneo.
pesosV = c(76.2, 80.3, 90, 117.4)
nomesV = c("maria", "carlos", "pedro", "ant^onio")
myList <- list(pesos = pesosV, nomes = nomesV)
myList
## $pesos
## [1] 76.2 80.3 90.0 117.4
##
## $nomes
## [1] "maria" "carlos" "pedro" "ant^onio"
Representa¸c˜ao de dados no R — Lists 24
26. http://fbarth.net.br/cursoBigData
Data frames
M´ultiplos vetores de classes diferentes, mas com o mesmo
tamanho.
vector1 = c(188.2, 181.3, 193.4)
vector2 = c("jeff", "roger", "andrew", "brian")
myDataFrame = data.frame(heights = vector1,
firstNames = vector2)
## Error: arguments imply differing number of rows: 3, 4
myDataFrame
## Error: object ’myDataFrame’ not found
Representa¸c˜ao de dados no R — Data frames 26
27. http://fbarth.net.br/cursoBigData
Data frames
> vector1 = c(188.2, 181.3, 193.4)
> vector2 = c("jeff", "roger", "andrew")
> myDataFrame = data.frame(heights = vector1,
firstNames = vector2)
> myDataFrame
heights firstNames
1 188.2 jeff
2 181.3 roger
3 193.4 andrew
Representa¸c˜ao de dados no R — Data frames 27
29. http://fbarth.net.br/cursoBigData
Missing values
No R os valores faltantes s˜ao codificados como NA
vector1 <- c(188.2, 181.3, 193.4, NA)
vector1
## [1] 188.2 181.3 193.4 NA
is.na(vector1)
## [1] FALSE FALSE FALSE TRUE
Representa¸c˜ao de dados no R — Missing values 29
34. http://fbarth.net.br/cursoBigData
Dados utiizados
Os exemplos a seguir fazem uso de dois datasets distintos:
• Survey sobre dados de alunos de uma turma de
estat´ıstica.
library(UsingR)
data(survey)
names(survey)
sapply(survey, class)
An´alise Explorat´oria de Dados — Dados utiizados 34
36. http://fbarth.net.br/cursoBigData
Caracteriza¸c˜ao dos dados
No R, ´e poss´ıvel testar se um atributo ´e qualitativo
(factor) ou quantitativo (numeric).
is.numeric(survey$Pulse)
is.factor(survey$Sex)
is.numeric(survey$Smoke)
is.factor(survey$Height)
is.numeric(iris$Sepal.Length)
is.factor(iris$Species)
An´alise Explorat´oria de Dados — Caracteriza¸c˜ao dos dados 36
37. http://fbarth.net.br/cursoBigData
Caracteriza¸c˜ao dos dados
Os atribudos dos datasets iris e survey podem ser
classificados como indicado nas tabelas abaixo:
class(survey$Pulse) = integer (quantitativo discreto)
class(survey$Sex) = factor (qualitativo)
class(survey$Smoke) = factor (ordinal - qualitativo)
class(survey$Height) = numeric (quantitativo cont´ınuo)
class(iris$Sepal.Length) = numeric (quantitativo cont´ınuo)
class(iris$Species) = factor (qualitativo)
An´alise Explorat´oria de Dados — Caracteriza¸c˜ao dos dados 37
38. http://fbarth.net.br/cursoBigData
Explora¸c˜ao de dados
Uma das formas mais simples de explorar um conjunto de
dados ´e a extra¸c˜ao de medidas de uma ´area da estat´ıstica
denominada estat´ıstica descritiva. A estat´ıstica descritiva
resume de forma quantitativa as principais caracter´ısticas
de um conjunto de dados.
An´alise Explorat´oria de Dados — Explora¸c˜ao de dados 38
39. http://fbarth.net.br/cursoBigData
Tais caracter´ısticas podem ser:
• Frequˆencia;
• Localiza¸c˜ao ou tendˆencia central (por exemplo, a
m´edia);
• Dispers˜ao ou espalhamento (por exemplo, o desvio
padr˜ao);
• Distribui¸c˜ao ou formato.
An´alise Explorat´oria de Dados — Explora¸c˜ao de dados 39
40. http://fbarth.net.br/cursoBigData
No R ´e trivial identificar a m´edia e mediana de um dado
conjunto de valores para um atributo qualquer, como
apresentado abaixo:
mean(survey$Pulse)
median(survey$Pulse)
Ou sumarizar todos estes valores atrav´es de um ´unico
comando:
summary(survey$Pulse)
An´alise Explorat´oria de Dados — Explora¸c˜ao de dados 40
41. http://fbarth.net.br/cursoBigData
Al´em das informa¸c˜oes textuais obtidas por
summary(iris$Sepal.Width)
´E poss´ıvel obter um resumo visual da centralidade dos
dados atrav´es do gr´afico boxplot. No R ´e simples gerar
este tipo de gr´afico.
par(mfrow=c(1,2))
boxplot(iris$Sepal.Width,
outline= FALSE, main="Boxplot",
xlab="Sepal Width")
boxplot(iris$Sepal.Width,
main="Boxplot modificado",
xlab="Sepal Width")
An´alise Explorat´oria de Dados — Explora¸c˜ao de dados 41
43. http://fbarth.net.br/cursoBigData
Boxplot original
Do lado esquerdo da figura ´e apresentado o gr´afico boxplot
original. Nele, a linha horizontal mais baixa e a linha
horizontal mais alta indicam, respectivamente, os valores
m´ınimo e m´aximo presentes nos dados. Os lados inferior e
superior do retˆangulo representam o 1o quartil e o 3o
quartil, respectivamente. A linha no interior do retˆangulo ´e
o 2o quartil, ou mediana.
An´alise Explorat´oria de Dados — Boxplot original 43
44. http://fbarth.net.br/cursoBigData
Boxplot modificado
O segundo gr´afico ilustra uma varia¸c˜ao do gr´afico boxplot,
conhecida como boxplot modificado. Neste gr´afico, os
valores acima do limite superior e abaixo do limite inferior
s˜ao considerados outliers. Neste gr´afico, 4 valores outliers
s˜ao representados por c´ırculos, 3 maiores que o 3o quartil
+ 1,5 x (3o quartil - 1o quartil) e 1 menor que 1o quartil -
1,5 x (3o quartil - 1o quartil).
An´alise Explorat´oria de Dados — Boxplot modificado 44
45. http://fbarth.net.br/cursoBigData
Espalhamento de valores
As medidas mais utilizadas para avaliar o espalhamento
de valores ´e a variˆancia (var) e o desvio padr˜ao (sd).
Sendo que o desvio padr˜ao ´e dado pela raiz quadrada da
variˆancia.
An´alise Explorat´oria de Dados — Espalhamento de valores 45
49. http://fbarth.net.br/cursoBigData
Outras bibliotecas para Plot
library(ggplot2)
qplot(iris$Petal.Length, iris$Petal.Width, col=iris$Species, size=iris$Sepal.Length)
An´alise Explorat´oria de Dados — Outras bibliotecas para Plot 49
54. http://fbarth.net.br/cursoBigData
Correla¸c˜ao
Dados multivariados permitem an´alises da rela¸c˜ao entre
dois ou mais atributos. Por exemplo, para atributos
quantitativos, pode-se utilizar uma medida de correla¸c˜ao
para identificar a rela¸c˜ao linear entre dois atributos.
An´alise Explorat´oria de Dados — Correla¸c˜ao 54
55. http://fbarth.net.br/cursoBigData
Coeficiente de correla¸c˜ao de Pearson
Este coeficiente, normalmente representado por ρ assume
apenas valores entre -1 e 1.
• ρ = 1 significa uma correla¸c˜ao perfeita positiva entre
as duas vari´aveis.
• ρ = −1 significa uma correla¸c˜ao perfeita negativa
entre as duas vari´aveis.
• ρ = 0 significa que as duas vari´aveis n˜ao dependem
linearmente uma da outra. No entanto, pode existir
uma depˆencia n˜ao linear. Assim, o resultado ρ = 0
deve ser investigado por outros meios.
An´alise Explorat´oria de Dados — Coeficiente de correla¸c˜ao de Pearson 55
56. http://fbarth.net.br/cursoBigData
ρ =
n
i=1(xi − ¯x)(yi − ¯y)
n
i=1(xi − ¯x)2 ×
n
i=1(yi − ¯y)2
(3)
ρ =
cov(X, Y )
var(X) × var(Y )
(4)
An´alise Explorat´oria de Dados — Coeficiente de correla¸c˜ao de Pearson 56
57. http://fbarth.net.br/cursoBigData
Exemplo de medidas de correla¸c˜ao
> cor(iris[,1:4])
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259
Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654
Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000
An´alise Explorat´oria de Dados — Exemplo de medidas de correla¸c˜ao 57
59. http://fbarth.net.br/cursoBigData
Material de consulta
• Cap´ıtulo 3 do livro EMC Education Services, editor.
Data Science and Big Data Analytics: Discovering,
Analysing, Visualizing and Presenting Data. John
Wiley & Sons, 2015.
• Hadley Wickham. Tidy data. Journal of Statistical
Software, 59(10), 2014.
An´alise Explorat´oria de Dados — Material de consulta 59