1) O documento discute a técnica de redução de dimensionalidade chamada Análise de Componentes Principais (PCA).
2) A PCA projeta os dados de múltiplas dimensões para poucas dimensões principais para compactar e simplificar os dados.
3) A PCA calcula os autovetores e valores singulares da matriz de covariância dos dados para definir as novas dimensões principais.
[DataFest-2017] Apache Cassandra Para Sistemas de Alto DesempenhoEiti Kimura
Quando seus negócios crescem, seus sistemas chave não suportam mais o volume de informação inserido, não respondem mais requisições dos seus clientes, a quem chamar? Como resolver? Conheça o Apache Cassandra e como foi fundamental para evoluir nossos sistemas e alavancar o crescimento dos nossos negócios, aplicado no desenvolvimento de sistemas distribuídos de alto desempenho para aplicativos móveis
Aplicação de redes convolucionais e princípios de visão computacional para a resolução de problema de backoffice. Aqui abordamos um pipeline simplificado para tratar imagens digitalizadas e assim extrair informações de dados não estruturados (utilizando algoritmos de OCR - Optical Character Recognition).
[DataFest-2017] Apache Cassandra Para Sistemas de Alto DesempenhoEiti Kimura
Quando seus negócios crescem, seus sistemas chave não suportam mais o volume de informação inserido, não respondem mais requisições dos seus clientes, a quem chamar? Como resolver? Conheça o Apache Cassandra e como foi fundamental para evoluir nossos sistemas e alavancar o crescimento dos nossos negócios, aplicado no desenvolvimento de sistemas distribuídos de alto desempenho para aplicativos móveis
Aplicação de redes convolucionais e princípios de visão computacional para a resolução de problema de backoffice. Aqui abordamos um pipeline simplificado para tratar imagens digitalizadas e assim extrair informações de dados não estruturados (utilizando algoritmos de OCR - Optical Character Recognition).
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...PGDay Campinas
Conheça o Greenplum DB o banco de dados massivamente paralelo voltado para Data Warehouse, Analytics e Big Data. Sua origem no PostgreSQL, história e retorno as origens open source. Veja como a arquitetura MPP Shared Nothing permite o processamento de grande volumes com facilidade e como as extensões analíticas permitem fazer Data Mining em um volume arbitrário de dados. Também analisaremos alguns casos de uso locais e internacionais!
Brief presentation of the algorithms implementing IMRT in the TPS CAT3D.
CAT3D is a Radiotherapy Planning System (TPS) developed by Mevis Informatica Medica LTDA, Brazil.
Modelos de computação distribuída no Hadoop
O desenvolvimento de uma aplicação distribuída requer diversos conhecimentos para lidar com problemas como: particionamento de entrada, escalonamento da execução, comunicação entre as máquinas e falhas no cluster. Para que o desenvolvedor possa focar somente na aplicação que está sendo desenvolvida, diversos modelos para processar os dados distribuídos foram criados. Cada modelo tem suas características, pontos fracos e fortes, que os fazem apropriados para determinados tipos de aplicações. A apresentação irá abordar os temas: Hadoop 2/Map Reduce; Bulk Synchronous Parallel; Pregel; Dremel; Processamento de Stream; Próximas tecnologias.
Tiago Cardoso
Co-fundador e CTO da Zahpee.
Mestre em Ciência da Computação pela UFMG. Co-fundador e CTO da Zahpee, trabalha há mais de quatro anos no desenvolvimento de produtos para coleta, processamento e visualização de dados.
Palestra realizada pelo MVP em Data Platform Diego Nogare durante o SQL Saturday 488 em Joinville. Descrição da Palestra: "Há alguns anos surgiu uma nova profissão: a do Cientista de Dados. Entenda o que o mercado (e os outros profissionais) devem esperar de um Cientista de Dados, e como esta nova profissão pode ajudar sua empresa. Entenda termos usados por nós, veja alguns métodos estatísticos e matemáticos que dão suporte ao aprendizado de máquinas, conheça os algoritmos que permitem que modelos preditivos sejam criados e garantam que sua empresa dê um passo à frente da concorrência."
Introdução e Novidades. Resumo das novidades entre 2014 e 2015.
Melhoras em DICOM, DicomRT, DicomRT-Struct, segmentação, bugs detetados e corrigidos, novo modelos matemáticos, novidade em registro e fusão de imagens.
CAT3D is a Radiotherapy TPS manufactured by MEVIS, with support to 3D-CRT, IMRT, image registration and fusion.
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2João Gabriel Lima
Apresentação feita para o LINC (Laboratório de Inteligência Computacional) explicando a otimização do algoritmo de aprendizagem da estrutura da rede bayesiana em um grande volume de dados utilizando MapReduce
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
Presented with Flavio Clésio at TDCSP2016 showing a Machine Learning solution for tracking and monitoring a critical billing platform.
Code repository:
https://github.com/eiti-kimura-movile/spark-mllib-sample
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...PGDay Campinas
Conheça o Greenplum DB o banco de dados massivamente paralelo voltado para Data Warehouse, Analytics e Big Data. Sua origem no PostgreSQL, história e retorno as origens open source. Veja como a arquitetura MPP Shared Nothing permite o processamento de grande volumes com facilidade e como as extensões analíticas permitem fazer Data Mining em um volume arbitrário de dados. Também analisaremos alguns casos de uso locais e internacionais!
Brief presentation of the algorithms implementing IMRT in the TPS CAT3D.
CAT3D is a Radiotherapy Planning System (TPS) developed by Mevis Informatica Medica LTDA, Brazil.
Modelos de computação distribuída no Hadoop
O desenvolvimento de uma aplicação distribuída requer diversos conhecimentos para lidar com problemas como: particionamento de entrada, escalonamento da execução, comunicação entre as máquinas e falhas no cluster. Para que o desenvolvedor possa focar somente na aplicação que está sendo desenvolvida, diversos modelos para processar os dados distribuídos foram criados. Cada modelo tem suas características, pontos fracos e fortes, que os fazem apropriados para determinados tipos de aplicações. A apresentação irá abordar os temas: Hadoop 2/Map Reduce; Bulk Synchronous Parallel; Pregel; Dremel; Processamento de Stream; Próximas tecnologias.
Tiago Cardoso
Co-fundador e CTO da Zahpee.
Mestre em Ciência da Computação pela UFMG. Co-fundador e CTO da Zahpee, trabalha há mais de quatro anos no desenvolvimento de produtos para coleta, processamento e visualização de dados.
Palestra realizada pelo MVP em Data Platform Diego Nogare durante o SQL Saturday 488 em Joinville. Descrição da Palestra: "Há alguns anos surgiu uma nova profissão: a do Cientista de Dados. Entenda o que o mercado (e os outros profissionais) devem esperar de um Cientista de Dados, e como esta nova profissão pode ajudar sua empresa. Entenda termos usados por nós, veja alguns métodos estatísticos e matemáticos que dão suporte ao aprendizado de máquinas, conheça os algoritmos que permitem que modelos preditivos sejam criados e garantam que sua empresa dê um passo à frente da concorrência."
Introdução e Novidades. Resumo das novidades entre 2014 e 2015.
Melhoras em DICOM, DicomRT, DicomRT-Struct, segmentação, bugs detetados e corrigidos, novo modelos matemáticos, novidade em registro e fusão de imagens.
CAT3D is a Radiotherapy TPS manufactured by MEVIS, with support to 3D-CRT, IMRT, image registration and fusion.
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2João Gabriel Lima
Apresentação feita para o LINC (Laboratório de Inteligência Computacional) explicando a otimização do algoritmo de aprendizagem da estrutura da rede bayesiana em um grande volume de dados utilizando MapReduce
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
Presented with Flavio Clésio at TDCSP2016 showing a Machine Learning solution for tracking and monitoring a critical billing platform.
Code repository:
https://github.com/eiti-kimura-movile/spark-mllib-sample
Esta apresentação foi realizada no Cloud Latam 2014 em São Paulo - Brasil. O objetivo desta apresentação foi descrever algumas iniciativas em Big Data no VAGAS.com
Palestra realizada no http://conalytics.com.br/ 2014. Apresenta um exemplo de mineração de texto em mensagens do twitter e um case de desenvolvimento de anti-spam. Todos os exemplos de Web Data mining são apresentados com a linguagem de programação R.
4. http://fbarth.net.br/cursoBigData
• Tais datasets s˜ao dif´ıceis de serem visualizados.
Conseguimos visualizar bem apenas datasets com duas
ou trˆes dimens˜oes. Eventualmente, conseguimos fazer
uso do scatterplot para visualizar mais dimens˜oes. No
entanto, quanto maior o n´umero de visualiza¸c˜oes, mais
dif´ıcil ´e esta visualiza¸c˜ao.
• Podem n˜ao ser adequados para a cria¸c˜ao de alguns
modelos preditivos.
• Ocupam muito espa¸co. Ou seja, poderiam ser
compactados.
Redu¸c˜ao de Dimensionalidade — Justificativa 4
14. http://fbarth.net.br/cursoBigData
data(cars)
pca <- prcomp(cars, scale. = TRUE)
summary(pca)
PC1 PC2
Standard deviation 1.3442 0.4394
Proportion of Variance 0.9034 0.0965
Cumulative Proportion 0.9034 1.0000
Ideia principal — Outro exemplo com duas dimens˜oes 14
15. http://fbarth.net.br/cursoBigData
Um exemplo com 4 dimens˜oes
Murder Assault UrbanPop Rape
Alabama 13.20 236 58 21.20
Alaska 10.00 263 48 44.50
Arizona 8.10 294 80 31.00
Arkansas 8.80 190 50 19.50
California 9.00 276 91 40.60
Colorado 7.90 204 78 38.70
· · · · · · · · · · · · · · ·
Dataset com informa¸c˜oes sobre assassinos presos (murder), de assaltantes presos (assault), estupradores presos
(rape) e o percentual da popula¸c˜ao que ´e urbana (UrbanPop) de 50 estados americanosa.
aOs n´umeros em murder, assault e rape s˜ao os n´umeros de
ocorrˆencias para cada 100.000 habitantes.
Ideia principal — Um exemplo com 4 dimens˜oes 15
22. http://fbarth.net.br/cursoBigData
# Para todo o dataset
pca <- prcomp(USArrests, scale. = TRUE)
summary(pca)
pca$rotation
PC1 PC2 PC3 PC4
Standard deviation 1.5749 0.9949 0.5971 0.4164
Proportion of Variance 0.6201 0.2474 0.0891 0.0434
Cumulative Proportion 0.6201 0.8675 0.9566 1.0000
PC1 PC2 PC3 PC4
Murder -0.54 0.42 -0.34 0.65
Assault -0.58 0.19 -0.27 -0.74
UrbanPop -0.28 -0.87 -0.38 0.13
Rape -0.54 -0.17 0.82 0.09
Ideia principal — Fazendo a proje¸c˜ao para 2 22
23. http://fbarth.net.br/cursoBigData
Os atributos de murder, assault e rape est˜ao correlacionadas, enquanto que a vari´avel UrbanPop n˜ao est´a
correlacionada com as outras.
Ideia principal — Fazendo a proje¸c˜ao para 2 23
24. http://fbarth.net.br/cursoBigData
No ´ındice de urbaniza¸c˜ao, quanto mais em baixo do gr´afico, mais urbano. Para o ´ındice de violˆencia, quanto
mais a esquerda, mais violento
Ideia principal — Fazendo a proje¸c˜ao para 2 24
26. http://fbarth.net.br/cursoBigData
Algoritmo PCA
• Reduz dados de n-dimens˜oes para k-dimens˜oes.
• Calcular a matriz de covariˆancia:
Sigma =
1
m
n
i=1
(X[i, ])(X[i, ])T
(1)
• Calcular os autovetoresa
da matriz Sigma
U = SV D(Sigma), onde U ∈ n×n
.
• Calcular os PCAs, na forma de z:
Ureduce = U[, 1 : K] (2)
z = (Ureduce)T
× XT
(3)
aSingular Value Decomposition (SVD) - algebra linear
Principal Component Analysis (PCA) — Algoritmo PCA 26
27. http://fbarth.net.br/cursoBigData
Algoritmo PCA: pr´e-processamento dos
dados
• Os dados precisam estar normalizados! Mesma
situa¸c˜ao do k − means.
• No R, a maioria das implementa¸c˜oes de PCA j´a
fornecem esta op¸c˜ao como parˆametro.
• No prcomp, basta informar que o parˆametro scale. ´e
verdadeiro.
pca <- prcomp(dataset, scale. = TRUE)
Principal Component Analysis (PCA) — Algoritmo PCA: pr´e-processamento dos dados 27
28. http://fbarth.net.br/cursoBigData
Escolhendo o n´umero de componentes
principais
> summary(pca)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.5749 0.9949 0.59713 0.41645
Proportion of Variance 0.6201 0.2474 0.08914 0.04336
Cumulative Proportion 0.6201 0.8675 0.95664 1.00000
Principal Component Analysis (PCA) — Escolhendo o n´umero de componentes principais 28
30. http://fbarth.net.br/cursoBigData
Revisando a aplicabilidade
• Reduzir mem´oria e disco necess´ario para armazenar os
dados.
• Minimizar o tempo de processamento dos algoritmos
de aprendizagem.
• Visualiza¸c˜ao de dados.
Principal Component Analysis (PCA) — Revisando a aplicabilidade 30
31. http://fbarth.net.br/cursoBigData
Material de consulta
• Cap´ıtulo 10 do livro Gareth James, Daniela Witten,
Trevor Hastie, and Robert Tibshirani. An Introduction
to Statistical Learning with Applications in R.
Springer, 4th edition, 2014.
Principal Component Analysis (PCA) — Material de consulta 31