Big Data antes da análise: preparação, aquisição e limpeza de dados

Big Data antes da análise:
preparação, aquisição e
limpeza de dados
!
Mauricio De Diana
mauricio@ahalogy.com

Data science
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

Formatos
Texto!
CSV
JSON
HTML
Logs
Largura ﬁxa
Outros!
!
DB relacional
NoSQL
Avro
Excel (!)

DB de produção: 100s GBs
Bases de dados públicas: 100s MBs
Logs: 100s MBs / dia
1 servidor, Shell, Python, R, SQL
Tamanho

Shell
cat
!
wc
!
grep
!
sort
!
head
!
paste
!
bc
!
…

Shell
awk
!
sed
!
split
!
join
!
ﬁle
!
time
!
ls
!
…

separador
linha em branco aspas
cabeçalho

https://github.com/onyxﬁsh/csvkit
csvkit

Estatística descritiva
Média, mediana, moda
Distribuição, histograma
Outliers

acentuação separador formato graﬁa
linha em branco aspas
cabeçalho

Normalização
Maiúsculas / minúsculas
Acentuação
Abreviações
Graﬁa
Raiz
Representações: data / hora, números

Encoding: UTF-8, ISO-8859-1
Valores especiais: nulo, vazio
Caracteres inválidos
Stop words
Agregações (GROUP BY): média, somatório
Largura ﬁxa, JSON, HTML para CSV
Mais transformações

Sanity check
Comece pequeno: 1, 10, 100, 1k, …
Comece com subconjunto dos dados
Tamanho do arquivo
Cabeçalho, primeiras e últimas linhas
Número de linhas
Valores categóricos (cut | sort -u)
Valores especiais

Datasets maiores,
ganhos rápidos
Complexidade: estruturas de controle e de dados
Libs nativas
Hacks / conﬁgurações
20 CPUs, 20 partes de CSV, 20 processos
for i in {0..19}; do python mesmo-script.py parte-$i.csv; done

Eventos
Agregações periódicas
!
Recomendadores: SQL + MapReduce (Pig)

Redshift
Distribuído
Familiaridade: SQL
Baseado em PostgreSQL: mesmos drivers
JOIN

Lições
Explícito: evite SELECT *
Schema o mais similar possível
DISTKEY / SORTKEY
MAXERROR
Rails: created_at / updated_at

Mais análises
Mais recomendadores
Mais dados
Produção

data_commons
Conexões
PostgreSQL
Redshift
S3
Filesystem
Jobs

ETL periódico
https://github.com/airbnb/chronos

pg fs s3
redshift
s3 emr
s3 fs redis
Depois da análise

Adiante
Hadoop
Kafka
…
BIG DATA

Obrigado!
mauricio@ahalogy.com

Big Data antes da análise: preparação, aquisição e limpeza de dados

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Big Data antes da análise: preparação, aquisição e limpeza de dados

Semelhante a Big Data antes da análise: preparação, aquisição e limpeza de dados (20)

Big Data antes da análise: preparação, aquisição e limpeza de dados