Quando se pensa em análise de dados, as primeiras coisas que veem à cabeça são os sistemas distribuídos e os algoritmos usados para processá-los. Mas as coisas são bem mais complicadas (e menos glamourosas) no dia a dia do cientista de dados. Na maioria das vezes os dados nem estão disponíveis no início da análise, e quando chegam às nossas mãos, costumam apresentar todo tipo de problemas: inconsistências, valores inesperados, formato inadequado etc. Assim, antes de iniciar qualquer análise, os dados precisam ser encontrados e preparados. Esta apresentação mostra os problemas mais comuns encontrados no dia-a-dia do cientista de dados e as técnicas e ferramentas usadas para resolvê-los. O foco é na "média escala", dados não tão grandes que precisem de um sistema distribuído, mas não tão pequenos que possam ser tratados manualmente. Será mostrado como tratar dados com as ferramentas disponíveis em sistemas Unix/Linux além de outras mais específicas; técnicas para ETL (extract-transform-load) e validação de dados; e como encaixar essa etapa no pipeline de dados de uma organização.