brunorocha.org
Data Developer
Trabalhando com Data Science
não sendo um cientista!
DATA MINING
MACHINE LEARNING
DATA MATCHING
BIG DATA
RECOMMENDATION
NLP
REST API
TEXT PARSING
brunorocha.org
Data Science
Uai, que trem é esse?
brunorocha.org
A lenda da fralda e da cerveja
brunorocha.org
Um funcionário do WalMart notou que a venda de fraldas
descartáveis estava associada à de cerveja.
Ele notou que os compradores homens, que saíam à noite para
comprar fraldas, aproveitavam para levar algumas latinhas para
casa.
Ele sugeriu que os produtos fossem postos lado a lado.
Resultado: a venda de cervejas disparou durante as noites.
brunorocha.org
Um funcionário do WalMart notou…
- Não escala
- Não distribui
- Não tem precisão
- ...
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise,
compartilhamento e monitoramento de
informações que oferecem suporte a gestão de
negócios.
É o conjunto de teorias, metodologias,
processos, estruturas e tecnologias que
transformam uma grande quantidade de dados
brutos em informação útil.
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise,
compartilhamento e monitoramento de
informações que oferecem suporte a gestão de
negócios.
É o conjunto de teorias, metodologias,
processos, estruturas e tecnologias que
transformam uma grande quantidade de dados
brutos em informação útil.
- Passivo
- Manual (Dependente do Analista)
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise,
compartilhamento e monitoramento de
informações que oferecem suporte a gestão de
negócios.
É o conjunto de teorias, metodologias,
processos, estruturas e tecnologias que
transformam uma grande quantidade de dados
brutos em informação útil.
- Passivo
- Manual (Dependente do Analista)
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise,
compartilhamento e monitoramento de
informações que oferecem suporte a gestão de
negócios.
É o conjunto de teorias, metodologias,
processos, estruturas e tecnologias que
transformam uma grande quantidade de dados
brutos em informação útil.
- Passivo
- Manual (Dependente do Analista)
- Muito útil e relevante mas não
resolve todos os problemas
- Crawling
- Mining
- Parsing
- APIs
- Notebooks
- Algoritmos
- ML
- Linguagens
- BigData
brunorocha.org
Supermercado
Entrada A Entrada B
brunorocha.org
Supermercado
Entrada A Entrada B
brunorocha.org
Supermercado
Entrada A Entrada B
brunorocha.org
Supermercado
Entrada A Entrada B
brunorocha.org
Supermercado
Entrada A
Grande quantidade de sinais
a serem analisados.
- Local do produto
- Local da entrada
- Tamanho do carrinho
- Local das prateleiras
- Iluminação
- Embalagens
- Preços
- Ordem de compra
- Horário da compra
- Sexo do comprador
- Idade do comprador
- Duração da compra
- ...
Entrada B
brunorocha.org
Supermercado
Entrada A
Features e sinais:
- Local do produto
- Local da entrada
- Tamanho do carrinho
- Local das prateleiras
- Iluminação
- Embalagens
- Preços
- Ordem de compra
- Horário da compra
- Sexo do comprador
- Idade do comprador
- Duração da compra
- ...
Entrada B
brunorocha.org
Data Science é sobre encontrar, classificar e
correlacionar padrões em um conjunto de dados
e utilizar essas análises de dados para:
- Business Inteligence
- Monitoramento
- Análises preditivas
- Recomendações
- Detecção de novas combinações e novos padrões
- Dominar o mundo
- Acabar com a fome mundial
- Curar doenças
- ...
brunorocha.org
Data Science is not always evil
Bio Medical Data Science Initiative http://med.stanford.edu/bdsi.html
- Triagem médica
- Correlação entre exames
- Recomendação de tratamentos
- Detecção e predição de epidêmias
- Otimização da fabricação de medicamentos e equipamentos
- Diminuição/Abolição de testes em animais
- Gerenciamento de desastres
- Diagnóstico inteligente
- Monitoramento e preservação ambiental
- Recomendar filmes legais no NetFlix
- Recomendar a próxima empresa em que você pode trabalhar!
brunorocha.org
Aprendizado de Máquina e Inteligência Artificial e Big Data
O problema do Big Data
(quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar
em tempo hábil sem o uso de IA e computação distribuida)
Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados
se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o
trabalho de classificação.
Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões
autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de
dados para treinar, monitorar e avaliar o desempenho e confiabilidade.
The Machine is Learning
brunorocha.org
"Dadólogo"
Ciência dos dados
Aprendizado de Máquina e Inteligência Artificial e Big Data
O problema do Big Data
(quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar
em tempo hábil sem o uso de IA e computação distribuida)
Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados
se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o
trabalho de classificação.
Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões
autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de
dados para treinar, monitorar e avaliar o desempenho e confiabilidade.
The Machine is Learning
Biólogo
Ciência da Vida
=
brunorocha.org
"Dadólogo"
Ciência dos dados
Dadólogo é um termo feio,
mas soa melhor do que
"cientista de dados", não??
Ou você já viu um
"podólogo" ser chamado de
cientista de pés?
brunorocha.org
O Data Scientist
In god we trust: All others bring data!
● Profissional cientista das áreas de estatística, matemática, fisica, computação.
● Conhecimentos teóricos avançados e boa desenvoltura prática em computação.
● Mestre das estruturas de dados.
● A profissão mais sexy do século! https://hbr.org/2012/10/data-scientist-the-
sexiest-job-of-the-21st-century/
● Salários na média entre 10k e 20k no Brasil (2015) - $120k a $200k/year U.S.A
(2015).
● Requisitado em todas as industrias de Startups a MultiNacionais.
● Sobram vagas e faltam profissionais qualificados e interessados.
brunorocha.org
O quê que o Python
tem a ver com isso?
brunorocha.org
Other languages in Data Science
- R
- Julia
- Scala
- Java
- Lua/Torch
- Matlab
- Go
- ...
brunorocha.org
So…
Why Python?
UAI
brunorocha.org
brunorocha.org
Python pode ser usada em todas as etapas do
trabalho, desde a captura de dados até a
apresentação das análises!
brunorocha.org
Coletar:
Armazenar:
Apresentar:
Automatizar, escalar, distribuir:
SQL*
Agregar, Consultar e Analisar:
NLP NER
brunorocha.org
O Dilema do
Full Stack Developer
O desenvolvedor superman
que "em teoria" resolve todos
os problemas end-to-end mas
ninguém sabe quando ele vai
sair voando ou se vai morrer
no final.
brunorocha.org
O Dilema do
Ben 10 Developer
OU
Que se transforma em mais
de 10 monstros para tentar
resolver problemas mas
acaba tendo crises de
identidade durante o projeto.
brunorocha.org
X
Trabaia pa carai…. ou …. ficá di boa?
ou melhor!
Contar com ajuda para fazer as duas coisas!
brunorocha.org
- Devops (infra, provisionamento, monitoramento, escalabilidade, cloud)
- Engenharia e Arquitetura
- Web, APIs e integrações
- Project Leadership
- Data Mining
- Database Administration
- P & D
- Data Science Algorithms
- Fazer café
- Atender telefone
- Vender
- …
- candidatos??
brunorocha.org
O Homer Simpsom Developer
Doh… achei que seria mais fácil e que
eu ia dar conta de entregar tudo em X
dias….
O que eu faço agora? qual banco de
dados eu uso? qual linguagem é
melhor? VI ou Emacs???
brunorocha.org
Multitask nunca funciona para o desenvolvedor de
software ou para o Cientista de Dados!
Melhor manter o foco e priorizar
a qualidade de vida!
brunorocha.org
Dia de trabalho para o cientista de dados = 8hrs (ou menos)
Estudo Pesquisa ExperimentosData Mining
Qualidade de vida importa!!!
brunorocha.org
Dia de trabalho para o cientista de dados = 8hrs (ou menos)
Estudo Pesquisa ExperimentosData Mining
Qualidade de vida importa!!!
Engenharia DevOps
Project
Leadership
Web APIs Testes Automação …..
brunorocha.org
brunorocha.org
Especialização é bom para todos!!!
- Foco = Qualidade
- Tempo livre = qualidade de vida
- Melhora o mercado de trabalho
- Evita retenção de know how
brunorocha.org
Formação do time de Data Science
Atenção: Contém slides gentilmente roubados do http://pt.
slideshare.net/rodsenra
brunorocha.org
brunorocha.org
brunorocha.org
DevOps
brunorocha.org
DevOps
brunorocha.org
O Engenheiro de Dados
brunorocha.org
brunorocha.org
SUPERVISORD
IPTABLES
CRON
TMUX
NGINX
GUNICORN uWSGI
Domine O Sistema Operacional
brunorocha.org
Cloud / PaaS
brunorocha.org
Persistência Poliglota
brunorocha.org
AUTOMAÇÃO, PROVISIONAMENTO, DEPLOY
brunorocha.org
WEB DEVELOPMENT and REST API
brunorocha.org
Engenharia de Software
- Design Patterns
- Boas práticas (PEP-8, MCCABE)
- Testes e CI
- Mineração de dados
- Crawling, Parsing (bs, regex, etc..)
- VCS
- Modularização, Empacotamento
- Documentação
brunorocha.org
brunorocha.org http://guidetodatamining.com/
brunorocha.org

Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015