Palestra do evento Rec'n Play 2017.
Em um mundo que produz e compartilha cada vez mais dados, quem sabe extrair inteligência de bits e bytes se destaca. A demanda por profissionais na área de dados não para de crescer e "ciência dos dados" já se posiciona como uma das carreiras mais promissoras da próxima década.
Com tanto conteúdo disponível na internet, o aprendizado está ao alcance de todos e não depende de instituições formais como universidades. Se você quer descobrir como conseguir uma habilidade nova ou mesmo mudar de carreira, vou compartilhar erros e acertos na minha jornada de aprender Data Science do Zero por conta própria.
2. agenda
● quem é paulo
● seção 1: como aprender qualquer coisa
● seção 2: o mundo da ciência dos dados
● seção 3: quero começar, e agora?
3. quem é paulo ribeiro
● escritor → estrategistas.com
● estrategista → inlocomedia.com
● aprendiz → medium.com/data-noob
4. “ah, mas o que faz um estrategista?”
→ bit.ly/biz-ops
5. “onde entra a ciência dos dados?”
● o dia a dia requer muitas análises
● manipulação de um volume cada vez maior de dados
● falta de fluência em conceitos estatísticos importantes
(mediana, distribuições, etc)
12. as primeiras universidades
● Formato atual → Europa medieval (século XI)
● ou seja, estamos fazendo do mesmo jeito há 1000 anos
● em comum: monopólio sobre creditação profissional
13. era uma boa ideia… para a época
● antes da invenção da imprensa por Gutemberg
● ausência de meios de comunicação
● certificação por exclusividade funcionam enquanto há
exclusividade
14. desintermediação = remoção de monopólio
● a prensa → conhecimento da igreja
● mídias sociais → controle das notícias pelos grandes
canais
● internet → aprendizado superior das universidades
● blockchain → transações financeiras dos bancos
15. hoje, não faz sentido para todos
● na internet, estão os melhores livros e aulas
● na internet, estão seus parceiros de “sala de aula”
● na internet, você pode demonstrar suas habilidades
16. … mas não estou criticando as universidades, per se
● faz sentido para certos campos de estudos e objetivos de
carreira
● curso superior não é uma fórmula que se aplica a
todo mundo
● muita gente se beneficiaria de construir o próprio
processo de aprendizado → mais barato e mais rápido
17. o meta-aprendizado
● não é natural pensarmos em “afiar o machado”
● investigar e definir um processo de aprendizado
● aprender a aprender
20. 1. definição
● péssimo: “quero aprender espanhol”
● melhor: “quero conseguir falar 10 min com um nativo do
Chile e me fazer entendido”
● quais são as diferenças?
○ especificidade traz direção e uma régua de progresso
○ objetivo precisa satisfazer suas necessidades
○ redução no escopo
21. 1. definição
● péssimo: “quero aprender ciência dos dados”
● melhor: “quero ficar fluente com scrapping e manipulação
de dados com R, além de melhorar a base estatística ”
22. 2. desconstrução
● aplicar pareto (80-20)
● o que realmente importa para seu objetivo?
○ conversa com alguém experiente para filtrar
○ analisa índice de livros considerados manuais na área
● exemplo:
○ no espanhol, foquei no equivalente ao presente e passado
simples
○ só vocabulário contextual
○ expressões idiomáticas locais
23. 3. planejamento
● definir como executar o que foi desconstruído
● os fatores de um planejamento eficiente
○ calendário realista
○ atividades específicas
○ progresso acompanhado
● ajuste atividade-energia
○ ex: assistir aula, realizar tutorial, aprofundar tópico, realizar quiz,
realizar exercício
24. 4. estudo & 5. entrega
● durante, tornar a atividade o mais ativa possível
● focar em entregar um projeto concreto, ponta a ponta
26. por que ciência dos dados está tão popular?
● aumento no poder computacional acessível
● queda no custo de armazenamento de dados
● desenvolvimento de tecnologias poderosas, como R
27. a carreira com mais potencial
● glassdoor, 2016 → salário, número de vagas e
crescimento de carreira
● relatório da IBM (link)
○ ótimos salários de entrada
○ vagas que demoram a ser preenchidas
○ oportunidades crescendo pelo menos 28% até 2020
28. o que faz um cientista de dados?
Thomson Nguyen
de baixo para cima
● o que é importante
● armazenamento e
padronização
● análise e extração de valor
● exploração e novas
informações
29. cientista, analista ou engenheiro de dados?
● engenheiro → “cria um pipeline de dados robusta e tolerante a falhas,
transforma e agrega dados bagunçados e sem organização em bancos e
fontes de dados.
● cientista → “requer habilidades mais sofisticadas para lidar com um volume
maior de dados. São capazes de inventar novos algoritmos para lidar com
desafios de dados”
● analista → “tem um entendimento forte de como usar as ferramentas e
modelos existentes para responder perguntas com dados”
Udacity: 3 Data Careers Decoded and What It Means for You
30.
31.
32. Análise da música brasileira, por Leo Sales
● webscrapping das letras
(letras.com.br) e cifras (cifras.com.br)
● tratamento dos dados
● fatores
○ Quantidade de Músicas
○ # e % Palavras Distintas
○ Raridade das Palavras
○ # e % de Acordes Distintos
○ Tamanho e Raridade dos Acordes
38. como aprender ciência dos dados?
● muito conteúdo aberto na internet
● não precisa reinventar a roda
○ coursera
○ udacity
○ datacamp
○ edx
39. escolhendo o melhor curso
● profundidade - em que nível você quer chegar
● perfil de estudo - autodidata ou estudante?
● alocação de tempo - quantas horas por semana?
● base curricular - o que é importante para você?
40. por que escolhi o coursera
● dedicação entre 10 e 15h por semana
● não tinha expertise para montar meu próprio plano de
estudos
● quero ter uma base sólida para criar projetos de ponta a
ponta
41. especialização em ciência dos dados
● as ferramentas do Cientista de Dados
● programação em R
● obtendo e limpando os dados
● análise exploratória de dados
● pesquisa replicável
● inferência estatística
● modelos de regressão
● aprendizado de máquinas prático
● desenvolvendo produtos de dados
● projeto de conclusão de curso
42. heurística para escolher uma plataforma
● conteúdos estruturados → Coursera, Udacity ou EdX
● conteúdos específicos → Treehouse, DataCamp, etc
43. principais aprendizados até agora
● separe mais tempo do que acha necessário, para que
você tenha espaço para explorar
○ buscar por sites da área
○ baixar papers interessantes (ex: The Split-Apply-Combine
Strategy for Data Analysis)
○ ir a eventos, conversar com outros estudantes
44. principais aprendizados até agora
● explore o swirl ao máximo
○ “aprenda r, em r”
○ pacote para r que transforma o terminal em um
ambiente interativo de aprendizado
○ prático → teórico
45. principais aprendizados até agora
● inverter o fluxo de aprendizado
○ original: aula → quiz → swirl → exame
○ otimizado: swirl → aula → quiz → exame
● não deixe o quiz de lado
○ perguntas “tradicionais de prova”
○ garantem que você esteja prestando atenção o
suficiente
46. principais aprendizados até agora
● vá devagar e faça mais
● compartilhe sua jornada
○ pessoas gostam de ter a “história real” por trás dos
bastidores
○ conecta com quem é mais experiente
○ inspira a quem gostaria de fazer o mesmo
48. definir, desconstruir e planejar
● o que exatamente você quer?
○ explorar
○ nova habilidade
○ mudar de carreira
● quanto tempo você tem disponível?
● converse com o máximo de pessoas da área possível
● escolha seu curso e monte um plano
49. construa sua sala de aula
● vá para eventos, fale com pessoas
● comece a escrever
● compartilhe o que encontrar de interessante
● abra os olhos e pense como colocar a habilidade em
prática
○ a importância do ponta a ponta
○ como entregar valor
50. o que + como > onde + quanto tempo
● campo novo, em crescimento
● demanda alta por profissionais
● possibilidade alta de impacto
● mercado pouco dependente de certificações
● sucesso
○ aprender rápido
○ ser competente
○ entregar valor
51. dica Rec n Play
● não ignore as oportunidades a sua volta
○ CIn - centro mundial de excelência
○ In Loco - melhor empresa de tecnologia e uso de
dados do brasil
○ Cesar – cursos presenciais de alto nível