SlideShare uma empresa Scribd logo
1 de 55
Baixar para ler offline
Cientista de Dados
Rodrigo Senra
rsenra@acm.org
A profissão mais sexy do século 21
Apenas um rapaz latino americano...
• Engenheiro de Software 

• GPr Sistemas (11 anos)
• HI Tecnologia (5 anos)

• Professor Universitário - PUC-Campinas (2 anos)
• Especialista - Globo.com (2 anos)
• Cientista Pesquisador - EMC2
• Engenheiro de Computação 

Grad-MSc-PhD IC-Unicamp
• Entusiasta de FLOSS

(atuante na comunidade Python desde 2000)
• Estudantes ?

• Professores ?

• Profissionais ?

• Cientistas de Dados ?
Quem está aqui ?
Vamos falar de…
• O dilúvio de dados
• Cientista de Dados
• Quem é
• O que faz
• Como faz
• Ferramentas
Cientista de Dados
Rodrigo Senra
Quem é ?
Por que é
importante ?
fONTE: IDC Digital Universe Study, patrocinado pela EMC, 2011
2009

0.8 Zettabytes CRESCIMENTO
DA INFORMAÇÃO
2020
44
X
MAIOR
35.2 ZB
IN 2010 THE DIGITAL UNIVERSE WAS
1.2 ZETTABYTES
1,200,000,000,000,000,000,000
Zetta Exa Peta Tera Giga Mega Kilo Byte
fonte: http://thehumanfaceofbigdata.com/
• ︎Government-to-citizen (G2C)

• Government-to-employee (G2E)

• Government-to-business (G2B) 

• Government to-government (G2G)
http://www.telegraph.co.uk/news/picturegalleries/picturesoftheday/2545407/Pictures-of-the-day-12-August-2008.html?image=8
Cientista de Dados
Rodrigo Senra
O que faz ?
Quem é ?
Data Science is a newly emerging field dedicated to
analyzing and manipulating data to derive insights
and build data products.
https://beta.oreilly.com/ideas/what-is-data-science
It combines skill-sets ranging from
computer science, to mathematics, to art.
http://images.fineartamerica.com/images-medium-large-5/1-pi-transition-paths-martin-krzywinski.jpg
http://drewconway.com/
Estatísticas descritivas:
! Média vs. Mediana.
! Desvio Padrão
! Quartis, Min/Max.
! Correlação entre variavéis
1
X y
10.00 8.04
8.00 6.95
13.00 7.58
9.00 8.81
11.00 8.33
14.00 9.96
6.00 7.24
4.00 4.26
12.00 10.84
7.00 4.82
5.00 5.68
2
x y
10.0 9.14
8.00 8.14
13.0 8.74
9.00 8.77
11.0 9.26
14.0 8.10
6.00 6.13
4.00 3.10
12.0 9.13
7.00 7.26
5.00 4.74
3
x y
10.0 7.46
8.00 6.77
13.0 12.7
9.00 7.11
11.0 7.81
14.0 8.84
6.00 6.08
4.00 5.39
12.0 8.15
7.00 6.42
5.00 5.73
4
x y
8.00 6.58
8.00 5.76
8.00 7.71
8.00 8.84
8.00 8.47
8.00 7.04
8.00 5.25
19.00 12.50
8.00 5.56
8.00 7.91
8.00 6.89
Média de x: 9
Variância de x: 11
Média exata de y: 7.5 (2 d.p)
Variância de y: 4.13 (to 2 d.p)
Correlação entre x e y : 0.816
Regressão linear: Y = 3.00 + 0.500xTruth lies on statistics !
Cientista de Dados
Rodrigo Senra
Como faz ?
http://i0.wp.com/sciencereview.berkeley.edu/wp-content/uploads/2014/04/spring_2014_azam_05.jpg
http://godwincaruana.me/data-science-workflow-overview-and-challenges-cacm/
Big Data a cada passo da exploração de petróleo
Navigation
Seismic: Pre-stack
Seismic: Post-stack
Log Curves
Culture Data
Geologic Model
Pressure Data
Velocity Data Interpretation
Resolução de Problemas
Agrupamento
Fernando Perez, lead PI at BIDS and creator of IPython, demonstrates brain imaging
analyses performed using the IPython Notebook, an interactive web-based
computational environment.
credit: Peg Skorpinski
https://www.kaggle.com
Kaggle is the world's
largest community of data scientists.
They compete with each other
to solve complex data science problems,
and the top competitors are invited to work on the most
interesting and sensitive business problems from some
of the world’s biggest companies through Masters
competitions.
Tools Used By Competitors
http://www-bcf.usc.edu/~gareth/ISL/ http://www.greenteapress.com/thinkstats/thinkstats.pdf
Obrigado a todos
pela atenção.
Rodrigo Dias Arruda Senra
http://rodrigo.senra.nom.br
rodsenra@gmail.com
@rodsenra
As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.
Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam
feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante.
Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de
copyright. Agradecimento especial a Ana Oliveira e Diego Salomone que contribuíram com alguns slides de suas apresentações
sobre o mesmo tema.

Mais conteúdo relacionado

Destaque

Brainiak: Um plano maligno de dominação semântica hipermídia
Brainiak: Um plano maligno de dominação semântica hipermídiaBrainiak: Um plano maligno de dominação semântica hipermídia
Brainiak: Um plano maligno de dominação semântica hipermídiaRodrigo Senra
 
Tech talk about iswc2013
Tech talk about iswc2013Tech talk about iswc2013
Tech talk about iswc2013Rodrigo Senra
 
Python: Cabe no seu bolso, no seu micro, no seu cérebro.
Python: Cabe no seu bolso, no seu micro, no seu cérebro.Python: Cabe no seu bolso, no seu micro, no seu cérebro.
Python: Cabe no seu bolso, no seu micro, no seu cérebro.Rodrigo Senra
 
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)Rodrigo Senra
 
Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia Rodrigo Senra
 
Uma breve história no tempo...da computação
Uma breve história no tempo...da computaçãoUma breve história no tempo...da computação
Uma breve história no tempo...da computaçãoRodrigo Senra
 
Organicer: Organizando informação com Python
Organicer: Organizando informação com PythonOrganicer: Organizando informação com Python
Organicer: Organizando informação com PythonRodrigo Senra
 
Linked data at globo.com
Linked data at globo.comLinked data at globo.com
Linked data at globo.comRodrigo Senra
 
Rest, Gateway e Compiladores
Rest, Gateway e CompiladoresRest, Gateway e Compiladores
Rest, Gateway e CompiladoresRodrigo Senra
 
pa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text Processingpa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text ProcessingRodrigo Senra
 
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...Rodrigo Senra
 
1 História da Hematologia - Aula Medicina Uningá Dr Francismar Leal
1  História da Hematologia - Aula Medicina Uningá Dr Francismar Leal1  História da Hematologia - Aula Medicina Uningá Dr Francismar Leal
1 História da Hematologia - Aula Medicina Uningá Dr Francismar LealFrancismar Prestes Leal
 
Cap. 36 Hemostasia y coagulación
Cap. 36 Hemostasia y coagulaciónCap. 36 Hemostasia y coagulación
Cap. 36 Hemostasia y coagulaciónRoosevelt Malla
 
HEMOSTASIA Y COAGULACION SANGUINEA- OSCAR DANIEL ARANGO I
HEMOSTASIA Y COAGULACION SANGUINEA- OSCAR DANIEL ARANGO IHEMOSTASIA Y COAGULACION SANGUINEA- OSCAR DANIEL ARANGO I
HEMOSTASIA Y COAGULACION SANGUINEA- OSCAR DANIEL ARANGO IOskr Daniel Arango Ibarra
 
Cirugía y hemostasia
Cirugía y hemostasia Cirugía y hemostasia
Cirugía y hemostasia Nancy Marín
 

Destaque (20)

Brainiak: Um plano maligno de dominação semântica hipermídia
Brainiak: Um plano maligno de dominação semântica hipermídiaBrainiak: Um plano maligno de dominação semântica hipermídia
Brainiak: Um plano maligno de dominação semântica hipermídia
 
Tech talk about iswc2013
Tech talk about iswc2013Tech talk about iswc2013
Tech talk about iswc2013
 
Python: Cabe no seu bolso, no seu micro, no seu cérebro.
Python: Cabe no seu bolso, no seu micro, no seu cérebro.Python: Cabe no seu bolso, no seu micro, no seu cérebro.
Python: Cabe no seu bolso, no seu micro, no seu cérebro.
 
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
 
Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia
 
Uma breve história no tempo...da computação
Uma breve história no tempo...da computaçãoUma breve história no tempo...da computação
Uma breve história no tempo...da computação
 
Organicer: Organizando informação com Python
Organicer: Organizando informação com PythonOrganicer: Organizando informação com Python
Organicer: Organizando informação com Python
 
Linked data at globo.com
Linked data at globo.comLinked data at globo.com
Linked data at globo.com
 
Rest, Gateway e Compiladores
Rest, Gateway e CompiladoresRest, Gateway e Compiladores
Rest, Gateway e Compiladores
 
pa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text Processingpa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text Processing
 
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
 
HISTORIA DE LA HEMOSTASIA
HISTORIA DE LA HEMOSTASIAHISTORIA DE LA HEMOSTASIA
HISTORIA DE LA HEMOSTASIA
 
Hemostasia
HemostasiaHemostasia
Hemostasia
 
1 História da Hematologia - Aula Medicina Uningá Dr Francismar Leal
1  História da Hematologia - Aula Medicina Uningá Dr Francismar Leal1  História da Hematologia - Aula Medicina Uningá Dr Francismar Leal
1 História da Hematologia - Aula Medicina Uningá Dr Francismar Leal
 
Cap. 36 Hemostasia y coagulación
Cap. 36 Hemostasia y coagulaciónCap. 36 Hemostasia y coagulación
Cap. 36 Hemostasia y coagulación
 
HEMOSTASIA Y COAGULACION SANGUINEA- OSCAR DANIEL ARANGO I
HEMOSTASIA Y COAGULACION SANGUINEA- OSCAR DANIEL ARANGO IHEMOSTASIA Y COAGULACION SANGUINEA- OSCAR DANIEL ARANGO I
HEMOSTASIA Y COAGULACION SANGUINEA- OSCAR DANIEL ARANGO I
 
Cirugía y hemostasia
Cirugía y hemostasia Cirugía y hemostasia
Cirugía y hemostasia
 
Hemostasia y Coagulación
Hemostasia y CoagulaciónHemostasia y Coagulación
Hemostasia y Coagulación
 
Dx bumil
Dx bumilDx bumil
Dx bumil
 
Bubbl us
Bubbl usBubbl us
Bubbl us
 

Semelhante a Cientista Dados

Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...
Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...
Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...Igor Steinmacher
 
Big Data e oportunidades de negócios
Big Data e oportunidades de negóciosBig Data e oportunidades de negócios
Big Data e oportunidades de negóciosLaboratorium
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieMarcos CAVALCANTI
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasElaine Naomi
 
Casos de Uso de Big Data e Ciência de Dados no Mercado
 Casos de Uso de Big Data e Ciência de Dados no Mercado Casos de Uso de Big Data e Ciência de Dados no Mercado
Casos de Uso de Big Data e Ciência de Dados no MercadoJoel Pinho Lucas
 
The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science WorkflowRenzo Ziegler
 
Carreira e desenvolvimento de software na plataforma microsoft
Carreira e desenvolvimento de software na plataforma microsoftCarreira e desenvolvimento de software na plataforma microsoft
Carreira e desenvolvimento de software na plataforma microsoftRay Carneiro
 
Praticas no ensino profissional na area das ti
Praticas no ensino profissional na area das tiPraticas no ensino profissional na area das ti
Praticas no ensino profissional na area das tiFrancisco Pires
 
Worskshop Grafos Comexport
Worskshop Grafos ComexportWorskshop Grafos Comexport
Worskshop Grafos ComexportErick Araújo
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dadoscardoso80
 
Data science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticasData science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticasMarlesson Santana
 
Chega de fake news! Vamos utilizar Data Science para um melhor entendimento ...
Chega de fake news!  Vamos utilizar Data Science para um melhor entendimento ...Chega de fake news!  Vamos utilizar Data Science para um melhor entendimento ...
Chega de fake news! Vamos utilizar Data Science para um melhor entendimento ...Reinaldo Jr
 
mercado-de-trabalho-ti-final.pdf
mercado-de-trabalho-ti-final.pdfmercado-de-trabalho-ti-final.pdf
mercado-de-trabalho-ti-final.pdfEdson844687
 

Semelhante a Cientista Dados (20)

Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...
Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...
Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...
 
Geotecnologias - Conceitos e Histórico
Geotecnologias - Conceitos e HistóricoGeotecnologias - Conceitos e Histórico
Geotecnologias - Conceitos e Histórico
 
DAMICORE - conceito e prática
DAMICORE - conceito e práticaDAMICORE - conceito e prática
DAMICORE - conceito e prática
 
Big Data e oportunidades de negócios
Big Data e oportunidades de negóciosBig Data e oportunidades de negócios
Big Data e oportunidades de negócios
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil Crie
 
aula_met_tec02.pptx
aula_met_tec02.pptxaula_met_tec02.pptx
aula_met_tec02.pptx
 
Big data, e eu com isso?
Big data, e eu com isso?Big data, e eu com isso?
Big data, e eu com isso?
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidas
 
Casos de Uso de Big Data e Ciência de Dados no Mercado
 Casos de Uso de Big Data e Ciência de Dados no Mercado Casos de Uso de Big Data e Ciência de Dados no Mercado
Casos de Uso de Big Data e Ciência de Dados no Mercado
 
The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science Workflow
 
Data Science For Dummies From a Dummy
Data Science For Dummies From a DummyData Science For Dummies From a Dummy
Data Science For Dummies From a Dummy
 
Carreira e desenvolvimento de software na plataforma microsoft
Carreira e desenvolvimento de software na plataforma microsoftCarreira e desenvolvimento de software na plataforma microsoft
Carreira e desenvolvimento de software na plataforma microsoft
 
Praticas no ensino profissional na area das ti
Praticas no ensino profissional na area das tiPraticas no ensino profissional na area das ti
Praticas no ensino profissional na area das ti
 
Worskshop Grafos Comexport
Worskshop Grafos ComexportWorskshop Grafos Comexport
Worskshop Grafos Comexport
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
Clusters
ClustersClusters
Clusters
 
Data science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticasData science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticas
 
Chega de fake news! Vamos utilizar Data Science para um melhor entendimento ...
Chega de fake news!  Vamos utilizar Data Science para um melhor entendimento ...Chega de fake news!  Vamos utilizar Data Science para um melhor entendimento ...
Chega de fake news! Vamos utilizar Data Science para um melhor entendimento ...
 
mercado-de-trabalho-ti-final.pdf
mercado-de-trabalho-ti-final.pdfmercado-de-trabalho-ti-final.pdf
mercado-de-trabalho-ti-final.pdf
 

Cientista Dados

  • 1. Cientista de Dados Rodrigo Senra rsenra@acm.org A profissão mais sexy do século 21
  • 2. Apenas um rapaz latino americano... • Engenheiro de Software • GPr Sistemas (11 anos) • HI Tecnologia (5 anos) • Professor Universitário - PUC-Campinas (2 anos) • Especialista - Globo.com (2 anos) • Cientista Pesquisador - EMC2 • Engenheiro de Computação Grad-MSc-PhD IC-Unicamp • Entusiasta de FLOSS (atuante na comunidade Python desde 2000)
  • 3. • Estudantes ? • Professores ? • Profissionais ? • Cientistas de Dados ? Quem está aqui ?
  • 4. Vamos falar de… • O dilúvio de dados • Cientista de Dados • Quem é • O que faz • Como faz • Ferramentas
  • 5. Cientista de Dados Rodrigo Senra Quem é ? Por que é importante ?
  • 6.
  • 7. fONTE: IDC Digital Universe Study, patrocinado pela EMC, 2011 2009
 0.8 Zettabytes CRESCIMENTO DA INFORMAÇÃO 2020 44 X MAIOR 35.2 ZB IN 2010 THE DIGITAL UNIVERSE WAS 1.2 ZETTABYTES 1,200,000,000,000,000,000,000 Zetta Exa Peta Tera Giga Mega Kilo Byte fonte: http://thehumanfaceofbigdata.com/
  • 8.
  • 9. • ︎Government-to-citizen (G2C) • Government-to-employee (G2E) • Government-to-business (G2B) • Government to-government (G2G)
  • 11.
  • 12. Cientista de Dados Rodrigo Senra O que faz ? Quem é ?
  • 13. Data Science is a newly emerging field dedicated to analyzing and manipulating data to derive insights and build data products. https://beta.oreilly.com/ideas/what-is-data-science It combines skill-sets ranging from computer science, to mathematics, to art. http://images.fineartamerica.com/images-medium-large-5/1-pi-transition-paths-martin-krzywinski.jpg
  • 14.
  • 16. Estatísticas descritivas: ! Média vs. Mediana. ! Desvio Padrão ! Quartis, Min/Max. ! Correlação entre variavéis 1 X y 10.00 8.04 8.00 6.95 13.00 7.58 9.00 8.81 11.00 8.33 14.00 9.96 6.00 7.24 4.00 4.26 12.00 10.84 7.00 4.82 5.00 5.68 2 x y 10.0 9.14 8.00 8.14 13.0 8.74 9.00 8.77 11.0 9.26 14.0 8.10 6.00 6.13 4.00 3.10 12.0 9.13 7.00 7.26 5.00 4.74 3 x y 10.0 7.46 8.00 6.77 13.0 12.7 9.00 7.11 11.0 7.81 14.0 8.84 6.00 6.08 4.00 5.39 12.0 8.15 7.00 6.42 5.00 5.73 4 x y 8.00 6.58 8.00 5.76 8.00 7.71 8.00 8.84 8.00 8.47 8.00 7.04 8.00 5.25 19.00 12.50 8.00 5.56 8.00 7.91 8.00 6.89 Média de x: 9 Variância de x: 11 Média exata de y: 7.5 (2 d.p) Variância de y: 4.13 (to 2 d.p) Correlação entre x e y : 0.816 Regressão linear: Y = 3.00 + 0.500xTruth lies on statistics !
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29. Cientista de Dados Rodrigo Senra Como faz ?
  • 32. Big Data a cada passo da exploração de petróleo Navigation Seismic: Pre-stack Seismic: Post-stack Log Curves Culture Data Geologic Model Pressure Data Velocity Data Interpretation
  • 34.
  • 35. Fernando Perez, lead PI at BIDS and creator of IPython, demonstrates brain imaging analyses performed using the IPython Notebook, an interactive web-based computational environment. credit: Peg Skorpinski
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.
  • 42.
  • 43. https://www.kaggle.com Kaggle is the world's largest community of data scientists. They compete with each other to solve complex data science problems, and the top competitors are invited to work on the most interesting and sensitive business problems from some of the world’s biggest companies through Masters competitions.
  • 44.
  • 45. Tools Used By Competitors
  • 46.
  • 47.
  • 48.
  • 49.
  • 50.
  • 52.
  • 53.
  • 54.
  • 55. Obrigado a todos pela atenção. Rodrigo Dias Arruda Senra http://rodrigo.senra.nom.br rodsenra@gmail.com @rodsenra As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra. Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante. Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de copyright. Agradecimento especial a Ana Oliveira e Diego Salomone que contribuíram com alguns slides de suas apresentações sobre o mesmo tema.