SlideShare uma empresa Scribd logo
1 de 55
Baixar para ler offline
Cientista de DadosRodrigo Senra
O que faz ?
Quem é ?
Como faz ?Por que é
importante ?
Apenas um rapaz latino americano...
• Engenheiro de Software 

• GPr Sistemas (11 anos)
• HI Tecnologia (5 anos)

• Professor Universitário - PUC-Campinas (2 anos)
• Especialista - globo.com (2 anos)
• Cientista Pesquisador - EMC2
• Engenheiro de Computação 

Grad-MSc-PhD IC-Unicamp
• Entusiasta de FLOSS

(atuante na comunidade Python desde 2000)
Quem está aí ?
• Estudantes ?

• Profissionais 

• Professores ?

• Palestrantes ?

• Cientistas de Dados ?
Cientista de Dados
Rodrigo Senra
Quem é ?
Por que é
importante ?
fONTE: IDC Digital Universe Study, patrocinado pela EMC, 2011
2009

0.8 Zettabytes CRESCIMENTO
DA INFORMAÇÃO
2020
44
X
MAIOR
35.2 ZB
IN 2010 THE DIGITAL UNIVERSE WAS
1.2 ZETTABYTES
1,200,000,000,000,000,000,000
Zetta Exa Peta Tera Giga Mega Kilo Byte
fonte: http://thehumanfaceofbigdata.com/
http://www.telegraph.co.uk/news/picturegalleries/picturesoftheday/2545407/Pictures-of-the-day-12-August-2008.html?image=8
• ︎Government-to-citizen (G2C)

• Government-to-employee (G2E)

• Government-to-business (G2B) 

• Government to-government (G2G)
Cientista de Dados
Rodrigo Senra
O que faz ?
Quem é ?
Data Science is a newly emerging field dedicated to
analyzing and manipulating data to derive insights
and build data products.
https://beta.oreilly.com/ideas/what-is-data-science
It combines skill-sets ranging from
computer science, to mathematics, to art.
http://images.fineartamerica.com/images-medium-large-5/1-pi-transition-paths-martin-krzywinski.jpg
http://drewconway.com/
http://berkeleysciencereview.com/scientific-collaborations-uc-berkeley-data-driven-cover/
Estatísticas descritivas:
! Média vs. Mediana.
! Desvio Padrão
! Quartis, Min/Max.
! Correlação entre variavéis
1
X y
10.00 8.04
8.00 6.95
13.00 7.58
9.00 8.81
11.00 8.33
14.00 9.96
6.00 7.24
4.00 4.26
12.00 10.84
7.00 4.82
5.00 5.68
2
x y
10.0 9.14
8.00 8.14
13.0 8.74
9.00 8.77
11.0 9.26
14.0 8.10
6.00 6.13
4.00 3.10
12.0 9.13
7.00 7.26
5.00 4.74
3
x y
10.0 7.46
8.00 6.77
13.0 12.7
9.00 7.11
11.0 7.81
14.0 8.84
6.00 6.08
4.00 5.39
12.0 8.15
7.00 6.42
5.00 5.73
4
x y
8.00 6.58
8.00 5.76
8.00 7.71
8.00 8.84
8.00 8.47
8.00 7.04
8.00 5.25
19.00 12.50
8.00 5.56
8.00 7.91
8.00 6.89
Média de x: 9
Variância de x: 11
Média exata de y: 7.5 (2 d.p)
Variância de y: 4.13 (to 2 d.p)
Correlação entre x e y : 0.816
Regressão linear: Y = 3.00 + 0.500xTruth lies on statistics !
Cientista de Dados
Rodrigo Senra
Como faz ?
http://i0.wp.com/sciencereview.berkeley.edu/wp-content/uploads/2014/04/spring_2014_azam_05.jpg
http://godwincaruana.me/data-science-workflow-overview-and-challenges-cacm/
Big Data a cada passo da exploração de petróleo
Navigation
Seismic: Pre-stack
Seismic: Post-stack
Log Curves
Culture Data
Geologic Model
Pressure Data
Velocity Data Interpretation
Resolução de Problemas
Agrupamento
Fernando Perez, lead PI at BIDS and creator of IPython, demonstrates brain imaging
analyses performed using the IPython Notebook, an interactive web-based
computational environment.
credit: Peg Skorpinski
https://www.kaggle.com
Kaggle is the world's
largest community of data scientists.
They compete with each other
to solve complex data science problems,
and the top competitors are invited to work on the most
interesting and sensitive business problems from some
of the world’s biggest companies through Masters
competitions.
Tools Used By Competitors
http://www-bcf.usc.edu/~gareth/ISL/ http://www.greenteapress.com/thinkstats/thinkstats.pdf
Obrigado a todos
pela atenção.
Rodrigo Dias Arruda Senra
http://rodrigo.senra.nom.br
rodsenra@gmail.com
@rodsenra
As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.
Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam
feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante.
Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de
copyright. Agradecimento especial a Ana Oliveira e Diego Salomone que contribuíram com alguns slides de suas apresentações
sobre o mesmo tema.

Mais conteúdo relacionado

Destaque

Destaque (10)

Cases de Python no 7Masters 2012
Cases de Python no 7Masters 2012Cases de Python no 7Masters 2012
Cases de Python no 7Masters 2012
 
Organicer: Organizando informação com Python
Organicer: Organizando informação com PythonOrganicer: Organizando informação com Python
Organicer: Organizando informação com Python
 
Linked data at globo.com
Linked data at globo.comLinked data at globo.com
Linked data at globo.com
 
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
Rest - Representational State Transfer (EMC BRDC Internal Tech talk)
 
Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia Brainiak - uma API REST Hipermedia
Brainiak - uma API REST Hipermedia
 
Rest, Gateway e Compiladores
Rest, Gateway e CompiladoresRest, Gateway e Compiladores
Rest, Gateway e Compiladores
 
Python: A Arma Secreta do Cientista de Dados
Python: A Arma Secreta do Cientista de DadosPython: A Arma Secreta do Cientista de Dados
Python: A Arma Secreta do Cientista de Dados
 
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
Python Brasil 2010 - Potter vs Voldemort - Lições ofidiglotas da prática Pyth...
 
pa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text Processingpa-pe-pi-po-pure Python Text Processing
pa-pe-pi-po-pure Python Text Processing
 
Python: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de DadosPython: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de Dados
 

Semelhante a Cientista de Dados

Uma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptxUma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptx
Alessandro Binhara
 

Semelhante a Cientista de Dados (20)

Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Big data, e eu com isso?
Big data, e eu com isso?Big data, e eu com isso?
Big data, e eu com isso?
 
aula_met_tec02.pptx
aula_met_tec02.pptxaula_met_tec02.pptx
aula_met_tec02.pptx
 
DAMICORE - conceito e prática
DAMICORE - conceito e práticaDAMICORE - conceito e prática
DAMICORE - conceito e prática
 
Big data e o dirieto internacional - SILVA JR., Nelmon J.
Big data e o dirieto internacional - SILVA JR., Nelmon J.Big data e o dirieto internacional - SILVA JR., Nelmon J.
Big data e o dirieto internacional - SILVA JR., Nelmon J.
 
Casos de Uso de Big Data e Ciência de Dados no Mercado
 Casos de Uso de Big Data e Ciência de Dados no Mercado Casos de Uso de Big Data e Ciência de Dados no Mercado
Casos de Uso de Big Data e Ciência de Dados no Mercado
 
The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science Workflow
 
Clusters
ClustersClusters
Clusters
 
Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...
Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...
Apresentaçao do Grupo de Pesquisa (Eng. Software e Sistemas Colaborativos) UT...
 
Data science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticasData science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticas
 
Big Data e oportunidades de negócios
Big Data e oportunidades de negóciosBig Data e oportunidades de negócios
Big Data e oportunidades de negócios
 
Carreira e desenvolvimento de software na plataforma microsoft
Carreira e desenvolvimento de software na plataforma microsoftCarreira e desenvolvimento de software na plataforma microsoft
Carreira e desenvolvimento de software na plataforma microsoft
 
Chega de fake news! Vamos utilizar Data Science para um melhor entendimento ...
Chega de fake news!  Vamos utilizar Data Science para um melhor entendimento ...Chega de fake news!  Vamos utilizar Data Science para um melhor entendimento ...
Chega de fake news! Vamos utilizar Data Science para um melhor entendimento ...
 
Data Science For Dummies From a Dummy
Data Science For Dummies From a DummyData Science For Dummies From a Dummy
Data Science For Dummies From a Dummy
 
Python-Fenalivre-Imed
Python-Fenalivre-ImedPython-Fenalivre-Imed
Python-Fenalivre-Imed
 
Uma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptxUma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptx
 
Perfil e competências do profissional de informação para a gestão de dados (B...
Perfil e competências do profissional de informação para a gestão de dados (B...Perfil e competências do profissional de informação para a gestão de dados (B...
Perfil e competências do profissional de informação para a gestão de dados (B...
 
Data Science & Machine Learning - Python Conference ES 2017
Data Science & Machine Learning - Python Conference ES 2017Data Science & Machine Learning - Python Conference ES 2017
Data Science & Machine Learning - Python Conference ES 2017
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Deep Learning além do reconhecimento de gatos
Deep Learning além do reconhecimento de gatosDeep Learning além do reconhecimento de gatos
Deep Learning além do reconhecimento de gatos
 

Último

Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Dirceu Resende
 

Último (6)

Certificado - Data Analytics - CoderHouse.pdf
Certificado - Data Analytics - CoderHouse.pdfCertificado - Data Analytics - CoderHouse.pdf
Certificado - Data Analytics - CoderHouse.pdf
 
Apresentação Comercial VITAL DATA 2024.pdf
Apresentação Comercial VITAL DATA 2024.pdfApresentação Comercial VITAL DATA 2024.pdf
Apresentação Comercial VITAL DATA 2024.pdf
 
From_SEH_Overwrite_with_Egg_Hunter_to_Get_a_Shell_PT-BR.pdf
From_SEH_Overwrite_with_Egg_Hunter_to_Get_a_Shell_PT-BR.pdfFrom_SEH_Overwrite_with_Egg_Hunter_to_Get_a_Shell_PT-BR.pdf
From_SEH_Overwrite_with_Egg_Hunter_to_Get_a_Shell_PT-BR.pdf
 
[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)
[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)
[ServiceNow] Upgrade de versão - 2ª edição (Revisada, atualizada e ampliada)
 
EAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIA
EAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIAEAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIA
EAD Curso - CIÊNCIA DE DADOS NA INDÚSTTRIA
 
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...
 

Cientista de Dados

  • 1. Cientista de DadosRodrigo Senra O que faz ? Quem é ? Como faz ?Por que é importante ?
  • 2. Apenas um rapaz latino americano... • Engenheiro de Software • GPr Sistemas (11 anos) • HI Tecnologia (5 anos) • Professor Universitário - PUC-Campinas (2 anos) • Especialista - globo.com (2 anos) • Cientista Pesquisador - EMC2 • Engenheiro de Computação Grad-MSc-PhD IC-Unicamp • Entusiasta de FLOSS (atuante na comunidade Python desde 2000)
  • 3. Quem está aí ? • Estudantes ? • Profissionais • Professores ? • Palestrantes ? • Cientistas de Dados ?
  • 4. Cientista de Dados Rodrigo Senra Quem é ? Por que é importante ?
  • 5.
  • 6. fONTE: IDC Digital Universe Study, patrocinado pela EMC, 2011 2009
 0.8 Zettabytes CRESCIMENTO DA INFORMAÇÃO 2020 44 X MAIOR 35.2 ZB IN 2010 THE DIGITAL UNIVERSE WAS 1.2 ZETTABYTES 1,200,000,000,000,000,000,000 Zetta Exa Peta Tera Giga Mega Kilo Byte fonte: http://thehumanfaceofbigdata.com/
  • 7.
  • 9. • ︎Government-to-citizen (G2C) • Government-to-employee (G2E) • Government-to-business (G2B) • Government to-government (G2G)
  • 10. Cientista de Dados Rodrigo Senra O que faz ? Quem é ?
  • 11. Data Science is a newly emerging field dedicated to analyzing and manipulating data to derive insights and build data products. https://beta.oreilly.com/ideas/what-is-data-science It combines skill-sets ranging from computer science, to mathematics, to art. http://images.fineartamerica.com/images-medium-large-5/1-pi-transition-paths-martin-krzywinski.jpg
  • 12.
  • 15. Estatísticas descritivas: ! Média vs. Mediana. ! Desvio Padrão ! Quartis, Min/Max. ! Correlação entre variavéis 1 X y 10.00 8.04 8.00 6.95 13.00 7.58 9.00 8.81 11.00 8.33 14.00 9.96 6.00 7.24 4.00 4.26 12.00 10.84 7.00 4.82 5.00 5.68 2 x y 10.0 9.14 8.00 8.14 13.0 8.74 9.00 8.77 11.0 9.26 14.0 8.10 6.00 6.13 4.00 3.10 12.0 9.13 7.00 7.26 5.00 4.74 3 x y 10.0 7.46 8.00 6.77 13.0 12.7 9.00 7.11 11.0 7.81 14.0 8.84 6.00 6.08 4.00 5.39 12.0 8.15 7.00 6.42 5.00 5.73 4 x y 8.00 6.58 8.00 5.76 8.00 7.71 8.00 8.84 8.00 8.47 8.00 7.04 8.00 5.25 19.00 12.50 8.00 5.56 8.00 7.91 8.00 6.89 Média de x: 9 Variância de x: 11 Média exata de y: 7.5 (2 d.p) Variância de y: 4.13 (to 2 d.p) Correlação entre x e y : 0.816 Regressão linear: Y = 3.00 + 0.500xTruth lies on statistics !
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29. Cientista de Dados Rodrigo Senra Como faz ?
  • 32. Big Data a cada passo da exploração de petróleo Navigation Seismic: Pre-stack Seismic: Post-stack Log Curves Culture Data Geologic Model Pressure Data Velocity Data Interpretation
  • 34.
  • 35. Fernando Perez, lead PI at BIDS and creator of IPython, demonstrates brain imaging analyses performed using the IPython Notebook, an interactive web-based computational environment. credit: Peg Skorpinski
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.
  • 42.
  • 43. https://www.kaggle.com Kaggle is the world's largest community of data scientists. They compete with each other to solve complex data science problems, and the top competitors are invited to work on the most interesting and sensitive business problems from some of the world’s biggest companies through Masters competitions.
  • 44.
  • 45. Tools Used By Competitors
  • 46.
  • 47.
  • 48.
  • 49.
  • 50.
  • 52.
  • 53.
  • 54.
  • 55. Obrigado a todos pela atenção. Rodrigo Dias Arruda Senra http://rodrigo.senra.nom.br rodsenra@gmail.com @rodsenra As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra. Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante. Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de copyright. Agradecimento especial a Ana Oliveira e Diego Salomone que contribuíram com alguns slides de suas apresentações sobre o mesmo tema.