SlideShare uma empresa Scribd logo
Ciro Cavani 
Personalização 
Singularity 
Ambiente de Computação Interativa para Big Data 
baseado no Spark e IPython. 
Globo.com 
HackDay 02/12/2014
Motivação 
A tecnologia necessária para mudar como a 
Globo.com faz negócio está em produção. 
Hadoop2, Kafka e Spark. 
A ideia é orientar a Globo para tomar decisões 
baseada em dados.
Proposta 
● ter acesso a todos os dados da empresa 
● rodar algoritmos de machine learning 
● identificar informações relevantes 
● formular hipóteses e explorar os dados 
● formular experimentos, testes AB 
● um sistema interativo
Hadoop 
Hadoop2 é dois sistemas: 
● HDFS, sistema de 
arquivos distribuído; 
● YARN, sistema de 
execução distribuído. 
HBase, Pig, Mahout, Solr 
imagem: http://hortonworks.com/hadoop/yarn/
Kafka 
Cluster de distribuição de 
mensagens (bilhões por dia) 
criado pelo LinkedIn. 
Performance - alto throughput 
Escalabilidade - muitos 
consumidores 
Mensagens pequenas, não 
estruturadas / opacas (bytes) 
imagem: http://hortonworks.com/hadoop/kafka/
Spark 
A fast and general-purpose cluster computing system. 
High-level APIs in Python 
Spark SQL for SQL and structured data processing 
MLlib for machine learning 
GraphX for graph processing 
Spark Streaming for stream processing 
http://spark.apache.org/
IPython Notebook 
web-based interactive 
computational environment 
where you can combine code 
execution, text, mathematics, 
plots and rich media into a 
single document.
Wolfram Language (inspiração) 
http://youtu.be/_P9HqHVPeik 
Stephen Wolfram introduces the 
Wolfram Language in this video that 
shows how the symbolic 
programming language enables 
powerful functional programming, 
querying of large databases, flexible 
interactivity, easy deployment, and 
much, much more.
Databricks Cloud (inspiração) 
http://youtu.be/dJQ5lV5Tldw 
The Databricks Cloud provides the full 
power of Spark to you, in the cloud, 
plus a powerful set of features for 
exploring and visualization your data, 
as well as writing and deploying 
production data products. 
* Visualize data right as you explore it 
* Collaborate in real-time 
* Export your analysis to production 
dashboards in seconds
Jupyter e Julia (futuro) 
http://youtu.be/jhlVHoeB05A 
This talk will begin with an introduction 
to the Julia language, both explaining 
why it is able to attain C-like 
performance in many cases. (...) we 
will explain how connecting to the 
IPython "Jupyter" front-end from an 
IJulia back-end allows Julia to benefit 
from IPython's rich multimedia 
notebook interface, and how Julia can 
even use IPython 2's interactive-widget 
infrastructure to provide truly interactive 
computations. 
https://github.com/stevengj/Julia-EuroSciPy14
Globo.com 
Gostou? 
Quer Trabalhar na Globo.com? 
Estamos Contratando 
https://github.com/globocom/IWantToWorkAtGloboCom 
ciro.cavani@corp.globo.com 
https://www.linkedin.com/in/cirocavani

Mais conteúdo relacionado

Destaque

Recce shooting
Recce shootingRecce shooting
Recce shooting
George_Mugglestone
 
Target Audience Research
Target Audience ResearchTarget Audience Research
Target Audience Research
George_Mugglestone
 
Anyone can cook! Report
Anyone can cook! ReportAnyone can cook! Report
Anyone can cook! Report
yulingallyssa
 
Xử lý tắc ống thoát nước tại 3B Chả Cá
 Xử lý tắc ống thoát nước tại 3B Chả Cá Xử lý tắc ống thoát nước tại 3B Chả Cá
Xử lý tắc ống thoát nước tại 3B Chả Cá
Tuấn Hoàng
 
MassCue2014
MassCue2014MassCue2014
MassCue2014
Deborah Chad
 
The Employees' Market Slides.
The Employees' Market Slides.The Employees' Market Slides.
The Employees' Market Slides.
yulingallyssa
 
лекция 9 rh конфликт
лекция 9   rh конфликтлекция 9   rh конфликт
лекция 9 rh конфликт
cdo_presentation
 
2015 январь Елка Снеговик и Дед Мороз
2015 январь Елка Снеговик и Дед Мороз 2015 январь Елка Снеговик и Дед Мороз
2015 январь Елка Снеговик и Дед Мороз
Центральный дом архитектора (ЦДА)
 
Focus Group Presentation- 1
Focus Group Presentation- 1 Focus Group Presentation- 1
Focus Group Presentation- 1
George_Mugglestone
 

Destaque (9)

Recce shooting
Recce shootingRecce shooting
Recce shooting
 
Target Audience Research
Target Audience ResearchTarget Audience Research
Target Audience Research
 
Anyone can cook! Report
Anyone can cook! ReportAnyone can cook! Report
Anyone can cook! Report
 
Xử lý tắc ống thoát nước tại 3B Chả Cá
 Xử lý tắc ống thoát nước tại 3B Chả Cá Xử lý tắc ống thoát nước tại 3B Chả Cá
Xử lý tắc ống thoát nước tại 3B Chả Cá
 
MassCue2014
MassCue2014MassCue2014
MassCue2014
 
The Employees' Market Slides.
The Employees' Market Slides.The Employees' Market Slides.
The Employees' Market Slides.
 
лекция 9 rh конфликт
лекция 9   rh конфликтлекция 9   rh конфликт
лекция 9 rh конфликт
 
2015 январь Елка Снеговик и Дед Мороз
2015 январь Елка Снеговик и Дед Мороз 2015 январь Елка Снеговик и Дед Мороз
2015 январь Елка Снеговик и Дед Мороз
 
Focus Group Presentation- 1
Focus Group Presentation- 1 Focus Group Presentation- 1
Focus Group Presentation- 1
 

Semelhante a Singularity @ Globo.com HackDay 2014-12-02

Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
José Renato Pequeno
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
Alessandro Binhara
 
Minicurso Intel XDK
Minicurso Intel XDKMinicurso Intel XDK
Minicurso Intel XDK
Diego Cavalca
 
Minicurso Intel XDK
Minicurso Intel XDKMinicurso Intel XDK
Minicurso Intel XDK
Diego Cavalca
 
Documento SpagoBI
Documento SpagoBIDocumento SpagoBI
Documento SpagoBI
Grendene S/A
 
BrunoSQLSaturday424
BrunoSQLSaturday424BrunoSQLSaturday424
BrunoSQLSaturday424
Bruno Feldman da Costa
 
Transformando a ti com cloud computing e virtualização
Transformando a ti com cloud computing e virtualizaçãoTransformando a ti com cloud computing e virtualização
Transformando a ti com cloud computing e virtualização
Darlan Segalin
 
Apresentação de projeto de estágio
Apresentação de projeto de estágioApresentação de projeto de estágio
Apresentação de projeto de estágio
Marcos Bispo de Oliveira
 
Soluções de IoT usando Arduino e Google Cloud
Soluções de IoT usando Arduino e Google CloudSoluções de IoT usando Arduino e Google Cloud
Soluções de IoT usando Arduino e Google Cloud
Alvaro Viebrantz
 
Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Big Data Week São Paulo 2017
Big Data Week São Paulo 2017
Thiago Santiago
 
Uma Análise dos Sistemas de Comunicação IP
Uma Análise dos Sistemas de Comunicação IPUma Análise dos Sistemas de Comunicação IP
Uma Análise dos Sistemas de Comunicação IP
IP10
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
Campus Party Brasil
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Caio Moreno
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
IT4biz IT Solutions
 
Software livre - Parte 3
Software livre - Parte 3Software livre - Parte 3
Software livre - Parte 3
Fabrício Basto
 
Machine Learning Black Boxes
Machine Learning Black BoxesMachine Learning Black Boxes
Machine Learning Black Boxes
Denis Wilson Souza Rosa
 
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho DuroTDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
tdc-globalcode
 
Template_Faculdade_Apache Kafka.pdf
Template_Faculdade_Apache Kafka.pdfTemplate_Faculdade_Apache Kafka.pdf
Template_Faculdade_Apache Kafka.pdf
Valdir Adorni
 
Internet das coisas, machine learnign e maquinas de doces
Internet das coisas, machine learnign e maquinas de doces Internet das coisas, machine learnign e maquinas de doces
Internet das coisas, machine learnign e maquinas de doces
Alvaro Viebrantz
 
Mini Curso de Microsoft Power BI
Mini Curso de Microsoft Power BIMini Curso de Microsoft Power BI
Mini Curso de Microsoft Power BI
Multimidia e Arte
 

Semelhante a Singularity @ Globo.com HackDay 2014-12-02 (20)

Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
Minicurso Intel XDK
Minicurso Intel XDKMinicurso Intel XDK
Minicurso Intel XDK
 
Minicurso Intel XDK
Minicurso Intel XDKMinicurso Intel XDK
Minicurso Intel XDK
 
Documento SpagoBI
Documento SpagoBIDocumento SpagoBI
Documento SpagoBI
 
BrunoSQLSaturday424
BrunoSQLSaturday424BrunoSQLSaturday424
BrunoSQLSaturday424
 
Transformando a ti com cloud computing e virtualização
Transformando a ti com cloud computing e virtualizaçãoTransformando a ti com cloud computing e virtualização
Transformando a ti com cloud computing e virtualização
 
Apresentação de projeto de estágio
Apresentação de projeto de estágioApresentação de projeto de estágio
Apresentação de projeto de estágio
 
Soluções de IoT usando Arduino e Google Cloud
Soluções de IoT usando Arduino e Google CloudSoluções de IoT usando Arduino e Google Cloud
Soluções de IoT usando Arduino e Google Cloud
 
Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Big Data Week São Paulo 2017
Big Data Week São Paulo 2017
 
Uma Análise dos Sistemas de Comunicação IP
Uma Análise dos Sistemas de Comunicação IPUma Análise dos Sistemas de Comunicação IP
Uma Análise dos Sistemas de Comunicação IP
 
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho  inteligência de negócios utilizando software livre   campus party 2011Pentaho  inteligência de negócios utilizando software livre   campus party 2011
Pentaho inteligência de negócios utilizando software livre campus party 2011
 
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
 
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
 
Software livre - Parte 3
Software livre - Parte 3Software livre - Parte 3
Software livre - Parte 3
 
Machine Learning Black Boxes
Machine Learning Black BoxesMachine Learning Black Boxes
Machine Learning Black Boxes
 
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho DuroTDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Duro
 
Template_Faculdade_Apache Kafka.pdf
Template_Faculdade_Apache Kafka.pdfTemplate_Faculdade_Apache Kafka.pdf
Template_Faculdade_Apache Kafka.pdf
 
Internet das coisas, machine learnign e maquinas de doces
Internet das coisas, machine learnign e maquinas de doces Internet das coisas, machine learnign e maquinas de doces
Internet das coisas, machine learnign e maquinas de doces
 
Mini Curso de Microsoft Power BI
Mini Curso de Microsoft Power BIMini Curso de Microsoft Power BI
Mini Curso de Microsoft Power BI
 

Singularity @ Globo.com HackDay 2014-12-02

  • 1. Ciro Cavani Personalização Singularity Ambiente de Computação Interativa para Big Data baseado no Spark e IPython. Globo.com HackDay 02/12/2014
  • 2. Motivação A tecnologia necessária para mudar como a Globo.com faz negócio está em produção. Hadoop2, Kafka e Spark. A ideia é orientar a Globo para tomar decisões baseada em dados.
  • 3. Proposta ● ter acesso a todos os dados da empresa ● rodar algoritmos de machine learning ● identificar informações relevantes ● formular hipóteses e explorar os dados ● formular experimentos, testes AB ● um sistema interativo
  • 4. Hadoop Hadoop2 é dois sistemas: ● HDFS, sistema de arquivos distribuído; ● YARN, sistema de execução distribuído. HBase, Pig, Mahout, Solr imagem: http://hortonworks.com/hadoop/yarn/
  • 5. Kafka Cluster de distribuição de mensagens (bilhões por dia) criado pelo LinkedIn. Performance - alto throughput Escalabilidade - muitos consumidores Mensagens pequenas, não estruturadas / opacas (bytes) imagem: http://hortonworks.com/hadoop/kafka/
  • 6. Spark A fast and general-purpose cluster computing system. High-level APIs in Python Spark SQL for SQL and structured data processing MLlib for machine learning GraphX for graph processing Spark Streaming for stream processing http://spark.apache.org/
  • 7. IPython Notebook web-based interactive computational environment where you can combine code execution, text, mathematics, plots and rich media into a single document.
  • 8.
  • 9.
  • 10. Wolfram Language (inspiração) http://youtu.be/_P9HqHVPeik Stephen Wolfram introduces the Wolfram Language in this video that shows how the symbolic programming language enables powerful functional programming, querying of large databases, flexible interactivity, easy deployment, and much, much more.
  • 11. Databricks Cloud (inspiração) http://youtu.be/dJQ5lV5Tldw The Databricks Cloud provides the full power of Spark to you, in the cloud, plus a powerful set of features for exploring and visualization your data, as well as writing and deploying production data products. * Visualize data right as you explore it * Collaborate in real-time * Export your analysis to production dashboards in seconds
  • 12. Jupyter e Julia (futuro) http://youtu.be/jhlVHoeB05A This talk will begin with an introduction to the Julia language, both explaining why it is able to attain C-like performance in many cases. (...) we will explain how connecting to the IPython "Jupyter" front-end from an IJulia back-end allows Julia to benefit from IPython's rich multimedia notebook interface, and how Julia can even use IPython 2's interactive-widget infrastructure to provide truly interactive computations. https://github.com/stevengj/Julia-EuroSciPy14
  • 13. Globo.com Gostou? Quer Trabalhar na Globo.com? Estamos Contratando https://github.com/globocom/IWantToWorkAtGloboCom ciro.cavani@corp.globo.com https://www.linkedin.com/in/cirocavani