SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
Análise de dados com Python e
JupyterHub
Cronograma
- Instalação e configuração do pyspark + jupyter
- Análise de dados do governo
- Integração do pyspark com Pandas
- Instalação e configuração do JupyterHub
- Customizando Jupyter e JupyterHub (bônus)
Material do curso:
https://github.com/dmvieira/tutorial-jupyter-pyspark
O que é Jupyter?
O que é Jupyter?
O que é Jupyter?
O que é Jupyter?
Jupyter = Julia Python R
Mas…
https://github.com/jupyter/jupyter/wiki/Jupyter-
kernels
PYTHON É O PADRÃO!
O que é Jupyter?
pip3 install jupyter==1.0.0 -i https://pypi.python.org/simple
ou
conda install -c anaconda jupyter=1.0.0
jupyter notebook
Como adiciono um kernel?
Vamos adicionar kernel do PySpark!
http://d3kbcqa49mib13.cloudfront.net/spark-2.1
.0-bin-hadoop2.7.tgz
Mas o que é PySpark?
Como adiciono um kernel?
Vamos adicionar kernel do PySpark!
http://d3kbcqa49mib13.cloudfront.net/spark-2.1
.0-bin-hadoop2.7.tgz
Mas o que é PySpark?
● Ferramenta para processamento de dados em larga
escala
● Até 100x mais rápido que map reduce no hadoop
● Distribui tarefas em paralelo
● Suporte a
– Java(Spark)
– Scala(Spark)
– Python(PySpark)
– R(SparkR)
Vamos descompactar e trabalhar!
● echo "palavra um tres dois tres dois tres">
dataset/teste_de_palavras.txt
● tar -xvzf spark-2.1.0-bin-hadoop2.7.tgz
● cd spark-2.1.0-bin-hadoop2.7/bin
● ./pyspark
text_file = sc.textFile("../../dataset/teste_de_palavras.txt")
counts = text_file.flatMap(lambda line: line.split(" ")) 
.map(lambda word: (word, 1)) 
.reduceByKey(lambda a, b: a + b)
counts.collect()
Agora sim… Voltamos pro Kernel
Vamos adicionar kernel do PySpark!
export SPARK_HOME=/Users/diogo.munaro/learn/tutorial-
jupyter/spark-2.1.0-bin-hadoop2.7
export PATH="$PATH:$SPARK_HOME/bin"
pip3 install -i https://pypi.anaconda.org/hyoon/simple toree==0.2.0.dev1
ou
conda install -c anaconda toree=0.2.0.dev1
pip3 install "jupyter_client<5.0" -i https://pypi.python.org/simple
ou
conda install -c "jupyter_client<5.0"
jupyter toree install –spark_home=$SPARK_HOME
jupyter toree install –interpreters=PySpark
jupyter notebook
Agora sim… Do jeito que funciona
Vamos adicionar kernel do PySpark!
export SPARK_HOME=/Users/diogo.munaro/learn/tutorial-
jupyter/spark-2.1.0-bin-hadoop2.7
export PATH="$PATH:$SPARK_HOME/bin"
pip3 install findspark==1.1.0 -i https://pypi.python.org/simple
jupyter notebook
Vamos para a análise de dados!
Vamos para a análise de dados!
pip3 install pandas==0.19.2 matplotlib==2.0.1 -i https://pypi.python.org/simple
ou
conda install -c anaconda pandas=0.19.2 matplotlib=2.0.1
jupyter notebook
Ok, e JupyterHub?
Ok, e JupyterHub?
npm install -g configurable-http-proxy –registry https://registry.npmjs.org/
pip3 install jupyterhub==0.7.2 -i https://pypi.python.org/simple
ou
conda install -c conda-forge jupyterhub=0.7.2
jupyterhub
http://localhost:8000
Mas como administro com
JupyterHub?
jupyterhub –generate-config
Editar jupyterhub_config.py
c.Authenticator.admin_users = set() → {“diogo.munaro”}
Vamos customizar!
jupyter --paths
Mudar arquivo de login!
Obrigado
http://github.com/dmvieira/
https://www.linkedin.com/in/dmvieira/
diogo.mvieira@gmail.com

Mais conteúdo relacionado

Mais de Diogo Munaro Vieira

Testes metamórficos em problemas complexos
Testes metamórficos em problemas complexosTestes metamórficos em problemas complexos
Testes metamórficos em problemas complexosDiogo Munaro Vieira
 
Apache Spark Overview and Applications
Apache Spark Overview and ApplicationsApache Spark Overview and Applications
Apache Spark Overview and ApplicationsDiogo Munaro Vieira
 
Paralelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicaçõesParalelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicaçõesDiogo Munaro Vieira
 
MLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtosMLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtosDiogo Munaro Vieira
 
Desenvolvedor de software para Big Data
Desenvolvedor de software para Big DataDesenvolvedor de software para Big Data
Desenvolvedor de software para Big DataDiogo Munaro Vieira
 
Machine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGHMachine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGHDiogo Munaro Vieira
 
Conhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por diaConhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por diaDiogo Munaro Vieira
 

Mais de Diogo Munaro Vieira (9)

Testes metamórficos em problemas complexos
Testes metamórficos em problemas complexosTestes metamórficos em problemas complexos
Testes metamórficos em problemas complexos
 
Apache Spark Overview and Applications
Apache Spark Overview and ApplicationsApache Spark Overview and Applications
Apache Spark Overview and Applications
 
Paralelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicaçõesParalelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicações
 
MLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtosMLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtos
 
Desenvolvedor de software para Big Data
Desenvolvedor de software para Big DataDesenvolvedor de software para Big Data
Desenvolvedor de software para Big Data
 
Machine learning em Produção
Machine learning em ProduçãoMachine learning em Produção
Machine learning em Produção
 
Machine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGHMachine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGH
 
Big Data na Globo.com
Big Data na Globo.comBig Data na Globo.com
Big Data na Globo.com
 
Conhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por diaConhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por dia
 

Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)

  • 1. Análise de dados com Python e JupyterHub
  • 2. Cronograma - Instalação e configuração do pyspark + jupyter - Análise de dados do governo - Integração do pyspark com Pandas - Instalação e configuração do JupyterHub - Customizando Jupyter e JupyterHub (bônus) Material do curso: https://github.com/dmvieira/tutorial-jupyter-pyspark
  • 3. O que é Jupyter?
  • 4. O que é Jupyter?
  • 5. O que é Jupyter?
  • 6. O que é Jupyter? Jupyter = Julia Python R Mas… https://github.com/jupyter/jupyter/wiki/Jupyter- kernels PYTHON É O PADRÃO!
  • 7. O que é Jupyter? pip3 install jupyter==1.0.0 -i https://pypi.python.org/simple ou conda install -c anaconda jupyter=1.0.0 jupyter notebook
  • 8. Como adiciono um kernel? Vamos adicionar kernel do PySpark! http://d3kbcqa49mib13.cloudfront.net/spark-2.1 .0-bin-hadoop2.7.tgz Mas o que é PySpark?
  • 9. Como adiciono um kernel? Vamos adicionar kernel do PySpark! http://d3kbcqa49mib13.cloudfront.net/spark-2.1 .0-bin-hadoop2.7.tgz Mas o que é PySpark?
  • 10. ● Ferramenta para processamento de dados em larga escala ● Até 100x mais rápido que map reduce no hadoop ● Distribui tarefas em paralelo ● Suporte a – Java(Spark) – Scala(Spark) – Python(PySpark) – R(SparkR)
  • 11. Vamos descompactar e trabalhar! ● echo "palavra um tres dois tres dois tres"> dataset/teste_de_palavras.txt ● tar -xvzf spark-2.1.0-bin-hadoop2.7.tgz ● cd spark-2.1.0-bin-hadoop2.7/bin ● ./pyspark text_file = sc.textFile("../../dataset/teste_de_palavras.txt") counts = text_file.flatMap(lambda line: line.split(" ")) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a + b) counts.collect()
  • 12. Agora sim… Voltamos pro Kernel Vamos adicionar kernel do PySpark! export SPARK_HOME=/Users/diogo.munaro/learn/tutorial- jupyter/spark-2.1.0-bin-hadoop2.7 export PATH="$PATH:$SPARK_HOME/bin" pip3 install -i https://pypi.anaconda.org/hyoon/simple toree==0.2.0.dev1 ou conda install -c anaconda toree=0.2.0.dev1 pip3 install "jupyter_client<5.0" -i https://pypi.python.org/simple ou conda install -c "jupyter_client<5.0" jupyter toree install –spark_home=$SPARK_HOME jupyter toree install –interpreters=PySpark jupyter notebook
  • 13. Agora sim… Do jeito que funciona Vamos adicionar kernel do PySpark! export SPARK_HOME=/Users/diogo.munaro/learn/tutorial- jupyter/spark-2.1.0-bin-hadoop2.7 export PATH="$PATH:$SPARK_HOME/bin" pip3 install findspark==1.1.0 -i https://pypi.python.org/simple jupyter notebook
  • 14. Vamos para a análise de dados!
  • 15. Vamos para a análise de dados! pip3 install pandas==0.19.2 matplotlib==2.0.1 -i https://pypi.python.org/simple ou conda install -c anaconda pandas=0.19.2 matplotlib=2.0.1 jupyter notebook
  • 17. Ok, e JupyterHub? npm install -g configurable-http-proxy –registry https://registry.npmjs.org/ pip3 install jupyterhub==0.7.2 -i https://pypi.python.org/simple ou conda install -c conda-forge jupyterhub=0.7.2 jupyterhub http://localhost:8000
  • 18. Mas como administro com JupyterHub? jupyterhub –generate-config Editar jupyterhub_config.py c.Authenticator.admin_users = set() → {“diogo.munaro”}