O documento descreve um curso sobre análise de dados com Python e JupyterHub, incluindo a instalação e configuração do PySpark e JupyterHub, integração do PySpark com Pandas, e customização do Jupyter e JupyterHub. É explicado o que é Jupyter, PySpark, e como adicionar kernels, analisar dados, e administrar o JupyterHub.
2. Cronograma
- Instalação e configuração do pyspark + jupyter
- Análise de dados do governo
- Integração do pyspark com Pandas
- Instalação e configuração do JupyterHub
- Customizando Jupyter e JupyterHub (bônus)
Material do curso:
https://github.com/dmvieira/tutorial-jupyter-pyspark
6. O que é Jupyter?
Jupyter = Julia Python R
Mas…
https://github.com/jupyter/jupyter/wiki/Jupyter-
kernels
PYTHON É O PADRÃO!
7. O que é Jupyter?
pip3 install jupyter==1.0.0 -i https://pypi.python.org/simple
ou
conda install -c anaconda jupyter=1.0.0
jupyter notebook
8. Como adiciono um kernel?
Vamos adicionar kernel do PySpark!
http://d3kbcqa49mib13.cloudfront.net/spark-2.1
.0-bin-hadoop2.7.tgz
Mas o que é PySpark?
9. Como adiciono um kernel?
Vamos adicionar kernel do PySpark!
http://d3kbcqa49mib13.cloudfront.net/spark-2.1
.0-bin-hadoop2.7.tgz
Mas o que é PySpark?
10. ● Ferramenta para processamento de dados em larga
escala
● Até 100x mais rápido que map reduce no hadoop
● Distribui tarefas em paralelo
● Suporte a
– Java(Spark)
– Scala(Spark)
– Python(PySpark)
– R(SparkR)
11. Vamos descompactar e trabalhar!
● echo "palavra um tres dois tres dois tres">
dataset/teste_de_palavras.txt
● tar -xvzf spark-2.1.0-bin-hadoop2.7.tgz
● cd spark-2.1.0-bin-hadoop2.7/bin
● ./pyspark
text_file = sc.textFile("../../dataset/teste_de_palavras.txt")
counts = text_file.flatMap(lambda line: line.split(" "))
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b)
counts.collect()