Big data e python como cidadão de primeira classe para sistemas distribuídos [final]

•

0 gostou•392 visualizações

Bibliotecas e ferramentas como numpy, Scikit, Pandas e Jupyter fizerem de Python um dos melhores eco sistemas para Data Science. Mas mesmo tendo caído nas graças dos Data Scientists, Python ainda não é efetivamente utilizada para processamento de dados em larga escala (Big Data). A maioria das ferramentas de processamento de dados, em especial as ferramentas para "Stream Processing", são escritas em Java. Nos casos onde existe algum suporte, Python é cidadão de segunda classe, sempre atrás em features ou performance. Podemos fazer com que Python se torne uma excelente opção não apenas para os Data Scientists mas também para os Data Engineerings, que precisam prototipar e modelar pipelines complexos para Big Data. Nessa palestra entenderemos porquê Python ainda não preencheu essa lacuna, quais são os desafios técnicos e possíveis soluções para que Python seja uma linguagem de primeira classe para processamento de dados em larga escala e consequentemente para sistemas distribuídos. Vamos investigar os seguintes tópicos e tecnologias: Stream Processing, Performance, Comunicação Distribuída e Actor Model, IO Assíncrono, Containers e Orquestração, Erlang e Elixir, Java/Scala, Netty e Akka.

Tecnologia

Big Data e Python como cidadão de
primeira classe para Sistemas Distribuídos
Victor Poluceno
github.com/victorpoluceno

Entrega. Acelera. Protege.
jobs.azion.com

Python é excelente para
o cientista de dados
Baixa curva de aprendizado com
excelente ecossistema

Para o engenheiro de dados
Python não é uma boa opção
Depende da JVM, performance é ruim e
o custo operacional é alto

Importa porque podemos ter
um ecossistema melhor
Tornar Python uma boa opção para
engenharia de dados e sistema distribuídos

Python como linguagem
tem melhorado muito
Diferentes interpretadores,
IO assíncrono e type checking

Mas podemos
melhorar muito
Especialmente, precisamos de
melhor suporte para construção
de sistemas distribuídos.
● Visibilidade de processos
em execução ala JMX.
● Adoção por empresas que
trabalham com Python.
● Bibliotecas de alto nível
em Python puro (ala Akka,
Netty, Erlang, etc)

Uma abstração sólida e simples
Modelo de concorrência orientada a
atores e a filosofia do Erlang

Xwing
Biblioteca para concorrência baseada
em atores e asyncio, inspirada em Erlang

Xwing
Concorrência, paralelismo,
comunicação assíncrona e
tolerância a falhas
● Baseado em process leves
(coroutines);
● Cada processo é unicamente
identificado;
● Sem estado compartilhado,
processos interagem trocando
mensagens;
● Envio de mensagens é
assíncrono;
● Processos são isolados *;
● Um processo pode detectar
falhas em outros processos *.

Obrigado!
Perguntas?
github.com/victorpoluceno/xwing

Mais conteúdo relacionado

Semelhante a Big data e python como cidadão de primeira classe para sistemas distribuídos [final]

Python, CPython, Pythonico, CythonMarcos Aurelio Barranco

Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH

Ampliando os Horizontes dos Profissionais de Redes através do PythonIP10

Desenvolvimento de aplicações embarcadas utilizando PythonFlávio Ribeiro

Introdução ao Pythonantonio sérgio nogueira

python_para_desenvolvedores.pdfProfIvanSaboia

AulaPython.pdfprofessormarceloti

Por Que Python É Tão Lento?Rudá Moura

Junho 2016 - Django - A sua cápsula de soluções web em pythonGrupo de Testes Carioca

Django - A sua cápsula de soluções web em pythonPaula Grangeiro

Introdução a programação em python d3Moises de Paula

Funcionalidades das versões 9.x do PostgreSQLMatheus Espanhol

Python Training #1 ed.6 Fabio Spanhol

Python Training #1 - ed5Fabio Spanhol

Programação Python na IotFabianoFrancaMoreira

Django: Uso de frameworks ágeis para desenvolvimento webMiguel Galves

Python Training #1, ed. 6Fabio Spanhol

Comparando python com outras linguagens de programaçãoValore I/O

Python e R: uma comparação práticaEduardo Felipe Ewert Bonet

Semelhante a Big data e python como cidadão de primeira classe para sistemas distribuídos [final] (20)

Python, CPython, Pythonico, Cython

Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...

Ampliando os Horizontes dos Profissionais de Redes através do Python

Desenvolvimento de aplicações embarcadas utilizando Python

Introdução ao Python

python_para_desenvolvedores.pdf

AulaPython.pdf

Por Que Python É Tão Lento?

Junho 2016 - Django - A sua cápsula de soluções web em python

Django - A sua cápsula de soluções web em python

Introdução a programação em python d3

Funcionalidades das versões 9.x do PostgreSQL

Python Training #1 ed.6

Python Training #1 - ed5

Programação Python na Iot

Django: Uso de frameworks ágeis para desenvolvimento web

Python Training #1, ed. 6

Comparando python com outras linguagens de programação

Python e R: uma comparação prática

Big data e python como cidadão de primeira classe para sistemas distribuídos [final]

1. Big Data e Python como cidadão de primeira classe para Sistemas Distribuídos Victor Poluceno github.com/victorpoluceno

2. Entrega. Acelera. Protege. jobs.azion.com

3. Python é excelente para o cientista de dados Baixa curva de aprendizado com excelente ecossistema

4. Para o engenheiro de dados Python não é uma boa opção Depende da JVM, performance é ruim e o custo operacional é alto

5. Importa porque podemos ter um ecossistema melhor Tornar Python uma boa opção para engenharia de dados e sistema distribuídos

6. Python como linguagem tem melhorado muito Diferentes interpretadores, IO assíncrono e type checking

7. Mas podemos melhorar muito Especialmente, precisamos de melhor suporte para construção de sistemas distribuídos. ● Visibilidade de processos em execução ala JMX. ● Adoção por empresas que trabalham com Python. ● Bibliotecas de alto nível em Python puro (ala Akka, Netty, Erlang, etc)

8. Uma abstração sólida e simples Modelo de concorrência orientada a atores e a filosofia do Erlang

9. Xwing Biblioteca para concorrência baseada em atores e asyncio, inspirada em Erlang

10. Xwing Concorrência, paralelismo, comunicação assíncrona e tolerância a falhas ● Baseado em process leves (coroutines); ● Cada processo é unicamente identificado; ● Sem estado compartilhado, processos interagem trocando mensagens; ● Envio de mensagens é assíncrono; ● Processos são isolados *; ● Um processo pode detectar falhas em outros processos *.

11. Obrigado! Perguntas? github.com/victorpoluceno/xwing

Big data e python como cidadão de primeira classe para sistemas distribuídos [final]

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Big data e python como cidadão de primeira classe para sistemas distribuídos [final]

Semelhante a Big data e python como cidadão de primeira classe para sistemas distribuídos [final] (20)

Big data e python como cidadão de primeira classe para sistemas distribuídos [final]