Matemática e Data Science

424 visualizações

Publicada em

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
424
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
8
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Matemática e Data Science

  1. 1. e ig data nc o b ie term s c ta a d o s o e da de d e ca cien t a is ti o t a d emrdagem at aboM ma U Gabriel Murillo Lanzi
  2. 2. O Que é um cientistade dados?Um cientista de dadosrepresenta uma evoluçãoda função de analista denegócios ou de dados.O treinamento formal ésimilar a uma base sólidanormalmente em ciênciasda computação,aplicações, modelagem,estátistica, análise ematemática. http://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png
  3. 3. A profissão do futuro“Uma das profissões do futuro é a de cientista de dados, profissional que atua com Big Data e atua na análise preditiva de grandes volumes de dados. Estima-se que até 2020, o número de informações que circulará no mundo aumentará cerca de 50 vezes quando comparado ao volume de dados atual. A predição baseada nesse conjunto enorme de dados será de valor inestimável para as pessoas, a sociedade em geral e as empresas, que poderão identificar o melhor caminho na condução de seus negócios. O cientista de dados é o responsável por identificar padrões de análise que permitem extrair informações relevantes e fazer predições com base na tecnologia de Big Data”, completa a executiva da EMC.Fonte http://convergenciadigital.uol.com.br/Big data: EMC abre escola gratuita para garimpar cientistas de dadosConvergência Digital - Hotsite Cloud Computing:: Da redação :: 25/10/2012
  4. 4. Diagrama big data Fonte : http://hortonworks.com/wp-content/uploads/2012/05/bigdata_diagram.pngO Que é BIG DATA?Todos os dias, nós criamos 2,5 quintilhões de bytes de dados - tanto que 90% dos dados domundo hoje foi criado nos últimos dois anos. Estes dados vêm de todas partes: sensoresusados ​para coletar informações sobre o clima, mensagens para sites de mídia social, fotos evídeos digitais, registros de transações de compra, e os sinais de telefone celular GPS paracitar alguns. Estes dados são BIG DATA. http://www-01.ibm.com/software/data/bigdata/
  5. 5. “Big Data’ Empresa necessita de recursos matematicos” - MIT technology review A era em que todos os dados de uma empresa acumulava por si e poderia ser acomodado por uma única planilha está chegando ao fim Fonte: http://www.technologyreview.com/view/425561/big-data-means-business-needs-mathematicians/Médicos usam Big Data para curar o câncerUm grupo norte-americano de oncologia lançou um projeto ambicioso para coletar dados decentenas de pacientes de câncer. Segundo o Wall Street Journal, a ideia é usar Big Data paraarrecadar informações que ajudarão em tratamentos futuros de pacientes em todo sistema desaúde. http://olhardigital.uol.com.br/produtos/digital_news/noticias/medicos-usam-big-data-para-curar-o-cancer
  6. 6. OMO A MATEMATICA É USADA PELO CIENTISTA DE DADO Quantidade O Estudo começa com a quantidade de números , primeiro os números inteiros e naturais conhecidos como (“numeros inteiros”) e as operações básicas aritméticas sobre eles, que são caracterizados na aritmética. A medida que o sistema de numeração é desenvolvido, os inteiros são conhecidos como subconjuntos dos números racionais, (frações). Estes, por sua vez, está contido dentro dos números reais, que são usados para representar quantidades continuas. Os números reais são generalizados para os números complexos.Ao pensar como um matemático, um cientista de dados precisa fazer perguntas:Como será o objeto que eu estou interessado e como serão representado pornúmeros? Qual tipo de números que melhor representa o objeto que eu estouinteressado?
  7. 7. estrutura Muitos conjuntos de objetos matemáticos exibem estrutura interna. A Matemática expõe essas estruturas aplicando regras (axiomas e operações) para os objetos. Álgebra é uma ferramenta poderosa para entender as estruturas matemáticas. Ele combina o conceito de variáveis com aritmética para resolver equações. Álgebra é aplicada a muitos e diferentes problemas alheios. Alguns desses problemas incluem conjuntos, anéis, grupos, grafos e campos.Ao pensar como um matemático, um cientista de dados precisa fazer perguntas como:Qual tipo de estrutura interna faz o objeto que eu estou interessado em ter?Qual conjunto de equações irá expor nesta estrutura?
  8. 8. Espaço O estudo do espaço origina com a geometria, na geometria em particular euclidiana. Trigonometria é o ramo da matemática que lida com as relações entre os lados e os ângulos dos triângulos, que combina espaço e números englobando o famoso teorema de Pitágoras. O estudo avançado de espaço incluí maior dimensão geométrica, geometrias não-euclidianas, Geometria Diferencial, Topologia, Geometria Fractal.Ao pensar como um matemático, um cientista de dados precisa fazer as seguintesperguntas: Aquilo o que eu estou interessado tem um componente espacial, sejareal ou teórica? Posso capturar e representar esse componente espacial?
  9. 9. mudançaCompreender e descrever a mudança é um tema comum na ciência e o cálculo foidesenvolvido como uma ferramenta poderosa para investigá-lo. As funções são umconceito central de descrever uma quantidade de mudança. Muitos problemasconduzem naturalmente a relações entre a quantidade e sua taxa de variação. Isto é,para uma linha não-linear a inclinação é diferente em cada ponto sobre a linha.Compreender estas mudanças declives são utilizados e estudados em cálculodiferencial. Encontrar as áreas sob uma curva é chamado de cálculo integral.Pensando como um matemático, o cientista de dados deve perguntar: Será queexiste a relação entre as coisas que eu estou interessado e a mudança (ao longodo tempo ou em distância)? Como vou descrever a relação desta mudança?
  10. 10. Matematica aplicada Matemática aplicada se preocupa com métodos matemáticos que são tipicamente usados ​em ciência, engenharia, negócios e indústria. Assim, "a matemática aplicada" é a matemática com conhecimento especializado. De um modo geral, este é o tipo de matemática que os cientistas de dados praticam.Serviços Analtícos:
  11. 11. Pregel: A System for Large-ScaleGraph ProcessingAo olhar furtivamente de maneira certa você ira notar que os grafos estãopor toda parte. Por exemplo, as redes sociais, popularizado pela Web 2.0,são grafos que descrevem as relações entre as pessoas. Rotas detransporte criam grafos de conexões físicas entre localizações geográficas.Caminhos de surtos de doenças formam um grafo, como fazer jogos entretimes de futebol, rede de computadores topologias e citações entre ostrabalhos científicos. Talvez o grafo mais difundido é a própria web, ondeos documentos são vértices e as ligações são bordas. Minando a webtornou-se um importante ramo da tecnologia da informação, e pelo menosuma grande empresa de Internet foi fundada sobre estes grafos.Pregel é uma infra-estrutura escalável afim de extrair uma grande quantidade degrafos. Em Pregel, os programas são expressos como uma sequência de iterações. Emcada iteração, um vértice pode ser independentemente de outros vértices, recebermensagens enviadas a ele na iteração anterior, enviar mensagens para outrosvértices, alterar o seu próprio e os seus cantos de saída e transformar a topologia dografo .
  12. 12. Então o que é pregel ? Por que usar? Pregel é um modelo tolerante a falhas para processamento de grafos. Problemas que podem ser resolvidos com algoritmos de grafos sao comuns. As alternativas já existentes não sao muito boas. Mapa de Königsberg no tempo de Euler mostrando a disposição real das sete pontes,Modelo Pregel Grafos. destacando a rio Pregel e a ponte.Modelo Master / WorkerCada Worker recebe um subconjunto de vértices de um grafo direcionadoModelo Vertex-centric. Cada vértice tem:Um "valor" arbitrário que pode ser get / set.Lista de mensagens enviadas a eleLista dos gastos de saída (arestas têm também um valor)Um estado binário (ativo / inativo)Modelo Synchronous Parallel model (Leslie Valiant G., 2010 Turing vencedor do prêmio)Iterações sincronicas de computação assíncronaMestre inicia cada iteração (chamado de "superstep")Em cada superstepWorkers de forma assíncrona executa uma função de usuário em todos os seus vérticesVértices pode receber mensagens enviadas a ele na última superstepVértices pode modificar o seu valor, modificar valores de bordas, alterar a topologia dográfico (adicionar / remover vértices ou arestas)Os vértices pode enviar mensagens para outros vértices para ser recebido no próximo
  13. 13. ILUSTRAÇAO DAS PARTIÇÕES DO verticeCarregamento de entrada no grafo•Master atribui seção de entrada para cadaWorker ”ownership" Vértice determinado pelo hash (v) mod N•N- número de partições•Lembre-se que cada Worker é atribuído umou mais partições•Usuário pode modificar isso para explorardados de localidade•Worker lê sua secção de entrada:•Armazena vértices pertencentes a ele•Envia outros vértices ao Worker apropriado.•Entrada armazenados em algo como GFS•Atribuições secção determinada pela Google File Systemlocalidade de dados
  14. 14. Exemplo simples – find maxPregel: A System for Large-Scale Graph ProcessingPaper : http://kowshik.github.io/JPregel/pregel_paper.pdfGrzegorz Malewicz, Matthew H. Austern, Aart J. C. Bik, James C. Dehnert, Ilan Horn,Naty Leiser, and Grzegorz CzajkowskiGoogle, Inc.{malewicz,austern,ajcbik,dehnert,ilan,naty,gczaj}@google.com

×