O documento descreve a evolução dos paradigmas da ciência, desde a ciência empírica há milhares de anos até as simulações complexas e a exploração de dados em grande volume nas últimas décadas. Também discute os desafios do "Big Data" ou grande volume de dados produzidos e a necessidade de iniciar análises a partir de problemas reais.
Visão sobre o encontro dos dois conceitos emergentes (Big Data e Governança de Dados), analisada à luz de modelos como DMBOK(Data management Association) e DMM(Data Management Maturity Model, do CMMI Institute).
O documento descreve um curso de especialização em arquitetura de nuvem com foco em big data oferecido em setembro de 2014. O curso terá 4 dias de duração cobrindo tópicos como apresentação e conceitos de big data, infraestrutura para big data, análise de big data e tendências futuras. O primeiro dia incluirá uma apresentação da disciplina e conceitos introdutórios sobre big data.
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
- O documento discute Big Data e Mineração de Dados, abordando o que é Big Data, sua infraestrutura e aplicações, e a pós-graduação em Banco de Dados e Mineração de Dados oferecida pela UniSEB.
O documento discute o conceito de Big Data e como a enorme quantidade de dados digitais gerados diariamente podem ser analisados para diferentes fins, como prever crimes, fazer negócios ou catalogar o cosmos. A geração exponencial de dados está ligada ao crescimento da internet, das redes sociais e dos dispositivos conectados. Empresas como a Amazon e o Walmart usam análises de Big Data em suas estratégias de negócios.
O documento discute o Big Data, definindo-o como conjuntos de dados cujo tamanho ultrapassa a capacidade de processamento dos sistemas de banco de dados convencionais. Aborda as características do Big Data incluindo volume, variedade e velocidade de dados, além de discutir aplicações em diversas áreas como meteorologia, genômica e pesquisas na Internet. Também apresenta desafios e oportunidades do Big Data para empresas.
O documento apresenta os conceitos e desafios do Big Data, discutindo como os dados estão crescendo exponencialmente em volume, velocidade e variedade. Aprensenta as tecnologias necessárias para armazenar, processar e analisar grandes volumes de dados, incluindo MapReduce, NoSQL, aprendizado de máquina e computação em nuvem. Discutem os desafios de lidar com os 6 V's do Big Data e a necessidade de novas abordagens para extrair valor destes dados.
Visão sobre o encontro dos dois conceitos emergentes (Big Data e Governança de Dados), analisada à luz de modelos como DMBOK(Data management Association) e DMM(Data Management Maturity Model, do CMMI Institute).
O documento descreve um curso de especialização em arquitetura de nuvem com foco em big data oferecido em setembro de 2014. O curso terá 4 dias de duração cobrindo tópicos como apresentação e conceitos de big data, infraestrutura para big data, análise de big data e tendências futuras. O primeiro dia incluirá uma apresentação da disciplina e conceitos introdutórios sobre big data.
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
- O documento discute Big Data e Mineração de Dados, abordando o que é Big Data, sua infraestrutura e aplicações, e a pós-graduação em Banco de Dados e Mineração de Dados oferecida pela UniSEB.
O documento discute o conceito de Big Data e como a enorme quantidade de dados digitais gerados diariamente podem ser analisados para diferentes fins, como prever crimes, fazer negócios ou catalogar o cosmos. A geração exponencial de dados está ligada ao crescimento da internet, das redes sociais e dos dispositivos conectados. Empresas como a Amazon e o Walmart usam análises de Big Data em suas estratégias de negócios.
O documento discute o Big Data, definindo-o como conjuntos de dados cujo tamanho ultrapassa a capacidade de processamento dos sistemas de banco de dados convencionais. Aborda as características do Big Data incluindo volume, variedade e velocidade de dados, além de discutir aplicações em diversas áreas como meteorologia, genômica e pesquisas na Internet. Também apresenta desafios e oportunidades do Big Data para empresas.
O documento apresenta os conceitos e desafios do Big Data, discutindo como os dados estão crescendo exponencialmente em volume, velocidade e variedade. Aprensenta as tecnologias necessárias para armazenar, processar e analisar grandes volumes de dados, incluindo MapReduce, NoSQL, aprendizado de máquina e computação em nuvem. Discutem os desafios de lidar com os 6 V's do Big Data e a necessidade de novas abordagens para extrair valor destes dados.
O documento apresenta um resumo sobre Big Data, definindo os conceitos de Volume, Velocidade, Variedade, Veracidade e Valor. Também descreve brevemente como surgiram as primeiras soluções de Big Data na Google e no Hadoop e algumas das principais empresas que utilizam Big Data.
O documento discute Big Data, definindo-o como dados que possuem alto volume, velocidade e variedade. Detalha como a mídia tem relatado sobre Big Data e explica os 3Vs (Volume, Velocidade e Variedade). Também descreve os principais componentes tecnológicos de Big Data, incluindo bancos de dados, MapReduce, Hadoop e mineração de dados.
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
Este documento discute o contexto de Big Data, Ciência de Dados e Processo de Descoberta de Conhecimento (KDD). A quantidade de dados gerados aumentou drasticamente e vem de fontes variadas, incluindo dados estruturados e não estruturados. O objetivo continua sendo sintetizar, organizar e tomar decisões baseadas nos dados, porém os desafios são maiores devido ao volume, variedade e velocidade dos dados atuais. O processo KDD é usado para extrair conhecimento e insights dos dados por meio de aquisição,
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
1) O documento discute o crescimento exponencial da quantidade de dados gerados, especialmente na ciência e pela internet das coisas.
2) Empresas e governos coletam grandes volumes de dados de dispositivos móveis para criar perfis detalhados de usuários e tomar decisões.
3) Cientistas de dados precisam de habilidades amplas em programação, estatística e modelagem para extrair valor destes grandes conjuntos de dados.
O documento discute o conceito de Big Data, definindo-o como conjuntos extremamente grandes de dados que precisam de ferramentas especializadas para lidar com volumes e velocidades crescentes. Explica que o Big Data pode ser usado para inovação e tomada de decisão, e destaca o crescimento exponencial na geração de dados oriundo da internet e dispositivos móveis. Também aborda profissões emergentes e soluções tecnológicas para o armazenamento e análise de grandes volumes de dados.
O documento discute como Hadoop, Big Data e Cloud Computing podem ser usados juntos. Apresenta exemplos de onde os dados em grande volume são gerados e como a AWS facilita a coleta, armazenamento, processamento e análise desses dados de forma elástica e econômica.
Big data é o conjunto de tecnologias para captura, armazenamento e análise de grandes volumes de dados de diversas fontes. Os principais desafios são a captura, curadoria, armazenamento, busca, compartilhamento, análise e visualização destes dados. Profissionais qualificados como cientistas de dados e administradores de big data são necessários para extrair insights valiosos destas informações.
Este documento resume três conceitos principais:
1) Big Data e a governança de dados, discutindo como a governança de dados se alinhará com os conceitos de Big Data e quais áreas serão mais afetadas.
2) O papel emergente do cientista de dados na era do Big Data.
3) O modelo de maturidade do TDWI para avaliar como as empresas estão trabalhando com Big Data.
O documento apresenta um treinamento de 7 dias sobre Hadoop e Big Data. O primeiro dia introduz os conceitos básicos de Big Data, como os 4V's (volume, velocidade, variedade e valor), além de explicar onde e por que usar Big Data hoje. Os dias 2 e 3 abordam MapReduce e Hadoop. Os dias subsequentes discutem outras ferramentas do ecossistema Hadoop e conceitos como NoSQL e machine learning. Os dias 5, 6 e 7 são dedicados a práticas com Python e Hadoop.
O documento apresenta os conceitos de Big Data e NoSQL. Define Big Data como a análise de grandes quantidades de dados estruturados e não estruturados para gerar novas informações. Apresenta os 5 Vs que caracterizam o Big Data (Volume, Variedade, Velocidade, Veracidade e Valor) e explica porque os bancos tradicionais não são adequados para lidar com Big Data. Resume também o que é NoSQL, apresentando alguns de seus tipos de armazenamento como alternativa aos bancos relacionais para lidar com a necessidade de escalabilidade
O documento discute as técnicas e tecnologias envolvidas em Big Data, incluindo MapReduce, Hadoop, HDFS, HBase, Mahout e como essas ferramentas podem ser usadas para analisar grandes volumes de dados não estruturados de redes sociais e outras fontes.
Big Data e Data Science - Tecnologia e MercadoHélio Silva
1) O documento discute os conceitos de Big Data, Data Science e as tecnologias e mercado relacionados.
2) Grandes volumes de dados continuam a ser gerados diariamente pela internet e dispositivos conectados.
3) A análise de dados em larga escala requer novas abordagens de engenharia e armazenamento para lidar com a variedade e volume crescentes.
Introdução a ciência de dados com aplicações em dados educacionaisSérgio Dias
O documento introduz os conceitos de Big Data Analytics, Ciência de Dados, Processo em Ciência de Dados, Principais Técnicas e Ferramentas e Aplicações em Dados Educacionais. Explica como a Ciência de Dados lida com grandes volumes de dados através de técnicas como regressão, descoberta de padrões, agrupamento e classificação.
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...Ivanilton Polato
O documento fornece uma introdução sobre o Apache Hadoop, incluindo sua origem, conceitos, arquitetura e aplicações. Resume que o Hadoop surgiu em 2005 como uma implementação open source do MapReduce da Google e evoluiu para um framework popular para processamento e armazenamento de Big Data. Ele é composto por subprojetos como HDFS para armazenamento distribuído de dados e MapReduce para processamento paralelo.
A quantidade de dados digitais produzidos está aumentando rapidamente e as empresas precisam usar métodos como a Ciência de Dados para analisar esses dados e tomar decisões inteligentes. A Ciência de Dados difere da estatística tradicional por usar princípios científicos para descobrir conhecimento em grandes volumes de dados, permitindo previsões e estimativas. Abraçar uma abordagem baseada em dados é crucial para o sucesso dos negócios.
ATENÇÃO: Como é um slide mais visual, os texto de apoio que estão apartir do slide 10 são de extrema importância, leia-os para compreender sobre o tema.
DESIGN DO SLIDE DE AUTORIA DE DAYANE CRISTINE LEITE.
ROTEIRO DO SLIDE DE AUTORIA DE MIGUEL DE OLIVEIRA.
Trabalho apresentado em equipe para a matéria de Fundamentos de Sistemas de Informação em 2018.
Links utilizados:
http://nyti.ms/1EQTznL
http://on.fb.me/1EQTq3A
https://www.cetax.com.br/blog/data-science-ou-ciencia-de-dados/
https://datajobs.com/what-is-data-science
https://www.datasciencegraduateprograms.com/python/
O documento discute a aplicação de big data analytics e ciência de dados no governo brasileiro. Ele descreve como o governo gera e consome grandes volumes de dados diariamente e como a análise desses dados pode melhorar a transparência, políticas públicas e serviços. Também apresenta exemplos de sistemas e soluções de TI usados atualmente pelo governo e as tecnologias necessárias para analisar e integrar esses grandes conjuntos de dados.
O documento discute o conceito de Big Data, destacando os 3 V's (Volume, Variedade e Velocidade) que caracterizam grandes conjuntos de dados. Também aborda outros aspectos como os tipos de dados (estruturados, semiestruturados e não estruturados), as fontes de dados e as enormes quantidades geradas diariamente.
Big data - Uma visão geral da coisa...Arthur Souza
O documento fornece uma introdução sobre Big Data, definindo-o como conjuntos de dados extremamente grandes coletados em grande volume e variedade que requerem ferramentas para análise. Explora as três V's do Big Data (Volume, Velocidade e Variedade) e soluções como Hadoop, MapReduce e HDFS. Apresenta exemplos de como Dublin, Seattle e a seleção alemã aplicam Big Data.
O documento apresenta um resumo sobre Big Data, definindo os conceitos de Volume, Velocidade, Variedade, Veracidade e Valor. Também descreve brevemente como surgiram as primeiras soluções de Big Data na Google e no Hadoop e algumas das principais empresas que utilizam Big Data.
O documento discute Big Data, definindo-o como dados que possuem alto volume, velocidade e variedade. Detalha como a mídia tem relatado sobre Big Data e explica os 3Vs (Volume, Velocidade e Variedade). Também descreve os principais componentes tecnológicos de Big Data, incluindo bancos de dados, MapReduce, Hadoop e mineração de dados.
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
Este documento discute o contexto de Big Data, Ciência de Dados e Processo de Descoberta de Conhecimento (KDD). A quantidade de dados gerados aumentou drasticamente e vem de fontes variadas, incluindo dados estruturados e não estruturados. O objetivo continua sendo sintetizar, organizar e tomar decisões baseadas nos dados, porém os desafios são maiores devido ao volume, variedade e velocidade dos dados atuais. O processo KDD é usado para extrair conhecimento e insights dos dados por meio de aquisição,
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
1) O documento discute o crescimento exponencial da quantidade de dados gerados, especialmente na ciência e pela internet das coisas.
2) Empresas e governos coletam grandes volumes de dados de dispositivos móveis para criar perfis detalhados de usuários e tomar decisões.
3) Cientistas de dados precisam de habilidades amplas em programação, estatística e modelagem para extrair valor destes grandes conjuntos de dados.
O documento discute o conceito de Big Data, definindo-o como conjuntos extremamente grandes de dados que precisam de ferramentas especializadas para lidar com volumes e velocidades crescentes. Explica que o Big Data pode ser usado para inovação e tomada de decisão, e destaca o crescimento exponencial na geração de dados oriundo da internet e dispositivos móveis. Também aborda profissões emergentes e soluções tecnológicas para o armazenamento e análise de grandes volumes de dados.
O documento discute como Hadoop, Big Data e Cloud Computing podem ser usados juntos. Apresenta exemplos de onde os dados em grande volume são gerados e como a AWS facilita a coleta, armazenamento, processamento e análise desses dados de forma elástica e econômica.
Big data é o conjunto de tecnologias para captura, armazenamento e análise de grandes volumes de dados de diversas fontes. Os principais desafios são a captura, curadoria, armazenamento, busca, compartilhamento, análise e visualização destes dados. Profissionais qualificados como cientistas de dados e administradores de big data são necessários para extrair insights valiosos destas informações.
Este documento resume três conceitos principais:
1) Big Data e a governança de dados, discutindo como a governança de dados se alinhará com os conceitos de Big Data e quais áreas serão mais afetadas.
2) O papel emergente do cientista de dados na era do Big Data.
3) O modelo de maturidade do TDWI para avaliar como as empresas estão trabalhando com Big Data.
O documento apresenta um treinamento de 7 dias sobre Hadoop e Big Data. O primeiro dia introduz os conceitos básicos de Big Data, como os 4V's (volume, velocidade, variedade e valor), além de explicar onde e por que usar Big Data hoje. Os dias 2 e 3 abordam MapReduce e Hadoop. Os dias subsequentes discutem outras ferramentas do ecossistema Hadoop e conceitos como NoSQL e machine learning. Os dias 5, 6 e 7 são dedicados a práticas com Python e Hadoop.
O documento apresenta os conceitos de Big Data e NoSQL. Define Big Data como a análise de grandes quantidades de dados estruturados e não estruturados para gerar novas informações. Apresenta os 5 Vs que caracterizam o Big Data (Volume, Variedade, Velocidade, Veracidade e Valor) e explica porque os bancos tradicionais não são adequados para lidar com Big Data. Resume também o que é NoSQL, apresentando alguns de seus tipos de armazenamento como alternativa aos bancos relacionais para lidar com a necessidade de escalabilidade
O documento discute as técnicas e tecnologias envolvidas em Big Data, incluindo MapReduce, Hadoop, HDFS, HBase, Mahout e como essas ferramentas podem ser usadas para analisar grandes volumes de dados não estruturados de redes sociais e outras fontes.
Big Data e Data Science - Tecnologia e MercadoHélio Silva
1) O documento discute os conceitos de Big Data, Data Science e as tecnologias e mercado relacionados.
2) Grandes volumes de dados continuam a ser gerados diariamente pela internet e dispositivos conectados.
3) A análise de dados em larga escala requer novas abordagens de engenharia e armazenamento para lidar com a variedade e volume crescentes.
Introdução a ciência de dados com aplicações em dados educacionaisSérgio Dias
O documento introduz os conceitos de Big Data Analytics, Ciência de Dados, Processo em Ciência de Dados, Principais Técnicas e Ferramentas e Aplicações em Dados Educacionais. Explica como a Ciência de Dados lida com grandes volumes de dados através de técnicas como regressão, descoberta de padrões, agrupamento e classificação.
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...Ivanilton Polato
O documento fornece uma introdução sobre o Apache Hadoop, incluindo sua origem, conceitos, arquitetura e aplicações. Resume que o Hadoop surgiu em 2005 como uma implementação open source do MapReduce da Google e evoluiu para um framework popular para processamento e armazenamento de Big Data. Ele é composto por subprojetos como HDFS para armazenamento distribuído de dados e MapReduce para processamento paralelo.
A quantidade de dados digitais produzidos está aumentando rapidamente e as empresas precisam usar métodos como a Ciência de Dados para analisar esses dados e tomar decisões inteligentes. A Ciência de Dados difere da estatística tradicional por usar princípios científicos para descobrir conhecimento em grandes volumes de dados, permitindo previsões e estimativas. Abraçar uma abordagem baseada em dados é crucial para o sucesso dos negócios.
ATENÇÃO: Como é um slide mais visual, os texto de apoio que estão apartir do slide 10 são de extrema importância, leia-os para compreender sobre o tema.
DESIGN DO SLIDE DE AUTORIA DE DAYANE CRISTINE LEITE.
ROTEIRO DO SLIDE DE AUTORIA DE MIGUEL DE OLIVEIRA.
Trabalho apresentado em equipe para a matéria de Fundamentos de Sistemas de Informação em 2018.
Links utilizados:
http://nyti.ms/1EQTznL
http://on.fb.me/1EQTq3A
https://www.cetax.com.br/blog/data-science-ou-ciencia-de-dados/
https://datajobs.com/what-is-data-science
https://www.datasciencegraduateprograms.com/python/
O documento discute a aplicação de big data analytics e ciência de dados no governo brasileiro. Ele descreve como o governo gera e consome grandes volumes de dados diariamente e como a análise desses dados pode melhorar a transparência, políticas públicas e serviços. Também apresenta exemplos de sistemas e soluções de TI usados atualmente pelo governo e as tecnologias necessárias para analisar e integrar esses grandes conjuntos de dados.
O documento discute o conceito de Big Data, destacando os 3 V's (Volume, Variedade e Velocidade) que caracterizam grandes conjuntos de dados. Também aborda outros aspectos como os tipos de dados (estruturados, semiestruturados e não estruturados), as fontes de dados e as enormes quantidades geradas diariamente.
Big data - Uma visão geral da coisa...Arthur Souza
O documento fornece uma introdução sobre Big Data, definindo-o como conjuntos de dados extremamente grandes coletados em grande volume e variedade que requerem ferramentas para análise. Explora as três V's do Big Data (Volume, Velocidade e Variedade) e soluções como Hadoop, MapReduce e HDFS. Apresenta exemplos de como Dublin, Seattle e a seleção alemã aplicam Big Data.
O documento discute o Big Data, definindo seus conceitos principais como Volume, Velocidade, Variedade, Veracidade e Valor. Também aborda as ferramentas Hadoop e Cassandra, explicando o que são, suas características e como instalá-las.
O documento discute o conceito de Big Data, definindo-o como o foco em grandes volumes de dados e velocidades de processamento. Explora os 5 V's do Big Data (Velocidade, Volume, Variedade, Veracidade e Valor) e apresenta exemplos de como empresas usam Big Data para identificar padrões e tomar decisões mais rápidas. Finalmente, discute tecnologias como Hadoop usadas para armazenar e processar grandes volumes de dados distribuídos.
Big Data é um conceito que foca em armazenar e processar grandes volumes de dados de diferentes fontes. O documento discute os 5 V's do Big Data, exemplos de uso como Walmart e FICO, e tecnologias como Hadoop que permitem analisar e obter insights dos dados. Recomenda-se começar com a Hortonworks Sandbox para aprender conceitos básicos de Hadoop e Big Data.
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
O documento discute o Big Data e como o software livre, especialmente Hadoop e Pentaho, podem ser usados para analisar grandes volumes de dados. O palestrante Marcio Junior Vieira apresenta suas credenciais e experiência com software livre e Big Data, e descreve conceitos como os 4Vs de Big Data, HDFS, MapReduce e outros componentes do ecossistema Hadoop. Exemplos de uso de Big Data em esportes e empresas também são apresentados.
Este documento fornece uma introdução sobre Big Data, cobrindo conceitos como tipos de dados, análise de dados, processamento distribuído usando Hadoop e Spark. Também discute casos de sucesso de análise de dados em empresas como IBM, Google e Walmart.
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
Breve abordagem sobre o que é, o presente e o futuro do BI (Business Intelligence) o que nos remete a uma breve abordagem sobre o que vem a ser o BIGDATA e suas aplicações na sociedade. Mostrando algumas limitações exixtentes na BI tradicional. Tratou-se de uma aula magna com estudantes da UNIA- Univesidade Independente de Angola.
Big Data é sobre armazenar e processar grandes volumes de dados de várias fontes rapidamente. A palestra discute como o Hadoop pode automatizar a análise de dados complexos de forma escalável usando hardware comum.
O documento discute Big Data, casos e oportunidades. Ele apresenta conceitos como Big Data, Business Intelligence, cientista de dados e ferramentas como Hadoop, Spark e Kafka. Também apresenta exemplos de uso em empresas como Netflix, Facebook e casos de sucesso como House of Cards.
O documento discute o conceito de Big Data, definindo-o como dados em massa de diferentes fontes e formatos. Apresenta os três Vs que caracterizam o Big Data - volume, velocidade e variedade - e discute como ferramentas como Hadoop e bancos NoSQL podem lidar com a análise e armazenamento desses dados em grande escala.
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???Alessandro Binhara
Atualmente o facebook recebe diariamente cerca de 380 milhões de fotos por dia, isso significa um custo de milhares de computadores para conseguir armazenar esse volume de dados. Mas por que o facebook, google e outros mantem serviço gratuitos se tem um custo alto para operar esses serviços? Conheça um pouco da tecnologia por trás desse serviços, a legalidade do armazenamento e rastreamento dos dados, e por que essa empresa investem tanto para dar um serviço de graça.
O documento discute o conceito de "Big Data" e sua importância crescente. Apresenta as tecnologias e aplicações de Big Data, incluindo como empresas como Amazon e governos como o de Obama usam grandes volumes de dados para tomada de decisões. Também aborda desafios como a necessidade de profissionais qualificados para analisar e interpretar corretamente os dados.
Palestra SCIP - Big Data: Conceitos e EvoluçãoSCIP Brasil
[1] O documento discute o conceito de Big Data, incluindo suas definições, características (os 5 Vs) e evolução. [2] Também aborda a importância do processamento paralelo e da plataforma Hadoop para lidar com grandes volumes de dados. [3] Por fim, descreve o papel do cientista de dados no contexto do Big Data.
Este documento discute a evolução da inteligência de negócios, descoberta, análise de dados e ciência de dados, destacando os desafios e oportunidades de carreira. Apresenta uma linha do tempo das tecnologias de BI e discute conceitos como big data e data science, além de ferramentas como Hadoop, Spark e Kafka.
O documento discute o conceito de Big Data, incluindo os 3 V's (Volume, Variedade e Velocidade) e mais 2 V's (Valor e Veracidade). Também aborda ferramentas como Hadoop, aplicações de Big Data, potencial e desafios de Big Data, além de conclusões e referências bibliográficas.
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Me...Ciro Cavani
A proposta dessa palestra é fundamentar alguns conceitos de BigData e explorar a dinâmica de como tratar um grande volume de dados para extrair valor. A ideia é apresentar a solução de dados na Plataforma de BigData da Globo.com usada pelo Sistema de Recomendação e comentar a experiência do seu desenvolvimento.
Este texto foi descrito com base em aulas de big data e nosql da minha pós-graduação, pesquisas e gravações de podcast com temas sobre nosql com profissionais da área. A ideia, é apresentar os modelos de dados não-relacionais e suas principais IDEs de mercado.
O documento discute as tendências e desafios do Big Data, incluindo o rápido crescimento da quantidade de dados gerados diariamente, a necessidade de novas abordagens e ferramentas para analisar grandes conjuntos de dados, e a emergência de uma nova profissão chamada Cientista de Dados para lidar com essas demandas.
As classes de modelagem podem ser comparadas a moldes ou
formas que definem as características e os comportamentos dos
objetos criados a partir delas. Vale traçar um paralelo com o projeto de
um automóvel. Os engenheiros definem as medidas, a quantidade de
portas, a potência do motor, a localização do estepe, dentre outras
descrições necessárias para a fabricação de um veículo
Em um mundo cada vez mais digital, a segurança da informação tornou-se essencial para proteger dados pessoais e empresariais contra ameaças cibernéticas. Nesta apresentação, abordaremos os principais conceitos e práticas de segurança digital, incluindo o reconhecimento de ameaças comuns, como malware e phishing, e a implementação de medidas de proteção e mitigação para vazamento de senhas.
A linguagem C# aproveita conceitos de muitas outras linguagens,
mas especialmente de C++ e Java. Sua sintaxe é relativamente fácil, o que
diminui o tempo de aprendizado. Todos os programas desenvolvidos devem
ser compilados, gerando um arquivo com a extensão DLL ou EXE. Isso torna a
execução dos programas mais rápida se comparados com as linguagens de
script (VBScript , JavaScript) que atualmente utilizamos na internet
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...Faga1939
Este artigo tem por objetivo apresentar como ocorreu a evolução do consumo e da produção de energia desde a pré-história até os tempos atuais, bem como propor o futuro da energia requerido para o mundo. Da pré-história até o século XVIII predominou o uso de fontes renováveis de energia como a madeira, o vento e a energia hidráulica. Do século XVIII até a era contemporânea, os combustíveis fósseis predominaram com o carvão e o petróleo, mas seu uso chegará ao fim provavelmente a partir do século XXI para evitar a mudança climática catastrófica global resultante de sua utilização ao emitir gases do efeito estufa responsáveis pelo aquecimento global. Com o fim da era dos combustíveis fósseis virá a era das fontes renováveis de energia quando prevalecerá a utilização da energia hidrelétrica, energia solar, energia eólica, energia das marés, energia das ondas, energia geotérmica, energia da biomassa e energia do hidrogênio. Não existem dúvidas de que as atividades humanas sobre a Terra provocam alterações no meio ambiente em que vivemos. Muitos destes impactos ambientais são provenientes da geração, manuseio e uso da energia com o uso de combustíveis fósseis. A principal razão para a existência desses impactos ambientais reside no fato de que o consumo mundial de energia primária proveniente de fontes não renováveis (petróleo, carvão, gás natural e nuclear) corresponde a aproximadamente 88% do total, cabendo apenas 12% às fontes renováveis. Independentemente das várias soluções que venham a ser adotadas para eliminar ou mitigar as causas do efeito estufa, a mais importante ação é, sem dúvidas, a adoção de medidas que contribuam para a eliminação ou redução do consumo de combustíveis fósseis na produção de energia, bem como para seu uso mais eficiente nos transportes, na indústria, na agropecuária e nas cidades (residências e comércio), haja vista que o uso e a produção de energia são responsáveis por 57% dos gases de estufa emitidos pela atividade humana. Neste sentido, é imprescindível a implantação de um sistema de energia sustentável no mundo. Em um sistema de energia sustentável, a matriz energética mundial só deveria contar com fontes de energia limpa e renováveis (hidroelétrica, solar, eólica, hidrogênio, geotérmica, das marés, das ondas e biomassa), não devendo contar, portanto, com o uso dos combustíveis fósseis (petróleo, carvão e gás natural).
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
Big Data e suas Vertentes
1.
2. Paradígmas da Ciência
Milhares de Anos atrás:
- ciência empírica (descobrindo fenômenos naturais).
Centenas de anos atrás:
- teorias, generalizações, modelos (Galileo).
Últimas décadas:
- modelo computacional, simulações complexas.
Exploração de Dados (eScience):
- O Quarto Paradígma, um volume gigantesco de dados.
- Possibilidade de descobrir coisas sem ir ao laboratório.
3. Big Data ou Dilúvio de Dados
Produzimos massa de dados o tempo todo
(empresas, áreas de pesquisa).
Em todos os lugares em que estivermos,
estamos produzindo dados.
Produzimos muito, mas não conseguimos
processar no mesmo rítimo em que
produzimos.
Área científica apresenta problemas, NASA,
petabyte por minuto...
4. Google Trends
Curva de crescimento de uma determinada palavra.
Usado para descobrir tendências.
Fez muito sucesso quando do surgimento do H1N1,
quando a OMS saiu procurando no mundo todo
como a doença progredia.
O Google pegou a sua base de dados e fez uma
curva da busca por palavras, que deveriam ser
relacionadas aos sintomas da H1N1, e a curva de
crescimento era igual a que a OMS havia publicado.
A diferença mais impactante foi que o Google
conseguia coletar as informação OnLine em tempo
real.
5. Big Data DEVE Iniciar a Partir de Um Problema
Sequenciamento do Genoma Humano - 3.3
bilhões de pares bases.
Facebook em Maio 2013 com 1.11 bilhões de
pessoas conectadas (como tratar????).
6. Voce Sabia?
Uma viagem de trem pela Europa, gera mais dados do
que uma rede social com milhões de pessoas
conectadas.
Sensores, análise de sentimentos e IoT são os ítens
que mais geram dados do que a própria Web.
A GE através de BigData, descobriu que o medalhista
olímpico Izaquias, da canoagem, foi mais eficiente no
segundo trecho da disputa do que no primeiro. Com as
descobertas dos dados coletados tais como, batimentos
cardíacos, quantidade de remadas por segundo/minuto
em determinadas distâncias do percurso, tensão
muscular e energia gerada nos músculos, sua eficiência
deverá melhorar nas próximas disputas.
7. O Caso WalMart – Artigo de Linda Dillman
Em 2004 Wal-Mart começou a prever o que
aconteceria antes de acontecer.
Prever é importante (qual sanduíche sai mais,
que horas, que dia da semana).
Análise de Dados.
“... Nós não sabíamos, no passado, que cervejas
vendia-se muito mais antes da chegada de um
furacão, e que tortas de morango aumentavam as
vendas em 7 vezes após o fim da tormenta ...”
8. É Preciso Compartilhar o Conhecimento
A idéia de trocar conhecimento e tecnologia
com outras áreas para vencer diferentes
desafios, é a mais saúdável das maneiras
para chegar-se a grandes resultados.
9. Onde Usamos Big Data
Sistemas de Recomendação (comprei um produto, obtive
êxito e recomendei, avaliação do perfil da pessoa,
e-commerce).
Redes Sociais (Facebook, Instagram, LinkedIn, twitter,
Waze...).
Análise de Risco (Crédito, Seguros, Mercado Financeiro).
Dados Espaciais (Clima, Imagens, Tráfego,
Monitoramento).
Energia Fotovoltaica (é a energia elétrica produzida a partir
de luz solar, e pode ser produzida mesmo em dias nublados
ou chuvosos. Quanto maior for a radiação solar maior será a
quantidade de eletricidade produzida. Análise de Medições,
Estudos, Resultados).
10.
11.
12.
13. HC – Unicamp
A instituição realiza cerca de 2,6 milhões de
consultas e procedimentos ambulatoriais por
ano, mais de 3,3 milhões de exames, 15 mil
internações eletivas e de urgência e quase 15
mil cirurgias, o que equivale, em média, a 40
cirurgias diárias.
Fonte:
http://brasileiros.com.br/2016/08/hospital-da-
unicamp-cria-aplicativo-que-agiliza-o-
transporte-de-pacientes/
14. Como evoluiu o Big Data?
ERP -> CRM – Web -> Big Data
A solução de big data aparece dos 4 V's
quando você precisa de uma solução para:
- velocidade -> retorno rápido e com
conteúdo esperado.
- volume -> em que quantidade?
- variedade -> imagens, mapas, fotos,
filmes etc...
- valor -> algo a ganhar com a solução.
15. A Respeito dos 4 V's Temos:
Precisa de velocidade no processamento para o
grande volume armazenado... velocidade para
armazenar e velocidade para analisar os dados.
Quanto a variedade do que se armazena,
encontramos dados estrututados, semi-
estruturados (imagens, vídeos, logs, arquivos texto,
csv's, xml's), diversas fontes de dados. Lembra um
DW, no entanto, o DW é mais estruturado pois
passa por certos processos tais como: Cleaning,
Reformat, Data mining, ETL's, Cubos (modelo
multidimensional).
16. A Respeito dos 4 V's Temos:
Quanto ao volume, o montante chega a
pettabytes (PB), zettabytes (ZB), yottabytes (YB).
A idéia para se começar com Big Data começa na
casa dos pettabytes. Dá para trabalhar abaixo da
linha dos pettabytes, mas tem que ver se o 4 V's
são o problema que se apresenta.
Tem que ter valor e isso é mais importante:
tomada de decisão, objetivo do negócio,
benefícios. Visão ampla, por Exemplo: prontuários
hospitalares, diminuir criminalidades, aumentar
grau de educação do país etc... Qual a sua meta?
17. O 5º 'V'
Nem todos os dados gerados na internet
possuem valor para um negócio.
É preciso destacar o que é rico em conteúdo
em meio a tanta informação.
As vezes é necessário obter mais
informações que confirmem a veracidade do
que é apresentado.
18. Big Data x BI
Big Data é uma evolução do BI e devem caminhar
juntos.
DW's são necessários para armazenar dados
estruturados (Hoje em dia são mais específicos
nesse armazenamento).
Quanto a previsão:
– Big Data refere-se a uma Análise Geral.
– BI refere-se a casos específicos.
19. Data Lake
A expressão “Data Lake” tem um pai. James Dixon criou
o termo para falar de algo diferente dos dados que nos
chegam embalados, limpos e de consumo fácil: são os
dados em grandes volumes e em seu estado natural,
vindos de todos os tipos de fontes, onde os usuários
poderiam mergulhar e tirar amostras. Um lago cheio de
dados.
Ainda de acordo com Dixon, para que se tenha acesso a
um volume de dados tão grande e oriundo de fontes
diversas, é preciso construir uma nova forma de capturá-
los, processá-los e guardá-los. Mas, apesar de ser mais
difícil armazená-los, eles ampliam as possibilidades de
utilização.
Fonte: http://www.bigdatabusiness.com.br/o-que-e-data-lake/
21. Quem cuida de tudo isso?
Cientista de Dados: é o profissional que trabalha com
esse universo, com essa quantidade de informações e lhe
deve ser oferecido ferramental adequado para solucionar
os problemas.
Segundo o Gartner: (Dados de Jul/2015):
– Necessitaremos de 4.4 milhões de especialistas até 2015 (1.9M
América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacífico e América Latina).
– Estima-se que apenas 1/3 disso será preenchido (Gartner).
– No Brasil deverão surgir por volta de 500 mil vagas para
ambientes de Big Data.
– As universidade do Brasil ainda não oferecem graduação para
formação de Cientistas de Dados.
22. Quais as Competências de um Cientista de Dados?
sql, nosql, linguagens de programação, modelo
relacional, algebra, estatística, matemática, bi, etl,
mineração , map reduce.
Existe alguém com essa capaciade toda?
– Em nosso país apenas alguns; criou-se
equipes para atender big data, com
conhecimentos avançados e específicos.
23. Tendências
Área de big data
Área data science
Área de data discovery
De onde vem estes profissionais?
– Bancos de Dados, BI e segue para Big Data,
no entanto, a grande maioria desses
profissionais vem da área acadêmica ( 34%
são estudantes de computação e 27% de
áreas correlacionadas ).
24.
25. Ferramentas Open Source para Big Data
Apache Hadoop, SW que está gerando toda uma
indústria de serviços.
Projeto de Software Open Source escrito em Java;
Escalável, Confiável e com Processamento Distribuído.
File System Distribuído – HDFS.
Inspirado originalmente pelo GFS-> GoogleFS e
MapReduce da Google (Modelo de Programação).
Framework para computação distribuída.Infraestrutura
confiável.
Utiliza-se de HW comun (Commodity Cluster
Conmputing).
27. Motivações Atuais para Usar Hadoop
Grande quantidade ( MASSIVA ) de dados.
Dados não cabem em uma máquina.
Demora do processamento serial (aumento escalável dos clusters).
Máquinas individuais falham (hadoop está preparado
para atuar quando máquinas falham).
Computação nas nuvens (pronto para computação na nuvem).
Escalabilidade de aplicações.
Computação sob demanda.
28. Motivações Atuais para Usar Hadoop
Fundação Apache canal principal para ferramentas de
BigData (a frente de Oracle, HP, MicroSoft).
Apache é líder no mundo em Big Data.
Possui ~31 projetos de alta qualidade voltados para área
de big data incluindo Hadoop e Spark.
29. Ecossistema Hadoop
HDFS - Sistema de arquivos distribuídos que funcionam
em grandes aglomerados de máquinas de commodities.
Características:
– projetado para trabalhar com arquivos muito grandes e
grandes volumes.
– executado em hardware comum.
– streaming de acesso aos dados.
– replicação e localidade.
– projetado para escalar a petabytes de armazenamento.
executa em cima de arquivos do S.O.
– Tudo que se processa é distribuído. Não precisa saber como
isso está funcionando internamente. Além de ter o dado
distribuído, o processamento também é distribuído em todas
as máquinas paralelamente, agrupando o resultado e
devolvendo o resultado para o solicitante.
30. Ferramental
Map Reduce: é o conceito mais utilizado dentro do
Hadoop ... basicamente é quebrar os dados para
processar mais rapidamente. Necessita aprendizado para
se utilizar da programação necessária.
HBASE (NoSQL): banco de dados orientado por colunas
distribuídas. Utiliza o HDFS por sua subjacente de
armazenamento e suporta cálculos de estilo "lote",
MapReduce e vários pontos consultas (leituras aleatórias).
Além de ser distribuído, tem replicação e tem tolerância a
falhas.
31. Ferramental
Hive: armazém de dados (DW) distribuídos. Gerencia os
dados armazenados no HDFS e fornce uma linguagem de
consulta baseada em SQL para consultar estes dados.
Permite selects em arquivos e em bd's NoSQL (é uma
opção)...permite simplificar para o desenvolvedor acessos
aos arquivos que estão no Hadoop.
PIG: linguagem de fluxo de dados e ambiente de
execução para explorar grandes conjuntos de dados.
Executado no HDFS e grupos MapReduce. Permite fazer
scipts rápidos de consulta dentro do HDFS, e fazer
MapReduce de forma bastante simples. Da mesma forma
que você programa um shell script no Linux, pode ser feito
com o PIG.
32. Ferramental
MAHOUT: mineração de dados, algorítimos de
recomendação ou coisas similares, machine learning e
tem uma diversidade muito grande de algorítimos para
estas finalidades. Possui implementação para
armazenamento em cluster, categorização, CF e
programação evolucionária.
ZOOKEEPER: ferramenta que coordena toda esse
ecosistema hadoop. Desbloqueio de sistemas distribuídos
para fazer o controle da aplicação.
Sqoop: similar ao ETL, é um SQL para hadoop que tira
dados de sql e joga prá dentro do HDFS.
33. Ferramental
Apache Cassandra: NoSQL database, originalmente
criado pelo Facebook, mantido por Apache e outras
empresas. Banco de dados distribuído baseado no modelo
BigTable do Google e no sistema de armazenamento
Dynamo da Amazon.com. Para um ambiente Big Data,
nesse caso, ou usa-se Cassandra ou HBASE.
Projeto APACHE SPARK:
- Projeto da Apache que pretende ser mais rápido que o
Hadoop.
- 100x mais rápido em memória que hadoop e 10x mais
rápido em disco. Pretende fazer muitas coisas em real
time
- Programação com Scala, Java, Python, R.
34. Exibições dos Resultados
Para mostrar as soluções finais aos usuários, tem-se
utilizado @pentahoo:
– Solução de BI Open Source.
– Community Edition.
– Solução completa de BI e BA:
(ETL, Reporting, Mineração, OLAP, Dashboards)
35. Recomendações
Sempre comece com o problema, NÃO com os dados.
Compartilhe dados para receber dados.
Suporte gerencial e executivo.
Orçamento suficiente.
Melhores parceiros e fornecedores podem lhe ajudar.
36. BIG DATA "... é hoje o que era o Linux em
1991. Sabemos que é algo revolucionário,
mas não sabemos o quanto..."
37. Muito Obrigado !!!!
Ronie Ramos de Oliveira
Especialista em Bancos de Dados – Brasília-DF
DB2 9.7 DBA for LUW
DB2 9 Advanced Database Administrator for LUW
DB2 9 DBA for Linux, UNIX and Windows
Certified for IBM Academic Associate - DB2 9 Database and
Application Fundamentals