Workshop BigData, Hadoop e Data Science - Cetax x DealMarco Garcia
Nesse workshop feito na Deal, falamos sobre alguns aspectos de bigdata e hadoop, passando por seus componentes, além de abordar um pouco de Data Science
Apresentação sobre Data warehouse e Data mining do curso de Gestão da Informação UFPR. Matéria Informática aplicada II (Business Intelligence).
Autores: Cassius Busemeyer, Cristiane Aparecida Luquetta, Rafael Slonik
Trabalho sobre Big Data apresentado na disciplina Tópicos Especiais de TI no curso de Sistemas de Informação do IFAL. Fala sobre algumas definições que auxiliaram no surgimento do que hoje chamamos de Big Data, além de falar sobre a ferramenta SPLUNK
Workshop BigData, Hadoop e Data Science - Cetax x DealMarco Garcia
Nesse workshop feito na Deal, falamos sobre alguns aspectos de bigdata e hadoop, passando por seus componentes, além de abordar um pouco de Data Science
Apresentação sobre Data warehouse e Data mining do curso de Gestão da Informação UFPR. Matéria Informática aplicada II (Business Intelligence).
Autores: Cassius Busemeyer, Cristiane Aparecida Luquetta, Rafael Slonik
Trabalho sobre Big Data apresentado na disciplina Tópicos Especiais de TI no curso de Sistemas de Informação do IFAL. Fala sobre algumas definições que auxiliaram no surgimento do que hoje chamamos de Big Data, além de falar sobre a ferramenta SPLUNK
Apresentação realizada a disciplina de Gestão da Informação. Buscou-se destacar as principais características, contexto histórico e um case de implantação de Data Warehouse.
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
O appliance IBM Netezza consiste em uma plataforma de banco de dados otimizado e integrado a um hardware de alta performance. Uma nova forma de análise em grandes volumes de dados é fator chave de competitividade para as empresas.
As soluções tradicionais de datawarehouse são rígidas, complexas, lentas e caras, inibindo a agilidade na tomada de decisões. O IBM Netezza é uma plataforma que foi desenvolvida para endereçar exatamente este problema: uma solução de performance desruptiva, administração muito simples e custo reduzido, utilizado para datawarehouses de grande volume e complexidade.
Ele integra banco de dados, servidor, e discos de armazenamento em um único rack. Sua arquitetura de processamento massivo paralelo combina blades de processamento, discos e um processo de filtragem de dados através de software armazenado diretamente em chips (FPGAs: field-programmable gate arrays). Este é o diferencial de performance do IBM Netezza quando comparado aos concorrentes: sua arquitetura é única e inteligente, devido ao uso de FPGAs com software gravado diretamente em silício, lê menos dados e também move menos dados entre os componentes internos, eliminando desperdícios e gargalos de processamento. Esta arquitetura dispensa tuning, índices, particionamento, etc. tornando a administração simples, permitindo que a equipe técnica tenha mais tempo para trabalhar em projetos de negócio ao invés de gastar tempo em atividades técnicas/administrativas que não geram valor agregado.
Veja o webcast no link http://www.videolog.tv/devworksbr/videos/716598
Apresentação realizada a disciplina de Gestão da Informação. Buscou-se destacar as principais características, contexto histórico e um case de implantação de Data Warehouse.
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
O appliance IBM Netezza consiste em uma plataforma de banco de dados otimizado e integrado a um hardware de alta performance. Uma nova forma de análise em grandes volumes de dados é fator chave de competitividade para as empresas.
As soluções tradicionais de datawarehouse são rígidas, complexas, lentas e caras, inibindo a agilidade na tomada de decisões. O IBM Netezza é uma plataforma que foi desenvolvida para endereçar exatamente este problema: uma solução de performance desruptiva, administração muito simples e custo reduzido, utilizado para datawarehouses de grande volume e complexidade.
Ele integra banco de dados, servidor, e discos de armazenamento em um único rack. Sua arquitetura de processamento massivo paralelo combina blades de processamento, discos e um processo de filtragem de dados através de software armazenado diretamente em chips (FPGAs: field-programmable gate arrays). Este é o diferencial de performance do IBM Netezza quando comparado aos concorrentes: sua arquitetura é única e inteligente, devido ao uso de FPGAs com software gravado diretamente em silício, lê menos dados e também move menos dados entre os componentes internos, eliminando desperdícios e gargalos de processamento. Esta arquitetura dispensa tuning, índices, particionamento, etc. tornando a administração simples, permitindo que a equipe técnica tenha mais tempo para trabalhar em projetos de negócio ao invés de gastar tempo em atividades técnicas/administrativas que não geram valor agregado.
Veja o webcast no link http://www.videolog.tv/devworksbr/videos/716598
Mudança de paradigma no monitoramento de banco de dadosPolis Consulting
O uso de ferramentas inteligentes para identificar gargalos e apontar soluções.
Ao compreender relacionamentos e dependências entre banco de dados e ambientes de TI, é possível monitorar e otimizar continuamente o desempenho para permitir a identificação rápida de problemas.
Nesta palestra mostramos como uma nova geração de ferramentas consegue identificar rapidamente a origem das questões de performance e apontar os procedimentos certos, para que gestores de TI ou DBA possam reduzir tempo e os custos relacionados à solução dos problemas.
Você verá como a inteligência artificial traz um novo modo de gerenciar sua base de dados em tempo real por meio de:
Antecipação de problemas de performance em ambientes complexos.
Sugestão dos procedimentos certos para resolução de problemas.
Instalação de um modelo de governança e alertas 24x7 pelo monitoramento preventivo.
Aplicação do Tuning para propor e aplicar mudanças e otimizar o desempenho do banco de dados.
Essa apresentação foi exibida na Semana Acadêmica 2014 da UFSM (SAINF 2014). Ela explica o funcionamento do BigData, qual o papel do Apache Hadoop, e como os dados são coletados e analisados pelas grandes companhias de mineração de dados.
Nessa apresentação temos alguns cases de BigData na industria de logística, algoritmos e inteligência preditiva para melhorar análises geográficas, rotas, etc.
Veja como nossa empresa pode ajudar seu negócio a ser mais eficiente usando dados
Trabalhos Big Data e Algoritmos - Mercado FinanceiroMarco Garcia
Nessa apresentação temos alguns CASES e PROJETOS que fizemos para empresas do mercado financeiro, bancos, corretoras, cooperativas de crédito, entre outros.
CASES Cetax de Inteligência em Saúde - Dados e AlgorítmosMarco Garcia
Nessa Apresentação falamos um pouco da nossa história, alguns clientes e casos de sucesso no uso de dados com a área de saúde, hospitais e planos de saúde. Como algoritmos de Machine Learning para Infarto e Cesta de Produtos. Além de um projeto que fizemos de montagem de Data Warehouse Hospitalar usando o Sistema Tasy como Fonte de Dados
Integração de Dados com Apache NIFI - Marco Garcia CetaxMarco Garcia
Nessa apresentação vamos mostrar um pouco mais sobre essa ferramenta de integração open source, também um pouco sobre o produto Hortonworks Data Flow (HDF).
Como Nifi é possível integrar fontes distintas como APIs, Bancos de Dados, Hadoop, HDFS, etc.
Construindo Data Lakes - Visão Prática com Hadoop e BigDataMarco Garcia
Minha apresentação sobre construção de data lakes para bigdata usando hadoop como plataforma de dados. Conheça mais sobre nossos trabalhos de consultoria e treinamento em Hadoop Hortonworks, BigData, Data Warehousing e Business Intelligence
Carreiras em Business Intelligence e Big DataMarco Garcia
WebSeminario sobre Carreiras em Business Intelligence e Big.
Nesse seminario apresentamos perfis ligados a BI, DW, ETL, utilizando ferramentas como Oracle, Tableau, Hadoop, Spotfire.etc
http://www.cetax.com.br
http://www.tutorpro.com.br
Artigo sobre Big Data, Conceito, o Que é
Nesse artigo descrevemos um pouco sobre esse novo termo de Negócios que está em alta no mundo de negócios
BIG DATA
Visitem nossa pagina
http://www.cetax.com.br
Palestra de Business Intelligence, onde tratamos uma visão de BI, Mercado, Ferramentas. Perspectiva do Mercado, prioridades, cursos oferecidos pela Cetax.
http://www.cetax.com.br
Marco Garcia.
mgarcia@cetax.com.br
O que é business intelligence.
Esse é o conteúdo de uma palestra que eu deveria ter feito no dia 20/10/2009, mas por um motivo pessoal não consegui ministrar.
Nessa palestra falo um pouco sobre os conceitos de BI e suas ferramentas, etc.
Mais informações em
www.cetax.com.br
Obrigado,
Marco.
Curso de Business Intelligence e Data Warehouse - Conceitos e FundamentosMarco Garcia
Descrição do treinamento de conceitos e fundamentos de Business Intelligence e Data Warehouse.
Esse curso descreve as principais caracteristicas dos sistemas de business intelligence e data warehouse, além de principais fornecedores, estruturas necessárias e perfis profissionais.
Mais informações em
http://www.cetax.com.br/data-warehousing
http://www.cetax.com.br/treinamento/curso-de-business-intelligence-e-data-warehouse-conceitos-e-fundamentos
Palestra sobre Business Intelligence ministrada para uma turma de MBA da FIA em São Bernardo do Campo.
O objetivo dessa palestra é explorar um pouco mais o assunto e demonstrar técnicas e ferramentas de BI.
Mais informações visite nosso site ou nos escreva:
www.cetax.com.br
cetax@cetax.com.br
Conferência Goiás I Conteúdo que vende: Estratégias para o aumento de convers...E-Commerce Brasil
Maurici Junior
Gerente de Conteúdo
Magalu
Conteúdo que vende: Estratégias para o aumento de conversão para marketplace.
Saiba mais em: https://eventos2.ecommercebrasil.com.br/conferencia-goias/
Conferência Goiás I Uma experiência excelente começa quando ela ainda nem seq...E-Commerce Brasil
Carolina Ramos de Campos
Gerente de Relacionamento com o Seller
Americanas S.A
Uma experiência excelente começa quando ela ainda nem sequer foi imaginada!
https://eventos2.ecommercebrasil.com.br/conferencia-goias/
Conferência Goiás I Perspectivas do Pix 2024: novidades e impactos no varejo ...E-Commerce Brasil
Thiago Nunes
Key Account Manager - Especialista em Digital Payments
Vindi
Perspectivas do Pix 2024: novidades e impactos no varejo e na indústria.
Saiba mais em: https://eventos2.ecommercebrasil.com.br/conferencia-goias/
Conferência Goiás I Como uma boa experiência na logística reversa pode impact...E-Commerce Brasil
Diogo Inoue
Diretor de Operações OOH
Jadlog Logística.
Como uma boa experiência na logística reversa pode impactar na conversão do seu e-commerce?
Saiba mais em: https://eventos2.ecommercebrasil.com.br/conferencia-goias/
Conferência Goiás I E-commerce Inteligente: o papel crucial da maturidade dig...E-Commerce Brasil
Erick Melo
Co-founder/CCO
WebJump
E-commerce Inteligente: o papel crucial da maturidade digital em uma estratégia de personalização em escala.
Saiba mais em: https://eventos2.ecommercebrasil.com.br/conferencia-goias/
Conferência Goiás I Os impactos da digitalização do Atacarejo no Brasil.E-Commerce Brasil
Tiago Campos
Diretor de Novos Negócios
Uappi
Os impactos da digitalização do Atacarejo no Brasil.
Saiba mais em: https://eventos2.ecommercebrasil.com.br/conferencia-goias/
Conferência Goiás I Moda e E-commerce: transformando a experiência do consumi...E-Commerce Brasil
Carolina Soares
Sales Manager
DHL Suppy Chain.
Moda e E-commerce: transformando a experiência do consumidor com estratégias de fulfillment logístico.
Saiba mais em: https://eventos2.ecommercebrasil.com.br/conferencia-goias/
MANUAL DO REVENDEDOR TEGG TELECOM - O 5G QUE PAGA VOCÊEMERSON BRITO
Tegg Telecom – 5G que paga você!
Essa é a proposta da Tegg Telecom. Fundado há quase 3 anos, o Grupo Tegg criou sua própria operadora de telefonia móvel, a Tegg Telecom, com a inovadora promessa de pagar aos usuários por utilizarem o serviço de telefonia 5G. Além disso, a Tegg oferece planos mensais a partir de R$ 14,90, sem contratos de fidelidade.
A Tegg é uma Startup Mobitech que chegou para revolucionar a telefonia móvel! 🤳🏻 Planos sem fidelidade.
⬇️ Saiba Mais!
Para Mais Informações me chame no WhatsApp
(67)99114-7996 - EMERSON BRITO
A linha Tegg é o nosso serviço de telefonia móvel. Assim como tudo na Tegg, foi desenhada para todos que desejam um serviço transparente, simples e sem surpresas na fatura. Ela foi feita para redefinir a maneira como você consome a telefonia. Não gera fidelidade, nem multa em caso de cancelamento.
Tenha uma Renda Extra e desenvolva seu próprio Negócio.
Acesse agora e venda chips para qualquer lugar do Brasil!
Assuma o Controle do Seu Futuro Agora!
.
.
Revenda Telefonia Móvel da Empresa TEGG TELECOM
Trabalhe no Conforto de Sua Casa
Inicie seu negócio Online Agora
Compartilhe com Seus Amigos
Não sabe como começar?
Me chama no zap que te explico.
盧 67 99114.7996
Conferência Goiás I As tendências para logística em 2024 e o impacto positivo...E-Commerce Brasil
Camila Suziane Rezende
Agente Comercial Regional
Total Express,
Renata Bettoni Abrenhosa
Agente Comercial Regional
Total Express
As tendências para logística em 2024 e o impacto positivo que ela pode ter no seu negócio.
Saiba mais em: https://eventos2.ecommercebrasil.com.br/conferencia-goias/
Conferência Goiás I Prevenção à fraude em negócios B2B e B2C: boas práticas e...E-Commerce Brasil
Pedro Lamim
Head de Prevenção à Fraude
Pagar.me
Prevenção à fraude em negócios B2B e B2C: boas práticas e as principais tendências emergentes.
Saiba mais em: https://eventos2.ecommercebrasil.com.br/conferencia-goias/
Conferência Goiás I Fraudes no centro-oeste em 2023E-Commerce Brasil
Cristiane Cajado
Coordenadora de Customer Success
ClearSale
Fraudes no centro-oeste em 2023.
Saiba mais em: https://eventos2.ecommercebrasil.com.br/conferencia-goias/
Conferência Goiás I Fraudes no centro-oeste em 2023
Live - BigData
1. CETAX - All Rights Reserved
Data Science -
Módulo :
Big Data e Hadoop
2. CETAX - All Rights Reserved
• A Cetax é uma empresa de consultoria e treinamento especializada em
sistemas de Business Intelligence e Data Warehouse.
• Existe desde 2000 trabalhando exclusivamente com BI e DW.
• Nossos treinamentos são exclusivos sem cursos semelhantes no Brasil
• Outros cursos são ministrados em parcerias com outras empresas do
mercado ou mesmo profissionais que possuem experiência diferenciada
• Parceria Hortonworks (Hadoop), Talend (ETL), Tibco (Analytics)
APRESENTAÇÃO CETAX
3. CETAX - All Rights Reserved
MARCO ANTONIO GARCIA
• 20 anos de experiência em TI, sendo 15 exclusivamente com Inteligência - Business
Intelligence e Data Warehouse.
• MBA pela FGV, Formado pela FATEC em Processamento de Dados.
• Certificado pelo Kimball University nos EUA, onde teve aula pessoalmente com
Ralph Kimball, um dos principais gurus do data Warehouse, treinamentos
realizados no TDWI, maior entidade de pesquisa de Data Warehouses do mundo.
• Vivência profissional em diversos projetos, passando por Bancos e Financeiras,
Construção, Serviços, Varejo, Marketing e outros.
APRESENTAÇÃO - INSTRUTOR
4. CETAX - All Rights Reserved
A PALAVRA DO MOMENTO
5. CETAX - All Rights Reserved
• Muitas definições podem cercar o assunto :
– Alto Volume.
– Alta Velocidade.
– Diversas Fontes.
• Uma combinação de tudo isso e muito mais.
• Assim como BI, é um termo “guarda-chuva”.
BIG DATA = GRANDES DADOS?
6. CETAX - All Rights Reserved
• Além dos sistemas utilizados em empresas de todos os portes, temos milhares
de outros dispositivos que geram dados diariamente :
– Em 2010 existiam 5 bilhões de celulares no mundo.
– Um avião Boeing pode gerar até 20 TB/hora para seus engenheiros
examinar em tempo real.
– Em pouco tempo teremos muito mais equipamentos ligados a internet
gerando informações para análise “internet das coisas”
MUITOS DADOS GRANDES
7. CETAX - All Rights Reserved
• Volume – o volume crescente de dados em todas as áreas e empresas, Mb ->
Gb -> Tb -> Pb
• Velocidade – o tempo necessário para disponibilizar os dados para análise é
cada vez menor
• Variedade – a variedade de dados é cada vez maior, sensores, imagens, dados
não estruturados ou semi estruturados.
3 Vs – UMA DEFINIÇÃO
11. CETAX - All Rights Reserved
• Big Data representa um conjunto de dados que não pode mais ser
zacilmente gerenciado ou analisado com as ferramentas atuais de
dados, métodos ou arquitetura disponível até então.
BIG DATA – DEFINIÇÃO SIMPLES
12. CETAX - All Rights Reserved
• E então ?
• Quais softwares serão utilizados ?
• Quais devo aprender ?
E ENTÃO?
15. CETAX - All Rights Reserved
• Web log
• Click stream
• Sensor data
• Email
• Call center voice logs
• Images/video
• Dados RFID
• Dados de Localização e Geográficos
• Dados adquiridos no mercado
FONTES PARA O BIG DATA
16. CETAX - All Rights Reserved
UMA APOSTA? HADOOP!
17. CETAX - All Rights Reserved
Cluster Hadoop
core switch
top-of-rack
switches
Master Nodes –
Mantém os Serviços
e a Coordenação dos
Jobs de dados
Worker Nodes –
rodam o
processamento e
armazenamento dos
Dados
Clientes de Acesso, também
chamados de Gateway
Node ou Edge Node
18. CETAX - All Rights Reserved
• Estudo disciplinado dos dados e informações inerentes ao negócio e
todas as visões que podem cercar um determinado assunto.
• Ciência que estuda as informações, seu processo de captura,
transformação, geração e análise de dados.
• A Ciência de dados envolve diversas disciplinas como :
• Computação
• Estatística
• Matemática
• Conhecimento do Negócio
CIÊNCIA DE DADOS
20. CETAX - All Rights Reserved
REQUISITOS ESPERADOS DO CIENTISTA DE DADOS
21. CETAX - All Rights Reserved
• Profissional Multidisciplinar responsável por transformar dados em
informações ou produtos de informações dentro de uma corporação.
• Deve ser responsável pela formulação dos problemas, escolha de
modelos de simulação e estatística e entrega dos produtos de dados.
DEFINIÇÃO – CIENTISTA DE DADOS
22. CETAX - All Rights Reserved
• Data Scientist – Participa da formulação do problema, hipóteses de
resolução e análise de resultados.
• Business Analyst – Analisa os dados gerados em relação ao negócio
ou empresa avaliada
• Data Analyst – responsável por analisar os dados disponibilizados em
busca de solução para o problemas enfrentados
DATA SCIENTIST x BUSINESS ANALYST x DATA ANALYST
23. CETAX - All Rights Reserved
• Para trabalhar com Big Data acreditamos que o melhor caminho seria
conhecer as ferramentas utilizadas
• Ter perfil misto : técnico e negócios
• Conhecer de Business Inteligence e Data Warehouse
• Entender os processos da empresa
• Conhecer estatística e matemática
QUERO TRABALHAR COM BIG DATA
24. CETAX - All Rights Reserved
• Vemos 3 papéis claros:
• Cientista ou Analista de Dados
• Desenvolvedor
• Administrador
PAPEIS E FUNÇÕES
25. CETAX - All Rights Reserved
• Responsável por atender as demandas das áreas de negócio ou
planejamento da empresa.
• Participa da formulação dos problemas e respostas.
• Nível mais próximo ao negócio
• Deve conhecer as ferramentas de consulta e acesso aos dados.
• Deveria conhecer estatística
ANALISTA DE DADOS
26. CETAX - All Rights Reserved
• Responsável por Desenvolver os processos necessários para geração
dos dados.
• Processos de Captura, Transformação e Carga de Dados.
• Deve conhecer tecnicamente as ferramentas envolvidadas
• Deve conhecer sobre programação
• Será responsável pelo desenvolvimento de novas rotinas e processos.
DESENVOLVEDOR
27. CETAX - All Rights Reserved
• Responsável por manter os ambientes e ferramentas funcionando da
melhor maneira.
• Deve conhecer sobre os sistemas operacionais utilizados,
principalmente Linux.
• Deve conhecer sobre arquitetura de hardware e redes para garantir a
melhor performance.
• Deve conhecer sobre os processos de Tunning das ferramentas.
ADMINISTRADOR
28. CETAX - All Rights Reserved
• Programação – as ferramentas ainda são pouco automatizadas na
geração de código.
• Linux – a maioria dos softwares rodam em Linux, é necessário
conhecer comandos básicos para execução de processos.
• Modelagem de Dados
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
29. CETAX - All Rights Reserved
• Conhecer sobre o negócio ou sobre os processos da empresa.
• Conhecer ou ter noções mínimas de estatística e matemática
aplicada a dados.
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
30. CETAX - All Rights Reserved
• Perguntas ?
• Não deixem de acessar nosso site e se cadastrem para
as promoções, vagas: www.cetax.com.br
MUITO OBRIGADO!
FINALIZANDO
Notas do Editor
2
3
A tempos não temos uma palavra tão forte no cenário de informática como Big Data !
O termo está sendo falado em todos os tipos de negócios, cursos, etc.
O termo é recente, muitas possibilidades, muitas definições ( algumas ainda vagas )
O mercado está em formação muitas coisas estão ainda acontecendo e muitas ainda estão por vir.
O que é certo : Big Data é uma tendência que vai mudar a maneira em que analisamos os dados em qualquer tipo de negócio !
O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários, a cada mês são gerados mais de 700 milhões de minutos por mês.
A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguirá assistir todos os vídeos do Youtube.
Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS.
O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15% totalmente inéditas. Seu "motor" de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 petabytes de informação.
Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não.
Volume – Volume dos Dados: Passamos a falar muito rápido de Gigabytes para Terabytes e agora estamos falando de Petabytes e outros volumes que não vou saber colocar aqui de cabeça para vocês.
Hoje são contabilizados em média 12 Terabytes de Tweets diariamente, em 2012 foram gerados cerca de 2.834 Exabytes (que são milhões de Gigabytes) a previsão é que em 2020 se gerem anualmente 40.026 Exabytes de informações.
Velocity – Velocidade: Hoje para alguns negócios, 1 minuto pode ser muito tempo, detecção de fraudes, liberações de pagamentos, análises de dados médicos ou qualquer outra informação sensível a tempo.
A maior parte dos projetos de DW/BI (Data Warehouse e Business Intelligence) ainda tem latência em D-1, ou seja, carregamos o dia anterior. Ainda acreditamos que essa solução se aplique a muitos negócios, porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento de negócio.
Variety – Variedade: Big Data também poderia ser considerado como Any Data (qualquer dado), hoje temos capacidade de capturar e analisar dados estruturados e não estruturados, texto, sensores, navegação Web, áudio, vídeo, arquivos de logs, catracas, centrais de ar condicionado, entre outros.
http://beyondplm.com/2013/10/14/will-plm-data-size-reach-yottabytes/
Detalhamento sobre os 3 V’s.
Alguns estudiosos acrescentaram mais V’s a definição de big data
Existe até essa definição de 10 V’s do Big Data.
Mas seria ela necessária ?
Definição simples e direta, algo que não pode mais ser feito com as ferramentas atuais !
O que temos que fazer ? Quais softwares serão usados ?
Muitos softwares ?
Por favor, se acalme, vamos falar disso um pouco mais para frente.
Muitos softwares ?
Por favor, se acalme, vamos falar disso um pouco mais para frente.
Essa lista é um exemplo de possíveis fontes, mas deveremos ter muito mais fontes.
As novas ferramentas permitem conexão e captura de dados em diversas categorias de softwares ou mesmo equipamentos eletrônicos que permita captura de dados.
Claro que além dos dados tradicionais que hoje buscamos em outros sistemas, bancos de dados e arquivos de texto.
16
This is an illustration of a Hadoop cluster. A Hadoop cluster comprises several components; the primary ones being the master and slave nodes.
Master nodes manage and coordinate cluster services and tasks. They are master nodes because they have various Hadoop master processes running on them. For example, a master node runs the NameNode process that coordinates Hadoop storage operations. A single master machine can run all of the Hadoop master processes. However for better scalability, and higher availability, is is common to have the various Hadoop master processes spread across multiple master nodes.
Slave nodes provide the CPU, memory, and local disk resources to store and process data. They are slave nodes because they have various Hadoop slave processes running on them. For example, a slave node runs a DataNode process that works under the management of the NameNode. The DataNode does the actual work of reading and writing data blocks to storage. A Hadoop cluster is easily scaled up by adding additional slave machines.
The Hadoop client machine has only the Hadoop client-side software installed on it. The software is used to access Hadoop tools and applications used to manage the cluster or process data.
It is common for Hadoop to be deployed on rack-based servers. Many server rack and blade chassis configurations are possible. In the illustration, each rack of machines has a top-of-the-rack network switch for intra-rack communication. Each top-of-the-rack switch is also connected to a core switch used for inter-rack and cluster-to-client communications.
Data Science ou Ciência de Dados
Estudo disciplinado dos dados e informações inerentes ao negócio e todas as visões que podem cercar um determinado assunto.