O documento discute as técnicas e tecnologias envolvidas em Big Data, incluindo MapReduce, Hadoop, HDFS, HBase, Mahout e como essas ferramentas podem ser usadas para analisar grandes volumes de dados não estruturados de redes sociais e outras fontes.
Artigo Científico apresentado à Faculdade de Tecnologia da Zona Sul – Fatec-ZS como exigência parcial para a obtenção do título de Tecnólogo em Informática para Gestão de Negócios.
Orientador: Prof. Alex Macedo de Araujo.
Autores: Renata Gonçalves Curty e Jucenir da Silva Serafim
Disponibilizado no site da Universidade Federal de Londrina : www.uel.br
RESUMO Introdução: Cientistas de dados têm recebido grande destaque nos últimos anos seguindo as demandas do mundo do trabalho estimuladas pela ciência aberta e pela era big data. Amplamente divulgada em 2008, e agora presente nos mais diferentes setores e aplicações, a terminologia “cientista de dados” foi anunciada em 2012 como a mais atraente e uma das mais bem remuneradas do século XXI, culminando em uma crescente oferta de cursos de formação. Objetivo: Caracterizar e compreender os aspectos formativos do cientista de dados. Metodologia: O artigo relata um recorte de uma pesquisa de levantamento com base na análise preliminar de 93 cursos em ciência de dados ofertados por instituições estadunidenses. Resultados: A análise de conteúdo das informações contidas nos websites dos programas identificados permitiu evidenciar que este profissional é formado para lidar com aspectos relacionados à coleta, tratamento, transformação, análise, visualização e curadoria de grandes e heterogêneas coleções de dados orientadas à resolução de problemas práticos e reais. Conclusão: Foi possível constatar que, de modo geral, a formação em ciência de dados atribui grande ênfase a habilidades estatísticas, matemáticas e computacionais, incluindo programação e modelagem avançada, sendo que muitas destas são pré- requisitos para ingresso nestes cursos.
Palavras-chave: Ciência de Dados. Cientista de Dados. Competências Profissionais. Formação Profissional.
Visão sobre o encontro dos dois conceitos emergentes (Big Data e Governança de Dados), analisada à luz de modelos como DMBOK(Data management Association) e DMM(Data Management Maturity Model, do CMMI Institute).
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
Breve abordagem sobre o que é, o presente e o futuro do BI (Business Intelligence) o que nos remete a uma breve abordagem sobre o que vem a ser o BIGDATA e suas aplicações na sociedade. Mostrando algumas limitações exixtentes na BI tradicional. Tratou-se de uma aula magna com estudantes da UNIA- Univesidade Independente de Angola.
Slides que deram suporte à palestra "Big Data - uma visão executiva", apresentada no VI Workshop de Tendências Tecnológicas, promovido pela Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie. O evento ocorreu no dia 28.04.2014
Quer você saiba ou não, seu negócio já faz parte do mercado de dados e informações. Enquanto nossas vidas continuam migrando para a internet, produzimos um fluxo constante e exaustivo de informação digital.
Artigo Científico apresentado à Faculdade de Tecnologia da Zona Sul – Fatec-ZS como exigência parcial para a obtenção do título de Tecnólogo em Informática para Gestão de Negócios.
Orientador: Prof. Alex Macedo de Araujo.
Autores: Renata Gonçalves Curty e Jucenir da Silva Serafim
Disponibilizado no site da Universidade Federal de Londrina : www.uel.br
RESUMO Introdução: Cientistas de dados têm recebido grande destaque nos últimos anos seguindo as demandas do mundo do trabalho estimuladas pela ciência aberta e pela era big data. Amplamente divulgada em 2008, e agora presente nos mais diferentes setores e aplicações, a terminologia “cientista de dados” foi anunciada em 2012 como a mais atraente e uma das mais bem remuneradas do século XXI, culminando em uma crescente oferta de cursos de formação. Objetivo: Caracterizar e compreender os aspectos formativos do cientista de dados. Metodologia: O artigo relata um recorte de uma pesquisa de levantamento com base na análise preliminar de 93 cursos em ciência de dados ofertados por instituições estadunidenses. Resultados: A análise de conteúdo das informações contidas nos websites dos programas identificados permitiu evidenciar que este profissional é formado para lidar com aspectos relacionados à coleta, tratamento, transformação, análise, visualização e curadoria de grandes e heterogêneas coleções de dados orientadas à resolução de problemas práticos e reais. Conclusão: Foi possível constatar que, de modo geral, a formação em ciência de dados atribui grande ênfase a habilidades estatísticas, matemáticas e computacionais, incluindo programação e modelagem avançada, sendo que muitas destas são pré- requisitos para ingresso nestes cursos.
Palavras-chave: Ciência de Dados. Cientista de Dados. Competências Profissionais. Formação Profissional.
Visão sobre o encontro dos dois conceitos emergentes (Big Data e Governança de Dados), analisada à luz de modelos como DMBOK(Data management Association) e DMM(Data Management Maturity Model, do CMMI Institute).
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
Breve abordagem sobre o que é, o presente e o futuro do BI (Business Intelligence) o que nos remete a uma breve abordagem sobre o que vem a ser o BIGDATA e suas aplicações na sociedade. Mostrando algumas limitações exixtentes na BI tradicional. Tratou-se de uma aula magna com estudantes da UNIA- Univesidade Independente de Angola.
Slides que deram suporte à palestra "Big Data - uma visão executiva", apresentada no VI Workshop de Tendências Tecnológicas, promovido pela Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie. O evento ocorreu no dia 28.04.2014
Quer você saiba ou não, seu negócio já faz parte do mercado de dados e informações. Enquanto nossas vidas continuam migrando para a internet, produzimos um fluxo constante e exaustivo de informação digital.
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuaisWilliam Colen
Os passos para construir um robô capaz de realizar tarefas solicitadas através de linguagem natural
Assistentes virtuais vem despertando crescente atenção desde a popularização de ferramentas como o Siri, da Apple. O fato é que este tipo de aplicação é potencialmente útil para o mercado em geral. Nesta palestra mostraremos os passos para construir um robô capaz de realizar tarefas solicitadas através de linguagem natural, desde a transcrição da voz em texto, até a análise semântica das sentenças.
O Big Data ainda é um mistério e, praticamente, o termo ‘hype’ da atualidade. Trata-se basicamente de um conjunto ou uma grande quantidade de dados complexos, estruturados ou não, abastecidos por fontes também complexas e, por isso, torna-se tão difícil processá-los usando-se ferramentas de análise de dados tradicionais. Os desafios envolvendo o Big Data incluem captura, curadoria, armazenamento, busca, compartilhamento, transferência, análise e visualização da informação. Desta forma, gerenciar grandes quantidades de dados envolvem algumas etapas inerentes ao serviço especializado dos bibliotecários. Em meio a este fenômeno, será que o profissional da informação possui as competências necessárias para se inserir neste mercado? Busca-se analisar e refletir se esse é mais um ramo no qual podemos aprofundar nossas habilidades e experiências em gestão da informação, e como podemos aplicá-los frente às questões que as instituições enfrentam na Era do Big Data.
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelCarlos Barbieri
Mostra um exemplo real de Governança de Dados com Big Data, numa empresa de Energia elétrica, aplicando os conceitos de DMM-Data Management Maturity Model
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosDan S. Reznik, PhD
Contexto das mudanças que criaram o movimento “big data”. Aplicações em vários verticais (Governo, Marketing, Saúde, Telecom, Financeiro, etc.). Aspectos práticos em projetos de big data. Fundamentos: qualidade, integração, governança de dados. Avaliação da maturidade da empresa. Formação de profissionais nesta área.
Ser um programador de alto nível vai muito mais além de escrever código bom, extensível e reutilizável. Mesmo aplicando várias técnicas avançadas e melhores práticas de programação, muitas vezes o lado humano de cada programador influencia no resultado de seu trabalho.
Apresento caminhos, decisões e atitudes, técnicos e não técnicos, que ajudarão você a se tornar um programador melhor. Alguns tópicos apresentados abrirão seus olhos para novos pontos de vista, e até mesmo novas possibilidades para sua carreira no futuro.
Como o Big Data pode tornar a publicidade mais relevante entre marcas e pessoasRafael da Silva
A sociedade do século XXI produz, armazena e processa um número cada vez maior de dados digitais diariamente. Esses dados são oriundos de objetos, mídias sociais, sensores, smartphones e do próprio corpo humano. Essa variedade, volume e velocidade que esses dados são processados e armazenados leva o nome de Big Data que, quando utilizado para pessoas, pode tornar a publicidade uma ferramenta impactante para a vida humana. Descobrir se uma pessoa tem sede e oferecer uma bebida de sua preferência, detectar se o leite acabou e sugerir uma nova compra, ou prever que uma pessoa não se exercita e oferecer opções de academias, são exemplos de como uma abordagem centrada em pessoas e baseada em dados pode mudar a publicidade que hoje é baseada em interrupção. Esta apresentação faz parte de um estudo que tem como objetivo analisar os impactos do Big Data na sociedade, na comunicação e como ele pode tornar a publicidade mais relevante para a vida das pessoas.
Download: https://www.academia.edu/19611251/BIG_IDEAS_-_Como_o_Big_Data_pode_tornar_a_publicidade_mais_relevante_para_as_pessoas
Psicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big DataLuciana Manfroi
Psicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big Data.
Fases da Web
Análise do Discurso
Mobile
Nomofobia
Mercado digital para Psicólogos
Dados e Informações
Conteúdos e ambientes digitais
Iscas Digitais
Monitoramento
Produção de Conteúdo na área da Psicologia
Exploração de conteúdos em ambientes digitais
Luciana Manfroi
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
Palestra apresentada no FISL 16 - Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação. Uma visão geral sobre Hadoop, Cassandra, MongoDB, noSQL, BI, Data Mining e Analitycs entre outros conceitos emergentes da área de governança de dados será repassada aos participantes.
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
O que é BigData e BI ?
O que é um Cientista de Dados ?
O que é Hadoop ?
O que é a HortonWoks Haddoop ?
Criando um Cluster Hadoop no Windows Azure?
Integrando com Power BI
Apresentação de Case de uso.
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
Apresentação da utilização do PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho realizada no PgDay 2016 de Curitiba. Slides em :
Palestra sobre Big Data e o ecossitema hadoop, com seus conceitos e suas ferramentas, incluindo trilhas de aprendizagem e algumas certificações ministrada online no Canal Coders In Rio: https://www.youtube.com/watch?v=-pCwSkNoRY4&t=1s
A palestra apresenta o conceito de data lakes e big data, e como estas arquiteturas são formadas para o armazenamento e consumo de grande volumes de dados, sua relação com as arquiteturas distribuídas como é o caso do ecosistema Hadoop e como o a suíte Pentaho pode ajudar na gestão e extração de informações para tomada de decisão com recursos de big data analitycs.
O objetivo é apresentar os conceitos e tecnologias de BigData e IOT aplicadas ao campo da engenharia. Atualmente temos diversos tipos de aplicações
que já utilizam essas tecnologia , é de grande importância que profissionais da área tenha uma visão de como aplicar essas tecnologias. Focaremos em
cases e aplicações práticas, apresentado cases reais em áreas como mobilidade urbana, planejamento de transito, monitoramento e segurança, arquitetura e o uso de
bigdata em smartcities entre outros tipos de aplicações.
palestra realizada no IEP - Institudo de Engenharia do Paraná no dia 29/10/2016
Resumo
A palestra oferece uma visão abrangente e aprofundada sobre como Big Data e IoT estão remodelando a forma como interagimos com o mundo ao nosso redor. Binhara compartilha seu conhecimento técnico e experiências práticas, demonstrando a aplicabilidade dessas tecnologias em diferentes contextos e enfatizando a necessidade de uma gestão de dados eficaz para extrair o máximo valor das informações. A apresentação não apenas destaca o potencial de Big Data e IoT para impulsionar inovações em diversos setores, mas também aborda os desafios associados, especialmente em termos de segurança e privacidade dos dados.
Descrição Detalhada
A apresentação inicia-se definindo o conceito de IoT como dispositivos conectados à internet que comunicam, armazenam e processam dados com mínima interferência humana. Essa integração entre dispositivos gera um volume imenso de dados, os quais, quando analisados e interpretados através de tecnologias de Big Data, como Hadoop, MapReduce, Mahout, entre outros, podem fornecer insights valiosos para tomadas de decisão mais assertivas.
Binhara enfatiza a Cadeia de Valor do Big Data, que inclui etapas como coleta, ingestão, limpeza, integração, análise e entrega de dados, e discute os desafios relacionados à segurança, privacidade e gerenciamento de dados. Ele também destaca a diversidade das fontes de dados, desde sensores até redes sociais, reforçando a ideia de que dados podem ser capturados de qualquer lugar, a qualquer momento.
O palestrante apresenta exemplos práticos de aplicação de Big Data e IoT, incluindo cidades inteligentes (Smart Cities), onde a tecnologia é aplicada para melhorar a gestão urbana, e o uso do Hadoop em grandes empresas como Yahoo e Facebook para processamento de dados em larga escala.
3. Objetivos
• Explosão de dados
• O que Big Data não é
• O que é Big Data?
• Por quê Big Data?
• Estudo de Caso
• Quais são as técnicas
e tecnologias que
envolvem Big Data?
• MapReduce (Hadoop)
• NoSQL (HBase)
• Machine Learning
(Mahout/OpenNLP)
• Experimento e
Resultados
• Conclusão
15. O que Big Data não é!
• Um Produto.
• Uma plataforma.
• Uma solução.
• Algo tangível.
• Data Warehouse
• Business Inteligence
16. Estudo de Caso
Fonte : http://info.abril.com.br/noticias/ti/big-data-ajudou-obama-a-ganhar-eleicoes-
15012013-25.shl
17. Estudo de Caso
Fonte : http://www.twistsystems.com/blog/2012/08/06/voce-sabe-o-que-e-big-
data/#.U0yMC8eLdPo
18. Quais são as profissões, técnicas e
tecnologias que envolvem Big Data?
• Para extrair todas as possibilidades do big data, você precisa
aprimorar suas técnicas ou mesmo desenvolver novas
técnicas para conseguir desbloquear o potencial dos dados.
Hoje o potencial é superior ao que havia antes, pois os dados
em tempo real não estruturado é enorme.
• "Qualquer tolo pode saber... o ponto é entender”, Albert
Einstein.
• O ponto principal é entender, para PREVER. É disso que o
conhecimento se trata. Isso se chama Inteligência Preditiva.
26. O Momento Big Data
Fonte:http://www.gartner.com/newsroom/id/2575515
27. Falta de Profissionais
Recentes pesquisas estimam que por volta de 2015 big data demandará cerca de
4,4 milhões de profissionais em todo o mundo e que apenas 1/3 destes cargos
poderá ser preenchido com as capacitações disponíveis hoje em dia.
Fonte: http://imasters.com.br/banco-de-dados/as-novas-profissoes-que-a-
disseminacao-do-big-data-trara-para-o-mercado/
Brasil precisa formar profissionais para Big Data, diz Gartner
Área vai gerar 4,4 milhões de vagas em todo o mundo até 2015, sendo que 500 mil
oportunidades serão geradas no País, prevê a consultoria.
Fonte: http://computerworld.com.br/especiais/2012/10/29/brasil-precisa-formar-
profissionais-para-big-data-diz-gartner/
28. Quais são as profissões, técnicas e
tecnologias que envolvem Big Data?
29. MapReduce
• Criado pela equipe do Google em 2004.
• Objetivo :
É uma técnica, que mapeia um problema e seus dados
associados, para um grande número de computadores
(paralelismo), estejam eles procurando por texto ou realizando
cálculos. Os sistemas retornam os resultados (MAP) e a
informação é, então, “reduzida” (Reduce) para as respostas que
quem definiu o problema estava procurando.
30. Hadoop
• Projeto Open Source
• Criado pela Yahoo em 2005
• Licenciado pela Apache
• É a combinação de dois projetos :
Hadoop MapReduce (HMR)
Hadoop Distributed File System (HDFS)
31. Hadoop
Apache Hadoop é um framework que permite o processamento
de grandes volumes de dados através de clusters. É um sistema
distribuído usando uma arquitetura Master-Slave armazenando
informações através do Hadoop Distributed File System (HDFS) e
implementa algoritmos de MapReduce.
32. Hadoop MapReduce (HMR)
• O HMR é a implementação do Hadoop do MapReduce,
software que Google usa para acelerar as pesquisas
endereçadas ao seu buscador.
Fonte :
https://developers.google.com/appengine/docs/python/dataprocessing/over
view
36. Hadoop Distributed File System (HDFS)
• O HDFS é um sistema de arquivos distribuídos otimizados para
atuar em dados não estruturados e é também baseado na
tecnologia do Google, neste caso o Google File System.
39. • Em torno do Hadoop, a comunidade Apache mantém diversos
projetos relacionados, como o Hbase, que é um banco de
dados NoSQL que trabalha em cima do HDFS.
• Utilizado pelo Facebook para suportar seu sistema de
mensagens e os seus serviços de informações analíticas em
tempo real.
40. • É um sistema de captura de dados e framework de análise
que trabalha com o Hadoop para processar e analisar grandes
volumes de logs. Possui um conjuntos de ferramentas para
visualizar e monitorar os dados capturados.
Fonte : http://incubator.apache.org/chukwa/
41. • É um sistema distribuído para capturar de forma eficiente,
agregar e mover grandes quantidades de dados de log de
diferentes origens (servidores) para um repositório central,
simplificando assim o processo de novas coletas dos dados
para posterior análise pelo Hadoop. Flume e Chukwa são
projetos parecidos, a principal diferença entre eles é que o
Chukwa é utilizado para processamento batch.
Fonte : http://flume.apache.org
42. • É um sistema de Data Warehouse para Hadoop que facilita a
agregação dos dados, queries e análise de grandes datasets
armazenados no Hadoop. Hive proporciona métodos de
consulta de dados com uma linguagem parecida com o SQL,
chamado de HiveQL. Possui interfaces JDBC/ODBC para
integração com ferramentas de BI.
Fonte : http://hive.apache.org/
43. • É um projeto que permite criar aprendizado automático e
data mining usando Hadoop. Através do Apache Mahout,
padrões podem ser descobertos através de grandes datasets.
Possui algoritmos de identificação e classificação.
Fonte : http://mahout.apache.org/
44. • É uma ferramenta utilizada para transferir de forma eficiente
grandes quantidades de dados entre o Hadoop e sistemas de
armazenamento de dados estruturados, como base de dados
relacionais.
• Permite importar tabelas individuais ou bases de dados entre
o HDFS.
• Gera classes Java que permitem manipular os dados
importados.
Fonte : http://sqoop.apache.org
45. • É um projeto Apache que proporciona uma infraestrutura
centralizada de serviços que permitem a sincronização dos
clusters.
Fonte : http://zookeeper.apache.org
46. • É uma ferramenta de desenvolvimento, permite que os
usuário de Hadoop se concentrem na análise dos dados e não
em desenvolvimento de programas MapReduce. A análise é
simplificada através de uma linguagem procedural de alto
nível.
Fonte :http://pig.apache.org/
47. Jaql
• É uma linguagem de consulta funcional e declarativa que
facilita a exploração de informações no forma JSON (Javascript
Object Notation) e arquivos semi-estruturado de texto.
Projeto iniciado na IBM, o Jaql permite fazer select, join,
group by e filtrar dados armazenados em HDFS.
Fonte :https://code.google.com/p/jaql/
48. • É um sistema de serialização de dados. Os projetos Hadoop
manipulam grande quantidade de dados e a serialização
destes dados tem que ser uma excelente performance. Esta
serialização pode ser de texto, json e em formato binário.
Com Avro podemos armazenar e ler dados facilmente através
de diferentes linguagens de programação.
Fonte :http://avro.apache.org
49. • Apache UIMA (Unstructured Information Management
Applications) É um framework para análise de grande volume
de dados não estruturados, como texto, vídeo, audio, etc,
obtendo conhecimento que pode ser relevante para uma
determinada situação.
Fonte :http://uima.apache.org/
50. O que é Big Data?
Segundo a Wikipedia:
“Big Data consiste em datasets que crescem em uma escala tão
grande e complexa que fica difícil de processar utilizando as
ferramentas de gerenciamento de banco de dados tradicionais.
As dificuldades incluem captura, armazenamento, busca,
compartilhamento, analise e visualização.”
55. Referências
• Aditya B. Patel, Manashvi Birla, Ushma Nair (2012), Addressing Big
Data Problem Using Hadoop and Map Reduce.
• Kapil Bakshi (2012), Considerations for Big Data: Architecture and
Approach.
• Sachchidanand Singh(2012), Big Data Analytics.
• https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/
conhecendo_hadoop?lang=en
• http://manifestonaweb.wordpress.com/2009/06/02/entendendo-
mapreduce/
• http://mentablog.soliveirajr.com/2012/12/intro-to-parallel-
processing-with-mapreduce/
• http://static.googleusercontent.com/external_content/untrusted_dlcp/res
earch.google.com/en//archive/mapreduce-osdi04.pdf
• https://developers.google.com/appengine/docs/python/dataprocessing/o
verview#Determining_When_a_MapreducePipeline_Job_is_Complete