SlideShare uma empresa Scribd logo
1 de 8
BIG DATA /ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS
Vivaldo José Breternitz (Universidade Presbiteriana Mackenzie, São Paulo, Brasil) –
vjbreternitz@mackenzie.br
Fábio Silva Lopes (Universidade Presbiteriana Mackenzie, São Paulo, Brasil) –
fabio.lopes@mackenzie.br
Leandro Augusto da Silva ((Universidade Presbiteriana Mackenzie, São Paulo, Brasil) –
leandroaugusto.silva@mackenzie.br
ABSTRACT
Proper analysis of the large volume of data that has been generated by conventional
computer systems, social networks, sensors etc., tends to become critical for organizations,
for this analysis can generate key information for their success. There is, however , a great
lack of qualified professionals to do this analysis . This paper presents an overview of Big
Data and Analytics , which make up the environment in which these professionals will
work. It also discusses issues pertaining the necessary skills to these professionals and
their training and management. The main objective of this work is to provide information
to those who deal with the subject.
KEYWORDS
Analytics, Big Data , Data Scientists , Education , Management
BIG DATA/ANALYTICS: FORMAÇÃO E GESTÃO DE CIENTISTAS DE DADOS
RESUMO
A análise adequada do grande volume de dados que vem sendo gerado por sistemas
convencionais de computador, redes sociais, sensores etc., tende a se tornar fator crítico
para as organizações, pois essa análise pode gerar informações fundamentais para o
sucesso das mesmas. Há, no entanto, uma grande carência de profissionais habilitados a
fazer essa análise. Este trabalho discute aspectos ligados às habilidades necessárias a esses
profissionais e à sua formação e gestão, após apresentar uma visão geral de Big Data e
Analytics, que compõem o ambiente onde esses profissionais atuarão. O principal objetivo
do trabalho é fornecer subsídios àqueles envolvidos com o assunto.
PALAVRAS-CHAVE
Analytics, Big Data, Cientistas de Dados, Formação, Gestão.
1. INTRODUÇÃO
A forma de atuação das organizações vem sendo moldada pela disponibilidade de dados. A
velocidade e o volume com que estes vêm sendo criados são alucinantes: Smolan e Erwitt
(2012) afirmam que até 2003 a humanidade havia gerado 5 Exabytes, e que em 2012,
bastavam dois dias para que esse volume fosse criado. Este cenário tem levado as empresas
a coletar, processar e analisar os dados, tornando estes um recurso valioso, fundamental
para a tomada de decisão e para melhorar ou viabilizar novos produtos, serviços e
processos – tudo isso contribuiu para que fosse cunhado o termo Big Data (BD), hoje
utilizado de forma genérica para descrever o crescimento, a disponibilidade e o uso
intensivo dos dados.
O periódico The Economist entrevistou executivos de grandes organizações em sua
primeira pesquisa sobre o tema Big Data (EIU, 2011). Apurou que a metade deles
acreditava que os dados eram um importante ativo para suas organizações; 10% afirmaram
que a disponibilidade de dados havia alterado completamente a forma como suas
organizações planejavam e operavam. Mas a pesquisa apurou também que as organizações
ainda tinham dificuldades com alguns aspectos básicos relacionados ao uso dos dados,
dentre eles, a falta de pessoal adequadamente preparado, especialmente aqueles que o
mercado vem chamando Cientistas de Dados (CD).
2. OBJETIVO, ASPECTOS METODOLÓGICOS E ESTRUTURA
Dado o cenário apresentado, elaborou-se este ensaio que tem como objetivo discutir
aspectos relativos à formação e gestão dos Cientistas de Dados (Data Scientists),
profissionais que talvez sejam os mais importantes no processo de transformação de dados
em informação, pretendendo fornecer subsídios àqueles envolvidos com o assunto.
O ensaio foi produzido a partir de pesquisa bibliográfica e da experiência profissional e
acadêmica dos autores, que no meio universitário vem se dedicando à pesquisa do assunto
e à formação de pessoal que atuará na área; do ponto de vista estrutural inicia-se com a
apresentação de visões gerais de Big Data e Analytics, seguida pela discussão de temas
ligados aos Cientistas de Dados (CD), em especial as características pessoais desejadas,
sua formação e gestão (contratação, ambiente de trabalho e retenção).
3. BIG DATA – UMA VISÃO GERAL
Alguns autores, como Zikipoulos et al (2012) dizem que Big Data se caracteriza por quatro
aspectos: volume, velocidade, variedade e veracidade.
O aspecto “volume” refere-se ao fato de que a quantidade de dados cresce de maneira
exponencial, provenientes não só de sistemas convencionais, mas também de fontes como
Facebook, Tweeter, You Tube, eletrônica embarcada, telefones celulares e assemelhados,
sensores de diversos tipos, etc.
McAfee e Brynjolfsson (2012) apresentam outro aspecto relevante de Big Data: a
velocidade em que dados podem ser capturados e processados, praticamente em tempo
real, podendo dar a uma organização vantagem competitiva. Exemplificam essa afirmação
relatando experimento conduzido pelo grupo de pesquisa do Prof. Alex Pentland, do MIT
Media Lab: o grupo capturou dados relativos à localização de celulares de forma a
descobrir quantas pessoas colocaram seus carros nos estacionamentos de lojas do grupo
americano Macy’s no Black Friday de 2011 (data que marca o inicio da temporada de
compras de Natal nos Estados Unidos); isso permitiu estimar com precisão as vendas
dessas lojas antes mesmo que elas ocorressem, gerando vantagens competitivas às áreas
comerciais e de marketing e a terceiros, como investidores em bolsas de valores. Esse caso
e outros similares são relatados também por Clifford (2012).
No que se refere a “variedade”, cabe registrar que além de fontes diferentes, os dados
coletados têm frequentemente, características diferentes das dos processados pelos
sistemas convencionais, não sendo estruturados e referindo-se a coisas como som, imagem,
movimento, temperatura, umidade etc. (Lohr, 2012). Davenport (2014) chama a atenção
para este aspecto, ao dizer que apesar de o volume de dados ser o que mais chama a
atenção, a falta de estrutura é o aspecto mais difícil para o trabalho na área. O aspecto
“veracidade” está relacionado ao fato de que os dados não são “perfeitos”, no sentido de
que é preciso considerar o quão bons eles devem ser para que gerem informações úteis e
também os custos para torná-los bons.
As ferramentas computacionais vêm acompanhando o crescimento dessa velocidade e do
volume de dados, em termos de capacidade de armazenamento e processamento.
Destacam-se nesse assunto as pesquisas em corrente contínua de dados (stream computing)
e em técnicas de inteligência artificial.
No modelo convencional de armazenamento de dados e tomada de decisão, a organização
filtra dados dos seus vários sistemas e após criar um data warehouse, constrói consultas
(queries) a fim de subsidiar a tomada de decisões. Na prática faz-se garimpagem (mining)
em uma base de dados estática, que não reflete o momento, mas sim o contexto de horas,
dias ou mesmo semanas atrás – tudo isso pode ser chamado Business Intelligence (BI).
Com stream computing, esse mining ocorre em tempo praticamente real, com uma corrente
contínua de dados (streaming data) submetida a um conjunto de queries ou algoritmos
analíticos. Essa dinâmica pode ser considerada um novo paradigma.
Na Inteligência Artificial, por sua vez, destacam-se os estudos em processamento de
linguagem natural (natural language processing), reconhecimento de padrões (pattern
recognition) e aprendizado de máquina (machine learning) que podem ajudar a extrair dos
grandes volumes de dados conhecimento para auxiliar a gestão (Lohr, 2012).
De forma a complementar as ferramentas computacionais, novos paradigmas de
gerenciadores de bancos de dados NoSQL (Not Only SQL), representados por ferramentas
como o Cassandra e Mongo-DB vem sendo apresentados como soluções que tratam
imensos volumes de dados com muita velocidade. Essas ferramentas, geralmente são
inseridas em frameworks como o Hadoop, que orquestram o gerenciamento distribuído de
arquivos, bem como o processamento paralelo, de modo a garantir a performance das
aplicações implementadas. Soluções conjugando hardware e software na modalidade in
memory processing como as providas pela IBM e SAP, Netezza Accelerator e HANA
respectivamente, já estão disponíveis, permitindo ainda maior aceleração do
processamento dessas operações.
4. ANALYTICS – UMA VISÃO GERAL
Na atualidade, as organizações estão explorando os grandes volumes de dados na tentativa
de obter informações que lhes sejam úteis, quer acerca do que vem ocorrendo, quer acerca
do futuro. Essa exploração, a que se chama Analytics, é feita com o uso de diferentes
ferramentas, baseadas em análise preditiva, mineração de dados, estatística, inteligência
artificial e outras - a partir deste ponto, neste trabalho, vai ser utilizada a expressão BDA
(Big Data Analytics).
As possibilidades de aplicação desses conceitos são inúmeras, em finanças, saúde,
segurança, manufatura etc. McAfee e Brynjolfsson (2012) conduziram estudos que
levaram à conclusão de que as empresas que efetivamente utilizam BDA são 5% mais
produtivas e 6% mais lucrativas que seus competidores – esses números são um poderoso
argumento em prol da utilização dessa abordagem.
Davis (2014) reitera a importância do tema ao dizer que BDA não é apenas marketing hype
ou apenas uma nova versão ou novo nome para os métodos de análise estatística e
manipulação de dados já existentes; BDA é algo realmente novo, que dá vida à antiga ideia
de que a computação vai mudar definitivamente o mundo dos negócios.
Russom (2011) relaciona alguns dos motivos pelos quais as organizações vêm utilizando
BDA; os principais deles são conseguir desenvolver social marketing mais eficiente, obter
mais e melhores insights acerca de seus negócios, segmentar base de clientes, identificar
oportunidades de negócios, automatizar decisões em processos em tempo real, identificar
previamente clientes que possam deixar de sê-lo (churn), detectar fraudes etc.
Apesar de o ferramental necessário estar sendo desenvolvido, é preciso lembrar que a
utilização de BDA impõe às organizações a aplicação de novas habilidades e formas de
atuar; como ocorre com muita frequência, simplesmente aportar ao processo tecnologia no
estado da arte não é suficiente, embora parte importante em uma estratégia de utilização de
BDA.
Já se percebe que não é possível encontrar essas novas habilidades em apenas um tipo de
profissional; já se pode identificar distintas funções ligadas ao tema, como os Arquitetos de
Dados, que definirão como os dados provenientes de diversas fontes serão organizados;
Data Visualizers, que cuidarão de temas ligados à apresentação das informações geradas;
Engenheiros de Dados, cuidando de manter a infraestrutura necessária funcionando
adequadamente e outros; note-se que para diversas funções não há ainda sequer um nome
em português.
Reitera-se que este ensaio trata apenas de aspectos relacionados ao Cientista de Dados,
profissional de extrema importância, talvez o mais importante, quando se utiliza BDA.
5. O CIENTISTA DE DADOS
Ainda não há uma definição precisa do que seja um Cientista de Dados, de seu papel nas
organizações e dos conhecimentos e habilidades necessárias à função (Chatfield,
Shlemoon, Redublado & Rahman, 2014); estes autores identificaram 24 definições do que
seja um CD. No âmbito deste trabalho, poderíamos citar as definições de Davenport e Patil
(2012), que afirmam ser este um profissional de alto nível com treinamento e curiosidade
para fazer descobertas no mundo de big data (Patil cunhou o termo em 2008, enquanto
trabalhava para o LinkedIn).
Já Granville (2014), diz que um CD é um generalista que conhece negócios, estatística,
ciência da computação e relaciona alguns conhecimentos e capacidades específicas que o
mesmo deve ter, tais como arquitetura de dados, comunicação no ambiente empresarial e
outras.
Harris, Shetterley, Alter & Schnell (2013:3), são contundentes ao afirmarem que CD é
“the most common term for the often PhD-level experts who operate at the
frontier of analytics, where data sets are so large and the data so messy that
lessskilled analysts using traditional tools cannot make sense of them. But
they are more precisely described as data engineer-scientist-manager-
teachers.”
Passa-se agora a discutir os temas apontados no objetivo deste trabalho, em especial as
características pessoais desejadas em um CD, sua formação e gestão (contratação,
ambiente de trabalho e retenção).
5.1. Características pessoais desejadas
Diversos autores vêm discutindo as características pessoais que são desejáveis em CDs,
destacando-se entre elas curiosidade e criatividade (Van Der Aalst, 2014; Davenport &
Patil, 2012). Iniciativa e capacidade de enfrentar dificuldades são outras qualidades
importantes, conforme Davenport e Patil (2012), que relatam como Jonathan Goldman, a
despeito do desinteresse e até oposição de superiores e colegas, conseguiu implementar no
LinkedIn a funcionalidade “People You May Know“, que trouxe à empresa milhões de
novas page views. Os mesmos autores realçam a importância da capacidade de
comunicação com os demais envolvidos no processo, quer os técnicos, quer os usuários.
Loukides (2010) menciona também a paciência, a capacidade de desenvolver soluções de
forma incremental, gerando produtos inicialmente pequenos, mas que podem evoluir para
soluções mais amplas. Cita também a capacidade de “pensar fora da caixa”, partindo de
situações do tipo “temos uma grande quantidade de dados, o que podemos fazer com
eles?”.
5.2. A formação dos CD
As pessoas que atualmente estão atuando como CD tem formação acadêmica muito
diversificada, embora possuam, quase sempre, cursos de pós-graduação stricto sensu nas
chamadas hard sciences (física, matemática e similares). Mamonov, Misra & Jain (2014),
no entanto, sugerem que graduados em Sistemas de Informação podem receber com
relativa facilidade a formação complementar para atuarem como CD, por ser esse curso
composto por disciplinas desse tipo complementadas por disciplinas voltadas à área de
negócios.
Miller (2014) recomenda que as empresas e a academia devam trabalhar conjuntamente de
forma a que se possa formar pessoal adequadamente. Estão surgindo no exterior alguns
cursos de pós-graduação voltados especificamente para a formação de profissionais para
BDA; movimento similar se observa no Brasil, especialmente na modalidade lato sensu,
envolvendo a Universidade Presbiteriana Mackenzie, a Escola Superior de Propaganda e
Marketing e a Fundação Getúlio Vargas, entre poucas outras.
Ainda no exterior, algumas universidades estão alterando seus currículos para incluir BDA
em cursos de graduação, inclusive criando laboratórios onde estudantes possam analisar
dados de interesse de suas áreas específicas – laboratórios como esses são importantes para
que os alunos desenvolvam um conhecimento prático acerca domo aplicar BDA no
ambiente empresarial. Miller (2014) lembra que manter o foco apenas em funções
específicas não atenderá as necessidades do futuro próximo, propondo que o conhecimento
desses temas deve ser dado em todos os currículos, independentemente da formação
pretendida, pois sem conhecimentos, mesmo que elementares, acerca de BDA, os alunos
não estarão preparados para os desafios do atual ambiente empresarial – esses
conhecimentos elementares devem ser, no mínimo, os necessários à comunicação eficaz
com os CD.
Grandes empresas vêm se preocupando com a qualificação de seus recursos humanos,
movimento que também começa a se observar em suas subsidiárias no Brasil; como
exemplo, podem-se citar iniciativas da IBM em parceria com a Universidade Presbiteriana
Mackenzie, envolvendo treinamento de professores e alunos, criação de cursos etc.
Brooks (2012) diz que um grande desafio para as universidades está no fato de que o tema
exige T-shaped professionals, ou profissionais com o perfil “T”, ou ainda, o “especialista
generalista”. No caso, a barra horizontal do “T” é a formação básica, que deve ser
suficientemente ampla para que o profissional desenvolva as habilidades para influenciar
pessoas, atuar em equipes multidisciplinares, vislumbrar oportunidades e encontrar
soluções para problemas complexos. Já a barra vertical, caracteriza o aprofundamento nos
temas ligados a BDA propriamente dito.
Tudo isso, implica na necessidade de criar novos currículos e adaptar os já existentes; o
pessoal envolvido deverá conhecer de maneira profunda matemática, estatística,
aprendizado de máquina (machine learning), análise preditiva, ciência da computação,
programação, ética, legislação, privacidade, comunicação (visualização), segurança de
dados, banco de dados, mineração de dados etc. (Miller, 2014).
Além de criação e adaptação de currículos, outras medidas podem ser tomadas, como a
criação de descrições formalizadas dos diversos cargos envolvidos, certificações,
comunidades de profissionais, parcerias empresas/universidades/governos, grupos de
trabalho para tratar de pontos críticos como segurança da informação e privacidade, por
exemplo, e grupos de pesquisa vinculados a universidades.
Miller (2014) reitera que o desafio não envolve apenas Tecnologia da Informação. Funções
tão díspares como marketing, finanças, desenvolvimento de produtos, manufatura e
operações serão afetadas pelo fenômeno BDA – e que as empresas devem estar preparadas
para isso também em termos de recursos humanos.
5.3. A gestão dos CD
Davenport e Patil (2012), afirmam que a falta de pessoal, especialmente CD, está se
tornando uma séria restrição em alguns setores, a ponto de algumas empresas estarem
criando times especializados no recrutamento desses profissionais. Dizem também que,
dada a escassez desses profissionais, o desafio é aprender a identificar talentos, atrai-los e
torna-los produtivos. Nenhuma dessas tarefas pode ser executada de forma similar à que é
executada para as funções convencionais, pois além de praticamente não existirem cursos
que formem CD, ainda há pouco consenso sobre onde seu trabalho “se encaixa” na
organização e como seu desempenho pode ser medido.
Há a percepção de que a disputa por talentos deve ser intensa e que como os profissionais
da área tendem a se interessar muito por desafios, os responsáveis pelo recrutamento e
seleção devem estar preparados para “vender” suas oportunidades aos candidatos
enfatizando este aspecto. Evidentemente, salários e outros benefícios tem seu peso, e na
medida em que os profissionais são raros, estes tendem a serem maiores.
Em situações como essas, as organizações podem ser levadas a considerar a hipótese de
contratar os serviços desses profissionais através de grandes empresas de consultoria, como
ocorre com frequência quando se trata do uso de novas tecnologias. Davenport e Patil
(2012) são céticos quanto aos resultados dessa abordagem, mencionando que profissionais
com esse perfil não desejam simplesmente dizer a executivos o que suas análises
recomendam que estes devam fazer, mas sim pretendem “construir coisas”, deixando suas
marcas no ambiente em que atuam; quanto mais se espera deles, mais eles tendem a se
motivar, e é importante desafia-los, cobra-los.
Pelas suas características pessoais, CD não se dão bem trabalhando em estruturas onde o
controle é muito rígido – cronogramas, fronteiras departamentais, job descriptions,
horários, dress code e outras regras tendem a incomodar esses profissionais; eles precisam
de liberdade para experimentar e explorar, para adicionar valor, inovar, para o que é
necessário um relacionamento mais próximo com executivos responsáveis por produtos e
serviços que podem ser impactados pelos resultados de BDA do que com aqueles
responsáveis pelas “caixas” do organograma.
Dadas essas dificuldades para as empresas, pode-se perguntar se não seria interessante para
estas simplesmente aguardar até que o número de CD no mercado se torne maior, o que
deve ocorrer pelo interesse das universidades em formar pessoal, e ai contratar pessoal
mais facilmente e a menor custo – cabe lembrar que esse fenômeno já ocorreu com
diversas especialidades, como por exemplo, desenvolvedores na área de sistemas.
Esse raciocínio não parece válido, na medida em que a demanda por CD não parece estar
diminuindo, e provavelmente um equilíbrio oferta/demanda acontecerá apenas em prazo
longo; esperar pode dar aos concorrentes vantagens que não poderão ser tiradas. Nesse
sentido, Mamonov et al (2014) reportam que em junho de 2014, apenas na cidade de Nova
Iorque, existiam cerca 5.800 ofertas de emprego na área, pagando salários anuais entre
US$ 60 mil e US$ 140 mil, além de cerca de 1.100 ofertas com salários acima de US$ 140
mil anuais
6. CONSIDERAÇÕES FINAIS
Na medida em que o volume de dados disponíveis e a capacidade para armazena-los e
analisa-los aumenta exponencialmente, é de se esperar que seu uso também aumente de
forma similar. Isso caracteriza uma ruptura, ao impactar a forma pela qual as organizações
são administradas: novas formas de planejar e tomar decisões estão surgindo, a competição
deve se acirrar e profissionais para atuar nesse cenário serão necessários cada vez em
maior número; dentre esses, os Cientistas de Dados são os mais importantes e de formação
mais difícil.
Tem se observado que, quando ocorrem rupturas similares a essa, os mercados de
tecnologia e educação sofrem alterações, quer no sentido positivo, quando empresas e
instituições de ensino respeitáveis passam a pesquisar o assunto e a oferecer serviços para
atender às novas demandas e cursos destinados a preparar os recursos humanos
necessários, quer no sentido negativo, quando empresas e instituições de ensino menos
comprometidos com a qualidade lançam produtos e serviços de qualidade questionável,
proliferando serviços de consultoria, educação e treinamento, literatura e também software
quase sempre inadequados para uma abordagem adequada do assunto.
Cabe às empresas usuárias e aos profissionais que pretendem atuar na área tentar separar o
joio do trigo, o que em alguns lugares, como no Brasil, infelizmente não acontece com a
desejável frequência.
REFERÊNCIAS
Brooks, K. (2012). Career success starts with a “T”. Psychology Today, Recuperado de
http://www.psychologytoday.com/blog/career-transitions/201204/career-success-starts-t
em 19.12.2014.
Chatfield, A. T., Shlemoon, V. N., Redublado, W. & Rahman, F. (2014). Data Scientists as
a Game Changers in Big Data Environments. Proceedings of the 25th Australasian
Conference on Information Systems (ACIS), Auckland, New Zealand.
Clifford, S. (2012) Retail Frenzy: Prices on the Web Change Hourly. The New York Times,
edição de 30.11.2012. Recuperado de
http://www.nytimes.com/2012/12/01/business/online-retailers-rush-to-adjust-prices-in-
real-time.html?pagewanted=all&_r=0 em 19.12.2014.
Davenport, T. H. (2014). Big Data at Work: Dispelling the Myths, Uncovering the
Opportunities. Boston: Harvard Business School Publishing.
Davenport, T. H. & Patil, D. J. (2012). Data Scientist: the Sexiest Job of the 21st Century.
Harvard Business Review, edição de outubro de 2012, pp. 70-76.
Davis, C. K. (2014) Beyond Data and Analysis. Communications of the ACM, 57 (6), pp.
39-41.
EIU – Economist Intelligence Unit (2011). Big data - Harnessing a Game-Changing Asset.
Londres: The Economist, author. Recuperado de
http://www.sas.com/resources/asset/SAS_BigData_final.pdf em 19.12.2014.
Granville, V. (2014). Developing Analytic Talent. Becoming a Data Scientist. Indianapolis:
John Wiley.
Harris, J.G., Shetterley, N., Alter, A.E. & Schnell, K. (2013) The Team Solution to the
Data Scientist Shortage. Accenture Institute for High Performance. Recuperado de
http://www.accenture.com/SiteCollectionDocuments/PDF/Accenture-Team-Solution-Data-
Scientist-Shortage.pdf, acessado em 12.12.2014.
Lohr, S. (2012). The Age of Big Data. The New York Times, edição de 11.02.2012.
Recuperado de www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-
world.html?_r=1&scp=1&sq=Big%20Data&st=cse em 09.05.2014.
Loukides, M. (2010) What Is Data Science? O’Reilly, edição digital (Kindle) disponível
em http://www.amazon.com/What-Data-Science-Mike-Loukides-
ebook/dp/B007R8BHAK/ref=sr_1_1?s=books&ie=UTF8&qid=1399984583&sr=1-
1&keywords=data+scientist, baixado em 12.05.2014.
Mamonov, S., Misra, R. & Jain, R. (2014). Business Analytics in Practice and in
Education: A Competency-based Perspective. Proceedings of the Information Systems
Educators Conference, 31, Baltimore, USA.
McAfee, A., Brynjolfsson, E. (2012). Big Data: The Management Revolution”. Harvard
Business Review , edição de outubro de 2012, pp. 60–68.
Miller, S. (2014). Collaborative Approaches Needed to Close the Big Data Skills Gap.
Journal of Organization Design, 3 (1), 26-30.
Russom, P. (2011). Big Data Analytics. Renton: TDWI.
Smolan, R. & Erwitt, J. (2012). The human face of Big Data. Sausalito: Against All Odds
Productions.
Van Der Aalst, W. M. P. 2014. Data Scientist: The Engineer of the Future. Proceedings of
the I-ESA Conferences, 7, 13-26.
Zikopoulos, P., De Roos, D., Parasuraman, K., Deutsch, T., Giles, J. & Corrigan, D.
(2012). Harness the power of Big Data- The IBM Big Data Platform. Emeryville:
McGraw-Hill Osborne Media.

Mais conteúdo relacionado

Mais procurados

RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃORISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃOBruno Henrique Nunes
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus ImpactosAlex Silva
 
Tomada decisão
Tomada decisãoTomada decisão
Tomada decisãoEcoplas
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoAntonioEE256
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dadosTalita Lima
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Caio Moreno
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieMarcos CAVALCANTI
 
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosBig Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosDan S. Reznik, PhD
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RNMarcos Luiz Lins Filho
 

Mais procurados (20)

RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃORISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
RISCOS NA UTILIZAÇÃO DE BIG DATA E ANALYTICS COMO BASES PARA A TOMADA DE DECISÃO
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus Impactos
 
Tomada decisão
Tomada decisãoTomada decisão
Tomada decisão
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
Big Data
Big DataBig Data
Big Data
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 
Data mining
Data miningData mining
Data mining
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Data mining
Data miningData mining
Data mining
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
 
Data Mining
Data MiningData Mining
Data Mining
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil Crie
 
Mineração Livre de Dados
Mineração Livre de DadosMineração Livre de Dados
Mineração Livre de Dados
 
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosBig Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
 

Semelhante a Formação e gestão de cientistas de dados

Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 
Business Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisBusiness Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisRaquel Camargo
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiDocumento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiNewton Calegari
 
BigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfBigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfssuserbd3b69
 
Potencializando o uso de Open Data com a aplicação de ferramentas Big Data
Potencializando o uso de Open Data com a aplicação de ferramentas Big DataPotencializando o uso de Open Data com a aplicação de ferramentas Big Data
Potencializando o uso de Open Data com a aplicação de ferramentas Big DataVivaldo Jose Breternitz
 
People analytics e hrbp
People analytics e hrbpPeople analytics e hrbp
People analytics e hrbpsuelen matta
 
Texto - 3º cictec - Big Data.docx
Texto -  3º cictec - Big Data.docxTexto -  3º cictec - Big Data.docx
Texto - 3º cictec - Big Data.docxcictec
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Mauricio Cesar Santos da Purificação
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS Antonio Pedro
 
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Juan Felipe dos Reis Barbosa
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Marcos Luiz Lins Filho
 

Semelhante a Formação e gestão de cientistas de dados (20)

Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
Business Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisBusiness Intelligence e Mídias Sociais
Business Intelligence e Mídias Sociais
 
Artigo big data_final
Artigo big data_finalArtigo big data_final
Artigo big data_final
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephiDocumento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
Documento de Iniciação Científica - Estudo utilizando big data, twitter e gephi
 
BigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfBigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdf
 
Potencializando o uso de Open Data com a aplicação de ferramentas Big Data
Potencializando o uso de Open Data com a aplicação de ferramentas Big DataPotencializando o uso de Open Data com a aplicação de ferramentas Big Data
Potencializando o uso de Open Data com a aplicação de ferramentas Big Data
 
People analytics e hrbp
People analytics e hrbpPeople analytics e hrbp
People analytics e hrbp
 
INTELIGÊNCIA de NEGÓCIOS.pptx
INTELIGÊNCIA de NEGÓCIOS.pptxINTELIGÊNCIA de NEGÓCIOS.pptx
INTELIGÊNCIA de NEGÓCIOS.pptx
 
Texto - 3º cictec - Big Data.docx
Texto -  3º cictec - Big Data.docxTexto -  3º cictec - Big Data.docx
Texto - 3º cictec - Big Data.docx
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
 
Data is the new oil
Data is the new oilData is the new oil
Data is the new oil
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS BANCO DE DADOS RELACIONAIS
BANCO DE DADOS RELACIONAIS
 
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
Analisando qual região mais fala sobre política no Twitter utilizando a arqui...
 
Dutra (2)
Dutra (2)Dutra (2)
Dutra (2)
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
 

Mais de Vivaldo Jose Breternitz

Tecnologia da Informação moldando nossas vidas
 Tecnologia da Informação moldando nossas vidas  Tecnologia da Informação moldando nossas vidas
Tecnologia da Informação moldando nossas vidas Vivaldo Jose Breternitz
 
ERP curso "Boas Práticas Aplicadas ao Processo de Seleção de Sistemas ERP pa...
ERP curso "Boas Práticas Aplicadas ao Processo de Seleção de Sistemas ERP pa...ERP curso "Boas Práticas Aplicadas ao Processo de Seleção de Sistemas ERP pa...
ERP curso "Boas Práticas Aplicadas ao Processo de Seleção de Sistemas ERP pa...Vivaldo Jose Breternitz
 
Arquitetura Web Desacoplada - FCI/Mackenzie
Arquitetura Web Desacoplada - FCI/MackenzieArquitetura Web Desacoplada - FCI/Mackenzie
Arquitetura Web Desacoplada - FCI/MackenzieVivaldo Jose Breternitz
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreVivaldo Jose Breternitz
 
Apresentação do TCC das alunas Jessica Valente Juvele e Stephanie de Angelo...
Apresentação do TCC das alunas Jessica Valente Juvele e   Stephanie de Angelo...Apresentação do TCC das alunas Jessica Valente Juvele e   Stephanie de Angelo...
Apresentação do TCC das alunas Jessica Valente Juvele e Stephanie de Angelo...Vivaldo Jose Breternitz
 
CLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCC
CLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCCCLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCC
CLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCCVivaldo Jose Breternitz
 
Palestra 'Algumas tendências em TI' para estudantes de Matemática
Palestra 'Algumas tendências em TI' para estudantes de MatemáticaPalestra 'Algumas tendências em TI' para estudantes de Matemática
Palestra 'Algumas tendências em TI' para estudantes de MatemáticaVivaldo Jose Breternitz
 
Companhia Paulista de Estradas de Ferro - alguns fatos
Companhia Paulista de Estradas de Ferro - alguns fatosCompanhia Paulista de Estradas de Ferro - alguns fatos
Companhia Paulista de Estradas de Ferro - alguns fatosVivaldo Jose Breternitz
 
O Sistema Financeiro Nacional - uma visão geral
O Sistema Financeiro Nacional - uma visão geralO Sistema Financeiro Nacional - uma visão geral
O Sistema Financeiro Nacional - uma visão geralVivaldo Jose Breternitz
 
Desenvolvimento de games apresentação calouros
Desenvolvimento de games apresentação calourosDesenvolvimento de games apresentação calouros
Desenvolvimento de games apresentação calourosVivaldo Jose Breternitz
 

Mais de Vivaldo Jose Breternitz (20)

Tecnologia da Informação moldando nossas vidas
 Tecnologia da Informação moldando nossas vidas  Tecnologia da Informação moldando nossas vidas
Tecnologia da Informação moldando nossas vidas
 
A brief history of computers
A brief history of computersA brief history of computers
A brief history of computers
 
ERP curso "Boas Práticas Aplicadas ao Processo de Seleção de Sistemas ERP pa...
ERP curso "Boas Práticas Aplicadas ao Processo de Seleção de Sistemas ERP pa...ERP curso "Boas Práticas Aplicadas ao Processo de Seleção de Sistemas ERP pa...
ERP curso "Boas Práticas Aplicadas ao Processo de Seleção de Sistemas ERP pa...
 
Arquitetura Web Desacoplada - FCI/Mackenzie
Arquitetura Web Desacoplada - FCI/MackenzieArquitetura Web Desacoplada - FCI/Mackenzie
Arquitetura Web Desacoplada - FCI/Mackenzie
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
 
Apresentação do TCC das alunas Jessica Valente Juvele e Stephanie de Angelo...
Apresentação do TCC das alunas Jessica Valente Juvele e   Stephanie de Angelo...Apresentação do TCC das alunas Jessica Valente Juvele e   Stephanie de Angelo...
Apresentação do TCC das alunas Jessica Valente Juvele e Stephanie de Angelo...
 
CLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCC
CLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCCCLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCC
CLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCC
 
Big Data - uma visão executiva
Big Data - uma visão executivaBig Data - uma visão executiva
Big Data - uma visão executiva
 
Palestra 'Algumas tendências em TI' para estudantes de Matemática
Palestra 'Algumas tendências em TI' para estudantes de MatemáticaPalestra 'Algumas tendências em TI' para estudantes de Matemática
Palestra 'Algumas tendências em TI' para estudantes de Matemática
 
Vasp uma pequena história
Vasp uma pequena históriaVasp uma pequena história
Vasp uma pequena história
 
Ibm social business 20140310
Ibm social business 20140310Ibm social business 20140310
Ibm social business 20140310
 
Como criar uma sandbox no jazznet (3)
Como criar uma sandbox no jazznet (3)Como criar uma sandbox no jazznet (3)
Como criar uma sandbox no jazznet (3)
 
Companhia Paulista de Estradas de Ferro - alguns fatos
Companhia Paulista de Estradas de Ferro - alguns fatosCompanhia Paulista de Estradas de Ferro - alguns fatos
Companhia Paulista de Estradas de Ferro - alguns fatos
 
Palestra IBM-Mack Zvm linux
Palestra  IBM-Mack Zvm linux  Palestra  IBM-Mack Zvm linux
Palestra IBM-Mack Zvm linux
 
Palestra mack ibm system z overview
Palestra mack  ibm system z overviewPalestra mack  ibm system z overview
Palestra mack ibm system z overview
 
O Sistema Financeiro Nacional - uma visão geral
O Sistema Financeiro Nacional - uma visão geralO Sistema Financeiro Nacional - uma visão geral
O Sistema Financeiro Nacional - uma visão geral
 
Big Data
Big DataBig Data
Big Data
 
Desenvolvimento de games apresentação calouros
Desenvolvimento de games apresentação calourosDesenvolvimento de games apresentação calouros
Desenvolvimento de games apresentação calouros
 
Redes sociais recepção calouros
Redes sociais recepção calourosRedes sociais recepção calouros
Redes sociais recepção calouros
 
A brief history of computers
A brief history of computersA brief history of computers
A brief history of computers
 

Formação e gestão de cientistas de dados

  • 1. BIG DATA /ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS Vivaldo José Breternitz (Universidade Presbiteriana Mackenzie, São Paulo, Brasil) – vjbreternitz@mackenzie.br Fábio Silva Lopes (Universidade Presbiteriana Mackenzie, São Paulo, Brasil) – fabio.lopes@mackenzie.br Leandro Augusto da Silva ((Universidade Presbiteriana Mackenzie, São Paulo, Brasil) – leandroaugusto.silva@mackenzie.br ABSTRACT Proper analysis of the large volume of data that has been generated by conventional computer systems, social networks, sensors etc., tends to become critical for organizations, for this analysis can generate key information for their success. There is, however , a great lack of qualified professionals to do this analysis . This paper presents an overview of Big Data and Analytics , which make up the environment in which these professionals will work. It also discusses issues pertaining the necessary skills to these professionals and their training and management. The main objective of this work is to provide information to those who deal with the subject. KEYWORDS Analytics, Big Data , Data Scientists , Education , Management BIG DATA/ANALYTICS: FORMAÇÃO E GESTÃO DE CIENTISTAS DE DADOS RESUMO A análise adequada do grande volume de dados que vem sendo gerado por sistemas convencionais de computador, redes sociais, sensores etc., tende a se tornar fator crítico para as organizações, pois essa análise pode gerar informações fundamentais para o sucesso das mesmas. Há, no entanto, uma grande carência de profissionais habilitados a fazer essa análise. Este trabalho discute aspectos ligados às habilidades necessárias a esses profissionais e à sua formação e gestão, após apresentar uma visão geral de Big Data e Analytics, que compõem o ambiente onde esses profissionais atuarão. O principal objetivo do trabalho é fornecer subsídios àqueles envolvidos com o assunto. PALAVRAS-CHAVE Analytics, Big Data, Cientistas de Dados, Formação, Gestão.
  • 2. 1. INTRODUÇÃO A forma de atuação das organizações vem sendo moldada pela disponibilidade de dados. A velocidade e o volume com que estes vêm sendo criados são alucinantes: Smolan e Erwitt (2012) afirmam que até 2003 a humanidade havia gerado 5 Exabytes, e que em 2012, bastavam dois dias para que esse volume fosse criado. Este cenário tem levado as empresas a coletar, processar e analisar os dados, tornando estes um recurso valioso, fundamental para a tomada de decisão e para melhorar ou viabilizar novos produtos, serviços e processos – tudo isso contribuiu para que fosse cunhado o termo Big Data (BD), hoje utilizado de forma genérica para descrever o crescimento, a disponibilidade e o uso intensivo dos dados. O periódico The Economist entrevistou executivos de grandes organizações em sua primeira pesquisa sobre o tema Big Data (EIU, 2011). Apurou que a metade deles acreditava que os dados eram um importante ativo para suas organizações; 10% afirmaram que a disponibilidade de dados havia alterado completamente a forma como suas organizações planejavam e operavam. Mas a pesquisa apurou também que as organizações ainda tinham dificuldades com alguns aspectos básicos relacionados ao uso dos dados, dentre eles, a falta de pessoal adequadamente preparado, especialmente aqueles que o mercado vem chamando Cientistas de Dados (CD). 2. OBJETIVO, ASPECTOS METODOLÓGICOS E ESTRUTURA Dado o cenário apresentado, elaborou-se este ensaio que tem como objetivo discutir aspectos relativos à formação e gestão dos Cientistas de Dados (Data Scientists), profissionais que talvez sejam os mais importantes no processo de transformação de dados em informação, pretendendo fornecer subsídios àqueles envolvidos com o assunto. O ensaio foi produzido a partir de pesquisa bibliográfica e da experiência profissional e acadêmica dos autores, que no meio universitário vem se dedicando à pesquisa do assunto e à formação de pessoal que atuará na área; do ponto de vista estrutural inicia-se com a apresentação de visões gerais de Big Data e Analytics, seguida pela discussão de temas ligados aos Cientistas de Dados (CD), em especial as características pessoais desejadas, sua formação e gestão (contratação, ambiente de trabalho e retenção). 3. BIG DATA – UMA VISÃO GERAL Alguns autores, como Zikipoulos et al (2012) dizem que Big Data se caracteriza por quatro aspectos: volume, velocidade, variedade e veracidade. O aspecto “volume” refere-se ao fato de que a quantidade de dados cresce de maneira exponencial, provenientes não só de sistemas convencionais, mas também de fontes como Facebook, Tweeter, You Tube, eletrônica embarcada, telefones celulares e assemelhados, sensores de diversos tipos, etc. McAfee e Brynjolfsson (2012) apresentam outro aspecto relevante de Big Data: a velocidade em que dados podem ser capturados e processados, praticamente em tempo real, podendo dar a uma organização vantagem competitiva. Exemplificam essa afirmação relatando experimento conduzido pelo grupo de pesquisa do Prof. Alex Pentland, do MIT Media Lab: o grupo capturou dados relativos à localização de celulares de forma a descobrir quantas pessoas colocaram seus carros nos estacionamentos de lojas do grupo americano Macy’s no Black Friday de 2011 (data que marca o inicio da temporada de compras de Natal nos Estados Unidos); isso permitiu estimar com precisão as vendas dessas lojas antes mesmo que elas ocorressem, gerando vantagens competitivas às áreas
  • 3. comerciais e de marketing e a terceiros, como investidores em bolsas de valores. Esse caso e outros similares são relatados também por Clifford (2012). No que se refere a “variedade”, cabe registrar que além de fontes diferentes, os dados coletados têm frequentemente, características diferentes das dos processados pelos sistemas convencionais, não sendo estruturados e referindo-se a coisas como som, imagem, movimento, temperatura, umidade etc. (Lohr, 2012). Davenport (2014) chama a atenção para este aspecto, ao dizer que apesar de o volume de dados ser o que mais chama a atenção, a falta de estrutura é o aspecto mais difícil para o trabalho na área. O aspecto “veracidade” está relacionado ao fato de que os dados não são “perfeitos”, no sentido de que é preciso considerar o quão bons eles devem ser para que gerem informações úteis e também os custos para torná-los bons. As ferramentas computacionais vêm acompanhando o crescimento dessa velocidade e do volume de dados, em termos de capacidade de armazenamento e processamento. Destacam-se nesse assunto as pesquisas em corrente contínua de dados (stream computing) e em técnicas de inteligência artificial. No modelo convencional de armazenamento de dados e tomada de decisão, a organização filtra dados dos seus vários sistemas e após criar um data warehouse, constrói consultas (queries) a fim de subsidiar a tomada de decisões. Na prática faz-se garimpagem (mining) em uma base de dados estática, que não reflete o momento, mas sim o contexto de horas, dias ou mesmo semanas atrás – tudo isso pode ser chamado Business Intelligence (BI). Com stream computing, esse mining ocorre em tempo praticamente real, com uma corrente contínua de dados (streaming data) submetida a um conjunto de queries ou algoritmos analíticos. Essa dinâmica pode ser considerada um novo paradigma. Na Inteligência Artificial, por sua vez, destacam-se os estudos em processamento de linguagem natural (natural language processing), reconhecimento de padrões (pattern recognition) e aprendizado de máquina (machine learning) que podem ajudar a extrair dos grandes volumes de dados conhecimento para auxiliar a gestão (Lohr, 2012). De forma a complementar as ferramentas computacionais, novos paradigmas de gerenciadores de bancos de dados NoSQL (Not Only SQL), representados por ferramentas como o Cassandra e Mongo-DB vem sendo apresentados como soluções que tratam imensos volumes de dados com muita velocidade. Essas ferramentas, geralmente são inseridas em frameworks como o Hadoop, que orquestram o gerenciamento distribuído de arquivos, bem como o processamento paralelo, de modo a garantir a performance das aplicações implementadas. Soluções conjugando hardware e software na modalidade in memory processing como as providas pela IBM e SAP, Netezza Accelerator e HANA respectivamente, já estão disponíveis, permitindo ainda maior aceleração do processamento dessas operações. 4. ANALYTICS – UMA VISÃO GERAL Na atualidade, as organizações estão explorando os grandes volumes de dados na tentativa de obter informações que lhes sejam úteis, quer acerca do que vem ocorrendo, quer acerca do futuro. Essa exploração, a que se chama Analytics, é feita com o uso de diferentes ferramentas, baseadas em análise preditiva, mineração de dados, estatística, inteligência artificial e outras - a partir deste ponto, neste trabalho, vai ser utilizada a expressão BDA (Big Data Analytics). As possibilidades de aplicação desses conceitos são inúmeras, em finanças, saúde, segurança, manufatura etc. McAfee e Brynjolfsson (2012) conduziram estudos que
  • 4. levaram à conclusão de que as empresas que efetivamente utilizam BDA são 5% mais produtivas e 6% mais lucrativas que seus competidores – esses números são um poderoso argumento em prol da utilização dessa abordagem. Davis (2014) reitera a importância do tema ao dizer que BDA não é apenas marketing hype ou apenas uma nova versão ou novo nome para os métodos de análise estatística e manipulação de dados já existentes; BDA é algo realmente novo, que dá vida à antiga ideia de que a computação vai mudar definitivamente o mundo dos negócios. Russom (2011) relaciona alguns dos motivos pelos quais as organizações vêm utilizando BDA; os principais deles são conseguir desenvolver social marketing mais eficiente, obter mais e melhores insights acerca de seus negócios, segmentar base de clientes, identificar oportunidades de negócios, automatizar decisões em processos em tempo real, identificar previamente clientes que possam deixar de sê-lo (churn), detectar fraudes etc. Apesar de o ferramental necessário estar sendo desenvolvido, é preciso lembrar que a utilização de BDA impõe às organizações a aplicação de novas habilidades e formas de atuar; como ocorre com muita frequência, simplesmente aportar ao processo tecnologia no estado da arte não é suficiente, embora parte importante em uma estratégia de utilização de BDA. Já se percebe que não é possível encontrar essas novas habilidades em apenas um tipo de profissional; já se pode identificar distintas funções ligadas ao tema, como os Arquitetos de Dados, que definirão como os dados provenientes de diversas fontes serão organizados; Data Visualizers, que cuidarão de temas ligados à apresentação das informações geradas; Engenheiros de Dados, cuidando de manter a infraestrutura necessária funcionando adequadamente e outros; note-se que para diversas funções não há ainda sequer um nome em português. Reitera-se que este ensaio trata apenas de aspectos relacionados ao Cientista de Dados, profissional de extrema importância, talvez o mais importante, quando se utiliza BDA. 5. O CIENTISTA DE DADOS Ainda não há uma definição precisa do que seja um Cientista de Dados, de seu papel nas organizações e dos conhecimentos e habilidades necessárias à função (Chatfield, Shlemoon, Redublado & Rahman, 2014); estes autores identificaram 24 definições do que seja um CD. No âmbito deste trabalho, poderíamos citar as definições de Davenport e Patil (2012), que afirmam ser este um profissional de alto nível com treinamento e curiosidade para fazer descobertas no mundo de big data (Patil cunhou o termo em 2008, enquanto trabalhava para o LinkedIn). Já Granville (2014), diz que um CD é um generalista que conhece negócios, estatística, ciência da computação e relaciona alguns conhecimentos e capacidades específicas que o mesmo deve ter, tais como arquitetura de dados, comunicação no ambiente empresarial e outras. Harris, Shetterley, Alter & Schnell (2013:3), são contundentes ao afirmarem que CD é “the most common term for the often PhD-level experts who operate at the frontier of analytics, where data sets are so large and the data so messy that lessskilled analysts using traditional tools cannot make sense of them. But they are more precisely described as data engineer-scientist-manager- teachers.”
  • 5. Passa-se agora a discutir os temas apontados no objetivo deste trabalho, em especial as características pessoais desejadas em um CD, sua formação e gestão (contratação, ambiente de trabalho e retenção). 5.1. Características pessoais desejadas Diversos autores vêm discutindo as características pessoais que são desejáveis em CDs, destacando-se entre elas curiosidade e criatividade (Van Der Aalst, 2014; Davenport & Patil, 2012). Iniciativa e capacidade de enfrentar dificuldades são outras qualidades importantes, conforme Davenport e Patil (2012), que relatam como Jonathan Goldman, a despeito do desinteresse e até oposição de superiores e colegas, conseguiu implementar no LinkedIn a funcionalidade “People You May Know“, que trouxe à empresa milhões de novas page views. Os mesmos autores realçam a importância da capacidade de comunicação com os demais envolvidos no processo, quer os técnicos, quer os usuários. Loukides (2010) menciona também a paciência, a capacidade de desenvolver soluções de forma incremental, gerando produtos inicialmente pequenos, mas que podem evoluir para soluções mais amplas. Cita também a capacidade de “pensar fora da caixa”, partindo de situações do tipo “temos uma grande quantidade de dados, o que podemos fazer com eles?”. 5.2. A formação dos CD As pessoas que atualmente estão atuando como CD tem formação acadêmica muito diversificada, embora possuam, quase sempre, cursos de pós-graduação stricto sensu nas chamadas hard sciences (física, matemática e similares). Mamonov, Misra & Jain (2014), no entanto, sugerem que graduados em Sistemas de Informação podem receber com relativa facilidade a formação complementar para atuarem como CD, por ser esse curso composto por disciplinas desse tipo complementadas por disciplinas voltadas à área de negócios. Miller (2014) recomenda que as empresas e a academia devam trabalhar conjuntamente de forma a que se possa formar pessoal adequadamente. Estão surgindo no exterior alguns cursos de pós-graduação voltados especificamente para a formação de profissionais para BDA; movimento similar se observa no Brasil, especialmente na modalidade lato sensu, envolvendo a Universidade Presbiteriana Mackenzie, a Escola Superior de Propaganda e Marketing e a Fundação Getúlio Vargas, entre poucas outras. Ainda no exterior, algumas universidades estão alterando seus currículos para incluir BDA em cursos de graduação, inclusive criando laboratórios onde estudantes possam analisar dados de interesse de suas áreas específicas – laboratórios como esses são importantes para que os alunos desenvolvam um conhecimento prático acerca domo aplicar BDA no ambiente empresarial. Miller (2014) lembra que manter o foco apenas em funções específicas não atenderá as necessidades do futuro próximo, propondo que o conhecimento desses temas deve ser dado em todos os currículos, independentemente da formação pretendida, pois sem conhecimentos, mesmo que elementares, acerca de BDA, os alunos não estarão preparados para os desafios do atual ambiente empresarial – esses conhecimentos elementares devem ser, no mínimo, os necessários à comunicação eficaz com os CD. Grandes empresas vêm se preocupando com a qualificação de seus recursos humanos, movimento que também começa a se observar em suas subsidiárias no Brasil; como exemplo, podem-se citar iniciativas da IBM em parceria com a Universidade Presbiteriana Mackenzie, envolvendo treinamento de professores e alunos, criação de cursos etc.
  • 6. Brooks (2012) diz que um grande desafio para as universidades está no fato de que o tema exige T-shaped professionals, ou profissionais com o perfil “T”, ou ainda, o “especialista generalista”. No caso, a barra horizontal do “T” é a formação básica, que deve ser suficientemente ampla para que o profissional desenvolva as habilidades para influenciar pessoas, atuar em equipes multidisciplinares, vislumbrar oportunidades e encontrar soluções para problemas complexos. Já a barra vertical, caracteriza o aprofundamento nos temas ligados a BDA propriamente dito. Tudo isso, implica na necessidade de criar novos currículos e adaptar os já existentes; o pessoal envolvido deverá conhecer de maneira profunda matemática, estatística, aprendizado de máquina (machine learning), análise preditiva, ciência da computação, programação, ética, legislação, privacidade, comunicação (visualização), segurança de dados, banco de dados, mineração de dados etc. (Miller, 2014). Além de criação e adaptação de currículos, outras medidas podem ser tomadas, como a criação de descrições formalizadas dos diversos cargos envolvidos, certificações, comunidades de profissionais, parcerias empresas/universidades/governos, grupos de trabalho para tratar de pontos críticos como segurança da informação e privacidade, por exemplo, e grupos de pesquisa vinculados a universidades. Miller (2014) reitera que o desafio não envolve apenas Tecnologia da Informação. Funções tão díspares como marketing, finanças, desenvolvimento de produtos, manufatura e operações serão afetadas pelo fenômeno BDA – e que as empresas devem estar preparadas para isso também em termos de recursos humanos. 5.3. A gestão dos CD Davenport e Patil (2012), afirmam que a falta de pessoal, especialmente CD, está se tornando uma séria restrição em alguns setores, a ponto de algumas empresas estarem criando times especializados no recrutamento desses profissionais. Dizem também que, dada a escassez desses profissionais, o desafio é aprender a identificar talentos, atrai-los e torna-los produtivos. Nenhuma dessas tarefas pode ser executada de forma similar à que é executada para as funções convencionais, pois além de praticamente não existirem cursos que formem CD, ainda há pouco consenso sobre onde seu trabalho “se encaixa” na organização e como seu desempenho pode ser medido. Há a percepção de que a disputa por talentos deve ser intensa e que como os profissionais da área tendem a se interessar muito por desafios, os responsáveis pelo recrutamento e seleção devem estar preparados para “vender” suas oportunidades aos candidatos enfatizando este aspecto. Evidentemente, salários e outros benefícios tem seu peso, e na medida em que os profissionais são raros, estes tendem a serem maiores. Em situações como essas, as organizações podem ser levadas a considerar a hipótese de contratar os serviços desses profissionais através de grandes empresas de consultoria, como ocorre com frequência quando se trata do uso de novas tecnologias. Davenport e Patil (2012) são céticos quanto aos resultados dessa abordagem, mencionando que profissionais com esse perfil não desejam simplesmente dizer a executivos o que suas análises recomendam que estes devam fazer, mas sim pretendem “construir coisas”, deixando suas marcas no ambiente em que atuam; quanto mais se espera deles, mais eles tendem a se motivar, e é importante desafia-los, cobra-los. Pelas suas características pessoais, CD não se dão bem trabalhando em estruturas onde o controle é muito rígido – cronogramas, fronteiras departamentais, job descriptions, horários, dress code e outras regras tendem a incomodar esses profissionais; eles precisam
  • 7. de liberdade para experimentar e explorar, para adicionar valor, inovar, para o que é necessário um relacionamento mais próximo com executivos responsáveis por produtos e serviços que podem ser impactados pelos resultados de BDA do que com aqueles responsáveis pelas “caixas” do organograma. Dadas essas dificuldades para as empresas, pode-se perguntar se não seria interessante para estas simplesmente aguardar até que o número de CD no mercado se torne maior, o que deve ocorrer pelo interesse das universidades em formar pessoal, e ai contratar pessoal mais facilmente e a menor custo – cabe lembrar que esse fenômeno já ocorreu com diversas especialidades, como por exemplo, desenvolvedores na área de sistemas. Esse raciocínio não parece válido, na medida em que a demanda por CD não parece estar diminuindo, e provavelmente um equilíbrio oferta/demanda acontecerá apenas em prazo longo; esperar pode dar aos concorrentes vantagens que não poderão ser tiradas. Nesse sentido, Mamonov et al (2014) reportam que em junho de 2014, apenas na cidade de Nova Iorque, existiam cerca 5.800 ofertas de emprego na área, pagando salários anuais entre US$ 60 mil e US$ 140 mil, além de cerca de 1.100 ofertas com salários acima de US$ 140 mil anuais 6. CONSIDERAÇÕES FINAIS Na medida em que o volume de dados disponíveis e a capacidade para armazena-los e analisa-los aumenta exponencialmente, é de se esperar que seu uso também aumente de forma similar. Isso caracteriza uma ruptura, ao impactar a forma pela qual as organizações são administradas: novas formas de planejar e tomar decisões estão surgindo, a competição deve se acirrar e profissionais para atuar nesse cenário serão necessários cada vez em maior número; dentre esses, os Cientistas de Dados são os mais importantes e de formação mais difícil. Tem se observado que, quando ocorrem rupturas similares a essa, os mercados de tecnologia e educação sofrem alterações, quer no sentido positivo, quando empresas e instituições de ensino respeitáveis passam a pesquisar o assunto e a oferecer serviços para atender às novas demandas e cursos destinados a preparar os recursos humanos necessários, quer no sentido negativo, quando empresas e instituições de ensino menos comprometidos com a qualidade lançam produtos e serviços de qualidade questionável, proliferando serviços de consultoria, educação e treinamento, literatura e também software quase sempre inadequados para uma abordagem adequada do assunto. Cabe às empresas usuárias e aos profissionais que pretendem atuar na área tentar separar o joio do trigo, o que em alguns lugares, como no Brasil, infelizmente não acontece com a desejável frequência. REFERÊNCIAS Brooks, K. (2012). Career success starts with a “T”. Psychology Today, Recuperado de http://www.psychologytoday.com/blog/career-transitions/201204/career-success-starts-t em 19.12.2014. Chatfield, A. T., Shlemoon, V. N., Redublado, W. & Rahman, F. (2014). Data Scientists as a Game Changers in Big Data Environments. Proceedings of the 25th Australasian Conference on Information Systems (ACIS), Auckland, New Zealand. Clifford, S. (2012) Retail Frenzy: Prices on the Web Change Hourly. The New York Times, edição de 30.11.2012. Recuperado de
  • 8. http://www.nytimes.com/2012/12/01/business/online-retailers-rush-to-adjust-prices-in- real-time.html?pagewanted=all&_r=0 em 19.12.2014. Davenport, T. H. (2014). Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Boston: Harvard Business School Publishing. Davenport, T. H. & Patil, D. J. (2012). Data Scientist: the Sexiest Job of the 21st Century. Harvard Business Review, edição de outubro de 2012, pp. 70-76. Davis, C. K. (2014) Beyond Data and Analysis. Communications of the ACM, 57 (6), pp. 39-41. EIU – Economist Intelligence Unit (2011). Big data - Harnessing a Game-Changing Asset. Londres: The Economist, author. Recuperado de http://www.sas.com/resources/asset/SAS_BigData_final.pdf em 19.12.2014. Granville, V. (2014). Developing Analytic Talent. Becoming a Data Scientist. Indianapolis: John Wiley. Harris, J.G., Shetterley, N., Alter, A.E. & Schnell, K. (2013) The Team Solution to the Data Scientist Shortage. Accenture Institute for High Performance. Recuperado de http://www.accenture.com/SiteCollectionDocuments/PDF/Accenture-Team-Solution-Data- Scientist-Shortage.pdf, acessado em 12.12.2014. Lohr, S. (2012). The Age of Big Data. The New York Times, edição de 11.02.2012. Recuperado de www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the- world.html?_r=1&scp=1&sq=Big%20Data&st=cse em 09.05.2014. Loukides, M. (2010) What Is Data Science? O’Reilly, edição digital (Kindle) disponível em http://www.amazon.com/What-Data-Science-Mike-Loukides- ebook/dp/B007R8BHAK/ref=sr_1_1?s=books&ie=UTF8&qid=1399984583&sr=1- 1&keywords=data+scientist, baixado em 12.05.2014. Mamonov, S., Misra, R. & Jain, R. (2014). Business Analytics in Practice and in Education: A Competency-based Perspective. Proceedings of the Information Systems Educators Conference, 31, Baltimore, USA. McAfee, A., Brynjolfsson, E. (2012). Big Data: The Management Revolution”. Harvard Business Review , edição de outubro de 2012, pp. 60–68. Miller, S. (2014). Collaborative Approaches Needed to Close the Big Data Skills Gap. Journal of Organization Design, 3 (1), 26-30. Russom, P. (2011). Big Data Analytics. Renton: TDWI. Smolan, R. & Erwitt, J. (2012). The human face of Big Data. Sausalito: Against All Odds Productions. Van Der Aalst, W. M. P. 2014. Data Scientist: The Engineer of the Future. Proceedings of the I-ESA Conferences, 7, 13-26. Zikopoulos, P., De Roos, D., Parasuraman, K., Deutsch, T., Giles, J. & Corrigan, D. (2012). Harness the power of Big Data- The IBM Big Data Platform. Emeryville: McGraw-Hill Osborne Media.