O documento apresenta o plano de um curso de Big Data e Data Mining para Indústria 4.0, com módulos sobre mapa de fluxo de valor, simulação de processos industriais, análise de big data, internet das coisas, robótica, drones, manutenção aditiva e segurança cibernética. Inclui também conceitos sobre estruturação e modelagem de dados, ferramentas de business intelligence, inteligência artificial, armazenamento em nuvem e conceitos estatísticos e de probabilidade.
Artigo - Exploração Visual de Dados de Partidas de Jogos MOBAArthur Haro
Trabalho de Conclusão de Curso realizado na Faculdade de Ciências e Tecnologia - FCT UNESP, no Departamento de Matemática e Computação, em Presidente Prudente, Brasil.
Resumo:
O cenário competitivo dos jogos vem crescendo a cada ano e se tornando cada vez mais popular. O jogo Dota 2, por exemplo, realizou um campeonato em 2017 que teve uma premiação superior a 24 milhões de dólares, mostrando que os jogos não são mais encarados apenas como forma de entretenimento, mas também como uma profissão. Diante da necessidade de jogadores mais competitivos entenderem melhor os fatores que influenciam nos resultados de partidas, o presente trabalho apresenta uma abordagem de exploração baseada em Visualização de Informação nos dados de cem partidas do jogo Dota 2. Utilizou-se as técnicas de Coordenadas Paralelas, Matriz de Scatterplot e Star Plot, e então, uma classificação foi feita utilizando uma Rede Neural Backpropagation, que se mostrou ter uma alta acurácia, com 98.5% de taxa de acerto. Os resultados obtidos também mostram que em 84% das partidas em que a média de dano em construções inimigas foi menor que 1750 resultaram em derrota.
Você já deve ter percebido como dados têm sido tema recorrente na maioria das empresas. Mas por que isso acontece?
Simples! Segundo a Nielsen, passamos, em média, 10 horas em frente às nossas telas preferidas. Em 2020, estima-se que cada pessoa será capaz de gerar 1,7 MB de dados por segundo, como aponta a sexta edição Data Never Sleeps — de acordo com a ONU, já somos mais de 7 bilhões, faz só essa conta.
Vamos revelar como a Ciência de Dados é a solução para quem quer lançar um olhar estratégico sobre o ecossistema de dados que orbita seu negócio.
Conversaremos também sobre como o Data Science pode gerar: redução de custos, aumento de eficiência, reconhecimento de novas oportunidades de mercado e aumento da vantagem competitiva e de valor de negócio.
Aproveite a oportunidade de ficar por dentro de um dos temas mais reincidente nas agendas dos executivos globais - Data Science.
Artigo - Exploração Visual de Dados de Partidas de Jogos MOBAArthur Haro
Trabalho de Conclusão de Curso realizado na Faculdade de Ciências e Tecnologia - FCT UNESP, no Departamento de Matemática e Computação, em Presidente Prudente, Brasil.
Resumo:
O cenário competitivo dos jogos vem crescendo a cada ano e se tornando cada vez mais popular. O jogo Dota 2, por exemplo, realizou um campeonato em 2017 que teve uma premiação superior a 24 milhões de dólares, mostrando que os jogos não são mais encarados apenas como forma de entretenimento, mas também como uma profissão. Diante da necessidade de jogadores mais competitivos entenderem melhor os fatores que influenciam nos resultados de partidas, o presente trabalho apresenta uma abordagem de exploração baseada em Visualização de Informação nos dados de cem partidas do jogo Dota 2. Utilizou-se as técnicas de Coordenadas Paralelas, Matriz de Scatterplot e Star Plot, e então, uma classificação foi feita utilizando uma Rede Neural Backpropagation, que se mostrou ter uma alta acurácia, com 98.5% de taxa de acerto. Os resultados obtidos também mostram que em 84% das partidas em que a média de dano em construções inimigas foi menor que 1750 resultaram em derrota.
Você já deve ter percebido como dados têm sido tema recorrente na maioria das empresas. Mas por que isso acontece?
Simples! Segundo a Nielsen, passamos, em média, 10 horas em frente às nossas telas preferidas. Em 2020, estima-se que cada pessoa será capaz de gerar 1,7 MB de dados por segundo, como aponta a sexta edição Data Never Sleeps — de acordo com a ONU, já somos mais de 7 bilhões, faz só essa conta.
Vamos revelar como a Ciência de Dados é a solução para quem quer lançar um olhar estratégico sobre o ecossistema de dados que orbita seu negócio.
Conversaremos também sobre como o Data Science pode gerar: redução de custos, aumento de eficiência, reconhecimento de novas oportunidades de mercado e aumento da vantagem competitiva e de valor de negócio.
Aproveite a oportunidade de ficar por dentro de um dos temas mais reincidente nas agendas dos executivos globais - Data Science.
O objetivo desta palestra é apresentar o que é o Big Data, suas principais
características além do perfil do profissional desta área.
Ao longo da apresentação busco mostrar como é possível criar projetos
de grande valor organizacional. Além de
compartilhar um código-fonte de fácil entendimento que ja tornaria possível
gerar ótimos resultados com poucos conhecimentos
Também deixa minha explícita minha convicção que o valor não está no Big Data em si
mas sim na cultura de abordagem sistêmica através de matemática e estatística que
oferece o poder de extração de dados a partir de dados e geração de informação
A Inteligência Artificial contribui para criar, ampliar e melhorar os sistemas de serviços, estabelecendo os algoritmos que irão subsidiar o processo de tomada de decisão no ambiente das organizações. Também contribuem para a solução dos problemas relacionados à gestão por resultados, visando à melhoria dos serviços públicos prestados, em face de uma demanda de serviços superior à capacidade instalada.
ATENÇÃO: Como é um slide mais visual, os texto de apoio que estão apartir do slide 10 são de extrema importância, leia-os para compreender sobre o tema.
DESIGN DO SLIDE DE AUTORIA DE DAYANE CRISTINE LEITE.
ROTEIRO DO SLIDE DE AUTORIA DE MIGUEL DE OLIVEIRA.
Trabalho apresentado em equipe para a matéria de Fundamentos de Sistemas de Informação em 2018.
Links utilizados:
http://nyti.ms/1EQTznL
http://on.fb.me/1EQTq3A
https://www.cetax.com.br/blog/data-science-ou-ciencia-de-dados/
https://datajobs.com/what-is-data-science
https://www.datasciencegraduateprograms.com/python/
A alguns anos comecei a estudar para me tornar um Cientista de Dados. Ainda Não estou totalmente lá, mas essa palestra traz algumas coisas que aprendi e recursos para aprender ainda mais.
Proper analysis of the large volume of data that has been generated by conventional computer systems, social networks, sensors etc., tends to become critical for organizations, for this analysis can generate key information for their success. There is, however , a great lack of qualified professionals to do this analysis . This paper presents an overview of Big Data and Analytics , which make up the environment in which these professionals will work. It also discusses issues pertaining the necessary skills to these professionals and their training and management. The main objective of this work is to provide information to those who deal with the subject.
Esta é uma versão desatualizada dos slides. A versão aperfeiçoada está no link https://www.slideshare.net/MarcoAntonioFilgueir/workshop-meetup-viso-geral-sobre-big-data-88203595?trk=v-feed
The abundance of data and the speed at which they are generated have led to changes in planning and operation in various organizational instances. Big Data, the name given to a set of technology trends that allows a new approach to the treatment and exploration of large sets of data for decision making, allows the dynamics of a society can be analyzed from the perspective of information. Computational Social Science (CSS), as this type of analysis is defined, suggests a discussion of the risks in the discovery of information in this social context. It is in this discussion that the work fits, presenting Big Data and CSS, and discussing the risks inherent in its practical uses.
O objetivo desta palestra é apresentar o que é o Big Data, suas principais
características além do perfil do profissional desta área.
Ao longo da apresentação busco mostrar como é possível criar projetos
de grande valor organizacional. Além de
compartilhar um código-fonte de fácil entendimento que ja tornaria possível
gerar ótimos resultados com poucos conhecimentos
Também deixa minha explícita minha convicção que o valor não está no Big Data em si
mas sim na cultura de abordagem sistêmica através de matemática e estatística que
oferece o poder de extração de dados a partir de dados e geração de informação
A Inteligência Artificial contribui para criar, ampliar e melhorar os sistemas de serviços, estabelecendo os algoritmos que irão subsidiar o processo de tomada de decisão no ambiente das organizações. Também contribuem para a solução dos problemas relacionados à gestão por resultados, visando à melhoria dos serviços públicos prestados, em face de uma demanda de serviços superior à capacidade instalada.
ATENÇÃO: Como é um slide mais visual, os texto de apoio que estão apartir do slide 10 são de extrema importância, leia-os para compreender sobre o tema.
DESIGN DO SLIDE DE AUTORIA DE DAYANE CRISTINE LEITE.
ROTEIRO DO SLIDE DE AUTORIA DE MIGUEL DE OLIVEIRA.
Trabalho apresentado em equipe para a matéria de Fundamentos de Sistemas de Informação em 2018.
Links utilizados:
http://nyti.ms/1EQTznL
http://on.fb.me/1EQTq3A
https://www.cetax.com.br/blog/data-science-ou-ciencia-de-dados/
https://datajobs.com/what-is-data-science
https://www.datasciencegraduateprograms.com/python/
A alguns anos comecei a estudar para me tornar um Cientista de Dados. Ainda Não estou totalmente lá, mas essa palestra traz algumas coisas que aprendi e recursos para aprender ainda mais.
Proper analysis of the large volume of data that has been generated by conventional computer systems, social networks, sensors etc., tends to become critical for organizations, for this analysis can generate key information for their success. There is, however , a great lack of qualified professionals to do this analysis . This paper presents an overview of Big Data and Analytics , which make up the environment in which these professionals will work. It also discusses issues pertaining the necessary skills to these professionals and their training and management. The main objective of this work is to provide information to those who deal with the subject.
Esta é uma versão desatualizada dos slides. A versão aperfeiçoada está no link https://www.slideshare.net/MarcoAntonioFilgueir/workshop-meetup-viso-geral-sobre-big-data-88203595?trk=v-feed
The abundance of data and the speed at which they are generated have led to changes in planning and operation in various organizational instances. Big Data, the name given to a set of technology trends that allows a new approach to the treatment and exploration of large sets of data for decision making, allows the dynamics of a society can be analyzed from the perspective of information. Computational Social Science (CSS), as this type of analysis is defined, suggests a discussion of the risks in the discovery of information in this social context. It is in this discussion that the work fits, presenting Big Data and CSS, and discussing the risks inherent in its practical uses.
1. DISCIPLINA: BIG DATA E DATA MINING
CONCEITOS
PROF. MARCELO LUIZ LOPES ROCHA, M.SC
MLLR3M@GMAIL.COM – 92 984323066.
AULA 3
2. 2
INDUSTRIA 4.0 – ID85A
Módulos C/H Datas
Mapa de Fluxo de Valor e
Virtualização
45
horas
05, 06, 07, 12, 13, 14, 19, 20, 21 de
dezembro de 2018.
Simulação de Processos
Industriais
45
horas
30, 31 de janeiro. 01, 13, 14, 15, 27, 28
de fevereiro. 01 de março de 2019.
Big Data Analysis e Data Mining
para Indústria
45
horas
13, 14, 15, 27, 28, 29 de março. 10, 11,
12 de abril de 2019.
IoT Aplicado aos Negócios e
Realidade Aumentada
45
horas
24, 25, 26 de abril. 08, 09, 10, 22, 23, 24
de maio de 2019.
Robótica Colaborativa e
Exoesqueleto
45
horas
05, 06, 07, 12, 13, 14 de junho. 03, 04,
05 de julho de 2019.
Veículos Aéreos Não Tripulados
(DRONES)
45
horas
31 de julho. 01, 02, 14, 15, 16, 28, 29, 30
de agosto de 2019.
Manutenção Aditiva e Preditiva
com Prototipagem 3D
45
horas
11, 12, 13, 25, 26, 27 de setembro. 09,
10, 11 de outubro de 2019.
Cyber Security
45
horas
30, 31 de outubro. 01, 13, 14, 15, 27, 28,
29 de novembro de 2019.
4. 4
DADOS! DADOS! DADOS!
Vivemos em um mundo que está soterrado por dados. Os websites
rastreiam todos os seus clientes, os smartphones fazem registros da
localização de seus usuários, carros inteligentes coletam hábitos de
direção, casas inteligentes coletam hábitos de moradia e
marqueteiros inteligentes coletam hábitos de compra.
Redação ENEM 2018/2019: “Manipulação do comportamento do
usuário pelo controle de dados na internet”. Os textos apresentados
pela banca fizeram referência ao algoritmo e como o próprio usuário
alimenta o sistema com aplicativos de música ou redes sociais, por
exemplo, de forma que insere nesse sistema de informações seus
gostos e o mesmo influencia nas suas preferências e opiniões.
Muitos se manifestaram sobre a possibilidade de abordar um tema
específico: as fake news.
5. 5
O QUE FAZ UM CIENTISTA DE DADOS?
O mundo de hoje está cheio de pessoas tentando transformar dados
em conhecimento. Um cientista de dados é alguém que extrai
conhecimento de dados desorganizados.
Em 2012, a campanha de Obama empregou muitos cientistas de
dados que mineraram os dados e experimentarem uma forma de
identificar os eleitores que precisavam de uma atenção extra,
otimizar programas e recursos para a captação de fundos de
doadores específicos e focando esforços para votos onde
provavelmente eles teriam sido úteis. É seguro apostar que as
campanhas políticas do futuro se tornem cada vez mais dependente
de dados.
7. VISUALIZAÇÃO DE DADOS
7
Uma parte fundamental do kit de ferramentas do cientista
de dados é a visualização de dados. Existem dois usos
primários para a visualização de dados:
Para explorar dados
Para comunicar dados
8. VISUALIZAÇÃO DE DADOS
8
Gráficos de Barra
Um gráfico de barra é uma boa escolha quando você quer
mostrar como algumas quantidades variam entre um
conjunto particular de itens
Gráficos de Linhas
Gráficos de linha são uma boa escolha ao mostrar
tendências
Gráficos de Dispersão
Um gráfico de dispersão é a escolha certa para visualizar o
relacionamento entre dois pares de conjuntos de dados.
10. ESTATÍSTICA
10
Para entender a linguagem que descreve os datasets,
precisamos das noções básicas de ESTATÍSTICA!!!
“Statistics refers to the mathematics and techniques whit
which we understand data” – Joel Grus
11. ESTATÍSTICA
11
TENDÊNCIAS CENTRAIS:
Geralmente, queremos ter alguma noção de onde nossos dados
estão centrados.
A média será mais utilizada pois ela é a soma dos dados divido pela
sua contagem. Se você tem dois pontos de dados, a média é o ponto
no meio do caminho entre eles, conforme você acrescenta mais
pontos, a média se move, mas sempre dependendo do valor de cada
ponto.
Algumas vezes nos interessamos pela mediana, que é o valor do meio
(se o número de pontos de dados for ímpar) ou a média dos dois
valores que estiverem bem no meio (se o número de pontos de dados
for par).
12. ESTATÍSTICA
12
DISPERSÃO:
A dispersão se refere à medida de como os nossos dados estão
espalhados. Tipicamente, eles são estatísticas em que valore perto
de zero significam não estão espalhados de forma alguma e para
maiores significa muito espalhados.
Uma simples medida de dispersão é a amplitude, que é a diferença
entre o maior e o menor elemento.
Uma medida de dispersão mais complexa é a variância, que em uma
amostra global corresponde ao desvio do quadrado médio da média.
Como a variância possui unidades que são os quadrados das unidades
originais, geralmente utilizamos a medida de dispersão desvio
padrão, que corresponde a raiz quadrada da variância.
14. PROBABILIDADE
14
Para os propósitos da data sciece, probabilidade será vista como
uma forma de quantificar a incerteza associada com eventos
escolhidos a partir de um universo deles. Pense no lançamento de
um dado, o universo consiste de todos os resultados possíveis,
cada subconjunto desses resultados é um evento. Escrevemos P(E)
como para “a probabilidade do evento E”. A probabilidade será
utilizada tanto para construir quanto para avaliar modelos.
15. PROBABILIDADE
15
Dados dois eventos E e F, eles serão ditos
dependentes se soubermos algo sobre se
E ocorre nos der informações sobre se F
ocorre. Do contrário, são independentes.
Matematicamente, dizemos esses eventos
são independentes se a probabilidade
deles acontecerem é o produto de que
cada um deles aconteça:
P (E, F) = P(E) × P(F).
Se não são necessariamente
independentes, logo definimos a
probabilidade de E “condicionada a F”
assim:
P(E|F) = P(E,F) ÷ P(F), por tanto
P (E, F) = P(E|F) × P(F).
16. PROBABILIDADE
16
TEOREMA DE BAYES:
O teorema de Bayes é uma maneira de “reverter” as probabilidades
condicionais. Quando for necessário saber a probabilidade de algum
evento E ser condicionado à ocorrência de outro evento F, se
houver apenas a informação sobre a probabilidade da ocorrência de
F sendo condicionado a E, usando a definição de probabilidade
condicional duas vezes, pode-se dizer que:
P(E|F) = P(E, F) / P(F) = P(F|E) × P(E) / P(F)
Como o evento F pode ser dividido em dois eventos mutuamente
exclusivos “F e E” e “F e não E”, logo: P(F) = P(F, E)+P(F,¬E).
Portanto:
P(E|F) = P(F|E) × P(E) / [P(F|E) × P(E) + P(F|¬E) × P(¬E)]
17. PROBABILIDADE
17
TEOREMA DE BAYES:
Imagine que uma determinada doença afete 1 a cada 10.000
pessoas. E imagine que haja um teste para essa doença que mostra
o resultado correto (“doente” se não tiver a doença e “não doente”
se não) 99% das vezes. O que significa um teste positivo? Vamos
usar T para o evento “seu teste é positivo” e D para o evento “você
tem a doença”. O teorema de Bayes diz que a probabilidade de
você ter a doença, condicional ao teste positivo é:
P(D|T) = P(T|D) × P(D) / [P(T|D) × P(D) + P(T|¬D) × P(¬D)]
18. PROBABILIDADE
18
VARIÁVEIS ALEATÓRIAS:
Uma variável aleatória é a variável cujos valores possíveis possuem
uma distribuição de probabilidade associada. A distribuição
associada dá as probabilidades que a variável possui em cada um
de seus valores possíveis. Às vezes fala-se sobre valor esperado da
variável aleatória, o qual é a média de seus valores ponderados por
suas probabilidades.
19. PROBABILIDADE
19
DISTRIBUIÇÃO NORMAL:
A distribuição normal é a rainha das distribuições. É uma das
clássica distribuição de curva em forma de sino e é determinada por
dois parâmetros: sua média μ e o desvio padrão σ. A média indica
onde o sino é centralizado e o desvio padrão indica a largura do
sino. Ela possui a função de distribuição:
𝑓 𝑥 𝜇, 𝜎 =
1
2 ∙ 𝜋 ∙ 𝜎
∙ 𝑒
−
𝑥 − 𝜇 2
2∙𝜎2
É chamada de distribuição normal padrão quando μ = 0 e σ = 1. Se
Z é uma variável aleatória normal padrão, então: X = σZ + μ
também é normal mas com a média μ e desvio padrão σ. Por outro
lado, se X é uma variável aleatória normal com média μ e desvio
padrão σ, Z = (X - μ)/σ é uma variável normal padrão.
20. APRENDIZADO DE MÁQUINA
20
Para alguns, data science é aprendizado de máquina, por
imaginarem que os cientistas de dados trabalham com modelos de
aprendizado o dia inteiro. Na verdade, data science é mais
transformar problemas empresarias em problemas de dados,
enquanto que o aprendizado de máquina é um consideração
subsequente.
Aprendizado de máquina refere-se à criação e ao uso de modelos
que são aprendidos a partir dos dados, em outros contextos
podendo ser chamado de modelo preditivo ou mineração de
dados. Normalmente o objetivo é usar dados existentes para
desenvolver modelos que possam ser usados para prever possíveis
saídas para dados novos.
21. APRENDIZADO DE MÁQUINA
21
MODELAGEM:
Modelos é a especificação de um relação matemática existente entre
variáveis diferentes. Existem vários tipos de modelos para aprendizado
de máquina:
Modelos supervisionados são aqueles nos quais existe um conjunto
de dados etiquetados com a resposta correta para aprendizagem
Modelos sem supervisão são aqueles nos quais não existe tais
etiquetas
Modelos semispervisionados são aqueles nos quais apenas alguns
dados são etiquetados
Modelos online são aqueles nos quais o modelo precisa ter um
ajuste contínuo em face de chegada de novos dados.
22. APRENDIZADO DE MÁQUINA
22
Quando seus dados não tiverem características suficientes, é possível
que seu modelo sub-ajuste. E quando seus dados possuem muitas
características, fica fácil de sobreajustar, sendo características
quaisquer entradas fornecida ao modelo.
Quase sempre as características dos dados serão do tipo booleana,
quantitativa ou qualitativa. Daí haverá respectivos modelos ideais:
O classificador Naive Bayes é destinado às características
booleanas;
Os modelos de regressão requerem características numéricas;
E as arvores de decisão podem lidar com dados numéricos ou
categóricos.
23. REDES NEURAIS
23
Uma rede neural artificial é um modelo preditivo motivado pela
forma como o cérebro funciona. Redes neurais artificias consistem
de neurônios artificiais, que desenvolvem cálculos similares sobre
entradas. Rede neurais podem resolver uma variedade de
problemas como reconhecimento de caligrafia e detecção facial, e
elas são muito usadas em deep learning, umas das subáreas mais
populares de data science.
25. ORANGE
25
Orange é um Software Open Source de programação visual baseado
em componentes utilizado para a análise de dados e aprendizado de
máquina. Ele possui um ambiente interativo, onde os componentes do
Orange (chamados widgets) podem realizar desde simples
visualização, seleção e pré-processamento de dados até avaliação de
algoritmos de aprendizado.
Na interface gráfica de programação visual são criados os workflows
dos widgets. Os widgets podem ser pré-definidos ou desenvolvidos
pelos próprios usuários. Usuários experientes podem utilizar o Orange
como um biblioteca Python de análise de dados.
28. 28
ORANGE
Modelos de Aprendizagem Supervisionada (Model): Widgets
utilizados para desenvolver classificadores ou regressores por
aprendizagem supervisionada.
37. REFERÊNCIAS
37
BRUCE, Peter; BRUCE, Andrew. Practical statistics for data scientists: 50
essential concepts. " O'Reilly Media, Inc.", 2017.
CURK, Tomaž et al. Data Mining w/o Programming. “A hands-on workshop
at the Functional Genomics Workshop”, 2014.
DEMŠAR, Janez et al. Orange: data mining toolbox in Python. The Journal of
Machine Learning Research, v. 14, n. 1, p. 2349-2353, 2013.
GRUS, Joel. Data science from scratch: first principles with python. "
O'Reilly Media, Inc.", 2015.
http://www.lac.inpe.br/ (repositório do “Laboratório Associado de Computação
e Matemática Aplicada”).