SlideShare uma empresa Scribd logo
1 de 121
Baixar para ler offline
MBA em Business Intelligence
Disciplina Data Science
www.alvarofpinheiro.eti.br 1
Docente
Prof. Álvaro Farias Pinheiro
Coordenador da Equipe de Sistemas da Procuradoria Geral do Estado (PGE-PE)
Analista em Gestão da Tecnologia da Informação e Comunicação (ATI-PE)
Mestre em Engenharia de Software
Especialista em Metodologias de Desenvolvimento
Bacharel em Sistemas de Informações
Certificado em Banco de Dados Oracle
http://www.alvarofpinheiro.eti.br
www.alvarofpinheiro.eti.br 2
Ementa
1. Introdução à Ciência de Dados
2. Conceitos sobre Dados
3. Ciclo de Vida dos Dados
4. Valor da Informação
5. Privacidade e Ética
6. Conceitos Dadabase, Data Minig, Business Intelligence, Big Data, Artificial Intelligence
7. Visão de uma Empresa orientada por dados
8. Engenharia dos Dados para Análises
9. Criação e Validação de Modelos
10. Preparação e análises exploratórias de dados
11. Validação do Conhecimento Adquirido
www.alvarofpinheiro.eti.br 3
Algumas boas referências
www.alvarofpinheiro.eti.br 4
Stuart Russell
Peter Norvig
Chirstopher Date
Felipe Machado
Ronaldo Goldschmidt
Emmanuel Passos
Eduardo Bezerra
Foster Provost
Tom Fawcett
Joel Grus
Data Science
É o estudo da forma de captura de dados
estruturados, semiestruturados e não
estruturados para transformar em informações,
que serão estudas, com o máximo de visões
possíveis sobre um determinado assunto,
objetivando realizar análise preditiva e assim
gerar conhecimento para tomada de decisões
com sabedoria. E para isso fazendo uso de
diversas disciplinas.
www.alvarofpinheiro.eti.br 5Introdução a Ciência dos Dados
Data Science
www.alvarofpinheiro.eti.br 6
Insights
Raw
Data
Introdução a Ciência dos Dados
Tipo de Dados
www.alvarofpinheiro.eti.br 7
Não
Estruturados
Estruturados
Semi
Estruturado
Conceitos sobre Dados
Dimensionalidade
www.alvarofpinheiro.eti.br 8Conceitos sobre Dados
Finalidade dos Dados
www.alvarofpinheiro.eti.br 9
Dado Informação Conhecimento Sabedoria
Conceitos sobre Dados
Unidades de Grandeza dos Dados
www.alvarofpinheiro.eti.br 10
Unidade Sigla Grandeza Caracteres Aproximação
Byte B 8 bits 1 1
KiloByte KB 210 1.024 1 mil
MegaByte MB 220 1.048.576 1 milhão
GigaByte GB 230 1.073.741.824 1 bilhão
TeraByte TB 240 1.099.511.627.776 1 trilhão
PetaByte PB 250 1.125.899.906.842.620 1 quatrilhão
ExaByte EB 260 1.152.921.504.606.850.000 1 quintilhão
ZettaByte ZB 270 1.180.591.620.717.410.000.000 1 sextilhão
YottaByte YB 280 1.208.925.819.614.630.000.000.000 1 septilhão
Conceitos sobre Dados
Hal Varian
www.alvarofpinheiro.eti.br 11
Hal Ronald Varian é economista especializado em
microeconomia e economia da informação. É o
economista-chefe na Google e professor emérito
na Universidade da Califórnia em Berkeley.
Formado pelo MIT e recebedor de vários prêmios,
com trabalhos na Universidade da Califórnia em
Berkeley, Universidade Stanford, Universidade de
Michigan e Google.
Conceitos sobre Dados
Quanta informação se produz no mundo?
www.alvarofpinheiro.eti.br 12Conceitos sobre Dados
https://youtu.be/jCgYvFR_9nY
Informação
www.alvarofpinheiro.eti.br 13
Entre os anos de 2002 e
2012, a humanidade
gerou 61 quintilhões de
dados.
Conceitos sobre Dados
Ciclo de Vida dos Dados
www.alvarofpinheiro.eti.br 14Ciclo de Vida dos Dados
Ciclo de Vida dos Dados - Projeto
Determinar quais dados precisam ser criados ou
recolhidos para a pesquisa ou função, identificando e
avaliando as fontes existentes de dados necessários,
além de padrões de dados e formato de metadados,
definindo-se ainda, ações e responsabilidades pela
gestão dos dados durante seu ciclo de vida.
www.alvarofpinheiro.eti.br 15Ciclo de Vida dos Dados
Ciclo de Vida dos Dados - Coleta
Consiste nas atividades vinculadas a definição inicial
dos dados a serem utilizados, seja na elaboração do
planejamento de como serão obtidos, filtrados e
organizados, identificando-se a estrutura, formato e
meios de descrição que será utilizado. Nesta fase o
dado deve ainda ser devidamente descrito em
metadados, avaliados e selecionados.
www.alvarofpinheiro.eti.br 16Ciclo de Vida dos Dados
Ciclo de Vida dos Dados - Processamento
É o processo de transformar a imensa massa de
dados disponíveis em informações consistentes
que permitam a tomada de decisões e agreguem
valor às atividades e aos negócios.
www.alvarofpinheiro.eti.br 17Ciclo de Vida dos Dados
Ciclo de Vida dos Dados - Distribuição
Estruturas distribuídas e sustentáveis que atendam
às necessidades da ciência e da sociedade,
persistente, robusto e seguro.
www.alvarofpinheiro.eti.br 18Ciclo de Vida dos Dados
Ciclo de Vida dos Dados - Armazenamento
São as atividades relacionadas ao processamento,
transformação, inserção, modificação, migração,
transmissão e toda e qualquer ação que vise a
persistência de dados em um suporte digital.
www.alvarofpinheiro.eti.br 19Ciclo de Vida dos Dados
Ciclo de Vida dos Dados - Recuperação
Possibilidade de geração de novos dados
originados nesta fase o que retroalimenta o ciclo e
retoma ações da fase de coleta para situações
novas ou diretamente a fase de armazenamento
para dados que já são esperados como resultado
das ações.
www.alvarofpinheiro.eti.br 20Ciclo de Vida dos Dados
Ciclo de Vida dos Dados - Análise
Apresenta-se como um objetivo que deve ser
considerado desde o momento da coleta, em que é
levado em consideração não somente no
planejamento e na elaboração do formato e dos
metadados, mas também na própria preocupação
com a preservação dos metadados em si e dos
aspectos relacionados a sua interpretação.
www.alvarofpinheiro.eti.br 21Ciclo de Vida dos Dados
Ciclo de Vida dos Dados - Reuso
Elemento de retroalimentação que pode gerar a
criação de novos registros.
www.alvarofpinheiro.eti.br 22Ciclo de Vida dos Dados
Ciclo de Vida dos Dados Básico
www.alvarofpinheiro.eti.br 23
Armazenamento
Recuperação
Coleta
A coleta tem como objetivo realizar
direcionamentos em um negócio
através de dados como o público,
consumo, concorrência, etc.
O armazenamento consiste em um
agrupamento de arquivos
importantes, persistidos em um
local seguro e que deve
proporcionar eficiência nas
pesquisas e permitir controle de
acesso.
Como os dados serão processados e transformados em informação.
Descarte
Ciclo de Vida dos Dados
Métodos de Coleta de Dados
www.alvarofpinheiro.eti.br 24
• Reunir dados que comprovem um determinado objetivo seguindo regras
• Ex.: Pesquisa de campoCientífico
• Obter dados de um grupo específico para comprovar determinado objetivo
• Ex.: Entrevistas, Brainstorm, EtnografiaQualitativo
• Uso de técnicas estatísticas envolvendo um grade grupo
• Pode ser: Explanatória, Exploratória ou Descritiva
• Ex.: Questionários
Quantitativo
• Realizar a descrição de uma experiência
• Ex.: Entrevistas, Brainstorm, EtnografiaFenomenológico
• Usa raciocínio descendente, da análise geral até a particular, chegando na conclusão
• Ex.: Uso de premissas maior e menor para chegar na razãoDedutivo
Ciclo de Vida dos Dados
Tecnologias de Armazenamento de Dados
www.alvarofpinheiro.eti.br 25
Computer
• HD
• Storage
• Farm
Media
• CD
• DVD
• Blu-Ray
Device
• HD Externo
• Pendrive
Card
• SD
Cloud
• GoogleDrive
• OneDrive
• Dropbox
• Amazon
Ciclo de Vida dos Dados
Tecnologias de Dados
www.alvarofpinheiro.eti.br 26
Data Science
Big Data
Business Intelligence
Data Mining
Data Mart & Data WareHouse
Simple & Complex Query
Ciclo de Vida dos Dados
Tecnologias de Armazenamento de Dados
Hard Disk
www.alvarofpinheiro.eti.br 27Ciclo de Vida dos Dados
Tecnologias de Armazenamento de Dados
Storage
www.alvarofpinheiro.eti.br 28Ciclo de Vida dos Dados
Tecnologias de Armazenamento de Dados
Hack
www.alvarofpinheiro.eti.br 29Ciclo de Vida dos Dados
Tecnologias de Armazenamento de Dados
Farm
www.alvarofpinheiro.eti.br 30Ciclo de Vida dos Dados
Tecnologias de Armazenamento de Dados
Data Center
www.alvarofpinheiro.eti.br 31Ciclo de Vida dos Dados
Tecnologias de Armazenamento de Dados
Data Center Flutuante
www.alvarofpinheiro.eti.br 32Ciclo de Vida dos Dados
Valor da Informação
www.alvarofpinheiro.eti.br 33
Custo
Financeiro
TempoIntelectual
Toda informação tem seu custo,
seja ele financeiro ou intelecto.
Muitas vezes, é necessário ter
dinheiro para ter acesso a bons
cursos, bons livros. Mas, além
disso, também é necessário ter
tempo, o que falta para muitas
pessoas atualmente.
Valor da Informação
Valor da Informação
www.alvarofpinheiro.eti.br 34Valor da Informação
Valor da Informação
www.alvarofpinheiro.eti.br 35
Toda informação é um bem de alto valor e deve ser
protegida.
O desenvolvimento tecnológico permitiu pensar no
quanto a informação é valiosa. Dentro das
organizações, ela é uma busca constante. Com base
nela que se garante a sobrevivência, dentro de um
mundo altamente competitivo.
Valor da Informação
Valor da Informação
www.alvarofpinheiro.eti.br 36
O grande volume de informações tratadas no dia a
dia, já não é comportado dentro das mídias
tradicionais. E é necessário medidas de segurança
para proteção de informações dentro das
organizações, caso contrário, pode gerar grandes
perdas.
Valor da Informação
Valor da Informação
www.alvarofpinheiro.eti.br 37
“Traficantes de Dados”
São indivíduos especializados em obter informação
objetivando lucro ilícito, usando as informações para
prejudicar organizações, atuando de forma danosa na
imagem da mesma, o que pode gerar perda de
confiança e consequentemente da quota de mercado
que possui.
Valor da Informação
Valor da Informação
www.alvarofpinheiro.eti.br 38
Toda informação vale muito e tem um custo.
Seja para ser gerada, manipulada ou estocada. É um
valor direto e agregado, que pode ser medido através
do empenho investido em obtê-la e conservá-la.
Valor da Informação
Valor da Informação
www.alvarofpinheiro.eti.br 39
Informação Restrita ou Sigilosa
Para essas o valor será multiplicado se a informação é
de cunho confidencial, se tiverem inclusos fatores
como: pessoas que podem ser beneficiadas por meio
delas se puderem gerar montante monetário, grau de
crise que sua dispersão possa suscitar.
Valor da Informação
Valor da Informação
www.alvarofpinheiro.eti.br 40
Prevenção
Não se pode mais permitir que o acaso de invasão
aconteça. A preservação da informação é necessária
para “quando” for invadido, quais medidas deverão
ser tomadas. E uma das medidas mandatórias de
proteção é a Criptografia.
Valor da Informação
Valor da Informação
www.alvarofpinheiro.eti.br 41Valor da Informação
Lei Geral da Proteção de Dados (LGPD)
A Lei Geral de Proteção de Dados (LGPD) estabelecerá uma série de
regras que as organizações no Brasil terão que seguir para permitir que
o cidadão tenha mais controle sobre o tratamento que é dado às suas
informações pessoais. A consequência disso é que muitas organizações
privadas e públicas que não davam a devida importância ao assunto,
terão que passar a dar. Muitas organizações faziam interpretações
evasivas a respeito ou simplesmente diziam não haver obrigação legal
para proteção de dados.
www.alvarofpinheiro.eti.br 42Privacidade e Ética
LGPD – Caso Justiça Ribeirão Preto
Em Ribeirão Preto no ano de 2016 entre os dias 2 e 5 de junho, a
Justiça determinou que Apple, Google e Microsoft fornecessem dados
como endereços de email e fotos de todas as pessoa que circularam
em um raio de 500 metros de uma chácara usada como ponto de
apoio por criminosos que assaltaram uma empresa de transporte de
valores.
www.alvarofpinheiro.eti.br 43Privacidade e Ética
LGPD – Finalidade
Trata-se de uma legislação que determina como os dados dos
cidadãos podem ser coletados e tratados, e que prevê punições para
transgressões. O próprio Senado reconhece que a proposta para o
marco geral de proteção de dados — outra denominação dada à
proposta — foi fortemente inspirada no GDPR, um rigoroso conjunto
de regras sobre privacidade da União Europeia que entrou em vigor em
maio.
www.alvarofpinheiro.eti.br 44Privacidade e Ética
LGPD – Dados
O projeto trata como dado pessoal qualquer informação relacionada a
uma pessoa que, que isoladamente ou em conjunto com outros
detalhes, permite identificá-la. Alguns exemplos de dados pessoais são:
nome, apelido, endereço residencial, endereço de e-mail, endereço IP,
fotos próprias, formulários cadastrais, números de documentos.
www.alvarofpinheiro.eti.br 45Privacidade e Ética
LGPD – Tratamento
As organizações públicas e privadas só poderão coletar dados
pessoais se tiverem consentimento do titular. A solicitação deverá ser
feita de maneira clara para que o cidadão saiba exatamente o que vai
ser coletado, para quais fins e se haverá compartilhamento. Quando
houver envolvimento de menores de idade, os dados somente poderão
ser tratados com o consentimento dos pais ou responsáveis legais.
www.alvarofpinheiro.eti.br 46Privacidade e Ética
LGPD – Tratamento
Se houver mudança de finalidade ou repasse de dados a terceiros, um
novo consentimento deverá ser solicitado. O usuário poderá, sempre
que desejar, revogar a sua autorização, bem como pedir acesso,
exclusão, portabilidade, complementação ou correção dos dados. Caso
o uso das informações leve a uma decisão automatizada indesejada,
recusa de financiamento por um sistema bancário, por exemplo, o
usuário poderá pedir uma revisão humana do procedimento.
www.alvarofpinheiro.eti.br 47Privacidade e Ética
LGPD – Restrição
Há uma categoria classificada como “dados sensíveis”. Elas dizem
respeito a informações como crenças religiosas, posicionamentos
políticos, características físicas, condições de saúde e vida sexual. O
uso desses dados será mais restritivo. Nenhuma organização poderá
fazer uso deles para fins discriminatórios. Também será necessário
garantir que eles serão devidamente protegidos.
www.alvarofpinheiro.eti.br 48Privacidade e Ética
LGPD – Objetivo
De modo geral, a ideia é proteger o cidadão do uso abusivo e
indiscriminado dos seus dados. Além de pedir consentimento de
maneira clara e atender às demandas do usuário sobre manutenção ou
eliminação dos dados, as organizações só poderão solicitar os dados
que são realmente necessários ao fim proposto. Nesse sentido, o
usuário poderá questionar se a exigência de determinado dado faz
sentido.
www.alvarofpinheiro.eti.br 49Privacidade e Ética
LGPD – Exceções
As regras não valem para dados pessoais tratados para fins
acadêmicos, artísticos ou jornalísticos, bem como para aqueles que
envolvem segurança pública, defesa nacional, proteção da vida e
políticas governamentais. Esses casos deverão ser tratados por leis
específicas.
www.alvarofpinheiro.eti.br 50Privacidade e Ética
LGPD – Vazamentos
Existem casos de vazamentos de dados no Brasil em que as autoridades
ou vítimas só ficaram sabendo semanas ou meses depois do incidente,
a exemplo do caso Netshoes. Não poderá mais ser assim. Vazamentos
ou problemas de segurança que comprometem dados pessoais
deverão ser relatados às autoridades competentes em tempo hábil.
Após análise da situação, as autoridades indicarão os próximos passos,
como determinar que o problema seja divulgado à imprensa.
www.alvarofpinheiro.eti.br 51Privacidade e Ética
LGPD – Caso Netshoes
Em janeiro, o Ministério Público do Distrito Federal e Territórios
(MPDFT) alertou sobre “um dos maiores incidentes de segurança
registrados no Brasil”. Trata-se de uma lista com informações sobre
1.999.704 clientes da Netshoes, incluindo nome completo, e-mail,
CPF, data de nascimento e mais. O MPDFT ameaçou abrir uma ação
civil pública contra a Netshoes caso os clientes não fossem avisados
sobre o vazamento. A empresa decidiu, então, que vai contatá-los por
telefone.
www.alvarofpinheiro.eti.br 52Privacidade e Ética
LGPD – Punições
Vai depender da gravidade da situação. Se comprovada a infração, a
organização responsável poderá receber desde advertências até uma
multa equivalente a 2% do seu faturamento, mas limitada ao valor
máximo de R$ 50 milhões. A organização também poderá ter as
atividades ligadas ao tratamento de dados total ou parcialmente
suspensas, além de responder judicialmente a outras violações
previstas em lei, quando for o caso.
www.alvarofpinheiro.eti.br 53Privacidade e Ética
LGPD – Caso Facebook
No caso de descumprimento, a empresa poderá pagar multa de € 20
milhões ou 4% da sua receita anual no mundo todo, o que for maior,
o que resultaria em uma punição de bilhões de dólares no caso do
Facebook. Tudo indicava que este seria o momento propício para a
companhia adotar medidas drásticas: com um novo conjunto de
práticas, o Facebook poderia se adequar ao regulamento e, ao mesmo
tempo, amenizar os efeitos do escândalo Cambridge Analytica.
www.alvarofpinheiro.eti.br 54Privacidade e Ética
DPO – Data Protection Officer
Ao instituir a lei, a União Europeia criou mecanismos para garantir o
cumprimento da norma pelos sujeitos a que a ela estão submetidos.
Nesse sentido, os responsáveis pelo tratamento e processamento de
dados pessoais, sejam estes entes privados ou públicos, deverão
possuir em seus quadros um Data Protection Officer. O profissional
responsável por aconselhar e verificar se tais entes estão obedecendo a
LGPD ao processarem e tratarem dados pessoais de terceiros. Embora
o legislador europeu não tenha fixado requisitos objetivos para que um
profissional seja nomeado DPO, a norma estabelece que esse
profissional deverá ser uma pessoa com expertise na legislação e nas
práticas de proteção de dados.
www.alvarofpinheiro.eti.br 55Privacidade e Ética
Evolução da Utilização dos Dados
www.alvarofpinheiro.eti.br 56
Internet
Web 2.0
Big Data
Business
Intelligence
Data
Science
A cada 10 minutos, o volume de dados gerados no mundo todo é maior do que o volume de dados gerados desde a pré-história.
Desde os anos 1980 a cada dois anos a nossa capacidade de processamento praticamente dobra.
Surge decorrente a essa grande quantidade de dados e capacidade de processamento.
Aparece com a necessidade de analisar e extrair informações úteis.
Nasce com intuito de realizar análise preditiva fazendo uso de IA.
Conceitos
Aplicações da Ciência dos Dados
www.alvarofpinheiro.eti.br 57
Marketing
Search
Engine
Recommend recognition
+e-Commerce
Os motores de pesquisa na internet fazem o uso
da ciência de dados em conjunto com o
aprendizado de máquina para encontrar o
resultado mais adequado mais rapidamente
Ex.:Google,Bing,Yahoo, ...
O marketing digital serve-se de algoritmos que
utilizam a ciência de dados objetivando obter
um resultado mais direcionado dos anúncios
com base no histórico do usuário
Combinando dados do perfil com os dados de buscas se
usa a ciência de dados para melhorar as sugestões que
mais se adequam a cada usuário
Ex.:Facebook,Linkedin,Instagram,Netflix,Amazon, ...
Uso de algoritmos de ciência de dados
para reconhecimento de imagens as
aplicações podem associar uma
imagem a um serviço. Ex.: QRCode,...
Use-se a ciência de dados para melhorar os
resultados nos motores de busca para indicar
os melhores resultados sobre hotéis , voos ,
serviços , reservas, pacotes, seguros, etc
Ex.:Booking,Trivago,...
A ciência de dados auxilia na solução
de problemas de alta complexidade e
processamento pesado, como no
gerenciar as rotas em sistemas
logísticos . Ex.:UPS,Fedex,...
Conceitos
Tecnologias para Ciência dos Dados
www.alvarofpinheiro.eti.br 58
SQL
• Data Definition
• Data Manipulation
• Data Query
• Data Control
• Data Transaction
Qlik
• Data
Management
and Analisys Tool
Python
• Language
Programming
R
• Language
Programming
• Computação
Estatística
SAS
• Statistical
Analysis System
Conceitos
Multidisciplinar
www.alvarofpinheiro.eti.br 59
Data
Science
Database
Data
Mining
Business
Intelligence
Big Data
Artificial
Intelligence
Statistic
Conceitos
Convergência - 4ªRevolução Industrial
www.alvarofpinheiro.eti.br 60Conceitos
https://youtu.be/rbXJMAFRM7I
Conceituando as Tecnologias
www.alvarofpinheiro.eti.br 61Conceitos
Database
Bancos de dados ou bases de dados são um conjunto de tabelas
relacionadas entre si com registros sobre algo, representando uma
coleção organizada de dados que se relacionam de forma a criar algum
sentido, informação, e dar mais eficiência durante uma pesquisa ou
recuperação. Os DBs são geridos pelos Database Management System
(DBMS).
www.alvarofpinheiro.eti.br 62Conceitos
Database - Modelos
www.alvarofpinheiro.eti.br 63
Sistemas de Arquivos
Hierárquicos
Redes
Relacionais
Orientados a Objetos
Objetos - Relacionais
Multidimensionais
NoSQL
Conceitos
Structure Query Language
www.alvarofpinheiro.eti.br 64
DDL DML
DQL DCL
SQL
Conceitos
Data Mining – Entendimento
www.alvarofpinheiro.eti.br 65
Identificar
Dados
Limpar
Dados
Analisar
Dados
Interpretar
Informações
Conceitos
Data Mining – Componentes
www.alvarofpinheiro.eti.br 66
Estatística
Inteligência
Artificial
Dados
Minerados
Conceitos
Data Mining – Processo
www.alvarofpinheiro.eti.br 67
Raw Data
Raw Data
Raw Data
Data Mine
Database Cube
Algoritms
Conceitos
Data Mining – Esquema
www.alvarofpinheiro.eti.br 68Conceitos
Data Mining – OLAP
www.alvarofpinheiro.eti.br 69Conceitos
Data Mining – Multidimensional
www.alvarofpinheiro.eti.br 70Conceitos
Data Mining – Ações
www.alvarofpinheiro.eti.br 71
Ação Resultado
Pivot
Girar os eixos de dados para fornecer uma apresentação de dados
substituta
RollUp
Resulta numa "consolidação" ou "agregação“, reduzindo as
dimensões, subindo a hierarquia do conceito, isto é, agrupar os
dados com base em sua ordem ou nível
Drill Down
Fragmentação dos dados em partes menores, sendo o oposto do
processo de rollup, podendo ser realizado via descendo a hierarquia
do conceito ou aumentando uma dimensão
Slicing Uma dimensão é selecionada e um novo subcubo é criado
Dicing
Essa operação é semelhante a um slicing, a diferença é que é o
resultado da seleção de duas ou mais dimensões que resultam na
criação de um subcubo.
Conceitos
Data Mining – CRISP-DM
www.alvarofpinheiro.eti.br 72Conceitos
Entender
Negócio
Entender
Dados
Preparação
Dados
Modelagem
Dados
Avaliação
Implantação
Dados
CRoss Industry Standard Process for Data Mining, que
pode ser traduzido como Processo Padrão Inter-
Indústrias para Mineração de Dados, sendo um
modelo de processo de mineração de dados que
descreve abordagens comumente usadas por
especialistas. Sendo composto pelas fases: Entender-
Negócio objetivando entender o objetivo; Entender-
Dados que consiste em coletar os dados; Preparação-
Dados que server para construir a base de dados;
Modelagem onde se aplica as técnicas para
otimização; Avaliação realiza a construção do modelo
de análise de dados; Implantação onde ser obtém o
conhecimento adquirido pelo modelo.
Data Mining – Métodos
www.alvarofpinheiro.eti.br 73
Indutivo
Supervisionado
Não
Supervisionado
Classificação Regressão Agrupamento Associação
PREDITIVAS DESCRITIVAS
Conceitos
Big Data
www.alvarofpinheiro.eti.br 74
O Big Data é a base de dados dos algoritmos de aprendizado de
máquina, pois eles são a gigantesca fonte de dados de treinamento do
ML. Sendo o divisor de águas para o que é denominado de quarta
revolução industrial. Vivemos hoje na época das coletas de dados para
o aprendizado das máquinas. Por exemplo, muitos hoje usam smartfone,
smarttv, smartwatch, smartglasses, que enviam dados os mais diversos
para algum servidor do seu provedor de internet, que monitora cada
clique, isso é o que chamados de Big Data, pois tudo se torna dado útil
para algum algoritmo de aprendizado de máquina.
Big Data
www.alvarofpinheiro.eti.br 75
Variedade
Velocidade
Valor
Veracidade
Volume
Conceitos
Big Data – Como Surgiu?
www.alvarofpinheiro.eti.br 76
Antes Depois
Conceitos
Big Data – O que viabilizou?
77www.alvarofpinheiro.eti.br
Fonte: www.iopera.com.br
Big Data – Estimativas
www.alvarofpinheiro.eti.br 78
80
0
10
20
30
40
50
60
70
80
90
2015 2020
BILHÕES
PERÍODO
Dispositivos Conectados
Fonte: www.iopera.com.br
Conceitos
Big Data – Definição
Consiste em tratar grande Volume de dados medidos
hoje em Terabytes amanhã em Yottabytes, com
grande Velocidade em RealTime, NearTime, Streams,
tratando dados de grande Variedade como
estruturados, semi estruturados e não estruturados,
analisando dados para garantira a Veracidade, para
agregar Valor a quem usa, objetivando transformar
de modo eficiente, eficaz e confiável dados relevantes
em informações úteis.
www.alvarofpinheiro.eti.br 79Conceitos
Big Data – Qual a diferença para BI?
A grande diferença está na possibilidade de
lidar com alta performance com os dados
Não Estruturados, por exemplo, os tweets,
postagens no Facebook, vídeos,
geolocalização, comportamentos dos
usuários baseados em contexto.
www.alvarofpinheiro.eti.br 80Conceitos
Big Data – Estatísticas
Os dados Não Estruturados representam 85%
das informações que as organizações lidam
atualmente. Com crescimento de constante
nos próximos anos, onde a quantidade de
dados digitais deve crescer a taxa de 1,8
ZettaBytes (Sextilhões), isto é, 1 com 21
zeros.
www.alvarofpinheiro.eti.br 81
Fonte: Gartner
Conceitos
Big Data – Exemplos de Uso
www.alvarofpinheiro.eti.br 82
Skybox Nações Unidas Dollar General Sprint Nextel Haiti Canadá Vestas Wind
Tira fotos de
satélite e vende
aos clientes em
tempo real.
Resultado:
Disponibilidade
de vagas livres
em estacion.
em cidades e
hora
determinada;
Quantidade de
navios
ancorados no
mundo; ...
Projeto Global
Pulse decifra a
linguagem
humana na
análise de
mensagens de
texto e
postagens em
redes sociais.
Resultado:
Prever o
aumento de
desemprego;
Mudanças
econômicas;
Epidemias de
doenças; ...
Varejista
americana
monitora as
combinações
de produtos
que seus
clientes
colocam nos
carrinhos.
Resultado:
Ganhou eficácia
e descobriu
curiosidades; ...
Integrou dados
de todos os
clientes com os
canais de
relacionamento
Resultado:
Cortou metade
dos gastos com
call center; ...
Após o
terremoto os
pesquisadores
utilizaram a
geolocalização
de chips SIM.
Resultado:
facilitou a
atuação da
ajuda
humanitária, ...
Hospital fez uso
da tecnologia
da IBM e
Universidade
de Ontário para
monitorar em
tempo real
dezenas de
indicadores de
saúde de bebês
prematuros.
Resultado: O
cruzamento
permitiu aos
médicos
antecipar
ameaças; ...
A
dinamarquesa
Vestas, em
busca de
melhores
lugares para
instalar
turbinas eólicas
analisou
PettaBytes de
dados
climáticos, de
nível das
marés.
Resultado: O
que levava
semanas, levou
horas.Conceitos
Ferramenta Big Data – MapReduce
Modelo de programação desenhado para
processar grandes volumes de dados em
paralelo, dividindo o trabalho em um
conjunto de tarefas independentes, onde os
programas são escritos no estilo das
construções de programação funcionais.
www.alvarofpinheiro.eti.br 83Conceitos
Ferramenta Big Data – MapReduce – Arquitetura
www.alvarofpinheiro.eti.br 84Conceitos
Ferramenta Big Data – HADOOP
Plataforma de software em Java de computação
distribuída para processamento de grandes volumes de
dados, com atenção a tolerância a falhas, inspirada no
MapReduce do Google, desenvolvido pela comunidade
Apache e Yahoo, fazendo uso da linguagem de
programação Java. Sendo disponibilizado pela Amazon e
IBM em suas plataformas. É um framework desenvolvido
originalmente em 2007 pelo Facebook, e agora pertence a
Apache, faz uso de bases de dados não relacional para
grandes volumes de dados e aceita comandos SQL.
www.alvarofpinheiro.eti.br 85Conceitos
Ferramenta Big Data – HADOOP – Arquitetura
www.alvarofpinheiro.eti.br 86Conceitos
Inteligência Artificial
www.alvarofpinheiro.eti.br 87
IA existe desde a década de 1950 com Alan Turing com o jogo da imitação. Mas nos últimos anos o termo vem se
tornando cada vez mais corriqueiro em todos os segmentos, e não mais só em TIC. Porém vale salientar que
depois que um sistema que usa IA vira rotina, deixam de ser rotulado como inteligência artificial. Por exemplo, o
sistema fly-by-wire, desenvolvido e evoluído desde da década de 1970, que é um conjunto de sensores e
algoritmos capazes de decolar e pousar um avião sem interferência direta do piloto. Dado o exemplo, vamos para
definição de IA: basicamente é um algoritmos que se auto alimenta, ou em outras palavras, são algoritmos
capazes de se auto ajustar conforme condições dinâmicas do ambiente para produzir resultados otimizados.
Essa definição descreve o sistema fly-by-wire, o Facebook que controla o feed de notícias ou os algoritmos da
Tesla que dirigem um carro sem motorista. Porém hoje, inteligência artificial é também aprendizado de máquina.
Todo algoritmo dedutivo tem uma entrada de dados, que é processada por regras e gerada uma saída. Em uma
Machine Learning, o que se tem é o oposto, isto é, algoritmo indutivo. Neste são fornecidos os dados de entrada
e as saídas desejadas, e o algoritmo entrega as regras, ou melhor dizendo, se encarrega de encontrar as relações
estatísticas dentro desses dados para dessa forma construir as regras, que o leve das entradas para os resultados
desejados, ou seja, aprendem com o passar do tempo e com o acúmulo de experiência. Assim um algoritmo que
ML pode reconhecer um rosto ou discernir uma foto de um felino da foto de um cão pelos padrões já
experimentados por ele. Algoritmos de ML só funcionam se tivermos uma fonte gigantesca de dados para que
eles “se treinem”.
Como a Inteligência Artificial Realmente Funciona
www.alvarofpinheiro.eti.br 88Conceitos
https://youtu.be/rGGKO9cw5-g
Artificial Intelligence - Evolução
www.alvarofpinheiro.eti.br 89
1950
Artifical
Intelligence
1960
Weak
Artificial
Intelligence
1980
Machine
Learning
2000
Deep
Learning
2010
Cognitive
Computing
objetivando
executar
qualquer tarefa
intelectual que
um humano
pudesse realizar
Aplicação de
Técnicas de IA
aprender e
desenvolver
modelos para
atividades dentro
de domínios
específicos
redes neurais em
várias camadas
com novas
topologias e
métodos de
aprendizado
conhecer e
interagir
naturalmente
com humanos
Artificial Intelligence - Fraca
www.alvarofpinheiro.eti.br 90
1950
IA
1960
Perceptron
1970
Cluster &
Tree Decision
1980
Based Rules
IA surgiu com o desenvolvimento de um programa para jogo de damas, criado por Arthur Samuel
no IBM 701, chamado de poda alfa-beta, se tornando o primeiro programa de auto aprendizado, já
que foi programado para jogar sozinho, compreendendo a movimentação de todas as
possibilidades do tabuleiro de damas que é de 362.880 posições, porém ao estender esse mesmo
exercício intelectual para xadrez ou Go, esse algoritmo mostra sua insuficiência.
Artificial Intelligence - Fraca
www.alvarofpinheiro.eti.br 91
1950
IA
1960
Perceptron
1970
Cluster &
Decision Tree
1980
Based Rules
O perceptron foi um dos primeiros algoritmos de aprendizado supervisionado, onde os usuários
fornecem dados para treinar a rede e depois testá-la com relação aos novos dados, assim foi o
primeiro algoritmos de rede neural de camada única. Dado um vetor de recurso de entrada, o
algoritmo poderia aprender a classificar entradas como pertencentes a uma classe específica.
Utilizando um conjunto de treinamento, os pesos da rede e os vieses poderiam ser atualizados para
classificação linear. Foi implementado pela primeira vez num IBM 704 para reconhecimento de
imagem. A principal limitação era sua incapacidade de aprender uma função XOR. Porém, com os
perceptrons multicamadas essa limitação foi resolvida, abrindo caminho para algoritmos mais
complexos, como topologias de rede e deep learning.
Artificial Intelligence - Fraca
www.alvarofpinheiro.eti.br 92
1950
IA
1960
Perceptron
1970
Cluster &
Tree Decision
1980
Based Rules
Os algoritmos de armazenamento em cluster utilizam uma abordagem diferente chamada
aprendizado não supervisionado, onde o algoritmo organiza um conjunto de vetores de recurso em
clusters baseados em um ou mais atributos dos dados. Um dos algoritmos mais simples que podem
ser implementados em uma pequena quantidade de código é chamado k-médias. Nesse algoritmo,
k indica o número de clusters no qual é possível designar amostras. É possível inicializar um cluster
com um vetor de recurso aleatório e, em seguida, incluir todas as outras amostras no cluster mais
próximo, conforme você inclui amostras em um cluster, seu centroide, o centro do cluster, é
recalculado. O algoritmo então verifica as amostras novamente para assegurar que elas existem no
cluster mais próximo e finaliza quando nenhuma amostra altera a associação do cluster.
Artificial Intelligence
Desicion Tree
www.alvarofpinheiro.eti.br 93
Estritamente relacionada com o armazenamento em cluster está a árvore de
decisão. Uma árvore de decisão é um modelo preditivo sobre observações que
levam a alguma conclusão. As conclusões são representadas como folhas na
árvore, enquanto os nós são os pontos de decisão nos quais uma observação
diverge. Árvores de decisão são baseadas em algoritmos de aprendizado de árvore
de decisão, em que o conjunto de dados é dividido em subconjuntos baseados nos
testes de valor de atributo, por meio de um processo chamado particionamento
recursivo, um aspecto útil das árvores de decisão é sua organização inerente, que
oferece a capacidade de explicar facilmente como foi classificado um item, os
algoritmos de aprendizado de árvore de decisão mais populares incluem C4.5 e a
Árvore de Classificação e Regressão.
Artificial Intelligence - Fraca
www.alvarofpinheiro.eti.br 94
1950
IA
1960
Perceptron
1970
Cluster &
Tree Decision
1980
Based Rules
O primeiro sistema baseado em regras e inferência, foi o Dendral, foi desenvolvido em 1965, mas
apenas nos anos 80 esse tipo de sistema foi categorizado como "sistemas especialistas" e que
fizeram grandes avanços. Um sistema baseado em regras é aquele que armazena regras, no que é
chamado de base de conhecimento, e que utiliza um sistema de lógica sobre essa base, um
mecanismo de inferência, para tirar conclusões, através de um encadeamento de regras de avanço
ou retrocesso, com uma interface com o usuário. Como no seguinte exemplo, na base de
conhecimento existe a regra "Sócrates era um homem", e uma regra é, "como homem, era mortal“,
assim sendo “Sócrates é mortal”. Exemplos de utilização são em reconhecimento de discurso,
planejamento e controle, e identificação de doenças.
Inteligência Artificial Aprendizado de Máquina
www.alvarofpinheiro.eti.br 95
1980
Retropropagação
1990
Redes Neurais
Convolucionais
2000
Memória Grande
de Curto Prazo
2010
Aprendizado
Profundo
2015
Computação
Cognitiva
O aprendizado de máquina é um subcampo da IA baseado na matemática e estatística, podendo ser
realizado com técnicas de aprendizado supervisionado e não supervisionado para mineração de
dados com análise preditiva.
Inteligência Artificial
Retropropagação
www.alvarofpinheiro.eti.br 96
O poder das redes neurais está na utilização de multicamadas, através da retropropagação,
com funcionamento em duas fases. A primeira fase é a propagação de entradas por meio de
uma rede neural para a camada final, chamada feed-forward. E a segunda fase, o algoritmo
que calcula o erro e, em seguida, faz a retropropagação desse erro, ajustando os pesos, da
camada final para a primeira. Durante o treinamento, camadas intermediárias da rede se
organizam para mapear partes do espaço de entrada para o espaço de saída. Por meio do
aprendizado supervisionado, a retropropagação se identifica um erro no mapeamento de
entrada para saída e, então, ajusta os pesos de acordo, com uma taxa de aprendizado, para
corrigir esse erro.
Inteligência Artificial
Redes Neurais Convolucionais
www.alvarofpinheiro.eti.br
97
Redes neurais convolucionais (CNNs) são redes neurais multicamadas que se inspiram no córtex
visual animal. A arquitetura é útil em vários aplicativos, inclusive o processamento de imagem. A
primeira CNN foi criada por Yann LeCun e, naquele momento, a arquitetura estava focada em
tarefas de reconhecimento de caractere manuscritos, como leitura de códigos de endereçamento
postal. A arquitetura LeNet CNN é composta por várias camadas que implementam extração de
recurso e, depois, classificação. A imagem é dividida em campos receptivos que são refletidos em
uma camada convolucional que extrai recursos da imagem de entrada. A próxima etapa é o
agrupamento, que reduz a dimensionalidade dos recursos extraídos, por meio de down-sampling,
enquanto retém as informações mais importantes, geralmente por meio de agrupamento máximo.
O algoritmo então executa outra etapa de convolução e de agrupamento que é refletida em um
perceptron multicamadas totalmente conectado. A camada de saída final dessa rede é um conjunto
de nós que identifica recursos da imagem, neste caso, um nó por número identificado.
Inteligência Artificial
Long Short-term Memory
www.alvarofpinheiro.eti.br 98
Long Short-term Memory (LSTM), consiste em células de memória que, dentro de
uma rede, se lembram de valores de períodos curtos ou longos. Uma célula de
memória contém portas que controlam como as informações entram e saem
dela. A porta de entrada controla quando as novas informações podem entrar na
memória. A porta de esquecimento controla por quanto tempo uma informação
existente fica retida. Por fim, a porta de saída controla quando as informações
contidas na célula são usadas na saída da célula.
Inteligência Artificial
Deep Learning
www.alvarofpinheiro.eti.br 99
Deep learning é um conjunto relativamente novo de métodos que está mudando
o aprendizado de máquina. Não é um algoritmo propriamente dito, mas uma
família de algoritmos que implementam redes profundas com aprendizado sem
supervisão. Essas redes são tão profundas que novos métodos de cálculo, como
GPUs, são necessários para construí-las. Seguem dois algoritmos deep learning:
CNNs e LSTMs. Esses algoritmos foram combinados para realizar diversas tarefas
surpreendentemente inteligentes. Conforme mostrado na figura a seguir, CNNs e
LSTMs foram utilizados para identificar e, depois, descrever uma imagem ou um
vídeo em língua natural. Algoritmos deep learning também foram aplicados ao
reconhecimento facial, a veículos autônomos e a vários outros problemas
complexos.
Inteligência Artificial
Computação Cognitiva
www.alvarofpinheiro.eti.br 100
A IA e o aprendizado de máquina são preenchidos por exemplos de inspiração
biológica. E enquanto a antiga IA estava focada nos grandes objetivos de
construção de máquinas que imitassem o cérebro humano, a computação
cognitiva está se esforçando para atingir esse objetivo. A computação cognitiva,
baseada em redes neurais e deep learning, está aplicando conhecimento de
ciências cognitivas para desenvolver sistemas que simulem processos do
pensamento humano. Entretanto, em vez de focar em um único conjunto de
tecnologias, a computação cognitiva cobre diversas disciplinas, inclusive
aprendizado de máquina, processamento de língua natural, visão e interação
humano-computador. Um exemplo de computação cognitiva é o IBM Watson.
Conceitos de Inteligência Artificial
• Aprendizado é a aquisição de conhecimento ou habilidades por meio de
experiência, estudo ou ensinamento. (ação -> efeito -> feedback)
• Aprendizado de Máquina “Machine Learning” é qualquer algoritmo que
melhore seu desempenho por meio de experiência obtida por um período de
tempo sem informação completa do ambiente no qual ele opera.
• Inferência é a afirmação da verdade de uma proposição em decorrência de sua
ligação com outras já reconhecidas como verdadeiras.
• Tipos de Inferência na Inteligência Artificial: Dedutiva, Indutiva e Abdutiva
http://www.alvarofpinheiro.eti.br
Conceitos
Conceitos de Inteligência Artificial
• Inferência Dedutiva (dedução) chega-se a uma verdade específica a partir de
outra mais geral ou abrangente, isto é, y=f(x) pode-se obter o y (conclusão)
sabendo-se o f (regra) e o x (premissa)
• Inferência Indutiva (indução) é o caminho contrário do dedutivo, pois a partir
de casos particulares, extrai-se regra que o explica e se aplica a todos os casos
isolados análogo aos observados, isto é, y=f(x) pode-se obter o f (regra)
conhecendo-se o x (premissa) e o y (conclusão)
• Inferência Abdutiva (abdução) usa-se a conclusão e a regra para defender que
a premissa poderia explicar a conclusão, isto é, y=f(x) pode-se obter o x
(premissa) conhecendo-se o f (regra) e o y (conclusão)
http://www.alvarofpinheiro.eti.br
Conceitos
Conceitos de Inteligência Artificial
• Dedução é a verificação ou comprovação de conhecimento já adquirido, isto é,
já se conhece as regras e as premissas, basta aplica-las para se obter o
resultado, para comprovar o conhecimento, y=f(x) pode-se obter o y
(conclusão) sabendo-se o f (regra) e o x (premissa)
• Indução é a obtenção de novos conhecimentos, isto é, é conhecido a premissa
e a conclusão, porém não se conhece a regra, assim, y=f(x) pode-se obter o f
(regra) conhecendo-se o x (premissa) e o y (conclusão)
• Abdução é a obtenção de novos conhecimentos, isto é, é conhecida a regra e a
conclusão, porém não se conhece a premissa, assim, y=f(x) pode-se obter o x
(premissa) conhecendo-se o f (regra) e o y (conclusão)
http://www.alvarofpinheiro.eti.br
Conceitos
Conceitos de Inteligência Artificial
• Mecanismo de Inferência
• Generalização Cognitiva é a aplicação do princípio ou conceito a um conjunto de
casos, isto é, simplificação, onde são abstraídos detalhes particulares ou exceções,
atribuindo-se a um grupo de coisas que pertencem ao mesmo gênero algo que já
sabe-se sobre alguns de seus indivíduos -> Mecanismo de Indução
• Flexibilização Cognitiva é capacidade de mudar para lidar com circunstâncias
variáveis, isto é, capacidade de interpretar determinadas situações a partir de vários
pontos de vista
http://www.alvarofpinheiro.eti.br
Conceitos
Conceitos de Inteligência Artificial
• Robustez é a capacidade de um sistema resistir a mudanças sem adaptar sua
configuração estável inicial, e comparando com sistemas biológicos, é a persistência
de certas características sob perturbações ou condições de incerteza
• Perda de Dados é a ocorrência de nenhum valor de dado armazenado para a
premissa em observação, podendo ter efeitos significativos nas conclusões que
podem ser extraídas dos dados
• Modelagem é o processo de elaborar por modelo ou por molde a retratação de uma
forma precisa, isto é, a simplificação da realidade destinada a promover a
compreensão
• Tipos de Modelagem: Matemática, Computacional, Simulação e Modelo
http://www.alvarofpinheiro.eti.br
Conceitos
Conceitos de Inteligência Artificial
• Modelagem Matemática é o estudo da simulação de sistemas reais a fim de
prever o comportamento dos mesmos
• Modelagem Computacional é a aplicação de modelos matemáticos e técnicas
da computação à análise, compreensão e estudo da fenomenologia de
problemas complexos
• Simulação é a imitação da operação de um processo ou sistema do mundo real
• Modelo é a representação do próprio sistema
• Otimização é achar o valor máximo ou mínimo de uma função objetivo, sujeito
a um conjunto de restrições
http://www.alvarofpinheiro.eti.br
Conceitos
Conceitos de Inteligência Artificial
• Heurística é o método que, baseado na experiência ou julgamento, procura uma boa
solução de um problema, mas não garante uma solução ótima
• Classificação é o algoritmo que extrai conclusões de dados que já possui, e utiliza
estas conclusões para categorizar novos dados
• Agrupamento é o algoritmo que agrupa elementos com base na proximidade entre
eles, e esses grupos podem ser utilizados para formar insights
• Predição á a estrutura que deve ser treinada para que possa receber novos dados e
predizer o resultado
• Decisão é o apoio a tomada de decisões por meio de busca de relações ainda não
visualizadas e testadas entre os dados já conhecidos
http://www.alvarofpinheiro.eti.br
Conceitos
Famílias de Algorítmos de IA
www.alvarofpinheiro.eti.br 108
ABORDAGENS ESTATÍSTICAS
www.alvarofpinheiro.eti.br 109
Ciência que tira conclusões a partir da análise de agrupamentos de dados, realizado a partir do
refinamento da informação com base na analise do histórico de dados, servindo para apoio na
tomada de decisões.
Uma das abordagens muito utilizadas é a Teoria Bayesiana criada por Thomas Bayes, em 1701. É
utilizada para descrever a probabilidade de um evento ocorrer, baseando-se em conhecimentos
anteriores ligados a ele.
Pr(B|A)=probabilidade de B ocorrer dado A.
Pr(A)=probabilidade de A.
Pr(Aª)= probabilidade de A não ocorrer.
Pr(B|Aª)=probabilidade de B ocorrer dado a não ocorrência de A (falso positivo).
Abordagens Estatísticas
www.alvarofpinheiro.eti.br 110
P(B|A) = 0,90 = Chance de detectar defeito
P(A) = 0,25 = Chance do celular quebrar
P(Aª) = 0,75 = Chance do celular não quebrar
P(B|Aª) = 0,05 = Chance de detectar quando ele não existe
Resolvendo a conta chegamos ao resultado de 0,8571
Concluímos assim que a probabilidade de o celular de fato estar quebrado após o técnico concluir
que o celular está defeituoso é de 85,71%
Abordagens Estatísticas
www.alvarofpinheiro.eti.br 111
VANTAGENS
Ajuda a interpretar grandes volumes de dados.
Maior fidelidade nos cálculos.
Previsão de erros.
Lida melhor com dados com ruídos.
DESVANTAGENS
Alto custo computacional graças aos cálculos que deverão ser realizados
ÁRVORE DE DECISÃO
www.alvarofpinheiro.eti.br 112
Estrutura de dados formada por um conjunto de nós de decisão, com perguntas,
que permitem a classificação de cada caso. Tendo uma entrada, isto é, um objeto
ou situação descrito por um conjunto de propriedades ou atributos. E uma saída,
que é uma decisão. Sendo um método de aprendizado utilizado principalmente
para inferência indutiva.
Árvore de Decisão
www.alvarofpinheiro.eti.br 113
Processo para problemas de decisão diversos; Modelo Computacional para análise
de grande volume de dados com uma certa precisão e agilidade; Qualquer função
booleana pode ser escrita como uma árvore de decisão;
Quanto ao aprendizado:
Supervisionado;
Não-supervisionado;
Quanto a modelagem:
Descritiva: um modelo de classificação é usado
como ferramenta para distinguir exemplos
de diferentes classes;
Preditiva: um modelo de classificação
é utilizado para classificar exemplos cujas
classes são desconhecidas;
BIOINFORMÁTICA
www.alvarofpinheiro.eti.br 114
Campo interdisciplinar que corresponde à aplicação das técnicas de informática nas
áreas de estudo da biologia, combinando conhecimentos de ciência da computação,
estatística, matemática, biologia e engenharia para análise e interpretação de dados
biológicos. Existindo vários problemas importantes em que as abordagens de IA são
promissoras: Previsão de Estrutura de Proteínas; Aquisição de conhecimento a partir
de dados genéticos; Desenvolvimento de novos fármacos; e Alinhamento e
comparação de sequências.
BIÔNICA
www.alvarofpinheiro.eti.br 115
Observa o comportamento inerente a um sistema biológico,
aprendendo seu funcionamento, criando uma nova tecnologia
baseado no comportamento. A biônica e a cibernética, usam
modelos de sistemas vivos, onde a biônica para achar ideias
para sistemas artificiais e a cibernética para entender o
comportamento dos seres vivos.
BUSCA LOCAL
www.alvarofpinheiro.eti.br 116
Busca local é um método heurístico para resolver problemas de
otimização computacionalmente complexos. Podendo ser utilizada
em problemas que podem ser formulados como encontrar a solução
maximizando um critério em cima de um número de possíveis
soluções. Os algoritmos de busca local se movem de solução a
solução no espaço de possíveis soluções (o espaço
de busca), aplicando mudanças locais até que uma solução ótima
seja encontrada. Um exemplo é a aplicação do problema de
descobrir o caminho mais curto para visitar um grupo de
cidades, onde para 8 cidades, teríamos (8-1)! = 5040 caminhos
possíveis, assim para escolher uma rota requer estratégia. Um
problema de otimização é o problema de encontrar a melhor
solução, baseado em algum critério, de um conjunto de soluções
possíveis, e pode ser dividido em duas categorias: Otimização
Discreta e Otimização Contínua.
COMPUTAÇÃO EVOLUCIONÁRIA
www.alvarofpinheiro.eti.br 117
Os indivíduos não são totalmente semelhantes, mesmo que tenham
o mesmo parentesco. Essa variabilidade contribui para o
processo evolutivo ao apresentar em diferentes indivíduos
características diversas. A competição pelos recursos
ambientais seria um fator determinante para a evolução de uma
espécie. Seria a característica que favorece a sobrevivência
dos indivíduos em um determinado ambiente. Os indivíduos
apresentam adaptações diferentes ao mesmo ambiente, mas pela
seleção natural, somente aquele que for mais apto conseguirá
sobreviver. Algoritmos: Genetic Algorithms; Genetic
Programming; Immunological Algorithms; Evolutionary
Programming; Evolution Strategies; Differential Evolution
Cultural Algorithms; e Coevolution.
INTELIGÊNCIA DE ENXAMES
www.alvarofpinheiro.eti.br 118
A inteligência de enxame (Swarm intelligence) é aquela
encontrada no comportamento coletivo de sistemas
descentralizados e auto-organizados, onde pequenas mudanças
num indivíduo causa mudanças no grupo. Esse tipo de IA possui
as seguintes propriedades: Proximidade - os agentes devem ser
capazes de interagir; Qualidade - os agentes devem ser capazes
de avaliar seus comportamentos; Diversidade - permite ao
sistema reagir a situações inesperadas; Estabilidade - nem
todas as variações ambientais devem afetar o comportamento de
um agente; Adaptabilidade - capacidade de adequação a
variações ambientais. Algoritmos: Ant Colony Optimization –
ACO; Particle Swarm Optimization – PSO; Shuffled frog-leaping
– SFL; Bacterial Foraging Optimization – BFO; Artificial Bee
Colony- ABC; Fish School Search – FSS.
FUZZY
www.alvarofpinheiro.eti.br 119
Etapa na qual os valores numéricos são transformados em graus
de pertinência para um valor linguístico através da função de
pertinência. Engloba a Análise do Problema, Definição das
Variáveis, Definição das Funções de pertinência e Criação das
Regiões. Podendo ser aplicado em: Controladores de Processos
Industriais e a igualdade entre sistemas lineares e não
lineares; Sistemas Especialistas e flexibilidade; Redes
Neurais e sua capacidade de aprendizado.
u: [0,1]
PERCEPÇÃO E AÇÃO
www.alvarofpinheiro.eti.br 120
Totalmente Observável: sensores dos agente reportam todas as
informações sobre o estado do ambiente, levando em
consideração relevância e desempenho; Parcialmente Observável:
nem todas as informações do estado do ambiente estão
disponíveis por falta de sensores precisos ou falta de
informação; Determinístico: o próximo estado do ambiente é
completamente determinado pelo estado atual e ação do agente.
Podendo ser: Estocástico: Incerteza sobre o estado futuro do
ambiente, mesmo tendo informações atuais. Podendo ser:
Estratégico: Determinístico ,exceto pelas ações de outros
agentes; Episódico: ação se repete em episódios independentes,
tarefas sem distinção de curto x longo prazo; Sequencial: ação
se repete em episódios não independentes.
REDES NEURAIS
www.alvarofpinheiro.eti.br 121
Aprende com dados de teste que não foram rotulados,
classificados ou categorizados com forte inspiração
neurofisiológica, sendo predominante no cérebro humano.

Mais conteúdo relacionado

Mais procurados

Plano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da InformaçãoPlano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da InformaçãoHelio Rebouças
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business IntelligenceDouglas Scheibler
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligencenesi
 
Lei Geral de Proteção aos Dados (LGPD)
Lei Geral de Proteção aos Dados (LGPD)Lei Geral de Proteção aos Dados (LGPD)
Lei Geral de Proteção aos Dados (LGPD)Soraia Lima
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
Sistema de conhecimento do trabalho
Sistema de conhecimento do trabalhoSistema de conhecimento do trabalho
Sistema de conhecimento do trabalhoDenilson Sousa
 
Arquitetura de TI, Infraestrutura de TI e Processos de Negócio
Arquitetura de TI, Infraestrutura de TI e Processos de NegócioArquitetura de TI, Infraestrutura de TI e Processos de Negócio
Arquitetura de TI, Infraestrutura de TI e Processos de NegócioMauricio Uriona Maldonado PhD
 
Apresentação Final de Banco de Dados
Apresentação Final de Banco de DadosApresentação Final de Banco de Dados
Apresentação Final de Banco de Dadossamlobo
 
Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dadosgrupohanium
 
Inteligência Artificial e suas aplicações - A experiência do TECPAR
Inteligência Artificial e suas aplicações - A experiência do TECPARInteligência Artificial e suas aplicações - A experiência do TECPAR
Inteligência Artificial e suas aplicações - A experiência do TECPARBruno Campagnolo
 

Mais procurados (20)

Big Data
Big DataBig Data
Big Data
 
Data science
Data scienceData science
Data science
 
Aula 1
Aula 1Aula 1
Aula 1
 
Data Storytelling
Data StorytellingData Storytelling
Data Storytelling
 
Plano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da InformaçãoPlano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da Informação
 
Big data
Big dataBig data
Big data
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business Intelligence
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Lei Geral de Proteção aos Dados (LGPD)
Lei Geral de Proteção aos Dados (LGPD)Lei Geral de Proteção aos Dados (LGPD)
Lei Geral de Proteção aos Dados (LGPD)
 
Palestra do BI ao Big Data
Palestra do BI ao Big DataPalestra do BI ao Big Data
Palestra do BI ao Big Data
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Sistema de conhecimento do trabalho
Sistema de conhecimento do trabalhoSistema de conhecimento do trabalho
Sistema de conhecimento do trabalho
 
Arquitetura de TI, Infraestrutura de TI e Processos de Negócio
Arquitetura de TI, Infraestrutura de TI e Processos de NegócioArquitetura de TI, Infraestrutura de TI e Processos de Negócio
Arquitetura de TI, Infraestrutura de TI e Processos de Negócio
 
Apresentação Final de Banco de Dados
Apresentação Final de Banco de DadosApresentação Final de Banco de Dados
Apresentação Final de Banco de Dados
 
Banco de Dados - Conceitos Básicos
Banco de Dados - Conceitos BásicosBanco de Dados - Conceitos Básicos
Banco de Dados - Conceitos Básicos
 
Estratégia e TI
Estratégia e TIEstratégia e TI
Estratégia e TI
 
Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dados
 
Sql - introdução
Sql -  introduçãoSql -  introdução
Sql - introdução
 
Inteligência Artificial e suas aplicações - A experiência do TECPAR
Inteligência Artificial e suas aplicações - A experiência do TECPARInteligência Artificial e suas aplicações - A experiência do TECPAR
Inteligência Artificial e suas aplicações - A experiência do TECPAR
 
Modelagem de Sistema de Informação 02
Modelagem de Sistema de Informação 02Modelagem de Sistema de Informação 02
Modelagem de Sistema de Informação 02
 

Semelhante a MBA em DS - Ciclo de vida dos dados

Preservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados CientíficosPreservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados CientíficosCariniana Rede
 
Preservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificosPreservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificosLiber UFPE
 
Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819Luana da Silva
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Defesa de doutorado - Miguel Arellano
Defesa de doutorado - Miguel ArellanoDefesa de doutorado - Miguel Arellano
Defesa de doutorado - Miguel ArellanoCariniana Rede
 
A experiência de uma empresa de P&D na construção de uma política de governan...
A experiência de uma empresa de P&D na construção de uma política de governan...A experiência de uma empresa de P&D na construção de uma política de governan...
A experiência de uma empresa de P&D na construção de uma política de governan...Projeto RCAAP
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerDaniela Brauner
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 
Simplificando o mundo Empresarial dos Dados
Simplificando o mundo Empresarial dos DadosSimplificando o mundo Empresarial dos Dados
Simplificando o mundo Empresarial dos DadosAlberto Costa, MSc, CBIP
 
Aula - Sistemas de Informação
Aula - Sistemas de InformaçãoAula - Sistemas de Informação
Aula - Sistemas de InformaçãoDaniela Brauner
 

Semelhante a MBA em DS - Ciclo de vida dos dados (20)

Preservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados CientíficosPreservação e Curadoria de Dados Científicos
Preservação e Curadoria de Dados Científicos
 
Preservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificosPreservação e curadoria de dados cientificos
Preservação e curadoria de dados cientificos
 
Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819
 
Campus Party2010
Campus Party2010Campus Party2010
Campus Party2010
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
Curadoria de dados de pesquisa
Curadoria de dados de pesquisaCuradoria de dados de pesquisa
Curadoria de dados de pesquisa
 
Asi aula1
Asi aula1Asi aula1
Asi aula1
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Defesa de doutorado - Miguel Arellano
Defesa de doutorado - Miguel ArellanoDefesa de doutorado - Miguel Arellano
Defesa de doutorado - Miguel Arellano
 
A experiência de uma empresa de P&D na construção de uma política de governan...
A experiência de uma empresa de P&D na construção de uma política de governan...A experiência de uma empresa de P&D na construção de uma política de governan...
A experiência de uma empresa de P&D na construção de uma política de governan...
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela Brauner
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
Simplificando o mundo Empresarial dos Dados
Simplificando o mundo Empresarial dos DadosSimplificando o mundo Empresarial dos Dados
Simplificando o mundo Empresarial dos Dados
 
Aula - Sistemas de Informação
Aula - Sistemas de InformaçãoAula - Sistemas de Informação
Aula - Sistemas de Informação
 
Data Mining
Data Mining Data Mining
Data Mining
 
Saúde Gov Sp
Saúde Gov SpSaúde Gov Sp
Saúde Gov Sp
 

Mais de Álvaro Farias Pinheiro

Introdução à Sistemas de Informação
Introdução à Sistemas de InformaçãoIntrodução à Sistemas de Informação
Introdução à Sistemas de InformaçãoÁlvaro Farias Pinheiro
 
Medida de Esforço de Software com Análise de Ponto de Função
Medida de Esforço de Software com Análise de Ponto de FunçãoMedida de Esforço de Software com Análise de Ponto de Função
Medida de Esforço de Software com Análise de Ponto de FunçãoÁlvaro Farias Pinheiro
 
Fundamentos de Padrões de Projeto de Software
Fundamentos de Padrões de Projeto de SoftwareFundamentos de Padrões de Projeto de Software
Fundamentos de Padrões de Projeto de SoftwareÁlvaro Farias Pinheiro
 
Fundamentos de Banco de Dados Relacionais
Fundamentos de Banco de Dados RelacionaisFundamentos de Banco de Dados Relacionais
Fundamentos de Banco de Dados RelacionaisÁlvaro Farias Pinheiro
 
Programação Orientada a Objetos com Java
Programação Orientada a Objetos com JavaProgramação Orientada a Objetos com Java
Programação Orientada a Objetos com JavaÁlvaro Farias Pinheiro
 
Metodologias de Desenvolvimento de Software
Metodologias de Desenvolvimento de SoftwareMetodologias de Desenvolvimento de Software
Metodologias de Desenvolvimento de SoftwareÁlvaro Farias Pinheiro
 

Mais de Álvaro Farias Pinheiro (18)

IA
IAIA
IA
 
Autômatos
AutômatosAutômatos
Autômatos
 
Paradigma Orientado a Objetos
Paradigma Orientado a ObjetosParadigma Orientado a Objetos
Paradigma Orientado a Objetos
 
Padrões de Projeto (GoF)
Padrões de Projeto (GoF)Padrões de Projeto (GoF)
Padrões de Projeto (GoF)
 
Linguagem de Modelagem Unificada (UML)
Linguagem de Modelagem Unificada (UML)Linguagem de Modelagem Unificada (UML)
Linguagem de Modelagem Unificada (UML)
 
Introdução a Tecnologias Web
Introdução a Tecnologias WebIntrodução a Tecnologias Web
Introdução a Tecnologias Web
 
Introdução ao HTML
Introdução ao HTMLIntrodução ao HTML
Introdução ao HTML
 
Introdução à Sistemas de Informação
Introdução à Sistemas de InformaçãoIntrodução à Sistemas de Informação
Introdução à Sistemas de Informação
 
Análise e Modelagem com UML
Análise e Modelagem com UMLAnálise e Modelagem com UML
Análise e Modelagem com UML
 
Eficiência Energética
Eficiência EnergéticaEficiência Energética
Eficiência Energética
 
Fundamentos da Engenharia de Software
Fundamentos da Engenharia de SoftwareFundamentos da Engenharia de Software
Fundamentos da Engenharia de Software
 
Fundamentos de Testes de Software
Fundamentos de Testes de SoftwareFundamentos de Testes de Software
Fundamentos de Testes de Software
 
Medida de Esforço de Software com Análise de Ponto de Função
Medida de Esforço de Software com Análise de Ponto de FunçãoMedida de Esforço de Software com Análise de Ponto de Função
Medida de Esforço de Software com Análise de Ponto de Função
 
Fundamentos de Padrões de Projeto de Software
Fundamentos de Padrões de Projeto de SoftwareFundamentos de Padrões de Projeto de Software
Fundamentos de Padrões de Projeto de Software
 
Fundamentos de Banco de Dados Relacionais
Fundamentos de Banco de Dados RelacionaisFundamentos de Banco de Dados Relacionais
Fundamentos de Banco de Dados Relacionais
 
Programação Orientada a Objetos com Java
Programação Orientada a Objetos com JavaProgramação Orientada a Objetos com Java
Programação Orientada a Objetos com Java
 
Metodologias de Desenvolvimento de Software
Metodologias de Desenvolvimento de SoftwareMetodologias de Desenvolvimento de Software
Metodologias de Desenvolvimento de Software
 
Redes Sociais
Redes SociaisRedes Sociais
Redes Sociais
 

MBA em DS - Ciclo de vida dos dados

  • 1. MBA em Business Intelligence Disciplina Data Science www.alvarofpinheiro.eti.br 1
  • 2. Docente Prof. Álvaro Farias Pinheiro Coordenador da Equipe de Sistemas da Procuradoria Geral do Estado (PGE-PE) Analista em Gestão da Tecnologia da Informação e Comunicação (ATI-PE) Mestre em Engenharia de Software Especialista em Metodologias de Desenvolvimento Bacharel em Sistemas de Informações Certificado em Banco de Dados Oracle http://www.alvarofpinheiro.eti.br www.alvarofpinheiro.eti.br 2
  • 3. Ementa 1. Introdução à Ciência de Dados 2. Conceitos sobre Dados 3. Ciclo de Vida dos Dados 4. Valor da Informação 5. Privacidade e Ética 6. Conceitos Dadabase, Data Minig, Business Intelligence, Big Data, Artificial Intelligence 7. Visão de uma Empresa orientada por dados 8. Engenharia dos Dados para Análises 9. Criação e Validação de Modelos 10. Preparação e análises exploratórias de dados 11. Validação do Conhecimento Adquirido www.alvarofpinheiro.eti.br 3
  • 4. Algumas boas referências www.alvarofpinheiro.eti.br 4 Stuart Russell Peter Norvig Chirstopher Date Felipe Machado Ronaldo Goldschmidt Emmanuel Passos Eduardo Bezerra Foster Provost Tom Fawcett Joel Grus
  • 5. Data Science É o estudo da forma de captura de dados estruturados, semiestruturados e não estruturados para transformar em informações, que serão estudas, com o máximo de visões possíveis sobre um determinado assunto, objetivando realizar análise preditiva e assim gerar conhecimento para tomada de decisões com sabedoria. E para isso fazendo uso de diversas disciplinas. www.alvarofpinheiro.eti.br 5Introdução a Ciência dos Dados
  • 7. Tipo de Dados www.alvarofpinheiro.eti.br 7 Não Estruturados Estruturados Semi Estruturado Conceitos sobre Dados
  • 9. Finalidade dos Dados www.alvarofpinheiro.eti.br 9 Dado Informação Conhecimento Sabedoria Conceitos sobre Dados
  • 10. Unidades de Grandeza dos Dados www.alvarofpinheiro.eti.br 10 Unidade Sigla Grandeza Caracteres Aproximação Byte B 8 bits 1 1 KiloByte KB 210 1.024 1 mil MegaByte MB 220 1.048.576 1 milhão GigaByte GB 230 1.073.741.824 1 bilhão TeraByte TB 240 1.099.511.627.776 1 trilhão PetaByte PB 250 1.125.899.906.842.620 1 quatrilhão ExaByte EB 260 1.152.921.504.606.850.000 1 quintilhão ZettaByte ZB 270 1.180.591.620.717.410.000.000 1 sextilhão YottaByte YB 280 1.208.925.819.614.630.000.000.000 1 septilhão Conceitos sobre Dados
  • 11. Hal Varian www.alvarofpinheiro.eti.br 11 Hal Ronald Varian é economista especializado em microeconomia e economia da informação. É o economista-chefe na Google e professor emérito na Universidade da Califórnia em Berkeley. Formado pelo MIT e recebedor de vários prêmios, com trabalhos na Universidade da Califórnia em Berkeley, Universidade Stanford, Universidade de Michigan e Google. Conceitos sobre Dados
  • 12. Quanta informação se produz no mundo? www.alvarofpinheiro.eti.br 12Conceitos sobre Dados https://youtu.be/jCgYvFR_9nY
  • 13. Informação www.alvarofpinheiro.eti.br 13 Entre os anos de 2002 e 2012, a humanidade gerou 61 quintilhões de dados. Conceitos sobre Dados
  • 14. Ciclo de Vida dos Dados www.alvarofpinheiro.eti.br 14Ciclo de Vida dos Dados
  • 15. Ciclo de Vida dos Dados - Projeto Determinar quais dados precisam ser criados ou recolhidos para a pesquisa ou função, identificando e avaliando as fontes existentes de dados necessários, além de padrões de dados e formato de metadados, definindo-se ainda, ações e responsabilidades pela gestão dos dados durante seu ciclo de vida. www.alvarofpinheiro.eti.br 15Ciclo de Vida dos Dados
  • 16. Ciclo de Vida dos Dados - Coleta Consiste nas atividades vinculadas a definição inicial dos dados a serem utilizados, seja na elaboração do planejamento de como serão obtidos, filtrados e organizados, identificando-se a estrutura, formato e meios de descrição que será utilizado. Nesta fase o dado deve ainda ser devidamente descrito em metadados, avaliados e selecionados. www.alvarofpinheiro.eti.br 16Ciclo de Vida dos Dados
  • 17. Ciclo de Vida dos Dados - Processamento É o processo de transformar a imensa massa de dados disponíveis em informações consistentes que permitam a tomada de decisões e agreguem valor às atividades e aos negócios. www.alvarofpinheiro.eti.br 17Ciclo de Vida dos Dados
  • 18. Ciclo de Vida dos Dados - Distribuição Estruturas distribuídas e sustentáveis que atendam às necessidades da ciência e da sociedade, persistente, robusto e seguro. www.alvarofpinheiro.eti.br 18Ciclo de Vida dos Dados
  • 19. Ciclo de Vida dos Dados - Armazenamento São as atividades relacionadas ao processamento, transformação, inserção, modificação, migração, transmissão e toda e qualquer ação que vise a persistência de dados em um suporte digital. www.alvarofpinheiro.eti.br 19Ciclo de Vida dos Dados
  • 20. Ciclo de Vida dos Dados - Recuperação Possibilidade de geração de novos dados originados nesta fase o que retroalimenta o ciclo e retoma ações da fase de coleta para situações novas ou diretamente a fase de armazenamento para dados que já são esperados como resultado das ações. www.alvarofpinheiro.eti.br 20Ciclo de Vida dos Dados
  • 21. Ciclo de Vida dos Dados - Análise Apresenta-se como um objetivo que deve ser considerado desde o momento da coleta, em que é levado em consideração não somente no planejamento e na elaboração do formato e dos metadados, mas também na própria preocupação com a preservação dos metadados em si e dos aspectos relacionados a sua interpretação. www.alvarofpinheiro.eti.br 21Ciclo de Vida dos Dados
  • 22. Ciclo de Vida dos Dados - Reuso Elemento de retroalimentação que pode gerar a criação de novos registros. www.alvarofpinheiro.eti.br 22Ciclo de Vida dos Dados
  • 23. Ciclo de Vida dos Dados Básico www.alvarofpinheiro.eti.br 23 Armazenamento Recuperação Coleta A coleta tem como objetivo realizar direcionamentos em um negócio através de dados como o público, consumo, concorrência, etc. O armazenamento consiste em um agrupamento de arquivos importantes, persistidos em um local seguro e que deve proporcionar eficiência nas pesquisas e permitir controle de acesso. Como os dados serão processados e transformados em informação. Descarte Ciclo de Vida dos Dados
  • 24. Métodos de Coleta de Dados www.alvarofpinheiro.eti.br 24 • Reunir dados que comprovem um determinado objetivo seguindo regras • Ex.: Pesquisa de campoCientífico • Obter dados de um grupo específico para comprovar determinado objetivo • Ex.: Entrevistas, Brainstorm, EtnografiaQualitativo • Uso de técnicas estatísticas envolvendo um grade grupo • Pode ser: Explanatória, Exploratória ou Descritiva • Ex.: Questionários Quantitativo • Realizar a descrição de uma experiência • Ex.: Entrevistas, Brainstorm, EtnografiaFenomenológico • Usa raciocínio descendente, da análise geral até a particular, chegando na conclusão • Ex.: Uso de premissas maior e menor para chegar na razãoDedutivo Ciclo de Vida dos Dados
  • 25. Tecnologias de Armazenamento de Dados www.alvarofpinheiro.eti.br 25 Computer • HD • Storage • Farm Media • CD • DVD • Blu-Ray Device • HD Externo • Pendrive Card • SD Cloud • GoogleDrive • OneDrive • Dropbox • Amazon Ciclo de Vida dos Dados
  • 26. Tecnologias de Dados www.alvarofpinheiro.eti.br 26 Data Science Big Data Business Intelligence Data Mining Data Mart & Data WareHouse Simple & Complex Query Ciclo de Vida dos Dados
  • 27. Tecnologias de Armazenamento de Dados Hard Disk www.alvarofpinheiro.eti.br 27Ciclo de Vida dos Dados
  • 28. Tecnologias de Armazenamento de Dados Storage www.alvarofpinheiro.eti.br 28Ciclo de Vida dos Dados
  • 29. Tecnologias de Armazenamento de Dados Hack www.alvarofpinheiro.eti.br 29Ciclo de Vida dos Dados
  • 30. Tecnologias de Armazenamento de Dados Farm www.alvarofpinheiro.eti.br 30Ciclo de Vida dos Dados
  • 31. Tecnologias de Armazenamento de Dados Data Center www.alvarofpinheiro.eti.br 31Ciclo de Vida dos Dados
  • 32. Tecnologias de Armazenamento de Dados Data Center Flutuante www.alvarofpinheiro.eti.br 32Ciclo de Vida dos Dados
  • 33. Valor da Informação www.alvarofpinheiro.eti.br 33 Custo Financeiro TempoIntelectual Toda informação tem seu custo, seja ele financeiro ou intelecto. Muitas vezes, é necessário ter dinheiro para ter acesso a bons cursos, bons livros. Mas, além disso, também é necessário ter tempo, o que falta para muitas pessoas atualmente. Valor da Informação
  • 35. Valor da Informação www.alvarofpinheiro.eti.br 35 Toda informação é um bem de alto valor e deve ser protegida. O desenvolvimento tecnológico permitiu pensar no quanto a informação é valiosa. Dentro das organizações, ela é uma busca constante. Com base nela que se garante a sobrevivência, dentro de um mundo altamente competitivo. Valor da Informação
  • 36. Valor da Informação www.alvarofpinheiro.eti.br 36 O grande volume de informações tratadas no dia a dia, já não é comportado dentro das mídias tradicionais. E é necessário medidas de segurança para proteção de informações dentro das organizações, caso contrário, pode gerar grandes perdas. Valor da Informação
  • 37. Valor da Informação www.alvarofpinheiro.eti.br 37 “Traficantes de Dados” São indivíduos especializados em obter informação objetivando lucro ilícito, usando as informações para prejudicar organizações, atuando de forma danosa na imagem da mesma, o que pode gerar perda de confiança e consequentemente da quota de mercado que possui. Valor da Informação
  • 38. Valor da Informação www.alvarofpinheiro.eti.br 38 Toda informação vale muito e tem um custo. Seja para ser gerada, manipulada ou estocada. É um valor direto e agregado, que pode ser medido através do empenho investido em obtê-la e conservá-la. Valor da Informação
  • 39. Valor da Informação www.alvarofpinheiro.eti.br 39 Informação Restrita ou Sigilosa Para essas o valor será multiplicado se a informação é de cunho confidencial, se tiverem inclusos fatores como: pessoas que podem ser beneficiadas por meio delas se puderem gerar montante monetário, grau de crise que sua dispersão possa suscitar. Valor da Informação
  • 40. Valor da Informação www.alvarofpinheiro.eti.br 40 Prevenção Não se pode mais permitir que o acaso de invasão aconteça. A preservação da informação é necessária para “quando” for invadido, quais medidas deverão ser tomadas. E uma das medidas mandatórias de proteção é a Criptografia. Valor da Informação
  • 42. Lei Geral da Proteção de Dados (LGPD) A Lei Geral de Proteção de Dados (LGPD) estabelecerá uma série de regras que as organizações no Brasil terão que seguir para permitir que o cidadão tenha mais controle sobre o tratamento que é dado às suas informações pessoais. A consequência disso é que muitas organizações privadas e públicas que não davam a devida importância ao assunto, terão que passar a dar. Muitas organizações faziam interpretações evasivas a respeito ou simplesmente diziam não haver obrigação legal para proteção de dados. www.alvarofpinheiro.eti.br 42Privacidade e Ética
  • 43. LGPD – Caso Justiça Ribeirão Preto Em Ribeirão Preto no ano de 2016 entre os dias 2 e 5 de junho, a Justiça determinou que Apple, Google e Microsoft fornecessem dados como endereços de email e fotos de todas as pessoa que circularam em um raio de 500 metros de uma chácara usada como ponto de apoio por criminosos que assaltaram uma empresa de transporte de valores. www.alvarofpinheiro.eti.br 43Privacidade e Ética
  • 44. LGPD – Finalidade Trata-se de uma legislação que determina como os dados dos cidadãos podem ser coletados e tratados, e que prevê punições para transgressões. O próprio Senado reconhece que a proposta para o marco geral de proteção de dados — outra denominação dada à proposta — foi fortemente inspirada no GDPR, um rigoroso conjunto de regras sobre privacidade da União Europeia que entrou em vigor em maio. www.alvarofpinheiro.eti.br 44Privacidade e Ética
  • 45. LGPD – Dados O projeto trata como dado pessoal qualquer informação relacionada a uma pessoa que, que isoladamente ou em conjunto com outros detalhes, permite identificá-la. Alguns exemplos de dados pessoais são: nome, apelido, endereço residencial, endereço de e-mail, endereço IP, fotos próprias, formulários cadastrais, números de documentos. www.alvarofpinheiro.eti.br 45Privacidade e Ética
  • 46. LGPD – Tratamento As organizações públicas e privadas só poderão coletar dados pessoais se tiverem consentimento do titular. A solicitação deverá ser feita de maneira clara para que o cidadão saiba exatamente o que vai ser coletado, para quais fins e se haverá compartilhamento. Quando houver envolvimento de menores de idade, os dados somente poderão ser tratados com o consentimento dos pais ou responsáveis legais. www.alvarofpinheiro.eti.br 46Privacidade e Ética
  • 47. LGPD – Tratamento Se houver mudança de finalidade ou repasse de dados a terceiros, um novo consentimento deverá ser solicitado. O usuário poderá, sempre que desejar, revogar a sua autorização, bem como pedir acesso, exclusão, portabilidade, complementação ou correção dos dados. Caso o uso das informações leve a uma decisão automatizada indesejada, recusa de financiamento por um sistema bancário, por exemplo, o usuário poderá pedir uma revisão humana do procedimento. www.alvarofpinheiro.eti.br 47Privacidade e Ética
  • 48. LGPD – Restrição Há uma categoria classificada como “dados sensíveis”. Elas dizem respeito a informações como crenças religiosas, posicionamentos políticos, características físicas, condições de saúde e vida sexual. O uso desses dados será mais restritivo. Nenhuma organização poderá fazer uso deles para fins discriminatórios. Também será necessário garantir que eles serão devidamente protegidos. www.alvarofpinheiro.eti.br 48Privacidade e Ética
  • 49. LGPD – Objetivo De modo geral, a ideia é proteger o cidadão do uso abusivo e indiscriminado dos seus dados. Além de pedir consentimento de maneira clara e atender às demandas do usuário sobre manutenção ou eliminação dos dados, as organizações só poderão solicitar os dados que são realmente necessários ao fim proposto. Nesse sentido, o usuário poderá questionar se a exigência de determinado dado faz sentido. www.alvarofpinheiro.eti.br 49Privacidade e Ética
  • 50. LGPD – Exceções As regras não valem para dados pessoais tratados para fins acadêmicos, artísticos ou jornalísticos, bem como para aqueles que envolvem segurança pública, defesa nacional, proteção da vida e políticas governamentais. Esses casos deverão ser tratados por leis específicas. www.alvarofpinheiro.eti.br 50Privacidade e Ética
  • 51. LGPD – Vazamentos Existem casos de vazamentos de dados no Brasil em que as autoridades ou vítimas só ficaram sabendo semanas ou meses depois do incidente, a exemplo do caso Netshoes. Não poderá mais ser assim. Vazamentos ou problemas de segurança que comprometem dados pessoais deverão ser relatados às autoridades competentes em tempo hábil. Após análise da situação, as autoridades indicarão os próximos passos, como determinar que o problema seja divulgado à imprensa. www.alvarofpinheiro.eti.br 51Privacidade e Ética
  • 52. LGPD – Caso Netshoes Em janeiro, o Ministério Público do Distrito Federal e Territórios (MPDFT) alertou sobre “um dos maiores incidentes de segurança registrados no Brasil”. Trata-se de uma lista com informações sobre 1.999.704 clientes da Netshoes, incluindo nome completo, e-mail, CPF, data de nascimento e mais. O MPDFT ameaçou abrir uma ação civil pública contra a Netshoes caso os clientes não fossem avisados sobre o vazamento. A empresa decidiu, então, que vai contatá-los por telefone. www.alvarofpinheiro.eti.br 52Privacidade e Ética
  • 53. LGPD – Punições Vai depender da gravidade da situação. Se comprovada a infração, a organização responsável poderá receber desde advertências até uma multa equivalente a 2% do seu faturamento, mas limitada ao valor máximo de R$ 50 milhões. A organização também poderá ter as atividades ligadas ao tratamento de dados total ou parcialmente suspensas, além de responder judicialmente a outras violações previstas em lei, quando for o caso. www.alvarofpinheiro.eti.br 53Privacidade e Ética
  • 54. LGPD – Caso Facebook No caso de descumprimento, a empresa poderá pagar multa de € 20 milhões ou 4% da sua receita anual no mundo todo, o que for maior, o que resultaria em uma punição de bilhões de dólares no caso do Facebook. Tudo indicava que este seria o momento propício para a companhia adotar medidas drásticas: com um novo conjunto de práticas, o Facebook poderia se adequar ao regulamento e, ao mesmo tempo, amenizar os efeitos do escândalo Cambridge Analytica. www.alvarofpinheiro.eti.br 54Privacidade e Ética
  • 55. DPO – Data Protection Officer Ao instituir a lei, a União Europeia criou mecanismos para garantir o cumprimento da norma pelos sujeitos a que a ela estão submetidos. Nesse sentido, os responsáveis pelo tratamento e processamento de dados pessoais, sejam estes entes privados ou públicos, deverão possuir em seus quadros um Data Protection Officer. O profissional responsável por aconselhar e verificar se tais entes estão obedecendo a LGPD ao processarem e tratarem dados pessoais de terceiros. Embora o legislador europeu não tenha fixado requisitos objetivos para que um profissional seja nomeado DPO, a norma estabelece que esse profissional deverá ser uma pessoa com expertise na legislação e nas práticas de proteção de dados. www.alvarofpinheiro.eti.br 55Privacidade e Ética
  • 56. Evolução da Utilização dos Dados www.alvarofpinheiro.eti.br 56 Internet Web 2.0 Big Data Business Intelligence Data Science A cada 10 minutos, o volume de dados gerados no mundo todo é maior do que o volume de dados gerados desde a pré-história. Desde os anos 1980 a cada dois anos a nossa capacidade de processamento praticamente dobra. Surge decorrente a essa grande quantidade de dados e capacidade de processamento. Aparece com a necessidade de analisar e extrair informações úteis. Nasce com intuito de realizar análise preditiva fazendo uso de IA. Conceitos
  • 57. Aplicações da Ciência dos Dados www.alvarofpinheiro.eti.br 57 Marketing Search Engine Recommend recognition +e-Commerce Os motores de pesquisa na internet fazem o uso da ciência de dados em conjunto com o aprendizado de máquina para encontrar o resultado mais adequado mais rapidamente Ex.:Google,Bing,Yahoo, ... O marketing digital serve-se de algoritmos que utilizam a ciência de dados objetivando obter um resultado mais direcionado dos anúncios com base no histórico do usuário Combinando dados do perfil com os dados de buscas se usa a ciência de dados para melhorar as sugestões que mais se adequam a cada usuário Ex.:Facebook,Linkedin,Instagram,Netflix,Amazon, ... Uso de algoritmos de ciência de dados para reconhecimento de imagens as aplicações podem associar uma imagem a um serviço. Ex.: QRCode,... Use-se a ciência de dados para melhorar os resultados nos motores de busca para indicar os melhores resultados sobre hotéis , voos , serviços , reservas, pacotes, seguros, etc Ex.:Booking,Trivago,... A ciência de dados auxilia na solução de problemas de alta complexidade e processamento pesado, como no gerenciar as rotas em sistemas logísticos . Ex.:UPS,Fedex,... Conceitos
  • 58. Tecnologias para Ciência dos Dados www.alvarofpinheiro.eti.br 58 SQL • Data Definition • Data Manipulation • Data Query • Data Control • Data Transaction Qlik • Data Management and Analisys Tool Python • Language Programming R • Language Programming • Computação Estatística SAS • Statistical Analysis System Conceitos
  • 60. Convergência - 4ªRevolução Industrial www.alvarofpinheiro.eti.br 60Conceitos https://youtu.be/rbXJMAFRM7I
  • 62. Database Bancos de dados ou bases de dados são um conjunto de tabelas relacionadas entre si com registros sobre algo, representando uma coleção organizada de dados que se relacionam de forma a criar algum sentido, informação, e dar mais eficiência durante uma pesquisa ou recuperação. Os DBs são geridos pelos Database Management System (DBMS). www.alvarofpinheiro.eti.br 62Conceitos
  • 63. Database - Modelos www.alvarofpinheiro.eti.br 63 Sistemas de Arquivos Hierárquicos Redes Relacionais Orientados a Objetos Objetos - Relacionais Multidimensionais NoSQL Conceitos
  • 64. Structure Query Language www.alvarofpinheiro.eti.br 64 DDL DML DQL DCL SQL Conceitos
  • 65. Data Mining – Entendimento www.alvarofpinheiro.eti.br 65 Identificar Dados Limpar Dados Analisar Dados Interpretar Informações Conceitos
  • 66. Data Mining – Componentes www.alvarofpinheiro.eti.br 66 Estatística Inteligência Artificial Dados Minerados Conceitos
  • 67. Data Mining – Processo www.alvarofpinheiro.eti.br 67 Raw Data Raw Data Raw Data Data Mine Database Cube Algoritms Conceitos
  • 68. Data Mining – Esquema www.alvarofpinheiro.eti.br 68Conceitos
  • 69. Data Mining – OLAP www.alvarofpinheiro.eti.br 69Conceitos
  • 70. Data Mining – Multidimensional www.alvarofpinheiro.eti.br 70Conceitos
  • 71. Data Mining – Ações www.alvarofpinheiro.eti.br 71 Ação Resultado Pivot Girar os eixos de dados para fornecer uma apresentação de dados substituta RollUp Resulta numa "consolidação" ou "agregação“, reduzindo as dimensões, subindo a hierarquia do conceito, isto é, agrupar os dados com base em sua ordem ou nível Drill Down Fragmentação dos dados em partes menores, sendo o oposto do processo de rollup, podendo ser realizado via descendo a hierarquia do conceito ou aumentando uma dimensão Slicing Uma dimensão é selecionada e um novo subcubo é criado Dicing Essa operação é semelhante a um slicing, a diferença é que é o resultado da seleção de duas ou mais dimensões que resultam na criação de um subcubo. Conceitos
  • 72. Data Mining – CRISP-DM www.alvarofpinheiro.eti.br 72Conceitos Entender Negócio Entender Dados Preparação Dados Modelagem Dados Avaliação Implantação Dados CRoss Industry Standard Process for Data Mining, que pode ser traduzido como Processo Padrão Inter- Indústrias para Mineração de Dados, sendo um modelo de processo de mineração de dados que descreve abordagens comumente usadas por especialistas. Sendo composto pelas fases: Entender- Negócio objetivando entender o objetivo; Entender- Dados que consiste em coletar os dados; Preparação- Dados que server para construir a base de dados; Modelagem onde se aplica as técnicas para otimização; Avaliação realiza a construção do modelo de análise de dados; Implantação onde ser obtém o conhecimento adquirido pelo modelo.
  • 73. Data Mining – Métodos www.alvarofpinheiro.eti.br 73 Indutivo Supervisionado Não Supervisionado Classificação Regressão Agrupamento Associação PREDITIVAS DESCRITIVAS Conceitos
  • 74. Big Data www.alvarofpinheiro.eti.br 74 O Big Data é a base de dados dos algoritmos de aprendizado de máquina, pois eles são a gigantesca fonte de dados de treinamento do ML. Sendo o divisor de águas para o que é denominado de quarta revolução industrial. Vivemos hoje na época das coletas de dados para o aprendizado das máquinas. Por exemplo, muitos hoje usam smartfone, smarttv, smartwatch, smartglasses, que enviam dados os mais diversos para algum servidor do seu provedor de internet, que monitora cada clique, isso é o que chamados de Big Data, pois tudo se torna dado útil para algum algoritmo de aprendizado de máquina.
  • 76. Big Data – Como Surgiu? www.alvarofpinheiro.eti.br 76 Antes Depois Conceitos
  • 77. Big Data – O que viabilizou? 77www.alvarofpinheiro.eti.br Fonte: www.iopera.com.br
  • 78. Big Data – Estimativas www.alvarofpinheiro.eti.br 78 80 0 10 20 30 40 50 60 70 80 90 2015 2020 BILHÕES PERÍODO Dispositivos Conectados Fonte: www.iopera.com.br Conceitos
  • 79. Big Data – Definição Consiste em tratar grande Volume de dados medidos hoje em Terabytes amanhã em Yottabytes, com grande Velocidade em RealTime, NearTime, Streams, tratando dados de grande Variedade como estruturados, semi estruturados e não estruturados, analisando dados para garantira a Veracidade, para agregar Valor a quem usa, objetivando transformar de modo eficiente, eficaz e confiável dados relevantes em informações úteis. www.alvarofpinheiro.eti.br 79Conceitos
  • 80. Big Data – Qual a diferença para BI? A grande diferença está na possibilidade de lidar com alta performance com os dados Não Estruturados, por exemplo, os tweets, postagens no Facebook, vídeos, geolocalização, comportamentos dos usuários baseados em contexto. www.alvarofpinheiro.eti.br 80Conceitos
  • 81. Big Data – Estatísticas Os dados Não Estruturados representam 85% das informações que as organizações lidam atualmente. Com crescimento de constante nos próximos anos, onde a quantidade de dados digitais deve crescer a taxa de 1,8 ZettaBytes (Sextilhões), isto é, 1 com 21 zeros. www.alvarofpinheiro.eti.br 81 Fonte: Gartner Conceitos
  • 82. Big Data – Exemplos de Uso www.alvarofpinheiro.eti.br 82 Skybox Nações Unidas Dollar General Sprint Nextel Haiti Canadá Vestas Wind Tira fotos de satélite e vende aos clientes em tempo real. Resultado: Disponibilidade de vagas livres em estacion. em cidades e hora determinada; Quantidade de navios ancorados no mundo; ... Projeto Global Pulse decifra a linguagem humana na análise de mensagens de texto e postagens em redes sociais. Resultado: Prever o aumento de desemprego; Mudanças econômicas; Epidemias de doenças; ... Varejista americana monitora as combinações de produtos que seus clientes colocam nos carrinhos. Resultado: Ganhou eficácia e descobriu curiosidades; ... Integrou dados de todos os clientes com os canais de relacionamento Resultado: Cortou metade dos gastos com call center; ... Após o terremoto os pesquisadores utilizaram a geolocalização de chips SIM. Resultado: facilitou a atuação da ajuda humanitária, ... Hospital fez uso da tecnologia da IBM e Universidade de Ontário para monitorar em tempo real dezenas de indicadores de saúde de bebês prematuros. Resultado: O cruzamento permitiu aos médicos antecipar ameaças; ... A dinamarquesa Vestas, em busca de melhores lugares para instalar turbinas eólicas analisou PettaBytes de dados climáticos, de nível das marés. Resultado: O que levava semanas, levou horas.Conceitos
  • 83. Ferramenta Big Data – MapReduce Modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes, onde os programas são escritos no estilo das construções de programação funcionais. www.alvarofpinheiro.eti.br 83Conceitos
  • 84. Ferramenta Big Data – MapReduce – Arquitetura www.alvarofpinheiro.eti.br 84Conceitos
  • 85. Ferramenta Big Data – HADOOP Plataforma de software em Java de computação distribuída para processamento de grandes volumes de dados, com atenção a tolerância a falhas, inspirada no MapReduce do Google, desenvolvido pela comunidade Apache e Yahoo, fazendo uso da linguagem de programação Java. Sendo disponibilizado pela Amazon e IBM em suas plataformas. É um framework desenvolvido originalmente em 2007 pelo Facebook, e agora pertence a Apache, faz uso de bases de dados não relacional para grandes volumes de dados e aceita comandos SQL. www.alvarofpinheiro.eti.br 85Conceitos
  • 86. Ferramenta Big Data – HADOOP – Arquitetura www.alvarofpinheiro.eti.br 86Conceitos
  • 87. Inteligência Artificial www.alvarofpinheiro.eti.br 87 IA existe desde a década de 1950 com Alan Turing com o jogo da imitação. Mas nos últimos anos o termo vem se tornando cada vez mais corriqueiro em todos os segmentos, e não mais só em TIC. Porém vale salientar que depois que um sistema que usa IA vira rotina, deixam de ser rotulado como inteligência artificial. Por exemplo, o sistema fly-by-wire, desenvolvido e evoluído desde da década de 1970, que é um conjunto de sensores e algoritmos capazes de decolar e pousar um avião sem interferência direta do piloto. Dado o exemplo, vamos para definição de IA: basicamente é um algoritmos que se auto alimenta, ou em outras palavras, são algoritmos capazes de se auto ajustar conforme condições dinâmicas do ambiente para produzir resultados otimizados. Essa definição descreve o sistema fly-by-wire, o Facebook que controla o feed de notícias ou os algoritmos da Tesla que dirigem um carro sem motorista. Porém hoje, inteligência artificial é também aprendizado de máquina. Todo algoritmo dedutivo tem uma entrada de dados, que é processada por regras e gerada uma saída. Em uma Machine Learning, o que se tem é o oposto, isto é, algoritmo indutivo. Neste são fornecidos os dados de entrada e as saídas desejadas, e o algoritmo entrega as regras, ou melhor dizendo, se encarrega de encontrar as relações estatísticas dentro desses dados para dessa forma construir as regras, que o leve das entradas para os resultados desejados, ou seja, aprendem com o passar do tempo e com o acúmulo de experiência. Assim um algoritmo que ML pode reconhecer um rosto ou discernir uma foto de um felino da foto de um cão pelos padrões já experimentados por ele. Algoritmos de ML só funcionam se tivermos uma fonte gigantesca de dados para que eles “se treinem”.
  • 88. Como a Inteligência Artificial Realmente Funciona www.alvarofpinheiro.eti.br 88Conceitos https://youtu.be/rGGKO9cw5-g
  • 89. Artificial Intelligence - Evolução www.alvarofpinheiro.eti.br 89 1950 Artifical Intelligence 1960 Weak Artificial Intelligence 1980 Machine Learning 2000 Deep Learning 2010 Cognitive Computing objetivando executar qualquer tarefa intelectual que um humano pudesse realizar Aplicação de Técnicas de IA aprender e desenvolver modelos para atividades dentro de domínios específicos redes neurais em várias camadas com novas topologias e métodos de aprendizado conhecer e interagir naturalmente com humanos
  • 90. Artificial Intelligence - Fraca www.alvarofpinheiro.eti.br 90 1950 IA 1960 Perceptron 1970 Cluster & Tree Decision 1980 Based Rules IA surgiu com o desenvolvimento de um programa para jogo de damas, criado por Arthur Samuel no IBM 701, chamado de poda alfa-beta, se tornando o primeiro programa de auto aprendizado, já que foi programado para jogar sozinho, compreendendo a movimentação de todas as possibilidades do tabuleiro de damas que é de 362.880 posições, porém ao estender esse mesmo exercício intelectual para xadrez ou Go, esse algoritmo mostra sua insuficiência.
  • 91. Artificial Intelligence - Fraca www.alvarofpinheiro.eti.br 91 1950 IA 1960 Perceptron 1970 Cluster & Decision Tree 1980 Based Rules O perceptron foi um dos primeiros algoritmos de aprendizado supervisionado, onde os usuários fornecem dados para treinar a rede e depois testá-la com relação aos novos dados, assim foi o primeiro algoritmos de rede neural de camada única. Dado um vetor de recurso de entrada, o algoritmo poderia aprender a classificar entradas como pertencentes a uma classe específica. Utilizando um conjunto de treinamento, os pesos da rede e os vieses poderiam ser atualizados para classificação linear. Foi implementado pela primeira vez num IBM 704 para reconhecimento de imagem. A principal limitação era sua incapacidade de aprender uma função XOR. Porém, com os perceptrons multicamadas essa limitação foi resolvida, abrindo caminho para algoritmos mais complexos, como topologias de rede e deep learning.
  • 92. Artificial Intelligence - Fraca www.alvarofpinheiro.eti.br 92 1950 IA 1960 Perceptron 1970 Cluster & Tree Decision 1980 Based Rules Os algoritmos de armazenamento em cluster utilizam uma abordagem diferente chamada aprendizado não supervisionado, onde o algoritmo organiza um conjunto de vetores de recurso em clusters baseados em um ou mais atributos dos dados. Um dos algoritmos mais simples que podem ser implementados em uma pequena quantidade de código é chamado k-médias. Nesse algoritmo, k indica o número de clusters no qual é possível designar amostras. É possível inicializar um cluster com um vetor de recurso aleatório e, em seguida, incluir todas as outras amostras no cluster mais próximo, conforme você inclui amostras em um cluster, seu centroide, o centro do cluster, é recalculado. O algoritmo então verifica as amostras novamente para assegurar que elas existem no cluster mais próximo e finaliza quando nenhuma amostra altera a associação do cluster.
  • 93. Artificial Intelligence Desicion Tree www.alvarofpinheiro.eti.br 93 Estritamente relacionada com o armazenamento em cluster está a árvore de decisão. Uma árvore de decisão é um modelo preditivo sobre observações que levam a alguma conclusão. As conclusões são representadas como folhas na árvore, enquanto os nós são os pontos de decisão nos quais uma observação diverge. Árvores de decisão são baseadas em algoritmos de aprendizado de árvore de decisão, em que o conjunto de dados é dividido em subconjuntos baseados nos testes de valor de atributo, por meio de um processo chamado particionamento recursivo, um aspecto útil das árvores de decisão é sua organização inerente, que oferece a capacidade de explicar facilmente como foi classificado um item, os algoritmos de aprendizado de árvore de decisão mais populares incluem C4.5 e a Árvore de Classificação e Regressão.
  • 94. Artificial Intelligence - Fraca www.alvarofpinheiro.eti.br 94 1950 IA 1960 Perceptron 1970 Cluster & Tree Decision 1980 Based Rules O primeiro sistema baseado em regras e inferência, foi o Dendral, foi desenvolvido em 1965, mas apenas nos anos 80 esse tipo de sistema foi categorizado como "sistemas especialistas" e que fizeram grandes avanços. Um sistema baseado em regras é aquele que armazena regras, no que é chamado de base de conhecimento, e que utiliza um sistema de lógica sobre essa base, um mecanismo de inferência, para tirar conclusões, através de um encadeamento de regras de avanço ou retrocesso, com uma interface com o usuário. Como no seguinte exemplo, na base de conhecimento existe a regra "Sócrates era um homem", e uma regra é, "como homem, era mortal“, assim sendo “Sócrates é mortal”. Exemplos de utilização são em reconhecimento de discurso, planejamento e controle, e identificação de doenças.
  • 95. Inteligência Artificial Aprendizado de Máquina www.alvarofpinheiro.eti.br 95 1980 Retropropagação 1990 Redes Neurais Convolucionais 2000 Memória Grande de Curto Prazo 2010 Aprendizado Profundo 2015 Computação Cognitiva O aprendizado de máquina é um subcampo da IA baseado na matemática e estatística, podendo ser realizado com técnicas de aprendizado supervisionado e não supervisionado para mineração de dados com análise preditiva.
  • 96. Inteligência Artificial Retropropagação www.alvarofpinheiro.eti.br 96 O poder das redes neurais está na utilização de multicamadas, através da retropropagação, com funcionamento em duas fases. A primeira fase é a propagação de entradas por meio de uma rede neural para a camada final, chamada feed-forward. E a segunda fase, o algoritmo que calcula o erro e, em seguida, faz a retropropagação desse erro, ajustando os pesos, da camada final para a primeira. Durante o treinamento, camadas intermediárias da rede se organizam para mapear partes do espaço de entrada para o espaço de saída. Por meio do aprendizado supervisionado, a retropropagação se identifica um erro no mapeamento de entrada para saída e, então, ajusta os pesos de acordo, com uma taxa de aprendizado, para corrigir esse erro.
  • 97. Inteligência Artificial Redes Neurais Convolucionais www.alvarofpinheiro.eti.br 97 Redes neurais convolucionais (CNNs) são redes neurais multicamadas que se inspiram no córtex visual animal. A arquitetura é útil em vários aplicativos, inclusive o processamento de imagem. A primeira CNN foi criada por Yann LeCun e, naquele momento, a arquitetura estava focada em tarefas de reconhecimento de caractere manuscritos, como leitura de códigos de endereçamento postal. A arquitetura LeNet CNN é composta por várias camadas que implementam extração de recurso e, depois, classificação. A imagem é dividida em campos receptivos que são refletidos em uma camada convolucional que extrai recursos da imagem de entrada. A próxima etapa é o agrupamento, que reduz a dimensionalidade dos recursos extraídos, por meio de down-sampling, enquanto retém as informações mais importantes, geralmente por meio de agrupamento máximo. O algoritmo então executa outra etapa de convolução e de agrupamento que é refletida em um perceptron multicamadas totalmente conectado. A camada de saída final dessa rede é um conjunto de nós que identifica recursos da imagem, neste caso, um nó por número identificado.
  • 98. Inteligência Artificial Long Short-term Memory www.alvarofpinheiro.eti.br 98 Long Short-term Memory (LSTM), consiste em células de memória que, dentro de uma rede, se lembram de valores de períodos curtos ou longos. Uma célula de memória contém portas que controlam como as informações entram e saem dela. A porta de entrada controla quando as novas informações podem entrar na memória. A porta de esquecimento controla por quanto tempo uma informação existente fica retida. Por fim, a porta de saída controla quando as informações contidas na célula são usadas na saída da célula.
  • 99. Inteligência Artificial Deep Learning www.alvarofpinheiro.eti.br 99 Deep learning é um conjunto relativamente novo de métodos que está mudando o aprendizado de máquina. Não é um algoritmo propriamente dito, mas uma família de algoritmos que implementam redes profundas com aprendizado sem supervisão. Essas redes são tão profundas que novos métodos de cálculo, como GPUs, são necessários para construí-las. Seguem dois algoritmos deep learning: CNNs e LSTMs. Esses algoritmos foram combinados para realizar diversas tarefas surpreendentemente inteligentes. Conforme mostrado na figura a seguir, CNNs e LSTMs foram utilizados para identificar e, depois, descrever uma imagem ou um vídeo em língua natural. Algoritmos deep learning também foram aplicados ao reconhecimento facial, a veículos autônomos e a vários outros problemas complexos.
  • 100. Inteligência Artificial Computação Cognitiva www.alvarofpinheiro.eti.br 100 A IA e o aprendizado de máquina são preenchidos por exemplos de inspiração biológica. E enquanto a antiga IA estava focada nos grandes objetivos de construção de máquinas que imitassem o cérebro humano, a computação cognitiva está se esforçando para atingir esse objetivo. A computação cognitiva, baseada em redes neurais e deep learning, está aplicando conhecimento de ciências cognitivas para desenvolver sistemas que simulem processos do pensamento humano. Entretanto, em vez de focar em um único conjunto de tecnologias, a computação cognitiva cobre diversas disciplinas, inclusive aprendizado de máquina, processamento de língua natural, visão e interação humano-computador. Um exemplo de computação cognitiva é o IBM Watson.
  • 101. Conceitos de Inteligência Artificial • Aprendizado é a aquisição de conhecimento ou habilidades por meio de experiência, estudo ou ensinamento. (ação -> efeito -> feedback) • Aprendizado de Máquina “Machine Learning” é qualquer algoritmo que melhore seu desempenho por meio de experiência obtida por um período de tempo sem informação completa do ambiente no qual ele opera. • Inferência é a afirmação da verdade de uma proposição em decorrência de sua ligação com outras já reconhecidas como verdadeiras. • Tipos de Inferência na Inteligência Artificial: Dedutiva, Indutiva e Abdutiva http://www.alvarofpinheiro.eti.br Conceitos
  • 102. Conceitos de Inteligência Artificial • Inferência Dedutiva (dedução) chega-se a uma verdade específica a partir de outra mais geral ou abrangente, isto é, y=f(x) pode-se obter o y (conclusão) sabendo-se o f (regra) e o x (premissa) • Inferência Indutiva (indução) é o caminho contrário do dedutivo, pois a partir de casos particulares, extrai-se regra que o explica e se aplica a todos os casos isolados análogo aos observados, isto é, y=f(x) pode-se obter o f (regra) conhecendo-se o x (premissa) e o y (conclusão) • Inferência Abdutiva (abdução) usa-se a conclusão e a regra para defender que a premissa poderia explicar a conclusão, isto é, y=f(x) pode-se obter o x (premissa) conhecendo-se o f (regra) e o y (conclusão) http://www.alvarofpinheiro.eti.br Conceitos
  • 103. Conceitos de Inteligência Artificial • Dedução é a verificação ou comprovação de conhecimento já adquirido, isto é, já se conhece as regras e as premissas, basta aplica-las para se obter o resultado, para comprovar o conhecimento, y=f(x) pode-se obter o y (conclusão) sabendo-se o f (regra) e o x (premissa) • Indução é a obtenção de novos conhecimentos, isto é, é conhecido a premissa e a conclusão, porém não se conhece a regra, assim, y=f(x) pode-se obter o f (regra) conhecendo-se o x (premissa) e o y (conclusão) • Abdução é a obtenção de novos conhecimentos, isto é, é conhecida a regra e a conclusão, porém não se conhece a premissa, assim, y=f(x) pode-se obter o x (premissa) conhecendo-se o f (regra) e o y (conclusão) http://www.alvarofpinheiro.eti.br Conceitos
  • 104. Conceitos de Inteligência Artificial • Mecanismo de Inferência • Generalização Cognitiva é a aplicação do princípio ou conceito a um conjunto de casos, isto é, simplificação, onde são abstraídos detalhes particulares ou exceções, atribuindo-se a um grupo de coisas que pertencem ao mesmo gênero algo que já sabe-se sobre alguns de seus indivíduos -> Mecanismo de Indução • Flexibilização Cognitiva é capacidade de mudar para lidar com circunstâncias variáveis, isto é, capacidade de interpretar determinadas situações a partir de vários pontos de vista http://www.alvarofpinheiro.eti.br Conceitos
  • 105. Conceitos de Inteligência Artificial • Robustez é a capacidade de um sistema resistir a mudanças sem adaptar sua configuração estável inicial, e comparando com sistemas biológicos, é a persistência de certas características sob perturbações ou condições de incerteza • Perda de Dados é a ocorrência de nenhum valor de dado armazenado para a premissa em observação, podendo ter efeitos significativos nas conclusões que podem ser extraídas dos dados • Modelagem é o processo de elaborar por modelo ou por molde a retratação de uma forma precisa, isto é, a simplificação da realidade destinada a promover a compreensão • Tipos de Modelagem: Matemática, Computacional, Simulação e Modelo http://www.alvarofpinheiro.eti.br Conceitos
  • 106. Conceitos de Inteligência Artificial • Modelagem Matemática é o estudo da simulação de sistemas reais a fim de prever o comportamento dos mesmos • Modelagem Computacional é a aplicação de modelos matemáticos e técnicas da computação à análise, compreensão e estudo da fenomenologia de problemas complexos • Simulação é a imitação da operação de um processo ou sistema do mundo real • Modelo é a representação do próprio sistema • Otimização é achar o valor máximo ou mínimo de uma função objetivo, sujeito a um conjunto de restrições http://www.alvarofpinheiro.eti.br Conceitos
  • 107. Conceitos de Inteligência Artificial • Heurística é o método que, baseado na experiência ou julgamento, procura uma boa solução de um problema, mas não garante uma solução ótima • Classificação é o algoritmo que extrai conclusões de dados que já possui, e utiliza estas conclusões para categorizar novos dados • Agrupamento é o algoritmo que agrupa elementos com base na proximidade entre eles, e esses grupos podem ser utilizados para formar insights • Predição á a estrutura que deve ser treinada para que possa receber novos dados e predizer o resultado • Decisão é o apoio a tomada de decisões por meio de busca de relações ainda não visualizadas e testadas entre os dados já conhecidos http://www.alvarofpinheiro.eti.br Conceitos
  • 108. Famílias de Algorítmos de IA www.alvarofpinheiro.eti.br 108
  • 109. ABORDAGENS ESTATÍSTICAS www.alvarofpinheiro.eti.br 109 Ciência que tira conclusões a partir da análise de agrupamentos de dados, realizado a partir do refinamento da informação com base na analise do histórico de dados, servindo para apoio na tomada de decisões. Uma das abordagens muito utilizadas é a Teoria Bayesiana criada por Thomas Bayes, em 1701. É utilizada para descrever a probabilidade de um evento ocorrer, baseando-se em conhecimentos anteriores ligados a ele. Pr(B|A)=probabilidade de B ocorrer dado A. Pr(A)=probabilidade de A. Pr(Aª)= probabilidade de A não ocorrer. Pr(B|Aª)=probabilidade de B ocorrer dado a não ocorrência de A (falso positivo).
  • 110. Abordagens Estatísticas www.alvarofpinheiro.eti.br 110 P(B|A) = 0,90 = Chance de detectar defeito P(A) = 0,25 = Chance do celular quebrar P(Aª) = 0,75 = Chance do celular não quebrar P(B|Aª) = 0,05 = Chance de detectar quando ele não existe Resolvendo a conta chegamos ao resultado de 0,8571 Concluímos assim que a probabilidade de o celular de fato estar quebrado após o técnico concluir que o celular está defeituoso é de 85,71%
  • 111. Abordagens Estatísticas www.alvarofpinheiro.eti.br 111 VANTAGENS Ajuda a interpretar grandes volumes de dados. Maior fidelidade nos cálculos. Previsão de erros. Lida melhor com dados com ruídos. DESVANTAGENS Alto custo computacional graças aos cálculos que deverão ser realizados
  • 112. ÁRVORE DE DECISÃO www.alvarofpinheiro.eti.br 112 Estrutura de dados formada por um conjunto de nós de decisão, com perguntas, que permitem a classificação de cada caso. Tendo uma entrada, isto é, um objeto ou situação descrito por um conjunto de propriedades ou atributos. E uma saída, que é uma decisão. Sendo um método de aprendizado utilizado principalmente para inferência indutiva.
  • 113. Árvore de Decisão www.alvarofpinheiro.eti.br 113 Processo para problemas de decisão diversos; Modelo Computacional para análise de grande volume de dados com uma certa precisão e agilidade; Qualquer função booleana pode ser escrita como uma árvore de decisão; Quanto ao aprendizado: Supervisionado; Não-supervisionado; Quanto a modelagem: Descritiva: um modelo de classificação é usado como ferramenta para distinguir exemplos de diferentes classes; Preditiva: um modelo de classificação é utilizado para classificar exemplos cujas classes são desconhecidas;
  • 114. BIOINFORMÁTICA www.alvarofpinheiro.eti.br 114 Campo interdisciplinar que corresponde à aplicação das técnicas de informática nas áreas de estudo da biologia, combinando conhecimentos de ciência da computação, estatística, matemática, biologia e engenharia para análise e interpretação de dados biológicos. Existindo vários problemas importantes em que as abordagens de IA são promissoras: Previsão de Estrutura de Proteínas; Aquisição de conhecimento a partir de dados genéticos; Desenvolvimento de novos fármacos; e Alinhamento e comparação de sequências.
  • 115. BIÔNICA www.alvarofpinheiro.eti.br 115 Observa o comportamento inerente a um sistema biológico, aprendendo seu funcionamento, criando uma nova tecnologia baseado no comportamento. A biônica e a cibernética, usam modelos de sistemas vivos, onde a biônica para achar ideias para sistemas artificiais e a cibernética para entender o comportamento dos seres vivos.
  • 116. BUSCA LOCAL www.alvarofpinheiro.eti.br 116 Busca local é um método heurístico para resolver problemas de otimização computacionalmente complexos. Podendo ser utilizada em problemas que podem ser formulados como encontrar a solução maximizando um critério em cima de um número de possíveis soluções. Os algoritmos de busca local se movem de solução a solução no espaço de possíveis soluções (o espaço de busca), aplicando mudanças locais até que uma solução ótima seja encontrada. Um exemplo é a aplicação do problema de descobrir o caminho mais curto para visitar um grupo de cidades, onde para 8 cidades, teríamos (8-1)! = 5040 caminhos possíveis, assim para escolher uma rota requer estratégia. Um problema de otimização é o problema de encontrar a melhor solução, baseado em algum critério, de um conjunto de soluções possíveis, e pode ser dividido em duas categorias: Otimização Discreta e Otimização Contínua.
  • 117. COMPUTAÇÃO EVOLUCIONÁRIA www.alvarofpinheiro.eti.br 117 Os indivíduos não são totalmente semelhantes, mesmo que tenham o mesmo parentesco. Essa variabilidade contribui para o processo evolutivo ao apresentar em diferentes indivíduos características diversas. A competição pelos recursos ambientais seria um fator determinante para a evolução de uma espécie. Seria a característica que favorece a sobrevivência dos indivíduos em um determinado ambiente. Os indivíduos apresentam adaptações diferentes ao mesmo ambiente, mas pela seleção natural, somente aquele que for mais apto conseguirá sobreviver. Algoritmos: Genetic Algorithms; Genetic Programming; Immunological Algorithms; Evolutionary Programming; Evolution Strategies; Differential Evolution Cultural Algorithms; e Coevolution.
  • 118. INTELIGÊNCIA DE ENXAMES www.alvarofpinheiro.eti.br 118 A inteligência de enxame (Swarm intelligence) é aquela encontrada no comportamento coletivo de sistemas descentralizados e auto-organizados, onde pequenas mudanças num indivíduo causa mudanças no grupo. Esse tipo de IA possui as seguintes propriedades: Proximidade - os agentes devem ser capazes de interagir; Qualidade - os agentes devem ser capazes de avaliar seus comportamentos; Diversidade - permite ao sistema reagir a situações inesperadas; Estabilidade - nem todas as variações ambientais devem afetar o comportamento de um agente; Adaptabilidade - capacidade de adequação a variações ambientais. Algoritmos: Ant Colony Optimization – ACO; Particle Swarm Optimization – PSO; Shuffled frog-leaping – SFL; Bacterial Foraging Optimization – BFO; Artificial Bee Colony- ABC; Fish School Search – FSS.
  • 119. FUZZY www.alvarofpinheiro.eti.br 119 Etapa na qual os valores numéricos são transformados em graus de pertinência para um valor linguístico através da função de pertinência. Engloba a Análise do Problema, Definição das Variáveis, Definição das Funções de pertinência e Criação das Regiões. Podendo ser aplicado em: Controladores de Processos Industriais e a igualdade entre sistemas lineares e não lineares; Sistemas Especialistas e flexibilidade; Redes Neurais e sua capacidade de aprendizado. u: [0,1]
  • 120. PERCEPÇÃO E AÇÃO www.alvarofpinheiro.eti.br 120 Totalmente Observável: sensores dos agente reportam todas as informações sobre o estado do ambiente, levando em consideração relevância e desempenho; Parcialmente Observável: nem todas as informações do estado do ambiente estão disponíveis por falta de sensores precisos ou falta de informação; Determinístico: o próximo estado do ambiente é completamente determinado pelo estado atual e ação do agente. Podendo ser: Estocástico: Incerteza sobre o estado futuro do ambiente, mesmo tendo informações atuais. Podendo ser: Estratégico: Determinístico ,exceto pelas ações de outros agentes; Episódico: ação se repete em episódios independentes, tarefas sem distinção de curto x longo prazo; Sequencial: ação se repete em episódios não independentes.
  • 121. REDES NEURAIS www.alvarofpinheiro.eti.br 121 Aprende com dados de teste que não foram rotulados, classificados ou categorizados com forte inspiração neurofisiológica, sendo predominante no cérebro humano.