Machine Learning
O que é, por onde começar e desafios
Evento: Day Tech, 29/06/2019, 15h40
Elaine Cecília Gatto (Cissa)
www.professoracissagatto.com.br
O que é Machine Learning?
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
2
O que é Machine Learning?
• O que é Machine Learnig por Marcelo Tas:
https://youtu.be/Z1YHbl0lh88
• Início na década de 40 (aproximadamente)
• Técnica de Inteligência Artificial
• Arthur Samuel, Engenheiro do MIT, em 1959, cria o termo Machine
Learning
• Existem várias definições
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto-MachineLearning
3
O que é Machine Learning?
“Um campo de estudo que dá aos computadores a habilidade de
aprender sem terem sido programados para tal” (Arthur
Samuel)
“A capacidade de melhorar o desempenho na realização de
alguma tarefa por meio da experiência” (Tom Mitchell)
Reflita:
1. Como eu aprendo?
2. Como fazer uma máquina aprender, da
mesma forma que um humano aprende?
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
4
Breve Timeline
• Filosofia, Ciência e Matemática: Luger, George F. Inteligência Artificial.
6.ª ed. São Paulo: Pearson Prentice Hall, 2013. Capítulo 1.
• 40 – 60:
• Inicio formal da Inteligência Artificial
• Filme: O Jogo da Imitação, 2014
• 70 – 80: Primeiro inverno
• 80 – 90: Sistemas Especialistas
• 90 – 2000: Segundo inverno
• 2000 – 2019: Retomada da área. Torna-se predominante no mundo.
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
5
Breve Timeline
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
6
Big Data
Hardware IoT
Redes Neurais
Google
Mídias
Sociais
Watson IBM
Amazon
Deep
Learning
Microsoft
Cloud Blochain e
Bitcoin
Aplicações
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
7
Agronomia
Farmácia,
Medicina
e Saúde
Biologia e
Ecologia
Meio
Ambiente
Indústria 4.0
e Automação
em geral
Meios de
Transporte
Varejo e
Comércio
Robótica
Astronomia Energia
Imagem,
Áudio,
Vídeo e
Texto
Redes de
Computadores e
Telecomunicações
Finanças
e
Economia
TUDO
A trindade do ML!
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
8
A trindade do ML
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
9
Matemática
Estatística
Programação
P.s.: Alguns chamam ML de bruxaria, magia negra e também alquimia!
Python
R
C/C++
Java
Scala
INGLÊS
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
10
A trindade do ML
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
11
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
12
Atributos
Contínuos.
Exemplos:
peso,
tamanho, etc.
Atributos
Discretos.
Exemplo: sim
ou não; V ou F
Quantitativo
Numérico:
inteiro, real ou binário
Qualitativo:
Simbólico ou categórico
Exemplos:
- vermelho, azul, verde
- pequeno, médio, grande
• Quantas classes existem?
• Existe alguma hierarquia?
• Uma observação (ou instância
ou exemplo) pode pertencer a
mais de uma classe ao mesmo
tempo?
Dados
• Flags Dataset
• Este conjunto de dados contém dados sobre as nações e suas
bandeiras nacionais. Uma tarefa de classificação pode ser
predizer as cores que aparecem nas bandeiras. Características:
• Instâncias: 194
• Atributos: 19 (9 nominais e 10 numéricos)
• Rótulos: 7 (red, green, blue, yellow, white, black, orange)
• Domínio: imagens
Fonte: http://archive.ics.uci.edu/ml/machine-learning-
databases/flags/
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
13
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
14
Colunas são
Atributos
Linhas são
Exemplos
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
15
LANDMASS:
1 = America do Norte
2 = America do Sul
3 = Europa
4 = África
5 = Ásia
6 = Oceania
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
16
ZONE
Quadrante da zona
geográfica, baseado em
Greenwich e no Equador.
1 = Nordeste
2 = Sudeste
3 = Sudoeste
4 = Noroeste
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
17
AREA: Área em milhares de km quadrados.
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
18
POPULAÇÃO:
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
19
LÍNGUA:
1 = inglês
2 = espanhol
3 = francês
4 = alemão
5 = eslavo
6 = outro indo-europeu
7 = chinês
8 = árabe
9 = japonês / turco / finlandês
10 = Outras
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
20
RELIGIÃO
0 = Católica
1 = Outros Cristãos
2 = Muçulmanos
3 = Budistas
4 = Hindus
5 = Étnicos
6 = Marxistas
7 = Outros
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
21
BARS: número de barras verticais na bandeira
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
22
STRIPES: número de listras horizontais na bandeira
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
23
COLOURS: Número de diferentes cores na bandeira
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
24
CIRCLES: Número de círculos na bandeira
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
25
CROSSES: número de cruzes verticais na bandeira
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
26
SALTIRES: número de cruzes horizontais na bandeira
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
27
QUARTERS: número de seções divididas em quartos
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
28
SUNSTARS: número de símbolos de sol ou estrela.
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
29
CRESCENT:
1 = tem um símbolo de lua crescente
0 = não tem
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
30
TRIANGLE:
1 = tem símbolos na forma de triângulo
0 = não tem
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
31
ICON:
1 = se tem uma imagem inanimada
presente (por exemplo, um barco)
0 = caso contrário
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
32
ANIMATE:
1 = se tem uma imagem animada presente (por
exemplo, uma águia, uma árvore, uma mão humana)
0 = caso contrário
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
33
TEXT:
1 = se houver letras ou escrita na bandeira (por
exemplo, um lema ou slogan)
0 = caso contrário
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
34
VERMELHO, VERDE, AZUL, AMARELO,
BRANCO, PRETO e/ou LARANJA:
1= tem a cor
0 = não tem a cor
Dados
• Outros exemplos não perfeito de bases de dados:
• exprindiv_ara_FUN.train
• cellcycle_FUN.train
• cellcycle_GO.train
• https://www.kaggle.com
• https://www.openml.org
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
35
Dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
36
Pré-
processamento
Limpeza
Completude
Consistência
Redundância
Ruído
Transformação
Simbólico  Numérico
Numérico  Simbólico
Normalização
Dimensionalidade
Agregar
Selecionar
Aprendizado
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
37
Aprendizado por
reforço
Métodos Preditivos
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
38
Distância:
k-NN
Otimização:
RNA’s e SVM
Probabilístico:
Naive Bayes
“Procura”:
Árvores de
Decisão Mineração de Padrões
Frequentes: Apriori
Agrupamento:
K-means
Métodos Descritivos
Uma forma de aprender
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
39
Conjunto de dados
de Treinamento
Algoritmo de
Machine Learning
(Aprendizado)
MODELO
(Aprendeu)
MODELO
Conjunto de dados
de Teste
Novos dados
Classificados,
Agrupados. etc.
Depende de 2.
ENTRADA DE
DADOS
PROCESSAMENTO SAÍDA
Fase 1
Fase 2
1 2 3
4 5 6
E os resultados?
• Os resultados são bons? Se sim, por que são bons?
• Meu algoritmo é melhor ou pior? Por que?
• Como avaliar?
• Comparar com outros algoritmos
• Consultar um especialista da área
• Inúmeras Medidas de Avaliação
• Diferem conforme a natureza do problema
• Ensembles e combinações de algoritmos diferentes
• Etc.
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
40
Cursos Online e Iniciativas
• EDX: https://www.edx.org/course/subject/data-science
• Data Science Academy:
https://www.datascienceacademy.com.br/pages/todos-os-cursos-dsa
• Coursera: https://www.coursera.org/specializations/machine-learning
• Microsoft: https://www.microsoft.com/pt-br/academia
• Linkedin: https://www.linkedin.com/learning/fundamentos-da-
ciencia-de-dados
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
41
Cursos Online e Iniciativas
• Udemy:
• https://www.udemy.com/curso-data-science-completo
• https://www.udemy.com/visualizacao-de-dados-com-python
• https://www.udemy.com/deep-learning-com-python-az-curso-
completo
• https://www.udemy.com/ingles-inteligencia-artificial-pronuncia-
perfeita
• https://www.udemy.com/machine-learning-e-data-science-com-r
• https://www.udemy.com/machine-learning-e-data-science-com-
python-y
• https://www.udemy.com/python-para-data-science-e-machine-
learning
• https://www.udemy.com/tensorflow-machine-learning-deep-
learning-python
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
42
Cursos Online e Iniciativas
• Amazon: https://www.aws.training/LearningLibrary
• Caltech: https://work.caltech.edu/telecourse.html
• Udacity:
• https://www.udacity.com/school-of-data-science
• https://classroom.udacity.com/courses/ud120
• OpenAI: https://openai.com/
• School of AI: https://www.theschool.ai/
• Não se esqueça dos livros e artigos científicos!
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
43
Cursos Presenciais
• Graduação em Ciência de Dados na UFSCar
• Especialização em Ciência de Dados na UFSCar
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
44
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
45
Desafios
• Interpretabilidade: como tomou essa decisão?
• Machine learning has become alchemy. Ali Rahimi (Google)
https://youtu.be/x7psGHgatGM
• https://universoracionalista.org/pesquisadores-de-i-a-alegam-que-machine-
learning-se-tornou-alquimia/
• Ética:
• Tay, da Microsoft, bot de mídia social que aprendeu a dizer coisas inadequadas
e ofensivas. Preconceito, homofobia, etc.
• http://agenciabrasil.ebc.com.br/internacional/noticia/2019-04/europa-lanca-
diretrizes-eticas-para-o-uso-da-inteligencia-artificial
• Empregabilidade: conflito de gerações! Resistência à evolução? Novas
Profissões: Engenheiro de Dados, Cientista de Dados, etc.
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
46
Desafios
• Segurança: restrição e acesso aos dados
• Algoritmos e Técnicas: evolução do que já existe ou criação de novos.
• Mindset: empresas de todos os tipos terão de mudar sua cultura
organizacional
• Captura e qualidade de dados: os dados que alimentam os algoritmos de ML
precisam ser “melhores” de forma que resulte em boas previsões.
• Hardware + Armazenamento + Rede = Mas ainda não tá bom? Não!
• Inúmeros Problemas do mundo real
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
47
Desafios
• Diretrizes Europeias para IA Ética
• Intervenção e supervisão humana
• Robustez e segurança
• Privacidade e governança de dados
• Transparência
• Diversidade, equidade e não-discriminação
• Bem-estar social e ambiental
• Prestação de contas
• Etc.
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
48
REFERÊNCIAS
• Machine Learning. Disponível em:
<https://en.wikipedia.org/wiki/Machine_learning>. Acessado em
20/06/2019, 20:00
• Aprendizado de Máquina. Disponível em:
<https://pt.wikipedia.org/wiki/Aprendizado_de_m%C3%A1quina>.
Acessado em 20/06/2019, 20:00
• 17 casos de uso de Machine Learning. Disponível em:
<http://datascienceacademy.com.br/blog/17-casos-de-uso-de-
machine-learning/>. Acessado em 21/06/2019, 10:00.
• Machine Learning Studio (Microsoft). Disponível em>
<https://azure.microsoft.com/pt-br/services/machine-learning-
studio/>. Acessado em 22/06/2019, 15:00.
• Google Machine Learning. Disponível em:
<https://cloud.google.com/products/ai/> Acessado em 22/06/2019,
17:00
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
49
REFERÊNCIAS
• Amazon Machine Learning. Disponível em:
<https://aws.amazon.com/pt/machine-learning/>. Acessado em
24/06/2019, 14:00.
• Inteligência Artificial: Questões Éticas a serem Enfrentadas. Disponível
em <http://abciber.org.br/anaiseletronicos/wp-
content/uploads/2016/trabalhos/inteligencia_artificial_questoes_eticas
_a_serem_enfrentadas_dora_kaufman.pdf>. Acessado em 24/06/2019,
14:44.
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
50
29/06/2019
DayTech-SãoCarlos-29/06/19-ElaineCecíliaGatto
51

Machine Learning: O que é, por onde começar e desafios

Notas do Editor

  • #2 Neste slide me apresentar, explicando cada um dos logotipos e contando um pouco da minha história
  • #7 E o big data entra na história, já que, em sua essência, a tecnologia faz exatamente isso: armazena toneladas de dados obtidos por meio de redes sociais, mecanismos de buscas, e, até mesmo, por meio de microfones e câmeras de smartphones. Então, algoritmos cada vez mais inteligentes fazem uma verdadeira varredura dessa quantidade gigantesca de informações e, a partir do momento em que padrões são descobertos, os sistemas se tornam capazes de fazer previsões com base nesses padrões. CHAT BOTS! IBM: Deep Blue verdadeiro gênio do xadrez capaz de derrotar o campeão mundial Garry Kasparov. WATSON: Watson, um computador que interpreta a voz humana, pensa como os humanos e responde mais rápido que nós. Foi testado durante um jogo de perguntas e respostas televisivo, conhecido como Jeopardy , e ganhou. MACHINE LEARNING STUDIO MICROSOFT TENSOR FLOW – GOOGLE SERVIÇOS E PRODUTOS DA AMAZON – tipo alexa
  • #8 AGRONOMIA = tratores e colheitadeiras autônomas, análise do solo, qual grão é melhor plantar neste solo em determinada época do ano, imagens de satélite, etc. MEIO AMBIENTE: a engenharia ambiental e sanitária e áreas a fins. Pode-se aplicar ML para o estudo de plantas, prevenção de rompimento de barragens, Identificar pássaros a partir de gravações de áudio, melhorar o processo de reciclagem do lixo, etc. INDÚSTRIA 4.0 E AUTOMAÇÃO EM GERAL: detecção de falhas e manutenção preventiva de máquinas elétricas; robôs, melhoria dos processos de qualidade, etc. VAREJO E COMÉRCIO: aumentar as vendas, atendimento personalizado ao cliente (sistema de recomendação de vendas), e-commerce, fornecer insights sobre quais itens são mais rentáveis e em quais novos produtos é possível investir com maior certeza de retorno, fraudes, etc. FARMÁCIA, MEDICINA, SAÚDE: ajuda a desenvolver novos medicamentos, ajuda a estudar os efeitos colaterais dos medicamentos, a partir do processamento de imagens e sinais, ajuda a diagnosticar câncer e outras doenças, etc. Até a psicologia já fez uso de ML para entender melhor o que leva uma pessoa a desenvolver depressão. Educação física, esportes, etc., tb podem usar o poder do ML para melhorar os resultados nas competições. Aplicativos de celular que ajudam as pessoas a sair do sedentarismo, como o samgung health. Dispositivos vestíveis para medir glicose, batimentos cardíacos, etc. BIOLOGIA E ECOLOGIA: predição de funções de genes, desmatamento da Amazônia, espécies em extinção, etc. MEIOS DE TRANSPORTE: rotas inteligentes, trens, carros e navios autônomos, VANTS, drones, etc. ROBÓTICA: robôs inteligentes como a SOFHIA. Aplicações não somente na indústria, mas tb no cotidiano, como substituindo cuidadores de idosos, etc. BOSTON DYNAMICS. Robô criança japonês IBUKI ENERGIA: Nos últimos anos, técnicas modernas de mineração de dados têm sido utilizadas para extrair conhecimento das bases de dados das distribuidoras, identificando possíveis padrões de consumo que possam estar relacionados a furtos ou fraudes de energia. A partir dos dados básicos de consumo dos smart grids, as empresas podem gerar informações mais detalhadas sobre o uso da energia. Nesse sentido, técnicas de aprendizado de máquina (ou machine learning) vêm sendo aplicadas para separar o consumo de cada equipamento de uma residência, permitindo os consumidores entender melhor seus hábitos e incentivando ações espontâneas de uso consciente de energia. ASTRONOMIA: descoberta de novos planetas, exoplanetas, sinais misteriosos, etc. AUDIO, VIDEO, TEXTO, IMAGEM: biometria, reconhecimento de faces, classificação de textos, identificação de sentimento em textos, classificação de músicas, filmes, vídeos de segurança, etc. VÍDEO GAMES, BLACKMIRROR, etc. REDES DE COMPUTADORES: atividades de hackers, detecção de pontos de redes com problemas, e da infraestrutura em geral, gargalos de transmissão de dados, padrões no fluxo da rede, etc. FINANÇAS E ECONOMIA: como conseguir lucrar mais, conhecer o cliente, otimizar processos organizacionais, etc.
  • #10 Aqui falar do Weka, Meka, Mulan, CLUS, HDBScan, Microsoft, Scikit Learning, etc.
  • #13 Exemplo multirrótulo: um artigo científico de aplicação de machine learning em psicologia, pode ser classificado como pertencente à área de ciência da computação ao mesmo tempo que psicologia e machine learning, entre outros recursos utilizados no estudo. Exemplo Hierárquico: funções exercidas por uma proteína no meio celular. Relações de superclasses e subclasses. Hierarquia de Esportes: praia, neve, quadra, coletivo ou individual, inverno ou verão, com bola ou sem bola, etc.
  • #35 VERMELHO, VERDE, AZUL, AMARELO, BRANCO, PRETO e/ou LARANJA: 1= tem a cor, 0 = não tem a cor
  • #37 Dados incompletos ou faltantes, como preencher essas lacunas? Dados inconsistentes: onde está a conformidade? CPF e data de nascimentos cadastrados errados. Dados redundantes, isto é, repetidos. Dados com ruídos: Ruído pode ser definido como um exemplo em um conjunto de dados que aparentemente é inconsistente com o restante dos dados existentes, pois não segue o mesmo padrão dos demais.
  • #38 REGRESSÃO: domínio de um conjunto infinito e ordenado de valores. CLASSIFICAÇÃO: domínio de um conjunto de valores nominais. SUMARIZAÇÃO: encontra uma descrição simples e compacta os dados. AGRUPAMENTO: identifica grupos de acordo com similaridades entre os objetos. ASSOCIAÇÃO: associações entre os atributos. APRENDIZADO POR REFORÇO: Um programa de computador interage com um ambiente dinâmico, em que o programa deve desempenhar determinado objetivo (por exemplo, dirigir um veículo). É fornecido, ao programa, feedback quanto a premiações e punições, na medida em que é navegado o espaço do problema. Outro exemplo de aprendizado por reforço é aprender a jogar um determinado jogo apenas jogando contra um oponente.
  • #40 Aqui falar também sobre o CROSS VALIDATION.
  • #41 Falar sobre as árvores e sobre as florestas randômicas. Falar sobre usar agrupamento como uma fase inicial e depois usar os grupos encontrados como entrada em outro algoritmo completamente diferente.
  • #44 OPEN AI = beneficiar a humanidade
  • #47 Falar que a I.A/M.L. já está presente em nosso cotidiano, em pequenas coisas.
  • #49 O grupo é formado por 52 membros e tem como seu presidente Pekka Ala-Pietilä, empreendedor de tecnologia e ex-presidente da Nokia. A maioria dos membros do AI HLEG é da academia e do mundo corporativo (IBM, Google, SAP, Santander, Bayer, etc). Há também representantes da sociedade civil, e de alguns outros segmentos.