TDC2018FLN | Trilha Data Science - Explainable Machine Learning

•

1 gostou•257 visualizações

O documento discute a importância da explicabilidade em modelos de machine learning. Apresenta diferentes técnicas para fornecer explicações das predições de modelos, incluindo árvores de decisão aleatórias, boosted trees e modelos agnósticos. Discutem casos de uso como detecção de vazamentos de dados e shift de conjunto de dados.

Educação

Explainable Machine
Learning
Gabriel Cypriano
TDC 2018 Floripa

Nós precisamos de
explicações das
predições?

Mas...
E se nós conseguirmos treinar uma
Random Forest com desempenho
muito melhor?

Decision Paths
Predições para:
RM LSTAT NOX DIS
3.1 4.5 0.54 2.6
http://blog.datadive.net/interpreting-ra
ndom-forests

treeinterpreter / Pivotal — Contribuição x Valor da Feature (1 Decision Tree)

treeinterpreter / Pivotal — Contribuição x Valor da Feature (Random Forest)

treeinterpreter / Pivotal — Explicação de 1 predição

Como utilizar
em Boosted
Trees?
Ao invés de tirar a média das
contribuições das árvores, só
precisamos somá-las.
Disponível no seguinte pacote:
● ELI5
e.g., XGBoost, LightGBM

ELI5 — XGBoost — Feature Importances (dataset do Titanic)

ELI5 — Predições do XGBoost— dataset do Titanic

Explicações agnósticas ao
modelo
e.g., para modelos não baseados em árvores

Lime
● Aproximações locais
● Agnóstico ao modelo
● Consegue selecionar
um conjunto de
instâncias
representativas para
exibir explicações

Lime — utiliza superpixels para explicações no reconhecimento objetos em imagem

Lime — reconhecimento de objetos em imagem

Lime para Processamento de Linguagem
Natural

Mais casos de
uso
● Entender se o modelo aprende
com as features corretas /
sofre de overfitting com
features em específico
● Indentificar data leakage
● Dataset shift (dados de treino
diferentes de dados de teste)
● Caso de pneumunia/asma
● Caso Stripe
Amazon, Netflix

● Não só útil quando as coisas não estão
funcionando bem
● Custos diferentes para tipos de erro

Referências
Interpreting Random Forests
Random forest interpretation with scikit-learn
Random forest interpretation – conditional feature contributions
Interpreting Decision Trees and Random Forests
XGBoost Decision Paths
Explaining XGBoost predictions on the Titanic dataset
“Why Should I Trust You?” Explaining the Predictions of Any Classifier

Referências (podcasts)
TWiML: Exploring Black Box Predictions with Sam Ritchie
TWiML: Carlos Guestrin – Explaining the Predictions of Machine Learning Models
Data Skeptic: Marco Ribeiro - Trusting Machine Learning Models With Lime

Gracias!
gabrielcs.me
vagas.creditas.com.br

Mais conteúdo relacionado

Semelhante a TDC2018FLN | Trilha Data Science - Explainable Machine Learning

Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services

Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...João Gabriel Lima

Databases on AWS- Using the right tool for the job - ADB203 - São Paulo AWS S...Amazon Web Services

TDC2016SP - Trilha Microservicestdc-globalcode

TheDevConf 2016 - Análise efetiva de microservices em 3 passosTaise Dias da Silva

Agile Trends 2018 - Além da Automação com Machine LearningEmerson Bertolo

Backup 101 - Jerônimo Medina MadrugaTchelinux

Backup 101: Planejamento & Ferramentas - Tchelinux Alegrete 2010Jerônimo Medina Madruga

Sessão Avançada: Amazon Aurora - DAT302 - Sao Paulo SummitAmazon Web Services

Polis Hyperlink Dicas e truques de Performance para JPA e EJBDanival Calegari

josecwsJosé Silva

TDC2018SP | Trilha Machine Learning - Prevendo o futuro com Time Series Forec...tdc-globalcode

Cache, Concorrência e Sincronização.Thiago Rondon

Data miningWelton Dias

Big data e globo.com - Uma visão sobre a cultura de dadosRenan Moreira de Oliveira

Machine Learning no dia a dia do desenvolvedorTiago Albineli Motta

Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH

Elastic MeetUp Porto AlegreRafael Gomes

Big data e a globo.com - 2017Renan Moreira de Oliveira

Iniciativas em Big Data no VAGAS.comFabrício Barth

Semelhante a TDC2018FLN | Trilha Data Science - Explainable Machine Learning (20)

Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...

Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...

Databases on AWS- Using the right tool for the job - ADB203 - São Paulo AWS S...

TDC2016SP - Trilha Microservices

TheDevConf 2016 - Análise efetiva de microservices em 3 passos

Agile Trends 2018 - Além da Automação com Machine Learning

Backup 101 - Jerônimo Medina Madruga

Backup 101: Planejamento & Ferramentas - Tchelinux Alegrete 2010

Sessão Avançada: Amazon Aurora - DAT302 - Sao Paulo Summit

Polis Hyperlink Dicas e truques de Performance para JPA e EJB

josecws

TDC2018SP | Trilha Machine Learning - Prevendo o futuro com Time Series Forec...

Cache, Concorrência e Sincronização.

Data mining

Big data e globo.com - Uma visão sobre a cultura de dados

Machine Learning no dia a dia do desenvolvedor

Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...

Elastic MeetUp Porto Alegre

Big data e a globo.com - 2017

Iniciativas em Big Data no VAGAS.com

Mais de tdc-globalcode

TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidadetdc-globalcode

TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...tdc-globalcode

TDC2019 Intel Software Day - ACATE - Cases de Sucessotdc-globalcode

TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPAtdc-globalcode

TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVinotdc-globalcode

TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...tdc-globalcode

TDC2019 Intel Software Day - Inferencia de IA em edge devicestdc-globalcode

Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publicatdc-globalcode

Trilha .Net - Programacao funcional usando f#tdc-globalcode

TDC2018SP | Trilha Go - Case Easylocustdc-globalcode

TDC2018SP | Trilha Modern Web - Para onde caminha a Web?tdc-globalcode

TDC2018SP | Trilha Go - Clean architecture em Golangtdc-globalcode

TDC2018SP | Trilha Go - "Go" tambem e linguagem de QAtdc-globalcode

TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendenciatdc-globalcode

TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Servicetdc-globalcode

TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NETtdc-globalcode

TDC2018SP | Trilha .Net - Novidades do C# 7 e 8tdc-globalcode

TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...tdc-globalcode

TDC2018SP | Trilha .Net - .NET funcional com F#tdc-globalcode

TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Coretdc-globalcode

Mais de tdc-globalcode (20)

TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade

TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...

TDC2019 Intel Software Day - ACATE - Cases de Sucesso

TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA

TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino

TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...

TDC2019 Intel Software Day - Inferencia de IA em edge devices

Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica

Trilha .Net - Programacao funcional usando f#

TDC2018SP | Trilha Go - Case Easylocus

TDC2018SP | Trilha Modern Web - Para onde caminha a Web?

TDC2018SP | Trilha Go - Clean architecture em Golang

TDC2018SP | Trilha Go - "Go" tambem e linguagem de QA

TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia

TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service

TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET

TDC2018SP | Trilha .Net - Novidades do C# 7 e 8

TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...

TDC2018SP | Trilha .Net - .NET funcional com F#

TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Core

Último

O estudo do controle motor nada mais é do que o estudo da natureza do movimen...azulassessoria9

ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024azulassessoria9

Polígonos, Diagonais de um Polígono, SOMA DOS ANGULOS INTERNOS DE UM POLÍGON...marcelafinkler

Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptxFlviaGomes64

atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfAutonoma

tensoes-etnicas-na-europa-template-1.pptxgia0123

Apresentação | Símbolos e Valores da União EuropeiaCentro Jacques Delors

Educação Financeira - Cartão de crédito665933.pptxMarcosLemes28

Sopa de letras | Dia da Europa 2024 (nível 1)Centro Jacques Delors

Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...AnaAugustaLagesZuqui

O que é arte. Definição de arte. História da arte.denisecompasso2

República Velha (República da Espada e Oligárquica)-Sala de Aula.pdfLidianeLill2

Considerando as pesquisas de Gallahue, Ozmun e Goodway (2013) os bebês até an...azulassessoria9

Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...marcelafinkler

Sistema de Bibliotecas UCS - Cantos do fim do séculoBiblioteca UCS

INTERTEXTUALIDADE atividade muito boa paraAndreaPassosMascaren

Slide - SAEB. língua portuguesa e matemáticash5kpmr7w7

Cartão de crédito e fatura do cartão.pptxMarcosLemes28

Aula 1 - Psicologia Cognitiva, aula .pptNathaliaFreitas32

Sopa de letras | Dia da Europa 2024 (nível 2)Centro Jacques Delors

TDC2018FLN | Trilha Data Science - Explainable Machine Learning

1. Explainable Machine Learning Gabriel Cypriano TDC 2018 Floripa

2. Creditas

3. Nós precisamos de explicações das predições?

4. E se usarmos modelos lineares?

5. Mas... E se nós conseguirmos treinar uma Random Forest com desempenho muito melhor?

6. Random Forest Feature Importances

7. Decision Paths Predições para: RM LSTAT NOX DIS 3.1 4.5 0.54 2.6 http://blog.datadive.net/interpreting-ra ndom-forests

8. Decision Paths Predições para: RM LSTAT NOX DIS 3.1 4.5 0.54 2.6 http://blog.datadive.net/interpreting-ra ndom-forests

9. Decision Paths Predições para: RM LSTAT NOX DIS 3.1 4.5 0.54 2.6 http://blog.datadive.net/interpreting-ra ndom-forests

10. Decision Paths Predições para: RM LSTAT NOX DIS 3.1 4.5 0.54 2.6 http://blog.datadive.net/interpreting-ra ndom-forests

11. Decision Paths Predições para: RM LSTAT NOX DIS 3.1 4.5 0.54 2.6 http://blog.datadive.net/interpreting-ra ndom-forests

12. Decision Paths Predições para: RM LSTAT NOX DIS 3.1 4.5 0.54 2.6 http://blog.datadive.net/interpreting-ra ndom-forests

13. Decision Paths Predições para: RM LSTAT NOX DIS 3.1 4.5 0.54 2.6 http://blog.datadive.net/interpreting-ra ndom-forests

14. Decision Paths Predições para: RM LSTAT NOX DIS 3.1 4.5 0.54 2.6 http://blog.datadive.net/interpreting-ra ndom-forests

15. Decision Paths Predições para: RM LSTAT NOX DIS 3.1 4.5 0.54 2.6 http://blog.datadive.net/interpreting-ra ndom-forests

16. Decision Paths Predições para: RM LSTAT NOX DIS 3.1 4.5 0.54 2.6 http://blog.datadive.net/interpreting-ra ndom-forests

17. Decision Paths Predições para: RM LSTAT NOX DIS 3.1 4.5 0.54 2.6 http://blog.datadive.net/interpreting-ra ndom-forests

18. treeinterpreter / Pivotal — Contribuição x Valor da Feature (1 Decision Tree)

19. treeinterpreter / Pivotal — Contribuição x Valor da Feature (Random Forest)

20. treeinterpreter / Pivotal — Explicação de 1 predição

21. Como utilizar em Boosted Trees? Ao invés de tirar a média das contribuições das árvores, só precisamos somá-las. Disponível no seguinte pacote: ● ELI5 e.g., XGBoost, LightGBM

22. ELI5 — XGBoost — Feature Importances (dataset do Titanic)

23. ELI5 — Predições do XGBoost— dataset do Titanic

24. Explicações agnósticas ao modelo e.g., para modelos não baseados em árvores

25. Lime ● Aproximações locais ● Agnóstico ao modelo ● Consegue selecionar um conjunto de instâncias representativas para exibir explicações

26. Lime — Explicação

27. Lime — utiliza superpixels para explicações no reconhecimento objetos em imagem

28. Lime — reconhecimento de objetos em imagem

29. Lime para Processamento de Linguagem Natural

30. Mais casos de uso Amazon, Netflix

31. Mais casos de uso ● Entender se o modelo aprende com as features corretas / sofre de overfitting com features em específico ● Indentificar data leakage ● Dataset shift (dados de treino diferentes de dados de teste) ● Caso de pneumunia/asma ● Caso Stripe Amazon, Netflix

32. Mais casos de uso ● Entender se o modelo aprende com as features corretas / sofre de overfitting com features em específico ● Indentificar data leakage ● Dataset shift (dados de treino diferentes de dados de teste) ● Caso de pneumunia/asma ● Caso Stripe Amazon, Netflix

33. Mais casos de uso ● Entender se o modelo aprende com as features corretas / sofre de overfitting com features em específico ● Indentificar data leakage ● Dataset shift (dados de treino diferentes de dados de teste) ● Caso de pneumunia/asma ● Caso Stripe Amazon, Netflix

34. Mais casos de uso ● Entender se o modelo aprende com as features corretas / sofre de overfitting com features em específico ● Indentificar data leakage ● Dataset shift (dados de treino diferentes de dados de teste) ● Caso de pneumunia/asma ● Caso Stripe Amazon, Netflix

35. Mais casos de uso ● Entender se o modelo aprende com as features corretas / sofre de overfitting com features em específico ● Indentificar data leakage ● Dataset shift (dados de treino diferentes de dados de teste) ● Caso de pneumunia/asma ● Caso Stripe Amazon, Netflix

36. ● Não só útil quando as coisas não estão funcionando bem ● Custos diferentes para tipos de erro

37. Referências Interpreting Random Forests Random forest interpretation with scikit-learn Random forest interpretation – conditional feature contributions Interpreting Decision Trees and Random Forests XGBoost Decision Paths Explaining XGBoost predictions on the Titanic dataset “Why Should I Trust You?” Explaining the Predictions of Any Classifier

38. Referências (podcasts) TWiML: Exploring Black Box Predictions with Sam Ritchie TWiML: Carlos Guestrin – Explaining the Predictions of Machine Learning Models Data Skeptic: Marco Ribeiro - Trusting Machine Learning Models With Lime

39. Ferramentas treeinterpreter Lime ELI5

40. Gracias! gabrielcs.me vagas.creditas.com.br

TDC2018FLN | Trilha Data Science - Explainable Machine Learning

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a TDC2018FLN | Trilha Data Science - Explainable Machine Learning

Semelhante a TDC2018FLN | Trilha Data Science - Explainable Machine Learning (20)

Mais de tdc-globalcode

Mais de tdc-globalcode (20)

Último

Último (20)

TDC2018FLN | Trilha Data Science - Explainable Machine Learning