O documento discute a importância da explicabilidade em modelos de machine learning. Apresenta diferentes técnicas para fornecer explicações das predições de modelos, incluindo árvores de decisão aleatórias, boosted trees e modelos agnósticos. Discutem casos de uso como detecção de vazamentos de dados e shift de conjunto de dados.
21. Como utilizar
em Boosted
Trees?
Ao invés de tirar a média das
contribuições das árvores, só
precisamos somá-las.
Disponível no seguinte pacote:
● ELI5
e.g., XGBoost, LightGBM
22. ELI5 — XGBoost — Feature Importances (dataset do Titanic)
31. Mais casos de
uso
● Entender se o modelo aprende
com as features corretas /
sofre de overfitting com
features em específico
● Indentificar data leakage
● Dataset shift (dados de treino
diferentes de dados de teste)
● Caso de pneumunia/asma
● Caso Stripe
Amazon, Netflix
32. Mais casos de
uso
● Entender se o modelo aprende
com as features corretas /
sofre de overfitting com
features em específico
● Indentificar data leakage
● Dataset shift (dados de treino
diferentes de dados de teste)
● Caso de pneumunia/asma
● Caso Stripe
Amazon, Netflix
33. Mais casos de
uso
● Entender se o modelo aprende
com as features corretas /
sofre de overfitting com
features em específico
● Indentificar data leakage
● Dataset shift (dados de treino
diferentes de dados de teste)
● Caso de pneumunia/asma
● Caso Stripe
Amazon, Netflix
34. Mais casos de
uso
● Entender se o modelo aprende
com as features corretas /
sofre de overfitting com
features em específico
● Indentificar data leakage
● Dataset shift (dados de treino
diferentes de dados de teste)
● Caso de pneumunia/asma
● Caso Stripe
Amazon, Netflix
35. Mais casos de
uso
● Entender se o modelo aprende
com as features corretas /
sofre de overfitting com
features em específico
● Indentificar data leakage
● Dataset shift (dados de treino
diferentes de dados de teste)
● Caso de pneumunia/asma
● Caso Stripe
Amazon, Netflix
36. ● Não só útil quando as coisas não estão
funcionando bem
● Custos diferentes para tipos de erro
37. Referências
Interpreting Random Forests
Random forest interpretation with scikit-learn
Random forest interpretation – conditional feature contributions
Interpreting Decision Trees and Random Forests
XGBoost Decision Paths
Explaining XGBoost predictions on the Titanic dataset
“Why Should I Trust You?” Explaining the Predictions of Any Classifier
38. Referências (podcasts)
TWiML: Exploring Black Box Predictions with Sam Ritchie
TWiML: Carlos Guestrin – Explaining the Predictions of Machine Learning Models
Data Skeptic: Marco Ribeiro - Trusting Machine Learning Models With Lime