SlideShare uma empresa Scribd logo
1 de 21
Big Data e Data Mining
Conceitos e Técnicas sobre Data Mining
AGENDA
• Aprendizado de máquina, mineração de dados e big data
• Dados, informação e conhecimento
• Análise de dados e estatística
• Armazenamento analítico
• Processos de mineração de dados
• Tarefas de aprendizado de máquina
• Aplicação: crimes financeiros
Aprendizado de máquina,
mineração de dados e big data
Aprendizado de máquina :algoritmos que
buscam reconhecer padrões em dados
Mineração de dados: é a aplicação destes
algoritmos em grandes conjuntos de dados em
busca de informação e conhecimento
Big Data: volume, velocidade e variedade
Big Data colocou o aprendizado de máquina em
evidência, pois de nada adianta montanhas de dados
se não podemos aproveitá-los para produzir
informação e conhecimento
Existem dezenas de produtos no mercado que mineram dados. Desde aqueles
fornecidos por gigantes de software como Microsoft, SAS, IBM e Oracle, até
produtos open source como R, Weka e Orange. Destes, o mais popular é o
SAS, dos produtos comerciais, e o R, open source. O R é originalmente um
software estatístico, mas que se popularizou também como ferramenta para
minerar dados. Suas funcionalidades podem ser estendidas através de
pacotes, que são desenvolvidos, pela comunidade no mundo inteiro.
Dados, informação e conhecimento
O dado é um fato, um valor documentado ou um resultado de uma
medição. Quando um sentido semântico ou um significado é atribuído aos
dados, gera-se a informação. Quando esses significados tornam-se
familiares, ou seja, quando um agente os aprende, este se torna consciente
e capaz de tomar decisões a partir deles, e surge o conhecimento
Tipos de dados
Dados estruturados
Tipicamente, uma base de dados usada em sistemas
informatizados convencionais é organizada de forma
que se tenham dados armazenados em estruturas
tabulares, em que linhas armazenam uma ocorrência
de uma evento caracterizado por um conjunto de
colunas que representam características que
descrevem um exemplar (instância) daquele evento
Dados não estruturados
Muitos dados disponíveis para análise e extração de
informação e conhecimento estão apresentados de
forma não estruturada, a exemplo de textos, imagens,
vídeos e sons. Para fins de mineração de dados, dados
não estruturados precisam passar por uma etapa de
pré-processamento, de forma que uma representação
adequada lhes seja produzida.
Análise de Dados
Analisar dados é aplicar algum tipo de transformação
nos dados em busca de conhecimento.
Análises de dados exploratória, implícita e explícita
Análises explícitas: a informação e o conhecimento estão disponíveis explicitamente nos dados, e normalmente só é
necessária alguma operação, de baixa complexidade, para ressaltar o dado e produzir a informação (exemplo: filtrar
ou ordenar).
Análise implícita: a informação não está disponível claramente no conjunto de dados: mesmo que você olhe os dados
de várias formas, filtre, selecione ou faça algum tipo de cálculo, a informação só será produzida com o uso de alguma
função mais sofisticada. Exemplo de funções mais sofisticadas são usar uma tarefa de aprendizado de máquina ou
uma lei estatística.
Análise exploratória de dados
Você conhece os dados que está prestes a analisar? Tem noção de como eles estão distribuídos? Quais são suas
médias? Desvios padrões? Como estão relacionados? Se existem valores anormais? A análise exploratória foi
proposta pelo estatístico John Wilder Tukey, na obra Exploratory Data Analysis de 1977, cujos conceitos são válidos
até hoje. O objetivo é conhecer os dados antes de tentar analisá-los, para depois, usando técnicas explícitas ou
implícitas, por exemplo, para tirar conclusão.
Exemplo de Análise Implícita
Queremos prever se novos clientes que vêm até a empresa solicitar crédito, serão ou não bons
pagadores. Pode parecer óbvio, basta olhar seu histórico de empréstimos passados. Porém a
história nos mostra que nem sempre quem foi mal pagador no passado será no futuro. Um
algoritmo de classificação como Naive Bayes, pode atribuir pesos a todos os atributos do
cliente e prever, com uma margem de erro, se ele será ou não um bom pagador. Este tipo de
conhecimento não é óbvio nos dados, é preciso a aplicação de técnicas mais apuradas para
produzir esta informação.
Armazenamento analítico
Dados estruturados de forma a facilitar a análise
• Data Warehouse
• OLAP
• OLTP
• BI
• Relatórios
• Cubos
• Dashboards
Processos de mineração de
dados
A mineração de dados pressupõe uma série de etapas,
que vão de entender o negócio até a implementação.
Existem dois padrões mais conhecidos quando o tema é
mineração: O CRISP-DM e o KDD.
CRISP-DM é o acrônimo para Cross Industry Standard
Process for Data Mining, traduzindo-se para Processo
Padrão Genérico para Mineração de Dados. Este é o
padrão mais conhecido e adotado o qual prevê seis fases
no processo: entendimento do negócio, entendimento
dos dados, preparação dos dados, modelagem, avaliação,
implementação.
O KDD é acrônimo para Knowledge-discovery in
databases, traduzido como descoberta de conhecimento
em banco de dados, e está dividido em cinco fases.
CRISP-DM E KDD
CRISP-DM ETAPA EQUIVALENTE NO KDD
Entendimento do negócio Entendimento do negócio
Entendimento dos dados Pré-processamento
Preparação dos dados Transformação
Modelagem Mineração dos dados
Avaliação Interpretação e avaliação
Implementação Interpretação e avaliação
Atributos, classes e instâncias
Imagine um conjunto de dados estruturado de forma tabular clássica, em linhas e
colunas. As colunas possuem um nome que normalmente tem um valor semântico
como nome, idade, profissão. Cada linha representa um conjunto de dados
relacionados que foi coletado de alguma forma. Em aprendizado de máquina, cada
coluna é um atributo ou dimensão, e cada linha, uma instância. Classe, ou variável
de interesse, é um atributo especial, normalmente localizado na última coluna, que é
o elemento que se quer prever ou descrever numa tarefa de classificação. Por
exemplo, dados de transações no varejo buscam identificar transações fraudulentas,
terão um atributo especial, Fraude, onde estará registrada a informação sobre se
aquela instância foi uma transação fraudulenta ou não
Código Nome Valor compra Data da compra Status
001 Leonardo 1.000 16/05/21 Não fraude
002 Bianca 700 17/05/21 Não fraude
003 Alejandro 600 14/05/21 Não fraude
004 Eduardo 2.000 16/05/21 Não fraude
005 Evelyn 150 17/05/21 Não fraude
006 Jéssica 200 18/05/21 Fraude
Atributos Classe
Instâncias
O aprendizado de máquina pode ser dividido em três grandes grupos de tarefas: classificação, agrupamento e
associação. A tarefa mais comum é a de classificação. Na classificação, os dados devem possuir uma classe qual
queremos prever. Na tabela acima é a coluna “Classe”
Outro conceito importante em aprendizado de máquina é quanto às
tarefas supervisionadas e não supervisionadas.
São tarefas supervisionadas aquelas em que existe uma classe, ou um
atributo ao qual se quer descrever ou prever. Classificação é, então, uma
técnica supervisionada. Nas técnicas não supervisionadas não existe uma
classe. Exemplos de tarefas não supervisionadas são as de agrupamento e
regras de associação.
Aplicação: crimes financeiros
Já sabemos que na tarefa de classificação temos um
atributo especial denominado classe. Normalmente,
aplicamos aprendizado de máquina para tentar prever
a classe. Diferente de um algoritmo tradicional, a
classificação funciona como dados históricos. Estes
dados históricos de clientes que já solicitaram
aprovação de crédito e que já estão classificados: bom
ou mal pagador são usados pelo algoritmo de
classificação para construir um modelo. Uma vez
construído esse modelo, os dados históricos não serão
mais necessários. A cada nova instância com novos
dados, ou seja, dados ainda não classificados em que,
por exemplo, não se sabe se o cliente é um bom ou
mau pagador, estes são aplicados ao modelo que vai
prever, com uma margem de erro, se aquele cliente é
ou não mau pagador.
Mas na prática, o que é um modelo?
Depende do tipo de algoritmo. Vamos imaginar um algoritmo de classificação mais
rudimentar e simples que existe, chamado ZeroR. Este algoritmo cria o modelo
simplesmente baseado na moda da classe. Em estatística, moda é o valor com maior
frequência. Vamos imaginar na prática o caso de aprovação de crédito: os valores
possíveis para a classe são bons ou ruins. ZeroR vai verificar qual é a moda da classe e
concluir que é bom. O modelo, então vai classificar toda a nova instância como bom.
Dados Históricos
Treino
Teste
Algoritmo
Modelo
Avaliação do
Modelo
Construção do modelo
OBRIGADO :)

Mais conteúdo relacionado

Mais procurados

Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
Business Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisBusiness Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisRaquel Camargo
 
Business Intelligence - Palestra
Business Intelligence - PalestraBusiness Intelligence - Palestra
Business Intelligence - PalestraMarco Garcia
 
2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e Aplicações2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e AplicaçõesLeandro de Castro
 
Aula 02 giovanni --dcbd
Aula 02   giovanni --dcbdAula 02   giovanni --dcbd
Aula 02 giovanni --dcbdgtiprotec
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014Tableau Software
 
Palestra FATEC: Business Intelligence na Prática
Palestra FATEC: Business Intelligence na PráticaPalestra FATEC: Business Intelligence na Prática
Palestra FATEC: Business Intelligence na PráticaSthefan Berwanger
 

Mais procurados (9)

Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
Business Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisBusiness Intelligence e Mídias Sociais
Business Intelligence e Mídias Sociais
 
Dataminig
DataminigDataminig
Dataminig
 
Business Intelligence - Palestra
Business Intelligence - PalestraBusiness Intelligence - Palestra
Business Intelligence - Palestra
 
Sistemas
SistemasSistemas
Sistemas
 
2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e Aplicações2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e Aplicações
 
Aula 02 giovanni --dcbd
Aula 02   giovanni --dcbdAula 02   giovanni --dcbd
Aula 02 giovanni --dcbd
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014
 
Palestra FATEC: Business Intelligence na Prática
Palestra FATEC: Business Intelligence na PráticaPalestra FATEC: Business Intelligence na Prática
Palestra FATEC: Business Intelligence na Prática
 

Semelhante a Big Data, Data Mining e Aprendizado de Máquina

Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Data warehousing
Data warehousingData warehousing
Data warehousingacistec
 
Curso Business Analytics.pdf
Curso Business Analytics.pdfCurso Business Analytics.pdf
Curso Business Analytics.pdfLuiz Alves
 
Metodologia analítica e serviços - uma visão tirada de: analytics lifecicle t...
Metodologia analítica e serviços - uma visão tirada de: analytics lifecicle t...Metodologia analítica e serviços - uma visão tirada de: analytics lifecicle t...
Metodologia analítica e serviços - uma visão tirada de: analytics lifecicle t...Alexandre Nunes
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
 
Modelagem De Banco De Dados
Modelagem De Banco De DadosModelagem De Banco De Dados
Modelagem De Banco De Dadosmgoberto
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosCássio Alan Garcia
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 
SAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesSAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesAlexandre Mendes
 

Semelhante a Big Data, Data Mining e Aprendizado de Máquina (20)

Data mining
Data miningData mining
Data mining
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Data mining
Data miningData mining
Data mining
 
Data warehousing
Data warehousingData warehousing
Data warehousing
 
Curso Business Analytics.pdf
Curso Business Analytics.pdfCurso Business Analytics.pdf
Curso Business Analytics.pdf
 
Metodologia analítica e serviços - uma visão tirada de: analytics lifecicle t...
Metodologia analítica e serviços - uma visão tirada de: analytics lifecicle t...Metodologia analítica e serviços - uma visão tirada de: analytics lifecicle t...
Metodologia analítica e serviços - uma visão tirada de: analytics lifecicle t...
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Dutra (2)
Dutra (2)Dutra (2)
Dutra (2)
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
 
Modelagem De Banco De Dados
Modelagem De Banco De DadosModelagem De Banco De Dados
Modelagem De Banco De Dados
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
Desvendando os mistérios do Data Science
Desvendando os mistérios do Data ScienceDesvendando os mistérios do Data Science
Desvendando os mistérios do Data Science
 
Mineração
MineraçãoMineração
Mineração
 
Sistemas
SistemasSistemas
Sistemas
 
SAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesSAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a Decisoes
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 

Big Data, Data Mining e Aprendizado de Máquina

  • 1. Big Data e Data Mining Conceitos e Técnicas sobre Data Mining
  • 2. AGENDA • Aprendizado de máquina, mineração de dados e big data • Dados, informação e conhecimento • Análise de dados e estatística • Armazenamento analítico • Processos de mineração de dados • Tarefas de aprendizado de máquina • Aplicação: crimes financeiros
  • 3. Aprendizado de máquina, mineração de dados e big data Aprendizado de máquina :algoritmos que buscam reconhecer padrões em dados Mineração de dados: é a aplicação destes algoritmos em grandes conjuntos de dados em busca de informação e conhecimento Big Data: volume, velocidade e variedade
  • 4. Big Data colocou o aprendizado de máquina em evidência, pois de nada adianta montanhas de dados se não podemos aproveitá-los para produzir informação e conhecimento
  • 5. Existem dezenas de produtos no mercado que mineram dados. Desde aqueles fornecidos por gigantes de software como Microsoft, SAS, IBM e Oracle, até produtos open source como R, Weka e Orange. Destes, o mais popular é o SAS, dos produtos comerciais, e o R, open source. O R é originalmente um software estatístico, mas que se popularizou também como ferramenta para minerar dados. Suas funcionalidades podem ser estendidas através de pacotes, que são desenvolvidos, pela comunidade no mundo inteiro.
  • 6. Dados, informação e conhecimento O dado é um fato, um valor documentado ou um resultado de uma medição. Quando um sentido semântico ou um significado é atribuído aos dados, gera-se a informação. Quando esses significados tornam-se familiares, ou seja, quando um agente os aprende, este se torna consciente e capaz de tomar decisões a partir deles, e surge o conhecimento
  • 7. Tipos de dados Dados estruturados Tipicamente, uma base de dados usada em sistemas informatizados convencionais é organizada de forma que se tenham dados armazenados em estruturas tabulares, em que linhas armazenam uma ocorrência de uma evento caracterizado por um conjunto de colunas que representam características que descrevem um exemplar (instância) daquele evento Dados não estruturados Muitos dados disponíveis para análise e extração de informação e conhecimento estão apresentados de forma não estruturada, a exemplo de textos, imagens, vídeos e sons. Para fins de mineração de dados, dados não estruturados precisam passar por uma etapa de pré-processamento, de forma que uma representação adequada lhes seja produzida.
  • 8. Análise de Dados Analisar dados é aplicar algum tipo de transformação nos dados em busca de conhecimento.
  • 9. Análises de dados exploratória, implícita e explícita Análises explícitas: a informação e o conhecimento estão disponíveis explicitamente nos dados, e normalmente só é necessária alguma operação, de baixa complexidade, para ressaltar o dado e produzir a informação (exemplo: filtrar ou ordenar). Análise implícita: a informação não está disponível claramente no conjunto de dados: mesmo que você olhe os dados de várias formas, filtre, selecione ou faça algum tipo de cálculo, a informação só será produzida com o uso de alguma função mais sofisticada. Exemplo de funções mais sofisticadas são usar uma tarefa de aprendizado de máquina ou uma lei estatística. Análise exploratória de dados Você conhece os dados que está prestes a analisar? Tem noção de como eles estão distribuídos? Quais são suas médias? Desvios padrões? Como estão relacionados? Se existem valores anormais? A análise exploratória foi proposta pelo estatístico John Wilder Tukey, na obra Exploratory Data Analysis de 1977, cujos conceitos são válidos até hoje. O objetivo é conhecer os dados antes de tentar analisá-los, para depois, usando técnicas explícitas ou implícitas, por exemplo, para tirar conclusão.
  • 10. Exemplo de Análise Implícita Queremos prever se novos clientes que vêm até a empresa solicitar crédito, serão ou não bons pagadores. Pode parecer óbvio, basta olhar seu histórico de empréstimos passados. Porém a história nos mostra que nem sempre quem foi mal pagador no passado será no futuro. Um algoritmo de classificação como Naive Bayes, pode atribuir pesos a todos os atributos do cliente e prever, com uma margem de erro, se ele será ou não um bom pagador. Este tipo de conhecimento não é óbvio nos dados, é preciso a aplicação de técnicas mais apuradas para produzir esta informação.
  • 11. Armazenamento analítico Dados estruturados de forma a facilitar a análise • Data Warehouse • OLAP • OLTP • BI • Relatórios • Cubos • Dashboards
  • 12. Processos de mineração de dados A mineração de dados pressupõe uma série de etapas, que vão de entender o negócio até a implementação. Existem dois padrões mais conhecidos quando o tema é mineração: O CRISP-DM e o KDD. CRISP-DM é o acrônimo para Cross Industry Standard Process for Data Mining, traduzindo-se para Processo Padrão Genérico para Mineração de Dados. Este é o padrão mais conhecido e adotado o qual prevê seis fases no processo: entendimento do negócio, entendimento dos dados, preparação dos dados, modelagem, avaliação, implementação. O KDD é acrônimo para Knowledge-discovery in databases, traduzido como descoberta de conhecimento em banco de dados, e está dividido em cinco fases.
  • 13. CRISP-DM E KDD CRISP-DM ETAPA EQUIVALENTE NO KDD Entendimento do negócio Entendimento do negócio Entendimento dos dados Pré-processamento Preparação dos dados Transformação Modelagem Mineração dos dados Avaliação Interpretação e avaliação Implementação Interpretação e avaliação
  • 14. Atributos, classes e instâncias Imagine um conjunto de dados estruturado de forma tabular clássica, em linhas e colunas. As colunas possuem um nome que normalmente tem um valor semântico como nome, idade, profissão. Cada linha representa um conjunto de dados relacionados que foi coletado de alguma forma. Em aprendizado de máquina, cada coluna é um atributo ou dimensão, e cada linha, uma instância. Classe, ou variável de interesse, é um atributo especial, normalmente localizado na última coluna, que é o elemento que se quer prever ou descrever numa tarefa de classificação. Por exemplo, dados de transações no varejo buscam identificar transações fraudulentas, terão um atributo especial, Fraude, onde estará registrada a informação sobre se aquela instância foi uma transação fraudulenta ou não
  • 15. Código Nome Valor compra Data da compra Status 001 Leonardo 1.000 16/05/21 Não fraude 002 Bianca 700 17/05/21 Não fraude 003 Alejandro 600 14/05/21 Não fraude 004 Eduardo 2.000 16/05/21 Não fraude 005 Evelyn 150 17/05/21 Não fraude 006 Jéssica 200 18/05/21 Fraude Atributos Classe Instâncias O aprendizado de máquina pode ser dividido em três grandes grupos de tarefas: classificação, agrupamento e associação. A tarefa mais comum é a de classificação. Na classificação, os dados devem possuir uma classe qual queremos prever. Na tabela acima é a coluna “Classe”
  • 16. Outro conceito importante em aprendizado de máquina é quanto às tarefas supervisionadas e não supervisionadas. São tarefas supervisionadas aquelas em que existe uma classe, ou um atributo ao qual se quer descrever ou prever. Classificação é, então, uma técnica supervisionada. Nas técnicas não supervisionadas não existe uma classe. Exemplos de tarefas não supervisionadas são as de agrupamento e regras de associação.
  • 17. Aplicação: crimes financeiros Já sabemos que na tarefa de classificação temos um atributo especial denominado classe. Normalmente, aplicamos aprendizado de máquina para tentar prever a classe. Diferente de um algoritmo tradicional, a classificação funciona como dados históricos. Estes dados históricos de clientes que já solicitaram aprovação de crédito e que já estão classificados: bom ou mal pagador são usados pelo algoritmo de classificação para construir um modelo. Uma vez construído esse modelo, os dados históricos não serão mais necessários. A cada nova instância com novos dados, ou seja, dados ainda não classificados em que, por exemplo, não se sabe se o cliente é um bom ou mau pagador, estes são aplicados ao modelo que vai prever, com uma margem de erro, se aquele cliente é ou não mau pagador.
  • 18.
  • 19. Mas na prática, o que é um modelo? Depende do tipo de algoritmo. Vamos imaginar um algoritmo de classificação mais rudimentar e simples que existe, chamado ZeroR. Este algoritmo cria o modelo simplesmente baseado na moda da classe. Em estatística, moda é o valor com maior frequência. Vamos imaginar na prática o caso de aprovação de crédito: os valores possíveis para a classe são bons ou ruins. ZeroR vai verificar qual é a moda da classe e concluir que é bom. O modelo, então vai classificar toda a nova instância como bom.

Notas do Editor

  1. Eduardo
  2. Eduardo
  3. Eduardo
  4. Eduardo
  5. Eduardo
  6. Evelyn
  7. Evelyn
  8. Bianca
  9. Bianca
  10. Bianca
  11. Alejandro
  12. Alejandro
  13. Alejandro
  14. Léo
  15. Léo
  16. Léo
  17. Jéssica
  18. Jéssica
  19. Jéssica
  20. Jéssica
  21. Jéssica