O documento apresenta uma introdução à regressão linear usando o software WEKA para mineração de dados. Explica o que é mineração de dados e regressão, como carregar e formatar dados no WEKA, criar um modelo de regressão linear para prever preços de casas com base em variáveis como tamanho e quartos, e interpretar os resultados do modelo.
Mineração de dados na prática com RapidMiner e Weka
1. Mineração de dados com
RapidMiner + WEKA
Regressão Linear - Teoria e Prática
PROF. JOÃO GABRIEL LIMA
@JGABRIEL_LIMA
LINKEDIN.COM/IN/JOAOGABRIELLIMA
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
4. Mineração de dados
A transformação de grandes quantidades de dados em
padrões e regras:
Direcionada e Não Direcionada
Direcionada: tentamos prever um ponto de dados em
particular
◦ Ex.: preço de venda de uma casa baseado em informações sobre
outras casas à venda no bairro
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
5. Mineração de dados
Não direcionada:
◦ Tentamos criar grupos de dados, ou achar padrões em dados
existentes
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
7. Mineração de Dados
O objetivo da mineração de dados é criar um modelo que
possa melhorar o modo pelo qual interpretamos nossos
dados existentes e futuros.
Como há muitas técnicas de mineração de dados, o passo
principal para criar um bom modelo é determinar que tipo
de técnica deve ser usada.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
10. Regressão
O modelo de regressão é então usado para prever o resultado de
uma variável dependente desconhecida, dados os valores das
variáveis independentes.
Técnica mais fácil de usar, mas provavelmente também é a menos
poderosa.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
11. Regressão
Ex.:
Calcular o preço de uma casa:
O preço da casa (a variável dependente) é o resultado de muitas variáveis independentes — a
metragem quadrada da casa, o tamanho do lote, se há granito na cozinha, se os banheiros foram
reformados, etc
O modelo é criado com base em outras casas comparáveis no bairro e no preço pelo qual elas
foram vendidas (o modelo), e então colocando os valores de sua própria casa neste modelo para
produzir o preço esperado.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
12. Regressão
Ex.: Estes são números reais de casas que estão à venda no bairro, e vamos tentar achar o valor
da casa que se quer vender:
Valores da casa para o modelo de regressão
Tamanho Tamanho do lote Quartos Granito Banheiro
reformado
Preço de venda
3529 9191 6 0 0 $205,000
3247 10061 5 1 1 $224,900
4032 10150 5 0 1 $197,900
2397 14156 4 1 0 $189,900
2200 9600 4 0 1 $195,000
3536 19994 6 1 1 $325,000
2983 9365 5 0 1 $230,000
3198 9669 5 1 1 ?????
16. Carregando dados no WEKA
Formato de Arquivo de Atributo-Relação (ARFF)
No arquivo, definimos cada coluna e o que cada coluna contém:
@relation <relation-name>
@attribute <attribute-name> <datatype>
* numeric, nominal, string, date [<date-format>]
@data
<data 1>, <data 2>, <data 3>, <data 4>, <data 5>
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
17. Carregando dados no WEKA
@relation LCCvsLCSH
@attribute LCC string
@attribute LCSH string
@ attribute timestamp DATE "yyyy-MM-dd HH:mm:ss"
@data
AG5, 'Encyclopedias and dictionaries.;Twentieth century.' , "2001-04-03 12:12:12"
AS262, 'Science -- Soviet Union -- History.' , "2001-04-03 12:12:12"
AE5, 'Encyclopedias and dictionaries.' , "2001-04-03 12:12:12"
AS281, 'Astronomy, Assyro-Babylonian.;Moon -- Phases.' , "2001-04-03 12:12:12"
AS281, 'Astronomy, Assyro-Babylonian.;Moon -- Tables.’, "2001-04-03 12:12:12"
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
21. Criando o modelo de regressão com o
WEKA
Na guia Classify:
1 - Clique no botão Choose, e então expanda a
ramificação functions.
2 - Selecione a folha LinearRegression.
Obs: No caso do modelo de regressão, estamos
limitados a uma coluna de NUMERIC ou de DATE
Nosso arquivo de dados…
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
22. Criando o modelo de regressão com o
WEKA – Opções
Supplied test set: onde é possível fornecer um conjunto diferente de dados para construir o
modelo;
Cross-validation: que deixa o WEKA construir um modelo baseado em subconjuntos dos dados
fornecidos e então calcular sua média para criar um modelo final;
Percentage split: onde o WEKA toma um subconjunto percentual dos dados fornecidos para
construir um modelo final.
Use training set: Isto diz ao WEKA que para construir nosso modelo desejado, podemos
simplesmente usar o conjunto de dados que fornecemos em nosso arquivo ARFF
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
23. Criando o modelo de regressão com o
WEKA – Opções
O último passo para criar nosso modelo é escolher a variável
dependente (a coluna que estamos tentando prever).
Sabemos que este deve ser o preço de venda, pois é isso que estamos
tentando determinar.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
29. Calculando o Valor da casa usando o
modelo de regressão
preco = (-26,6882 * 3198) + (7,0551 * 9669) + (43.166,0767 * 5) +
(42.292,0901 * 1) -21.661,1208
preco = $ 219,328
Tamanho Tamanho do lote Quartos Granito Banheiro
reformado
Preço de venda
3198 9669 5 1 1 ?????
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
31. Interpretando os padrões e conclusões do
modelo
◦ O granito não tem importância
◦ O WEKA só usa as colunas que contribuem estatisticamente para a precisão do
modelo (medido em R ao quadrado).
◦ Ele descarta e ignora as colunas que não ajudam a criar um bom modelo.
◦ Assim, este modelo de regressão está nos dizendo que o granito da cozinha não afeta
o valor da casa.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
32. Interpretando os padrões e conclusões do
modelo
◦ Os banheiros são importantes
◦ Como usamos um simples valor 0 ou 1 para um banheiro reformado, podemos usar o coeficiente
do modelo de regressão para determinar o valor que um banheiro reformado representa para o
valor da casa.
◦ O modelo nos diz para acrescentarmos $42.292 ao valor da casa.
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
34. Interpretando os padrões e conclusões do
modelo
◦ Casas maiores reduzem o valor
◦ Não faz sentido?
◦ O modelo pode estar sendo afetado por uma variável que não é indepenendente.
◦ “Tamanho”?
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
36. Exercício 1
◦ Na aba Preprocess do WEKA é possível remover colunas do conjunto de
dados.
◦ Remova a coluna TamanhoCasa e crie outro modelo. Como isso afeta o
preço da casa?
◦ Este novo modelo faz mais sentido?
◦ Qual o novo valor da casa com esta alteração nos dados de entrada?
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima
37. Exercício 2
A partir da base disponível em: https://goo.gl/GfFX8l
Aplique os conhecimentos adiquiridos nesta aula, destacando as
variáveis independentes que tem influência sobre o resultado e a
função que expressa o modelo de regressão para a base de dados
analisada.
39. Mineração de dados com
RapidMiner + WEKA
Regressão Linear - Teoria e Prática
PROF. JOÃO GABRIEL LIMA
@JGABRIEL_LIMA
LINKEDIN.COM/IN/JOAOGABRIELLIMA
Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima