O documento discute como estimar preços de imóveis usando regressão linear, onde o preço é função da área construída. Também lista as principais ferramentas para ciência de dados, como Python, Pandas, Matplotlib, Seaborn, Scikit-Learn e Google Colab.
Entendendo a Arquitetura de Armazenamento, parte 1
Como estimar o preço de um imóvel
1.
2. Por quanto vender
um imóvel?
● Preço muito alto afasta
compradores
● Preço abaixo do valor é
prejuízo
3. Preço (R$)
Área (m²)
y: Preço em milhares de R$
x: área construída em m²
y = 2.59x + 7.8
Regressão Linear para estimar preços
4.
5. Formando um cientista de dados
Estatística Álgebra Linear Machine Learning Computação Cálculo
Limpeza de
Dados
Análise
Exploratória
Engenharia
de Atributos
Treinamento
de Modelos
Python R SAS Tableau PowerBI QlikView
Marketing Finanças Saúde
Bottom-up Top-down
6. Processo da Ciência de Dados
Extração de
Dados
Limpeza de
Dados
Análise
Exploratória
Treinamento
de Modelos
Implantação
do Modelo
Engenharia de
Atributos
8. ● Notebooks Python na nuvem
● Documentação e código juntos
● Principais bibliotecas pré-instaladas
● GPUs e TPUs gratuitos
● Disponível em https://colab.research.google.com/
9.
10.
11. ● Dados tabulares em DataFrames
● Carrega diversas fontes de dados
● Limpeza de dados
● Análise Exploratória
● Engenharia de atributos
● Disponível em https://pandas.pydata.org/
17. ● Plotagem de gráficos variados
● Alto grau de customização
● Exporta para diferentes formatos
● Biblioteca de “baixo nível”
● Disponível em https://matplotlib.org/
18. ● Baseado no matplotlib
● Orientado para funcionalidade
● Biblioteca de “alto nível”
● Disponível em https://seaborn.pydata.org/
seaborn: statistical data visualization
22. ● Algoritmos de machine learning
○ Classificação
○ Regressão
○ Clustering
○ Redução de dimensionalidade
23. ● Funções de pré-processamento
● Treinamento de modelos
○ separação de dados de treinamento e validação
○ cross-validation
○ funções para cálculos de score
24. ● Interface simples
● 2 métodos
○ fit(): executa o treinamento
○ predict(): retorna a estimativa
● Disponível em https://scikit-learn.org/