O documento discute a coleta de dados, incluindo: 1) um mapa do curso sobre o processo de coleta e análise de dados; 2) os tipos de fontes de dados primárias e secundárias; 3) extensões populares de arquivos de dados como CSV, XLSX, JSON e HTML.
• Mapa doCurso
• Tipos de Fontes de Dados
• Extensões Populares de Bases de Dados
• Importação de Dados no Python
• Atividade Prática com Selenium
Agenda
1. Understand a
Business
Problem
•Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
5.
1. Understand a
Business
Problem
•Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
You are here
6.
1. Understand a
Business
Problem
•Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
You are here
Note: This is NOT a Data Engineering Program
Como dados sãogerados?
- planilhas, sistemas de gerenciamento (CRM), máquinas,
automações, sensores, publicações,
- imagens, audios, videos
Tipos de Fontes de Dados
11.
Tipos de Fontesde Dados
• Pesquisas, entrevistas, experimentos, medições
• ”Crowdworkers”
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados pela pessoa que usa o serviço - Primários
12.
Tipos de Fontesde Dados
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições
• ”Crowdworkers”
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados por outras pessoas - Secundários
• Repositórios de dados
• Websites e mídias sociais
• APIs
• Web scraping (?)
• Livros, artigos, etc
Extensões populares debase de dados
• Pesquisas, entrevistas, experimentos, medições
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados pela pessoa que usa o serviço - Primários
15.
Extensões populares debase de dados
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
Dados gerados pela pessoa que usa o serviço - Primários
16.
Extensões populares debase de dados
Dados gerados por outras pessoas - Secundários
• Repositórios de dados
• Websites e mídias sociais
• APIs
• Web scraping (?)
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
17.
Extensões populares debase de dados
• Repositórios de dados → CSV, XLSX, TXT, JPG/PNG, etc
• Websites e mídias sociais
• APIs → JSON
• Web scraping (?) → HTML
Dados gerados por outras pessoas - Secundários
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
18.
Extensões populares debase de dados
HTML CSV XLS
X
TXT
Permite fórmulas
No Brasil é comum
usar ;