Coleta de Dados –
Parte 1
• Mapa do Curso
• Tipos de Fontes de Dados
• Extensões Populares de Bases de Dados
• Importação de Dados no Python
• Atividade Prática com Selenium
Agenda
Mapa do Curso
1. Understand a
Business
Problem
• Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
1. Understand a
Business
Problem
• Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
You are here
1. Understand a
Business
Problem
• Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
You are here
Note: This is NOT a Data Engineering Program
Tipos de Fontes de
Dados
O que são dados?
O que são dados?
Como dados são gerados?
- planilhas, sistemas de gerenciamento (CRM), máquinas,
automações, sensores, publicações,
- imagens, audios, videos
Tipos de Fontes de Dados
Tipos de Fontes de Dados
• Pesquisas, entrevistas, experimentos, medições
• ”Crowdworkers”
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados pela pessoa que usa o serviço - Primários
Tipos de Fontes de Dados
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições
• ”Crowdworkers”
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados por outras pessoas - Secundários
• Repositórios de dados
• Websites e mídias sociais
• APIs
• Web scraping (?)
• Livros, artigos, etc
Extensões
Populares de Bases
de Dados
Extensões populares de base de dados
• Pesquisas, entrevistas, experimentos, medições
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados pela pessoa que usa o serviço - Primários
Extensões populares de base de dados
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
Dados gerados pela pessoa que usa o serviço - Primários
Extensões populares de base de dados
Dados gerados por outras pessoas - Secundários
• Repositórios de dados
• Websites e mídias sociais
• APIs
• Web scraping (?)
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
Extensões populares de base de dados
• Repositórios de dados → CSV, XLSX, TXT, JPG/PNG, etc
• Websites e mídias sociais
• APIs → JSON
• Web scraping (?) → HTML
Dados gerados por outras pessoas - Secundários
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
Extensões populares de base de dados
HTML CSV XLS
X
TXT
Permite fórmulas
No Brasil é comum
usar ;
Extensões populares de base de dados
SQL (Not really an extension)
JSON
Repositórios de Dados
https://www.kaggle.com/datasets
https://github.com/CSSEGISandData/COVID-19/
Repositórios de Dados
Google Dataset Search
Kaggle
Data.gov
Datahub.io
UCI Machine Learning Repository
Data World
Visual Data
Data is Plural
Importando Dados
no Python
Continuação no Jupyter

awari-ds-aula4.pptx.pdf

  • 1.
    Coleta de Dados– Parte 1
  • 2.
    • Mapa doCurso • Tipos de Fontes de Dados • Extensões Populares de Bases de Dados • Importação de Dados no Python • Atividade Prática com Selenium Agenda
  • 3.
  • 4.
    1. Understand a Business Problem •Ask questions and define objectives 2. Data Acquisition • Web Scraping • APIS • Direct download from URLs • Researches and crowdworkers (amazon Turk) 3. Data Preparation • Cleaning • Transformation • Very time consuming 4. Exploratory Data Analysis • Visualization • Statistics • Distributions • Feature selection 6. Visualization and Communication • Documentation • Talk back to business • Reports and Dashboards 7. Deploy and Maintenance • Production env • Real time analytics • Maintenance of Projects performance 5. Data Modeling • Machine Learning • Train a model that best fits the business requirements • Prediction models Definição
  • 5.
    1. Understand a Business Problem •Ask questions and define objectives 2. Data Acquisition • Web Scraping • APIS • Direct download from URLs • Researches and crowdworkers (amazon Turk) 3. Data Preparation • Cleaning • Transformation • Very time consuming 4. Exploratory Data Analysis • Visualization • Statistics • Distributions • Feature selection 6. Visualization and Communication • Documentation • Talk back to business • Reports and Dashboards 7. Deploy and Maintenance • Production env • Real time analytics • Maintenance of Projects performance 5. Data Modeling • Machine Learning • Train a model that best fits the business requirements • Prediction models Definição You are here
  • 6.
    1. Understand a Business Problem •Ask questions and define objectives 2. Data Acquisition • Web Scraping • APIS • Direct download from URLs • Researches and crowdworkers (amazon Turk) 3. Data Preparation • Cleaning • Transformation • Very time consuming 4. Exploratory Data Analysis • Visualization • Statistics • Distributions • Feature selection 6. Visualization and Communication • Documentation • Talk back to business • Reports and Dashboards 7. Deploy and Maintenance • Production env • Real time analytics • Maintenance of Projects performance 5. Data Modeling • Machine Learning • Train a model that best fits the business requirements • Prediction models Definição You are here Note: This is NOT a Data Engineering Program
  • 7.
  • 8.
    O que sãodados?
  • 9.
    O que sãodados?
  • 10.
    Como dados sãogerados? - planilhas, sistemas de gerenciamento (CRM), máquinas, automações, sensores, publicações, - imagens, audios, videos Tipos de Fontes de Dados
  • 11.
    Tipos de Fontesde Dados • Pesquisas, entrevistas, experimentos, medições • ”Crowdworkers” • Web scraping (?) • Bancos de Dados Interno Dados gerados pela pessoa que usa o serviço - Primários
  • 12.
    Tipos de Fontesde Dados Dados gerados pela pessoa que usa o serviço - Primários • Pesquisas, entrevistas, experimentos, medições • ”Crowdworkers” • Web scraping (?) • Bancos de Dados Interno Dados gerados por outras pessoas - Secundários • Repositórios de dados • Websites e mídias sociais • APIs • Web scraping (?) • Livros, artigos, etc
  • 13.
  • 14.
    Extensões populares debase de dados • Pesquisas, entrevistas, experimentos, medições • Web scraping (?) • Bancos de Dados Interno Dados gerados pela pessoa que usa o serviço - Primários
  • 15.
    Extensões populares debase de dados • Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV • Web scraping (?) → HTML • Bancos de Dados Interno → SQL Dados gerados pela pessoa que usa o serviço - Primários
  • 16.
    Extensões populares debase de dados Dados gerados por outras pessoas - Secundários • Repositórios de dados • Websites e mídias sociais • APIs • Web scraping (?) Dados gerados pela pessoa que usa o serviço - Primários • Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV • Web scraping (?) → HTML • Bancos de Dados Interno → SQL
  • 17.
    Extensões populares debase de dados • Repositórios de dados → CSV, XLSX, TXT, JPG/PNG, etc • Websites e mídias sociais • APIs → JSON • Web scraping (?) → HTML Dados gerados por outras pessoas - Secundários Dados gerados pela pessoa que usa o serviço - Primários • Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV • Web scraping (?) → HTML • Bancos de Dados Interno → SQL
  • 18.
    Extensões populares debase de dados HTML CSV XLS X TXT Permite fórmulas No Brasil é comum usar ;
  • 19.
    Extensões populares debase de dados SQL (Not really an extension) JSON
  • 20.
  • 21.
    Repositórios de Dados GoogleDataset Search Kaggle Data.gov Datahub.io UCI Machine Learning Repository Data World Visual Data Data is Plural
  • 22.