O documento fornece uma introdução sobre data science e machine learning, discutindo sua história, ferramentas e aplicações. Apresenta como a data science evoluiu a partir da ciência da computação e estatística e como hoje utiliza dados estruturados e não estruturados para prever o futuro. Também explica os principais conceitos, como extração, limpeza e análise de dados usando ferramentas como Python, e como a machine learning pode ser aplicada.
5. História
Em 2001, William S. Cleveland introduz
data science como uma disciplina
independente, expandindo a estatística
para incorporar as "vantagens da
computação com dados"
Ref: "Data Science: An Action Plan for Expanding the
Technical Areas of the Field of Statistics"
14. Passado Presente Futuro
Business Intelligence (BI)
Vendas T1:
80% abaixo da meta
Data Analysis
Aprender com o passado Modelo Vendas 2019,
2020...
timeline
Por que as vendas
foram abaixo da
meta?
fit predict
Machine
Learning
16. Desktop
Apps
Mobile AppsWeb Apps
SW Process
Engenheiro de Software
Data Node 1
Engenheiro de Dados
clusters, nodes, shards, arbiters,
replication, fail-over, balancing,
big data, map-reduce, data
architectures
Data Node N
Data
Extraction
Data
Analysis
Data
Visualization
Machine
Learning
Statistics
Domain Problem
Expertise
Feature
Engineering
Cientista de
Dados
Data Collect
Sensores
IoT
External Sources
20. Features Business Intelligence (BI) Data Science
Data Sources Structured
(Usually SQL, often Data
Warehouse)
Both Structured and Unstructured
( logs, cloud data, SQL, NoSQL,
text)
Approach Statistics and Visualization Statistics, Machine Learning, Graph
Analysis, Neuro- linguistic
Programming (NLP)
Focus Past and Present Past, Present and Future
BI x Data Science
22. Extrair os dados e
transformá-losem
estruturas adequadas
ao processamento
(datasets)
• Tratar dados nulos
• Analisar outliers
• Feature engeneering
• Eliminar duplicidade
• Etc..
• Construir modelo de
Machine Learning
• Testar o modelo em
diferentes algoritmos e
abordagens
• Validar o modelo
23. 1. Linguagens
2. Ferramentas transversais
3. Data Store and Computing Big Data
4. Data Cleaning and Transform
5. Data Visualization anda Analyze
6. Machine Learning
7. Caminhos para aprender