SlideShare a Scribd company logo
1 of 117
Download to read offline
땀내를 줄이는

Data와 Feature 다루기
박조은 (joeunpark@gmail.com)
두 아이의 엄마

파이썬을 쓰는 개발자
땀내나는 이야기
수학과 통계를 잘 모르는 개발자의 이야기
땀내를 줄여보고자 했으나...
도메인이나 상황에 따라 

처리해야 하는 뾰족한 방법을 찾기 어려움
망했어요...
응답 수
Cleaning the data 20
Cleaning 20
Dirty data 16
Data Cleaning 14
dirty data 10
Data cleaning 10
Size 9
Missing data 8
Incomplete data 8
cleaning 8
Lack of documentation 7
data quality 6
Kaggle Servey 2017PersonalProjectsChallenge
Kaggle Servey 2017PersonalProjectsChallenge
발표에서 다루는 내용

•Data Preprocessing

•Feature Engineering
Import
이 발표자료 안에 있는 코드는 대부분

다음의 라이브러리로 작성되었습니다.

import pandas as pd

import numpy as np

import sklearn 

import plotnine
plotnine
발표자료 안에 있는 그래프는 대부분

파이썬에서 R의 ggplot 문법을 사용할 수 있는 

plotnine으로 작성되었습니다.
이미치 출처 : https://www.kaggle.com/residentmario/grammar-of-graphics-with-plotnine-optional
Machine Learning Pipeline
Data Retrieval
Data
Preprocessing
Feature
Extraction
Feature
Transform &
Scaling
Feature
Selection
modeling Predicthyperparameter

tuning Evaluation
Feature
Engineering
hyperparameter

tuning
Machine Learning Pipeline
Data Retrieval
Data
Preprocessing
modeling Predict Evaluation
Feature
Extraction
Feature
Transform &
Scaling
Feature
Selection
Feature
Engineering
우리가 쓰려는 데이터
여행사에서 활용한 데이터라고 해서 다운로드 받았는데

.hwp
해외 여행자 휴대품 통관규정 

최종 수정일은 지금으로부터 5년전
상가업소정보라고 해서 다운로드 받았는데 여긴 어디?
지역별 3.3㎡당 평균 분양가격
컬럼명이 어디에?이 데이터를 쓰려면?

엑셀에서 열면 잘 정리되어 있긴 한데...

파이썬으로는? NaN의 향연...
수십년간의 분양가격을 보고 싶은데...
대부분의 데이터는 우리가 원하는 대로 되어있지 않음
Data & Feature
Data
우리에게 던져진 날것의 무엇
Feature
신호와 소음
Data merge & concat
데이터를 얻었지만 

원하는 형태의 데이터가 아닐 수도 있습니다.
병합할 수 있는 형태로 만들어주기
• 전국 신규 아파트 분양가격 동향 2015-2018
• 전국 신규 아파트 분양가격 동향 2013-2015
병합할 수 있는 형태로 만들어주기
병합할 수 있는 형태로 만들어주기
• 땀내나는 전처리

• 컬럼 값을 만들어 주고 필요없는 데이터는 제거
•melt로 tidy data만들기
병합할 수 있는 형태로 만들어주기
• 필요한 데이터를 모아 concat 으로 병합하기
병합할 수 있는 형태로 만들어주기
데이터 보기
데이터의 일부 보기
head(), tail()
데이터 미리보기
• head()나 tail() 로 데이터의 일부분을 미리 보기
데이터 형태 혹은 요약보기
info(), describe(), dtypes()
데이터 형태 보기
• 데이터 형태에 따라 시각화와 데이터 처리가 달라짐
•수치형과 범주형 데이터의 차이
데이터 형태에 따라 다른 표현
데이터 요약 보기
• 데이터의 형태에 따라 다른 요약
Missing Data 다루기

Drop & Imputation
•수집이 안 됨 (예. 설문의 무응답, 서버오류)

•해당 로그 수집을 특정 시기 이후에 시작해서 그 전 데이터
가 없음(예. DB Table 컬럼 추가)

•특정 상황에서는 필요없어 일부러 남기지 않음

•Human error
결측치는 왜 생길까?
결측치
Missingno 결측치의 패턴을 시각화
랜덤하게 있음 VS 랜덤하지 않음

의도된 결측치 VS 의도치 않은 결측치
결측치
1) MCAR 

완전무작위 결측 발생, Missing completely at random

2) MAR

임의적 결측 발생, Missing at random

3) NI

무시할 수 없는 결측 발생, Non-ignorable

예. 설문이라면 응답하고 싶지 않은 데이터에 대한 의도적 결측치
결측치 종류
1) 완전제거법(List-wise deletion)

•가장 보편적으로 사용되는 방법

•결측율이 높을 때 정보의 손실

•각 변수의 분산을 증가하게 하는 비효율적인 방법

2) 단일대체방법(Single Imputation)

•다양성을 반영하지 못함

•관측된 자료에 의존하는 문제

•구간을 나누어 구간별 평균/중앙값/최빈값을 구해서 대체

3) 다중대체방법 (Multiple Imputation)

•결측이 완전 무작위로 발생한다는 가정

•대체가 가능한 값들의 분포로 부터 추출된 값으로 대체한 완전한 데이터세트를 만들어 대체
결측치 처리 방법
제거하기 VS 대체하기
Drop
결측치 제거하기
• 대체하기 어렵거나 결측비율이 높은 데이터

• 대체할 필요가 없는 데이터
Imputation
• 평균값

• 중앙값 

• 최빈값

• 확률분포 활용

• 내외부 데이터 활용
통계적 접근으로 대체하기
무작위로 누락된 수치형 데이터
•평균값 

아웃라이어 데이터로 편향이 발생할 수 있음

다른 유사한 데이터의 평균값을 구해서 채워준다.

dataset['Age'].fillna(dataset['Age'].mean(), inplace = True)
무작위로 누락된 수치형 데이터
•중앙값 

숫자이지만 카테고리 형태를 가질 때

이상치(Outlier Value)가 있을 때

데이터가 짝수개일 때 없는 데이터가 생길 수 있는 문제

예) 월급의 평균값을 사용하면 이상치로 중앙값보다 높은 값이 채워질 수 있음

dataset['Age'].fillna(dataset['Age'].median(), inplace = True)
무작위로 누락된 수치형 데이터
•최빈값 

무작위로 누락된 범주형 데이터

dataset['Age'].fillna(dataset['Age'].mode()[0], inplace = True)
scikit-learn Imputer
평균값, 중앙값, 최빈값으로 결측치를 채워줌
전국 도시공원 표준 데이터에서의 결측치 처리의 예

 → 도로명 주소의 결측치를 지번주소로 대체
다른 컬럼의 값을 사용
결측치여부로

데이터 나누기
Feature 만들기
test/train set 

나누기
test/train set 

합치기
예측값으로 대체 기계학습을 활용
학습시키기 예측하기
예측 데이터 

반영하기
사례. 국민청원 데이터에서 기타로 입력된 값을 

다른 값으로 대체 해주면 카테고리를 더 잘 예측할 것 같다는 가설
을 세우고기타 카테고리를 예측해서 대체
예측해서 대체하기
결과는 또르륵...T_T

국민청원 입력시 기타로 분류 값을 지정한 이유가 있었음

샘플 데이터로 학습해서 충분히 학습되지 않음(Underfitting)
1.데이터 전처리

2.기타 청원과 아닌 것 나누기

A.단어 벡터화(BOW, TF-IDF)

B.기타 청원 분류하기(RF)

3.예측값을 category_pred 컬럼에 넣어주기

4.학습세트와 테스트세트를 7:3으로 임의로 나누기

5.분류기 설정하기(RF, XGB)

6.분류기로 학습시키기(RF, XGB)

7.label 데이터를 예측한 category_pred 를 사용하기

8.학습의 정확도 보기(RF, XGB)

9.테스트 데이터 예측하기(RF, XGB)

10.실제 데이터와 예측결과의 차이를 보기(RF, XGB)
국민청원 ‘기타’카테고리 예측 예시
Feature Engineering
hyperparameter

tuning
Machine Learning Pipeline
Data Retrieval
Data
Preprocessing
modeling Predict Evaluation
Feature
Extraction
Feature
Transform &
Scaling
Feature
Selection
Feature
Engineering
1. Brainstorming or Testing features;

2. Deciding what features to create;

3. Creating features;

4. Checking how the features work with your model;

5. Improving your features if needed;

6. Go back to brainstorming/creating more features until the
work is done.

출처 : https://en.wikipedia.org/wiki/Feature_engineering
The process of feature engineering
범주형 데이터 다루기

one-hot-vector, binning, bucketing
One-Hot-(Vector|Encoding) 수치형

↕

binning(bucketing) 범주형
One-Hot-(Vector|Encoding)
언어
파이썬
루비
자바
파이썬
언어 언어_파이썬 언어_루비 언어_자바
파이썬 1 0 0
루비 0 1 0
자바 0 0 1
파이썬 1 0 0
텍스트 데이터, 범주형 데이터 → 수치형 데이터

•머신러닝이나 딥러닝 알고리즘은 수치로된 데이터만 이해

•벡터에서 해당되는 하나의 데이터만 1로 변경해 주고 나머지는 0으로 채워주는 것
scikit-learn LabelEncoder
•범주형 데이터 → 수치형 데이터
수치형 데이터 다루기

연속형 vs 비연속형
연속형 데이터 binning(bucketing)
•수치형 데이터 → 범주(카테고리) 형태의 데이터

•나누는 기준을 임의로 정하기 때문에 논리적 타당성이 필요

•일반적인 기준에 따라 정하는 것이 비판의 여지가 줄어든다.
연속형 데이터 binning(bucketing)
비연속형 데이터
수치형 데이터 → 카테고리 형태의 데이터
텍스트 데이터 다루기

자연어처리, 텍스트 데이터 벡터화
•가장 간단하지만 효과적이라 널리쓰이는 방법

•장, 문단, 문장, 서식과 같은 입력 텍스트의 구조를 제외하고
각 단어가 이 말뭉치에 얼마나 많이 나타나는지만 헤아림

•구조와 상관없이 단어의 출현횟수만 세기 때문에 텍스트를
담는 가방(bag)으로 생각할 수 있음
BOW(bag of words)
BOW(bag of words)
•BOW는 단어의 순서가 완전히 무시 된다는 단점

•예를 들어 의미가 완전히 반대인 두 문장을 보자

•it's bad, not good at all.

•it's good, not bad at all.

•위 두 문장은 의미가 전혀 반대지만 완전히 동일하게 반환

•이를 보완하기 위해 n-gram을 사용하는 데 

• BOW는 하나의 토큰을 사용하지만 

• n-gram은 n개의 토큰을 사용
(1) 파이콘에 버스를 타고 갔다.

(2) 파이콘에서 발표를 했다.

(3) 파이콘에서 자원봉사를 했다.토큰화 

[

"파이콘에", "파이콘에서", "버스를", "발표를", "자원봉사를", "타고", "갔다", "했다"

]

벡터화

(1) [1, 0, 1, 0, 0, 1, 1, 0]

(2) [0, 1, 0, 1, 0, 0, 0, 1] 

(3) [0, 1, 0, 0, 1, 0, 0, 1]
BOW(bag of words)
uni-gram 

[

"파이콘에",

"버스를"

“타고",

"갔다",

]
n-gram파이콘에 버스를 타고 갔다.
bi-gram 

[

"파이콘에 버스를",

"버스를 타고",

"타고 갔다"

]
tri-gram 

[

"파이콘에 버스를 타고",

"버스를 타고 갔다"

]
bi-gram(1,2) 

[

"파이콘에",

"버스를",

"타고갔다",

"파이콘에 버스를",

"버스를 타고",

"타고 갔다"

]
tri-gram(2,3)

[

"파이콘에 버스를",

"버스를 타고",

"타고 갔다”,

"파이콘에 버스를 타고",

"버스를 타고 갔다"

]
Feature Extraction
Raw data로 부터 Feature 추출
Bag Of Wordstri-gram을 사용하고 BOW를 생성해 준 예시
TF-IDFTerm frequency Inverse document frequency
TF(단어 빈도, term frequency)는 

특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값

이 값이 높을수록 문서에서 중요하다고 생각할 수 있지만 

단어 자체가 문서군 내에서 자주 사용되는 경우, 

이것은 그 단어가 흔하게 등장한다는 것을 의미

이것을 DF(문서 빈도, document frequency)라고 하며, 

이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고함

TF-IDF는 TF와 IDF를 곱한 값
TF-IDFTerm frequency Inverse document frequency
예를 들어 청와대 국민청원 데이터에서

초등 돌봄 교실이라는 단어는 특정 청원에서는 자주 등장하지만 전체
청원에서는 자주 등장하지 않음

이럴 때 해당 문서에서 초등 돌봄 교실이라는 단어는 중요한 역할을 하
기 때문에 다른 단어보다 가중치를 높게 설정

반면, 안녕하세요. 청원합니다. 등의 단어는 매우 자주 등장하기 때문에
가중치를 낮게 설정
BOW에 TF-IDF 가중치를 적용한 예
Error Data 다루기
Error Data
- 잘못된 위경도 정보가 입력되어 

범위를 벗어난 사례

- 같은 데이터에 들어 있는 

주소 정보로 위경도를 보정

오류 데이터의 경우 

참고 할 수 있는 다른 Data가 있다면 보정

예. 급여정보가 없을 때 보험료를 참고해서 급여를 예측
Outlier Data 다루기
이상치 Outlier Data 다루기
•Error Data와는 다름

•데이터 혹은 샘플에서 동떨어진 값으로 모델에 편향을 줄 수 있음

•정상치와 이상치의 기준을 어느 지점으로 할 것인지에 대한 모호함

•도메인마다 이상치의 기준에 대한 정도가 다름

예) 의료 데이터는 이상치가 중요할 수도 있음

예) 국민청원 데이터로 투표수를 예측한다고 할 때 특정 사회적 이슈에 따라 이상치가 발생
이상치로 인한 회귀선 변화
예. 기사에 나오는 평균 연봉은 내 연봉보다 높음
•보정

•제거

•대체

•스케일 줄이기
이상치 Outlier Data 다루기
Feature Selection
적절한 Feature Selection 만으로도 좋은 성능을 낼 수 있음
Pandas 를 통한 Feature Selection
•원본 데이터에서 불필요한 Feature 제거

•필요한 Feature만 선택하기
Scikit-learn 을 통한 Feature Selection
>>> from sklearn.feature_selection import VarianceThreshold
>>> X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
>>> sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
>>> sel.fit_transform(X)
array([[0, 1],
[1, 0],
[0, 0],
[1, 1],
[1, 0],
[1, 1]])
출처 : http://scikit-learn.org/stable/modules/feature_selection.html
FeatureTransform
•일변량 비선형 변환

•대부분의 모델은 각 특성이 정규분포
와 비슷할 때 좋은 성능

•오차가 정규분포를 따른 다는 가정하
에 정규분포로 만들어 주는 과정이 필
요해서 로그변환

•로그함수의 값을 복원할 때는 지수함
수를 사용 np.exp(log_feature)

•정수형 특성에 주로 사용

•정수 Label Data에도 적용해 볼 수
있음
Univariate transformation
Feature Scaling
•어느 한 변수가 분산이 너무 클 때

•각 변수의 분포를 일정하게 유지하도록 

•회귀분석에는 스케일링을 적용하든 안 하든 변수의 유의성은
달라지지 않음
Feature Scaling
출처 : http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html
MinMax Scaling
• 어느 한 변수가 분산이 너무 클 때

• 평균을 0 분산을 1로 만들어줌
차원의 저주 Curse of dimensionality
차원 축소
•데이터를 잘 설명할 수 있는 잠재공간 찾기

•일정한 차원을 넘어가면 계속 성능이 떨어지는 현상이 발생

•작은 공간에 과적합 현상이 생겨 예측 성능이 떨어지는 것을 방지

•데이터 압축, 시각화에 사용
http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html
PCA
• PCA를 활용한 Feature Scaling 의 예
t-SNE로 N차원의 데이터를 2차원으로 변환
t-SNE로 N차원의 데이터를 2차원으로 변환
word2vec 벡터를 2차원으로 축소해 시각화 한 예
Feature Pipeline
Text Vectorization 

polynomial feature
PCA / t-SNE
Cleaning / Imputation /
Encoding
Preprocessing Feature Extractions
Feature Scaling & Selection
Machine Learning Model
Feature Pipeline 단어 벡터화 두 가지를 함께 수행하도록
multiprocessing
top -o cpu

내 장비의 자원이 충분히 활용되고 있는지 확인
내 장비는 제대로 일하고 있을까?
자원을 최대한 사용하도록 일 시키기
from multiprocessing import Pool
def f(x):
return x*x
if __name__ == '__main__':
with Pool(5) as p:
print(p.map(f, [1, 2, 3]))
출처 : https://docs.python.org/3.6/library/multiprocessing.html?module-multiprocessing
내 장비는 제대로 일하고 있을까?
xgb.XGBClassifier(nthread=-1)
RandomForestRegressor(n_jobs=-1)
자원을 최대한 사용하도록 일 시키기
Underfitting & Overfitting
신호와 소음
출처 : http://scikit-learn.org/stable/auto_examples/model_selection/plot_underfitting_overfitting.html
Underfitting & Overfitting
Underfitting & Overfitting
최적의 학습지점 찾기
청와대 국민청원 자연어 처리와 분석

https://github.com/corazzon/petitionWrangling

공공데이터 분석

https://github.com/corazzon/OpenDataWrangling 

캐글 경진대회

https://github.com/corazzon/KaggleStruggle
발표에 사용된 노트북
감사합니다.

More Related Content

What's hot

Apache doris (incubating) introduction
Apache doris (incubating) introductionApache doris (incubating) introduction
Apache doris (incubating) introductionleanderlee2
 
Optimizing Hive Queries
Optimizing Hive QueriesOptimizing Hive Queries
Optimizing Hive QueriesOwen O'Malley
 
A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets with Jules ...
A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets with Jules ...A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets with Jules ...
A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets with Jules ...Databricks
 
Productizing Structured Streaming Jobs
Productizing Structured Streaming JobsProductizing Structured Streaming Jobs
Productizing Structured Streaming JobsDatabricks
 
TechTalk #13 Grokking: Marrying Elasticsearch with NLP to solve real-world se...
TechTalk #13 Grokking: Marrying Elasticsearch with NLP to solve real-world se...TechTalk #13 Grokking: Marrying Elasticsearch with NLP to solve real-world se...
TechTalk #13 Grokking: Marrying Elasticsearch with NLP to solve real-world se...Grokking VN
 
SQL Query Optimization: Why Is It So Hard to Get Right?
SQL Query Optimization: Why Is It So Hard to Get Right?SQL Query Optimization: Why Is It So Hard to Get Right?
SQL Query Optimization: Why Is It So Hard to Get Right?Brent Ozar
 
Our journey with druid - from initial research to full production scale
Our journey with druid - from initial research to full production scaleOur journey with druid - from initial research to full production scale
Our journey with druid - from initial research to full production scaleItai Yaffe
 
Sequential & binary, linear search
Sequential & binary, linear searchSequential & binary, linear search
Sequential & binary, linear searchmontazur420
 
파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링HWANGTAEYONG
 
RDFS In A Nutshell V1
RDFS In A Nutshell V1RDFS In A Nutshell V1
RDFS In A Nutshell V1Fabien Gandon
 
The Apache Spark File Format Ecosystem
The Apache Spark File Format EcosystemThe Apache Spark File Format Ecosystem
The Apache Spark File Format EcosystemDatabricks
 
Introduction to Apache Spark
Introduction to Apache SparkIntroduction to Apache Spark
Introduction to Apache SparkRahul Jain
 
Real Time search using Spark and Elasticsearch
Real Time search using Spark and ElasticsearchReal Time search using Spark and Elasticsearch
Real Time search using Spark and ElasticsearchSigmoid
 
Introduction to ML with Apache Spark MLlib
Introduction to ML with Apache Spark MLlibIntroduction to ML with Apache Spark MLlib
Introduction to ML with Apache Spark MLlibTaras Matyashovsky
 
Introduction to Presto at Treasure Data
Introduction to Presto at Treasure DataIntroduction to Presto at Treasure Data
Introduction to Presto at Treasure DataTaro L. Saito
 
Presentation on data preparation with pandas
Presentation on data preparation with pandasPresentation on data preparation with pandas
Presentation on data preparation with pandasAkshitaKanther
 
From Query Plan to Query Performance: Supercharging your Apache Spark Queries...
From Query Plan to Query Performance: Supercharging your Apache Spark Queries...From Query Plan to Query Performance: Supercharging your Apache Spark Queries...
From Query Plan to Query Performance: Supercharging your Apache Spark Queries...Databricks
 
Parquet performance tuning: the missing guide
Parquet performance tuning: the missing guideParquet performance tuning: the missing guide
Parquet performance tuning: the missing guideRyan Blue
 

What's hot (20)

Apache doris (incubating) introduction
Apache doris (incubating) introductionApache doris (incubating) introduction
Apache doris (incubating) introduction
 
Optimizing Hive Queries
Optimizing Hive QueriesOptimizing Hive Queries
Optimizing Hive Queries
 
A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets with Jules ...
A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets with Jules ...A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets with Jules ...
A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets with Jules ...
 
Productizing Structured Streaming Jobs
Productizing Structured Streaming JobsProductizing Structured Streaming Jobs
Productizing Structured Streaming Jobs
 
TechTalk #13 Grokking: Marrying Elasticsearch with NLP to solve real-world se...
TechTalk #13 Grokking: Marrying Elasticsearch with NLP to solve real-world se...TechTalk #13 Grokking: Marrying Elasticsearch with NLP to solve real-world se...
TechTalk #13 Grokking: Marrying Elasticsearch with NLP to solve real-world se...
 
Lucene
LuceneLucene
Lucene
 
SQL Query Optimization: Why Is It So Hard to Get Right?
SQL Query Optimization: Why Is It So Hard to Get Right?SQL Query Optimization: Why Is It So Hard to Get Right?
SQL Query Optimization: Why Is It So Hard to Get Right?
 
Our journey with druid - from initial research to full production scale
Our journey with druid - from initial research to full production scaleOur journey with druid - from initial research to full production scale
Our journey with druid - from initial research to full production scale
 
Sequential & binary, linear search
Sequential & binary, linear searchSequential & binary, linear search
Sequential & binary, linear search
 
파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링
 
RDFS In A Nutshell V1
RDFS In A Nutshell V1RDFS In A Nutshell V1
RDFS In A Nutshell V1
 
The Apache Spark File Format Ecosystem
The Apache Spark File Format EcosystemThe Apache Spark File Format Ecosystem
The Apache Spark File Format Ecosystem
 
Introduction to Apache Spark
Introduction to Apache SparkIntroduction to Apache Spark
Introduction to Apache Spark
 
Real Time search using Spark and Elasticsearch
Real Time search using Spark and ElasticsearchReal Time search using Spark and Elasticsearch
Real Time search using Spark and Elasticsearch
 
Introduction to ML with Apache Spark MLlib
Introduction to ML with Apache Spark MLlibIntroduction to ML with Apache Spark MLlib
Introduction to ML with Apache Spark MLlib
 
Introduction to Presto at Treasure Data
Introduction to Presto at Treasure DataIntroduction to Presto at Treasure Data
Introduction to Presto at Treasure Data
 
Presentation on data preparation with pandas
Presentation on data preparation with pandasPresentation on data preparation with pandas
Presentation on data preparation with pandas
 
From Query Plan to Query Performance: Supercharging your Apache Spark Queries...
From Query Plan to Query Performance: Supercharging your Apache Spark Queries...From Query Plan to Query Performance: Supercharging your Apache Spark Queries...
From Query Plan to Query Performance: Supercharging your Apache Spark Queries...
 
SPARQL Cheat Sheet
SPARQL Cheat SheetSPARQL Cheat Sheet
SPARQL Cheat Sheet
 
Parquet performance tuning: the missing guide
Parquet performance tuning: the missing guideParquet performance tuning: the missing guide
Parquet performance tuning: the missing guide
 

Similar to [PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기

추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-drafthyunsung lee
 
Deep learning framework 제작
Deep learning framework 제작Deep learning framework 제작
Deep learning framework 제작Tae Young Lee
 
데이터분석과저널리즘 정제에서 분석까지
데이터분석과저널리즘 정제에서 분석까지데이터분석과저널리즘 정제에서 분석까지
데이터분석과저널리즘 정제에서 분석까지Gee Yeon Hyun
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapupEun Yu
 
La mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IOLa mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IOtaeseon ryu
 
[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplications[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplicationstaeseon ryu
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?ssuseraf7587
 
데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?Glen Park
 
Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터JEEHYUN PAIK
 
[HaU] 신입 기술 면접 준비 java
[HaU] 신입 기술 면접 준비 java[HaU] 신입 기술 면접 준비 java
[HaU] 신입 기술 면접 준비 java유리 하
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)Eun Yu
 
01 built in-data_type
01 built in-data_type01 built in-data_type
01 built in-data_typeJu-Hyung Lee
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)SANG WON PARK
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinDataya Nolja
 
[Paper] EDA : easy data augmentation techniques for boosting performance on t...
[Paper] EDA : easy data augmentation techniques for boosting performance on t...[Paper] EDA : easy data augmentation techniques for boosting performance on t...
[Paper] EDA : easy data augmentation techniques for boosting performance on t...Susang Kim
 
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Taejun Kim
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석simon park
 
Layout lm paper review
Layout lm paper review Layout lm paper review
Layout lm paper review taeseon ryu
 
Deep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsDeep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsseungwoo kim
 

Similar to [PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기 (20)

추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft
 
Deep learning framework 제작
Deep learning framework 제작Deep learning framework 제작
Deep learning framework 제작
 
데이터분석과저널리즘 정제에서 분석까지
데이터분석과저널리즘 정제에서 분석까지데이터분석과저널리즘 정제에서 분석까지
데이터분석과저널리즘 정제에서 분석까지
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapup
 
La mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IOLa mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IO
 
[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplications[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplications
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
 
데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?
 
Ml for 정형데이터
Ml for 정형데이터Ml for 정형데이터
Ml for 정형데이터
 
[HaU] 신입 기술 면접 준비 java
[HaU] 신입 기술 면접 준비 java[HaU] 신입 기술 면접 준비 java
[HaU] 신입 기술 면접 준비 java
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)
 
01 built in-data_type
01 built in-data_type01 built in-data_type
01 built in-data_type
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and Zeppelin
 
[Paper] EDA : easy data augmentation techniques for boosting performance on t...
[Paper] EDA : easy data augmentation techniques for boosting performance on t...[Paper] EDA : easy data augmentation techniques for boosting performance on t...
[Paper] EDA : easy data augmentation techniques for boosting performance on t...
 
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석
 
Layout lm paper review
Layout lm paper review Layout lm paper review
Layout lm paper review
 
Deep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsDeep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendations
 

[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기