6. 데이터 전처리
• Class MyTokenizer
기사 또는 카카오톡 텍스트 처리 -> 조사, 문장기호, 접두사 및 외국어를 제외
pos 라는 메소드를 이용하여 각 형태소의 품사를 추출한 후,
텍스트 처리에 불필요한 품사를 제외시키는 과정.
7. 데이터 전처리
• Word_Indexing
수집한 Labled Data를 Tokenizing 및 형태소 분석, 벡터 차원을 맞추기 위한 패딩 작업을 실행
형태소 분석
텍스트 -> 숫자로 변환
패딩 작업 실행하여 전처리 완료
8. 데이터 학습
• Model Traning (LSTM)
keras의 Sequential 함수로 Embedding층, Dense층, Bi-LSTM층을 쌓아 LSTM 모델을 구성
EMBEDDING_INDEX에 담아놓은 사전
훈련된 워드 임베딩(FastText)을 사용
딥러닝 모델(LSTM)의 입력층,
은닉층, 출력층을 구성
9. 데이터 학습
• Model Traning (LSTM)
손실 함수는 ‘binary crossentropy’, optimizer는 ‘adam’을 사용하여 모델 학습
전처리한 학습데이터로
model fit (모델 학습) 진행
11. 네이버 댓글 학습
네이버 댓글 추가 분석
Article Data
Article
Model
Comments
Model
[0.37, 0.86] [0.59, 0.62]
Comments Data
12. 모델 성능 비교
정치 경제 사회 기타
카테고리 세분화
(under sampling)
with Comments
53.2% 41.9% 64.5% 63.0%
카테고리 세분화
(under sampling)
53.2% 48.3% 60.7% 67.3%
전체
(under sampling)
50.6% 54.8% 55.6% 54.3%
14. 프로세스 효율성 개선
Schedule
Every 1 hour
Web scraping
Article
LSTM Model
Comments
LSTM Model Database
Web Server
일정 시간마다 딥러닝 모델 실행하여 데이터베이스에 결과 저장
사용자 요청 처리시간 1.7초에서 0.01초로 단축