빅데이터 분석을 위해서는 전처리가 매우 중요합니다. 배스핀글로벌의 빅데이터 분석 전처리 속도 해결을 위한 POC 사례를 공유합니다.
빅데이터 분석 플랫폼을 도입하거나 구축하고자 하는 기업과 개발자들에게 도움이 되기를 바랍니다.
감사합니다.
https://www.bespinglobal.com
2. 빅데이터 분석 플랫폼 전처리 속도 해결을 위한 POC 경과| Bespin Global
1,2차에 걸쳐 전처리 프로세서 관련 POC를 통한 개선작업을 진행함.
3. 빅데이터 분석 플랫폼 전처리 속도 해결을 위한 POC 경과| Bespin Global
• 1차 PoC
• 문제: 전처리 프로세서(12개)가 Jenkins에서 재귀 호출을 통해 처리되고 있었음. 해당 Jenkins의 대기큐 9개로 TV쪽 외 5개 프로세서도 동일하게 재귀호출로 처리하다
보니 Jenkis 내에서도 대기시간이 발생하여 전처리 호출 지연시간이 발생함을 확인함.
• 해결: Jenkins에서 재귀 호출로 전처리 하던 부분을 쉘에서 처리 될 수 있도록 구조개선 작업을 통해 전처리 호출 지연시간을 감소시킴
4. 빅데이터 분석 플랫폼 전처리 속도 해결을 위한 POC 경과| Bespin Global
• 2차 PoC
• 문제: 전처리 원천파일의 크기가 증가하고 있어 (전년대비 약15%증가) 전처리 하는 시간이 늘어나고 있음. 기존 디스크(IOPS가 가장 높음)에서 전처리
프로세서(12개)가 동작하고 있음.
• 해결: 한 번에 한 개의 csv를 처리하는 로직에서 한 번에 여러 개를 읽어 병렬 처리 될 수 있도록 구조개선 작업을 하여 속도를 개선함
5. 구조 개선 결과| Bespin Global
• 개선 전
• 개선 후 (1차 / 2차 PoC 이후)