Zeppelin notebook 만들기

1. 세상에서

2. 가장쉬운

3. Zeppelin

4. Notebook

6. 만들기 최수경

9. NBT

10. Partners

11. • 간단한

12. 가이드

13. 지만

14. 처음

15. 사용하시는

16. 분들이

17. 쉽게

18. 개념을

19. 잡으셨으면

20. 해서

21. 만들어

22. 보았습니다.

24. • 저는

25. spark

27. zeppelin을

28. AWS상에서

29. 사용하고

30. 있습니다.

33. 여기서 잠깐 • Zeppelin

34. 은

35. ‘제플린’

36. 이라고

37. 읽습니다.

38. • 현대의

39. 경비행선의

40. 개발을

41. 주장한

42. 독일인의

43. 이름으로,

44. 독일어

45. 발음

46. ‘체펠린’

47. 영어

48. 발음

49. ‘제 플린’

50. 입니다.

51. 이

52. 분의

53. 이름을

54. 따서

55. 비행선

56. 이 라는

57. 단어가

58. 생겼다고

59. 하네요.

62. Zeppelin Notebook이란? • Hadoop에 HIVE가 있다면 Spark에는 Zeppelin이? ^^ • 사실 HIVE 보다 더 많은 기능을 제공합니다. • Spark와 연동하는 쉬운 interface를 제공하는 오픈소스 도구 • interpreter방식의 명령과 수행을 제공 (iPython 노트북과 비 슷하게 동작) • html, sql, shell script, scala/python/java 등을 지원

63. 왜 Zeppelin Notebook인가? • Spark 과 함께 사용한다면, 확실히 빠릅니다. • 데이터를 분석하고 싶은 사람의 입장에서, 한 화면에서 데이터의 추출, 처리, 분석을 (손쉽게!) 처리할 수 있습니 다. • 오픈소스 입니다. ^^

64. Zeppelin Notebook을 만드는 작업은 크게 세 단계 1. 데이터를 읽어온다. 2. 데이터를 처리한다. 3. 처리 결과를 저장/제공 한다. 1.

65. 냉장고

66. 문을

67. 연다

68. 2.

69. 코끼리를

70. 넣는다

71. 3.

72. 냉장고

73. 문을

74. 닫는다

75. 참.

76. 쉽죠~잉?

77. ^^;

78. 하나. 데이터를 읽어온다! • 로그파일이 있는 곳을 연결해서 읽어올 수 있습니다. • 로그 파일도 기본 텍스트 타입이 있구요, 뭔가 사전처 리를 해둔 (예를들면 parquet(파케이)같은) 타입이 있 을 수 있습니다. 파케이

79. 란?

80. 기본

81. 텍스트

82. 형태의

83. 로그

84. 파일을

85. 컬럼

86. 스토어와

87. 유사하게

88. 처리하도록한

89. 저장

90. 방식으로,

91. 속도

92. 및

93. 압축에서

94. 우수한

95. 성능을

96. 보입니다.

98. • S3에 로그가 있는 경우 val logs = sc.textFile(“s3n://daily_log_path/*”) logs.toDF.registerTempTable(“DAY_LOGS”) • 이때 경로에 변수를 넣을 수 있습니다. val log_path = f”s3n://daily_log_path/$year/$month%02d/ $day%02d/*/*” val logs = sc.textFile(log_path) • 파케이 파일의 경우는 파티션 조건을 주고 읽습니다. val todayPQ = sqlContext.parquetFile(“s3n:// parquet_daily_log_path/day=20150419”) todayPQ.registerTempTable(“DAY_PARQUET”)

99. •헉,

100. 로그에

101. 없는

102. 컬럼이

103. 필요한데요?

104. • 파일이 아니라 DB라면? • DB도 물론 연결할 수 있구요. 실행시 데이터를 가져오거나, 배 치 작업을 수행해서 미리 데이터를 가져다 놓을 수도 있습니다. • 하지만...어려운 문제 입니다. • 이것이 바로 호환마마

105. 보다

106. 무섭다는?

107. DATA DUPLICATION! • 장점

108. :

109. 일단...

110. 당면한

111. 문제를

112. 처리하는데는

113. 편리하다.

114. • 단점

115. :

116. 어느순간부터

117. 복제된

118. 데이터가

119. 원본과

120. 일치하는지

121. 자신이

122. 없어질

123. 수

124. 있다.

125. 복제

126. 작업

127. 자체를

128. 관리하는

129. 일이

130. 추가로

131. 발생한다.

132. 연결되어

133. 있다고

134. DB를

135. 마구!

136. 사용할

137. 경우

138. 빅데이터

139. 처리

140. 작업에

141. 부하를

142. 줄

143. 수

144. 있다.

145. • DB 접속정보를 입력하고, 읽어올 정보를 SQL로 정의한 후에 load()를 수행하면 필요한 정보를 데이터베이스로 부터 가져올 수 있습니다. val dbAddr = “111.1111.111.11:3300” val dbUser = “user_name val dbPw = password val dbName = “test_db” val dbTable = “”( SELECT id AS user_id, nickname, created_at as join_date FROM users ) user_info” val jdbcDF = sqlContext.load(jdbc, Map( url - s”jdbc:mysql://${dbAddr}/${dbName}?user=${dbUser} password=${dbPw}, dbtable - s”${dbTable}”)).persist() jdbcDF.registerTempTable(USER_TABLE)

146. 둘. 데이터를 처리한다! • 테이블 형태로 등록해서 SQL문을 이용 할 수 있습니다. • 또는 스칼라 코딩으로 조작 할 수도 있지요. • 둘을 섞어가며 (스칼라

147. 코딩으로

148. 처리

149. 후

150. 테이블로

151. 등록한다든지,

152. 테이블로

153. 등록 된

154. 것을

155. 읽어서

156. 스칼라

157. 코딩으로

158. 조작한다든지,

159. 이걸

160. 여러번

161. 섞는다든지...) 작업 하는 것도 물론! 가능합니다. • SQL이 손쉽고 따로 공부 할 것도 없지만, 스칼라가 조금 더 빠르고, 폼이 납니다. ^^;

162. • 테이블 형태로 등록해서 SQL문을 이용 할 수 있긴 하지 만, • 가끔 수행이 안되는 경우도 있어요. 복잡한 SQL함수를 사용하고자 하는 경우에... • 그러나 더욱 강력한 user define fuction을 등록 할 수 있으니 염려마시구요.

163. • registerTempTable()로 등록했다면, SQL을 통해 조회가 가능합니다. 입력 값을 받을 수도 있구요. 이때, 내가 등록 한 함수를 사용할 수 있습니다. def getClickCount(input:Int) : Int = { val click_type = input.toString var cnt = 0 if (click_type != error) cnt = 1 return cnt } sqlContext.udf.register(getClickCount, getClickCount _) %sql SELECT day, age, SUM(getClickCount(click_type) ) FROM remain_report WHERE age = 10 AND age = 30 GROUP BY day, age ORDER BY day, age

164. • 그렇다면 이번엔, 스칼라 코딩으로 처리 해보죠. • “가가

165. 가가?”를

166. 이해하시면

167. 좋습니다.

168. ^^;

171. • 스칼라에서 당연한 경우에는 파라미터를 _ (underscore)로 대체 할 수 있습니다. 아래 두 라인은 똑같은 의미 입니다. val fmap = rdd.flatMap(line = line.split( )).map(word = (word,1)).reduceByKey{(a: Int, b: Int) = a + b} val fmap = rdd.flatMap(line = line.split( )).map(word = (word,1)).reduceByKey(_+_)

172. • 빅데이터 에서는 보통 (key,value) 를 처리합니다. • 로그에서 필요한 데이터만 잘라내서 key 부분에 넣고, 적절한 함수 를 호출해 주면 됩니다. val invalidLineCounter = sc.accumulator(0) val pairs = c_logs.map(s = ( try { s.split(t)(1).split(:)(0) + _ + s.split(t)(1).split(:)(5) } catch { case _:Exception = { invalidLineCounter += 1 None } } , 1 ) ) val counts = pairs.reduceByKey(_+_) (사용자ID_날짜, 노출횟수)

173. 셋. 처리 결과를 저장/제공 한다! • 가장 간단한 방법 : 화면에 EXCEL DOWNLOAD !! 아싸… • 하지만 화면에 뿌려진 만큼만 download되기 때문에, 결과 화 면 아래 빨간줄 메시지가 나온 경우에는 사용할 수 없습니다. • 그런 경우에는? 파일로 쓰자!

174. • 결과를 직접 파일로 저장하는 경우 • 위치는 별도 (S3) 서버 또는 Zeppelin이 구동중인 서버에도 저 장 가능합니다. • 단 RDD 타입이어야 해요. resultRDD.coalesce(1).saveAsTextFile(“s3n://result_upload_path/ test_result”) • 결과를 메일로 보낼 수도 있구요. java 를 지원하니까요. import java.util.* import java.mail.* … 메일 본문을 만들고... 보내고....

175. Zeppelin Notebook을 만드는 작업은 크게 세 단계 1. 데이터를 읽어온다. 2. 데이터를 처리한다. 3. 처리 결과를 저장/제공 한다.

176. 그림으로

177. 정리해

178. 보자면

179. Log Parquet Log RDD DF Temp Table sc.textFile() sc.parquetFile() rdd.toDF() df.registerTempTable() rdd.map() result file map.saveAsTextFile() df.saveAsParquetFile() Map sqlContext.sql()df.map() SQL

180. 지금까지

181. zeppelin

182. notebook

183. 만들기

185. 3단계를

186. 살펴

187. 봤습니다.

188. 더

189. 자세한

190. 내용은

191. 직접

192. 사용해

193. 보시면서!

194. ^^

195. http://zeppelin.incubator.apache.org/docs/index.html

Zeppelin notebook 만들기

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Zeppelin notebook 만들기

Semelhante a Zeppelin notebook 만들기 (20)

Zeppelin notebook 만들기