Cloudera World Tokyo 2015 で発表した資料です。
https://clouderaworld.tokyo/
概要
かつてHadoopによるビッグデータ基盤は HiveやPig、MapReduce、そしてHDFSだけで構成されるシンプルなシステムでした。しかし現在では、SparkやImpalaを始めとして、Kafka、HBase、Parquet、そしてKuduなどの新しいコンポーネントを組み合わせた複雑なシステムが次々に本番環境で稼働し始めています。
このセッションでは、データの取得、加工、提供までの流れがどのように変わっていったか、そして現在ではどのような基盤が主流なのか、最新のトレンドについて解説します。