6. さらに MR も意識せずに~DSL
ある特定の分野(ログ分析とか)だと、Mapper / Reducerに分解
する部分がわりと明確
最初から分解してその指示をメタな言語(DSL)にすれば
MapReduceを意識せずHadoopで処理ができる?
use 'LogAnalysis'
data 'apache log on test1' do
from 'apachlog/inputs'
to 'apachlog/outputs'
each_line do
pattern /(.*) (.*) (.*) [(.*)] (".*") (d*) (d*)/
column_name 'remote_host', 'pass', 'user', 'access_date', 'request', 'status',
'bytes'
topic 'which users?', :label => 'user' do
count_uniq column[:user]
end
topic 'access date by monthly' do
select_date column[:access_date], BY_MONTHLY
count column[:access_date]
end
・・・