SlideShare uma empresa Scribd logo
1 de 28
Baixar para ler offline
NYSOL Partner KSK Analytics	
2014/5/31	
  
第39回R勉強会@東京(#TokyoR) 	
  
Lightning	
  Talk	
高速に前処理するNYSOL	
株式会社KSKアナリティクス	
  
データアナリスト 北島 聡	
  
NYSOL Partner KSK Analytics	
データ分析のプロセス	
  
実は8割以上は前処理	
社外データ	
業務システム	
EXCEL	
様々なデータ形式	
  
膨大なデータ量	
  
複雑なデータ構造	
分析用
データ	
各種・分析モデル	
クラス	
  
分類	
回帰
分析	
パターン
解析	
クラスタ
リング	
CSV	
繰り返しの	
前処理	
  
SQLクエリ?	
  
AWK?	
  
ETLツール?	
  
Python?Ruby?	
  
R?	
  
Excel?	
  	
  
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 3	
データ分析のプロセス	
  
実は8割以上は前処理	
1.  システム担当者はデータ加工を嫌がります	
  
2.  SQLは複雑・実行時間もかかりすぎます	
  
3.  プログラミングは実行まで時間がかかります	
  
4.  DWHや専用ツールはお金がかかります	
  
5.  データ加工には特殊な能力が必要?	
分析用
データ	
繰り返しの	
前処理	
  
SQLクエリ?	
  
AWK?	
  
ETLツール?	
  
Python?Ruby?	
  
R?	
  
Excel?	
  	
  
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 4	
・「にそる」と読みます。	
  
・日本発のオープンソースです。	
  
・すべて無料です。	
  
・www.nysol.jp	
  
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 5
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 6	
本日のご紹介は、	
  
この「Mコマンド」です。
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 7	
自信を持って	
  
言えること
NYSOL Partner KSK Analytics	
Rより簡単。	
© KSK Analytics Inc.	
 8	
<
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 9	
<	
Rより早い。
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 10	
<	
某DBより早い。
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 11	
<	
Rより柔らかい。
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 12	
皆さん、	
  
ごめんなさい。
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 13	
R勉強会ですが、
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 14	
これからRの話は	
  
全くしません	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  m(__)m
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 15	
簡単。早い。柔らかい。
NYSOL Partner KSK Analytics	
仕組みはシンプル	
Mコマンド	
  
・UNIXコマンド	
  
・約70種類	
  
・CSVデータ	
  
	
  
組み合わせは無限大	
  
・各コマンドを	
  
 「パイプ」で接続	
© KSK Analytics Inc.	
 16
NYSOL Partner KSK Analytics	
顧客の平均来店間隔日数を求めたい
NYSOL Partner KSK Analytics	
データはCSV
NYSOL Partner KSK Analytics	
STEP.1)	
  
必要になる 「顧客」と「日付」項目を選択する。(「商品」を排除)	
mcut	
  f=顧客,日付
NYSOL Partner KSK Analytics	
STEP.2)	
  
    どの日に来店したかがわかればよいので、	
  
    同じ顧客で日付の重複行は省く。	
muniq	
  k=顧客,日付
NYSOL Partner KSK Analytics	
STEP.3)	
  
「日付」項目の下レコードを横にずらす	
mslide	
  k=顧客 f=日付:次日付	
  
NYSOL Partner KSK Analytics	
STEP.4)	
  
「次日付」-「日付」の日数計算を行う。	
mcal	
  c=‘$d{次日付}-­‐$d{日付}’	
  a=日数
NYSOL Partner KSK Analytics	
STEP.5)	
  
「日付」と「次日付」は必要ないので省く。	
mcut	
  f=顧客,日数
NYSOL Partner KSK Analytics	
STEP.6)	
  
顧客別に日数の平均値を計算	
  
(項目名を「平均来店間隔日数」とする)	
  
mavg	
  k=顧客 f=日数:平均来店間隔日数
NYSOL Partner KSK Analytics	
シェルスクリプト	
以上のような処理を実際にコンピュータで行うためには、1)コマンドラインから入力する、
もしくは2)シェルスクリプトを記述する、の大きく2パターン。	
入力ファイルを「購買履歴データ.csv」、出力ファイル名を「結果.csv」とすると、シェルスク
リプトでの記載は以下のようになります。	
	
#!/bin/sh	
	
mcut	
  f=顧客,日付 i=購買履歴データ.csv	
  |	
  
muniq	
  k=顧客,日付 |	
  
mslide	
  k=顧客 f=日付:次日付 |	
  
mcal	
  c='$d{次日付}-­‐$d{日付}'	
  a=日数 |	
  
mcut	
  f=顧客,日数 |	
  
mavg	
  k=顧客 f=日数:平均来店間隔日数 o=結果.csv
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 26	
約70種類のコマンド(一覧がご覧いただけます)	
  
hmp://www.nysol.sakura.ne.jp/mcmd/jp/index.html	
  	
  
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 27	
日本発のオープンソースです。	
  
みなさん、一緒に応援しましょう!	
  
NYSOL Partner KSK Analytics	
 © KSK Analytics Inc.	
 28	
株式会社KSKアナリティクス www.ksk-anl.com 
セールス & マーケティング本部 sales@ksk-anl.com
www.nysol.jp 	
株式会社KSKアナリティクスでは、	
  
NYSOLのビジネスサポート、トレーニング等を	
  
提供しています。お気軽に問い合わせ下さい。	
ダウンロードはこちらから	
  
UNIX環境(Linux,	
  Macなど)で動作

Mais conteúdo relacionado

Mais procurados

RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月
RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月
RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月ossanalytics
 
レボリューションR(RRE)のご紹介
レボリューションR(RRE)のご紹介レボリューションR(RRE)のご紹介
レボリューションR(RRE)のご紹介Satoshi Kitajima
 
バッチを Akka Streams で再実装したら100倍速くなった話 #ScalaMatsuri
バッチを Akka Streams で再実装したら100倍速くなった話 #ScalaMatsuriバッチを Akka Streams で再実装したら100倍速くなった話 #ScalaMatsuri
バッチを Akka Streams で再実装したら100倍速くなった話 #ScalaMatsuriKazuki Negoro
 
ビッグデータ分析基盤を支えるOSSたち
ビッグデータ分析基盤を支えるOSSたちビッグデータ分析基盤を支えるOSSたち
ビッグデータ分析基盤を支えるOSSたちToru Takahashi
 
OSSのクラウド基盤 OpenStack / CloudStack
OSSのクラウド基盤 OpenStack / CloudStackOSSのクラウド基盤 OpenStack / CloudStack
OSSのクラウド基盤 OpenStack / CloudStackVirtualTech Japan Inc.
 
OpenStack Summit Sydney OpenStackの運用や安定性に関する動向
OpenStack Summit Sydney OpenStackの運用や安定性に関する動向OpenStack Summit Sydney OpenStackの運用や安定性に関する動向
OpenStack Summit Sydney OpenStackの運用や安定性に関する動向kimura50
 
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築するGoogle Cloud Platform - Japan
 
Nutanix Advent Calendar 2021年12月22日分
Nutanix Advent Calendar 2021年12月22日分Nutanix Advent Calendar 2021年12月22日分
Nutanix Advent Calendar 2021年12月22日分itnews2
 
build2017のazure関連情報まとめ
build2017のazure関連情報まとめbuild2017のazure関連情報まとめ
build2017のazure関連情報まとめ裕之 木下
 
あらゆる検索を叶えるElastic Workplace Search
あらゆる検索を叶えるElastic Workplace Searchあらゆる検索を叶えるElastic Workplace Search
あらゆる検索を叶えるElastic Workplace SearchElasticsearch
 
Cassandra Meetup Tokyo, 2016 Spring
Cassandra Meetup Tokyo, 2016 SpringCassandra Meetup Tokyo, 2016 Spring
Cassandra Meetup Tokyo, 2016 SpringShigeru Harasawa
 
Cassandra Meetup Tokyo, 2016 Spring Part 2
Cassandra Meetup Tokyo, 2016 Spring Part 2Cassandra Meetup Tokyo, 2016 Spring Part 2
Cassandra Meetup Tokyo, 2016 Spring Part 2Shigeru Harasawa
 
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...Insight Technology, Inc.
 
[Cloud OnAir] Google Cloud の考える次世代ハイブリッドクラウドとは? 2019年8月22日 放送
[Cloud OnAir] Google Cloud の考える次世代ハイブリッドクラウドとは? 2019年8月22日 放送[Cloud OnAir] Google Cloud の考える次世代ハイブリッドクラウドとは? 2019年8月22日 放送
[Cloud OnAir] Google Cloud の考える次世代ハイブリッドクラウドとは? 2019年8月22日 放送Google Cloud Platform - Japan
 
OSSのクラウド基盤 OpenStack / CloudStack
OSSのクラウド基盤 OpenStack / CloudStackOSSのクラウド基盤 OpenStack / CloudStack
OSSのクラウド基盤 OpenStack / CloudStackNobuyuki Tamaoki
 
Google Cloud のネットワークとロードバランサ
Google Cloud のネットワークとロードバランサGoogle Cloud のネットワークとロードバランサ
Google Cloud のネットワークとロードバランサGoogle Cloud Platform - Japan
 
Spark on sql server?
Spark on sql server?Spark on sql server?
Spark on sql server?Oda Shinsuke
 
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送Google Cloud Platform - Japan
 
Jawsfesta2018 oosaka sponsor
Jawsfesta2018 oosaka sponsorJawsfesta2018 oosaka sponsor
Jawsfesta2018 oosaka sponsor安隆 沖
 

Mais procurados (19)

RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月
RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月
RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月
 
レボリューションR(RRE)のご紹介
レボリューションR(RRE)のご紹介レボリューションR(RRE)のご紹介
レボリューションR(RRE)のご紹介
 
バッチを Akka Streams で再実装したら100倍速くなった話 #ScalaMatsuri
バッチを Akka Streams で再実装したら100倍速くなった話 #ScalaMatsuriバッチを Akka Streams で再実装したら100倍速くなった話 #ScalaMatsuri
バッチを Akka Streams で再実装したら100倍速くなった話 #ScalaMatsuri
 
ビッグデータ分析基盤を支えるOSSたち
ビッグデータ分析基盤を支えるOSSたちビッグデータ分析基盤を支えるOSSたち
ビッグデータ分析基盤を支えるOSSたち
 
OSSのクラウド基盤 OpenStack / CloudStack
OSSのクラウド基盤 OpenStack / CloudStackOSSのクラウド基盤 OpenStack / CloudStack
OSSのクラウド基盤 OpenStack / CloudStack
 
OpenStack Summit Sydney OpenStackの運用や安定性に関する動向
OpenStack Summit Sydney OpenStackの運用や安定性に関する動向OpenStack Summit Sydney OpenStackの運用や安定性に関する動向
OpenStack Summit Sydney OpenStackの運用や安定性に関する動向
 
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する
 
Nutanix Advent Calendar 2021年12月22日分
Nutanix Advent Calendar 2021年12月22日分Nutanix Advent Calendar 2021年12月22日分
Nutanix Advent Calendar 2021年12月22日分
 
build2017のazure関連情報まとめ
build2017のazure関連情報まとめbuild2017のazure関連情報まとめ
build2017のazure関連情報まとめ
 
あらゆる検索を叶えるElastic Workplace Search
あらゆる検索を叶えるElastic Workplace Searchあらゆる検索を叶えるElastic Workplace Search
あらゆる検索を叶えるElastic Workplace Search
 
Cassandra Meetup Tokyo, 2016 Spring
Cassandra Meetup Tokyo, 2016 SpringCassandra Meetup Tokyo, 2016 Spring
Cassandra Meetup Tokyo, 2016 Spring
 
Cassandra Meetup Tokyo, 2016 Spring Part 2
Cassandra Meetup Tokyo, 2016 Spring Part 2Cassandra Meetup Tokyo, 2016 Spring Part 2
Cassandra Meetup Tokyo, 2016 Spring Part 2
 
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
 
[Cloud OnAir] Google Cloud の考える次世代ハイブリッドクラウドとは? 2019年8月22日 放送
[Cloud OnAir] Google Cloud の考える次世代ハイブリッドクラウドとは? 2019年8月22日 放送[Cloud OnAir] Google Cloud の考える次世代ハイブリッドクラウドとは? 2019年8月22日 放送
[Cloud OnAir] Google Cloud の考える次世代ハイブリッドクラウドとは? 2019年8月22日 放送
 
OSSのクラウド基盤 OpenStack / CloudStack
OSSのクラウド基盤 OpenStack / CloudStackOSSのクラウド基盤 OpenStack / CloudStack
OSSのクラウド基盤 OpenStack / CloudStack
 
Google Cloud のネットワークとロードバランサ
Google Cloud のネットワークとロードバランサGoogle Cloud のネットワークとロードバランサ
Google Cloud のネットワークとロードバランサ
 
Spark on sql server?
Spark on sql server?Spark on sql server?
Spark on sql server?
 
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
 
Jawsfesta2018 oosaka sponsor
Jawsfesta2018 oosaka sponsorJawsfesta2018 oosaka sponsor
Jawsfesta2018 oosaka sponsor
 

Semelhante a #TokyoR 39 高速に前処理するNYSOL

Share pointを支えるsql server2014最新情報 tokyo_公開用
Share pointを支えるsql server2014最新情報 tokyo_公開用Share pointを支えるsql server2014最新情報 tokyo_公開用
Share pointを支えるsql server2014最新情報 tokyo_公開用Yukio Kumazawa
 
Building asp.net core blazor and elasticsearch elasticsearch using visual stu...
Building asp.net core blazor and elasticsearch elasticsearch using visual stu...Building asp.net core blazor and elasticsearch elasticsearch using visual stu...
Building asp.net core blazor and elasticsearch elasticsearch using visual stu...Shotaro Suzuki
 
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~griddb
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkTakanori Suzuki
 
スタートアップがAWSを使うべき3つの理由
スタートアップがAWSを使うべき3つの理由スタートアップがAWSを使うべき3つの理由
スタートアップがAWSを使うべき3つの理由Serverworks Co.,Ltd.
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]Hideo Takagi
 
Data Scientists Love SQL Server
Data Scientists Love SQL ServerData Scientists Love SQL Server
Data Scientists Love SQL ServerTomoyuki Oota
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...Insight Technology, Inc.
 
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~griddb
 
AWSで作る分析基盤
AWSで作る分析基盤AWSで作る分析基盤
AWSで作る分析基盤Yu Otsubo
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)Yasuyuki Kataoka
 
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送Google Cloud Platform - Japan
 
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TISAIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TISDaisuke Ikeda
 
Migrating tocloudnativeapplicationwithusingelasticapm
Migrating tocloudnativeapplicationwithusingelasticapmMigrating tocloudnativeapplicationwithusingelasticapm
Migrating tocloudnativeapplicationwithusingelasticapmShotaro Suzuki
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望についてKen Azuma
 
データ分析で Excel を活用しよう
データ分析で Excel を活用しようデータ分析で Excel を活用しよう
データ分析で Excel を活用しようTsuyoshi Kitagawa
 
Microsoft Ignite Fall 2021 Data Platform Update Topics
Microsoft Ignite Fall 2021 Data Platform Update TopicsMicrosoft Ignite Fall 2021 Data Platform Update Topics
Microsoft Ignite Fall 2021 Data Platform Update TopicsMicrosoft
 

Semelhante a #TokyoR 39 高速に前処理するNYSOL (20)

Share pointを支えるsql server2014最新情報 tokyo_公開用
Share pointを支えるsql server2014最新情報 tokyo_公開用Share pointを支えるsql server2014最新情報 tokyo_公開用
Share pointを支えるsql server2014最新情報 tokyo_公開用
 
Building asp.net core blazor and elasticsearch elasticsearch using visual stu...
Building asp.net core blazor and elasticsearch elasticsearch using visual stu...Building asp.net core blazor and elasticsearch elasticsearch using visual stu...
Building asp.net core blazor and elasticsearch elasticsearch using visual stu...
 
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!?~両者を備えたスケールアウトデータベースGridDB~
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
 
スタートアップがAWSを使うべき3つの理由
スタートアップがAWSを使うべき3つの理由スタートアップがAWSを使うべき3つの理由
スタートアップがAWSを使うべき3つの理由
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
 
Data Scientists Love SQL Server
Data Scientists Love SQL ServerData Scientists Love SQL Server
Data Scientists Love SQL Server
 
BPStudy20121221
BPStudy20121221BPStudy20121221
BPStudy20121221
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...
[db tech showcase Tokyo 2016] A25: ACIDトランザクションをサポートするエンタープライズ向けNoSQL Databas...
 
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
 
JAWS DAYS 2019
JAWS DAYS 2019JAWS DAYS 2019
JAWS DAYS 2019
 
AWSで作る分析基盤
AWSで作る分析基盤AWSで作る分析基盤
AWSで作る分析基盤
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送[Cloud OnAir] ケーススタディから学ぶ  GCP で行うデータ エンジニアリング 2019年6月6日 放送
[Cloud OnAir] ケーススタディから学ぶ GCP で行うデータ エンジニアリング 2019年6月6日 放送
 
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TISAIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
 
Migrating tocloudnativeapplicationwithusingelasticapm
Migrating tocloudnativeapplicationwithusingelasticapmMigrating tocloudnativeapplicationwithusingelasticapm
Migrating tocloudnativeapplicationwithusingelasticapm
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について
 
データ分析で Excel を活用しよう
データ分析で Excel を活用しようデータ分析で Excel を活用しよう
データ分析で Excel を活用しよう
 
Microsoft Ignite Fall 2021 Data Platform Update Topics
Microsoft Ignite Fall 2021 Data Platform Update TopicsMicrosoft Ignite Fall 2021 Data Platform Update Topics
Microsoft Ignite Fall 2021 Data Platform Update Topics
 

Mais de Satoshi Kitajima

分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014Satoshi Kitajima
 
データサイエンティスト必見!M-1グランプリ
データサイエンティスト必見!M-1グランプリデータサイエンティスト必見!M-1グランプリ
データサイエンティスト必見!M-1グランプリSatoshi Kitajima
 
RapidMinerのインストール【Windows 7】
RapidMinerのインストール【Windows 7】RapidMinerのインストール【Windows 7】
RapidMinerのインストール【Windows 7】Satoshi Kitajima
 
RapidMinerのインストール【Ubuntu 14.04 LTS】
RapidMinerのインストール【Ubuntu 14.04 LTS】RapidMinerのインストール【Ubuntu 14.04 LTS】
RapidMinerのインストール【Ubuntu 14.04 LTS】Satoshi Kitajima
 
RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】Satoshi Kitajima
 
RapidMinerのインストール【Mac OSX Mavericks】
RapidMinerのインストール【Mac OSX Mavericks】RapidMinerのインストール【Mac OSX Mavericks】
RapidMinerのインストール【Mac OSX Mavericks】Satoshi Kitajima
 

Mais de Satoshi Kitajima (6)

分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
 
データサイエンティスト必見!M-1グランプリ
データサイエンティスト必見!M-1グランプリデータサイエンティスト必見!M-1グランプリ
データサイエンティスト必見!M-1グランプリ
 
RapidMinerのインストール【Windows 7】
RapidMinerのインストール【Windows 7】RapidMinerのインストール【Windows 7】
RapidMinerのインストール【Windows 7】
 
RapidMinerのインストール【Ubuntu 14.04 LTS】
RapidMinerのインストール【Ubuntu 14.04 LTS】RapidMinerのインストール【Ubuntu 14.04 LTS】
RapidMinerのインストール【Ubuntu 14.04 LTS】
 
RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】
 
RapidMinerのインストール【Mac OSX Mavericks】
RapidMinerのインストール【Mac OSX Mavericks】RapidMinerのインストール【Mac OSX Mavericks】
RapidMinerのインストール【Mac OSX Mavericks】
 

#TokyoR 39 高速に前処理するNYSOL

  • 1. NYSOL Partner KSK Analytics 2014/5/31   第39回R勉強会@東京(#TokyoR)   Lightning  Talk 高速に前処理するNYSOL 株式会社KSKアナリティクス   データアナリスト 北島 聡  
  • 2. NYSOL Partner KSK Analytics データ分析のプロセス   実は8割以上は前処理 社外データ 業務システム EXCEL 様々なデータ形式   膨大なデータ量   複雑なデータ構造 分析用 データ 各種・分析モデル クラス   分類 回帰 分析 パターン 解析 クラスタ リング CSV 繰り返しの 前処理   SQLクエリ?   AWK?   ETLツール?   Python?Ruby?   R?   Excel?    
  • 3. NYSOL Partner KSK Analytics © KSK Analytics Inc. 3 データ分析のプロセス   実は8割以上は前処理 1.  システム担当者はデータ加工を嫌がります   2.  SQLは複雑・実行時間もかかりすぎます   3.  プログラミングは実行まで時間がかかります   4.  DWHや専用ツールはお金がかかります   5.  データ加工には特殊な能力が必要? 分析用 データ 繰り返しの 前処理   SQLクエリ?   AWK?   ETLツール?   Python?Ruby?   R?   Excel?    
  • 4. NYSOL Partner KSK Analytics © KSK Analytics Inc. 4 ・「にそる」と読みます。   ・日本発のオープンソースです。   ・すべて無料です。   ・www.nysol.jp  
  • 5. NYSOL Partner KSK Analytics © KSK Analytics Inc. 5
  • 6. NYSOL Partner KSK Analytics © KSK Analytics Inc. 6 本日のご紹介は、   この「Mコマンド」です。
  • 7. NYSOL Partner KSK Analytics © KSK Analytics Inc. 7 自信を持って   言えること
  • 8. NYSOL Partner KSK Analytics Rより簡単。 © KSK Analytics Inc. 8 <
  • 9. NYSOL Partner KSK Analytics © KSK Analytics Inc. 9 < Rより早い。
  • 10. NYSOL Partner KSK Analytics © KSK Analytics Inc. 10 < 某DBより早い。
  • 11. NYSOL Partner KSK Analytics © KSK Analytics Inc. 11 < Rより柔らかい。
  • 12. NYSOL Partner KSK Analytics © KSK Analytics Inc. 12 皆さん、   ごめんなさい。
  • 13. NYSOL Partner KSK Analytics © KSK Analytics Inc. 13 R勉強会ですが、
  • 14. NYSOL Partner KSK Analytics © KSK Analytics Inc. 14 これからRの話は   全くしません                                  m(__)m
  • 15. NYSOL Partner KSK Analytics © KSK Analytics Inc. 15 簡単。早い。柔らかい。
  • 16. NYSOL Partner KSK Analytics 仕組みはシンプル Mコマンド   ・UNIXコマンド   ・約70種類   ・CSVデータ     組み合わせは無限大   ・各コマンドを    「パイプ」で接続 © KSK Analytics Inc. 16
  • 17. NYSOL Partner KSK Analytics 顧客の平均来店間隔日数を求めたい
  • 18. NYSOL Partner KSK Analytics データはCSV
  • 19. NYSOL Partner KSK Analytics STEP.1)   必要になる 「顧客」と「日付」項目を選択する。(「商品」を排除) mcut  f=顧客,日付
  • 20. NYSOL Partner KSK Analytics STEP.2)       どの日に来店したかがわかればよいので、       同じ顧客で日付の重複行は省く。 muniq  k=顧客,日付
  • 21. NYSOL Partner KSK Analytics STEP.3)   「日付」項目の下レコードを横にずらす mslide  k=顧客 f=日付:次日付  
  • 22. NYSOL Partner KSK Analytics STEP.4)   「次日付」-「日付」の日数計算を行う。 mcal  c=‘$d{次日付}-­‐$d{日付}’  a=日数
  • 23. NYSOL Partner KSK Analytics STEP.5)   「日付」と「次日付」は必要ないので省く。 mcut  f=顧客,日数
  • 24. NYSOL Partner KSK Analytics STEP.6)   顧客別に日数の平均値を計算   (項目名を「平均来店間隔日数」とする)   mavg  k=顧客 f=日数:平均来店間隔日数
  • 25. NYSOL Partner KSK Analytics シェルスクリプト 以上のような処理を実際にコンピュータで行うためには、1)コマンドラインから入力する、 もしくは2)シェルスクリプトを記述する、の大きく2パターン。 入力ファイルを「購買履歴データ.csv」、出力ファイル名を「結果.csv」とすると、シェルスク リプトでの記載は以下のようになります。 #!/bin/sh mcut  f=顧客,日付 i=購買履歴データ.csv  |   muniq  k=顧客,日付 |   mslide  k=顧客 f=日付:次日付 |   mcal  c='$d{次日付}-­‐$d{日付}'  a=日数 |   mcut  f=顧客,日数 |   mavg  k=顧客 f=日数:平均来店間隔日数 o=結果.csv
  • 26. NYSOL Partner KSK Analytics © KSK Analytics Inc. 26 約70種類のコマンド(一覧がご覧いただけます)   hmp://www.nysol.sakura.ne.jp/mcmd/jp/index.html    
  • 27. NYSOL Partner KSK Analytics © KSK Analytics Inc. 27 日本発のオープンソースです。   みなさん、一緒に応援しましょう!  
  • 28. NYSOL Partner KSK Analytics © KSK Analytics Inc. 28 株式会社KSKアナリティクス www.ksk-anl.com  セールス & マーケティング本部 sales@ksk-anl.com www.nysol.jp 株式会社KSKアナリティクスでは、   NYSOLのビジネスサポート、トレーニング等を   提供しています。お気軽に問い合わせ下さい。 ダウンロードはこちらから   UNIX環境(Linux,  Macなど)で動作