SlideShare uma empresa Scribd logo
1 de 12
既存分析ソフトへ
データを投入する前に
簡便な分析するための
ソフトの作り方の提案
50周年記念!
分析屋だらけの大ザーユー会
LT5分間用資料
DG LAB 下野寿之 (2018-07-11)
データは規模に関わらず
まだ良い扱い方法は無い
• 闇雲にデータを入力すると、計算時間がいくらで
も掛かる。適正量は人間の判断が必要。
• 専用ソフト(SPSSなど) に投入して意味のある結果を
得るには、人間によるデータの意味の理解が必要。
• 結局、どのデータ(テーブル/列) を計算に使うかは人
間の目で選ぶ必要がある。
• モデリングのための、良い特徴量は人間が設計す
る必要がある。
• そして、データが少ないと、何の有意差も出ない
ことも多い。
専用ソフト投入前に生データを
簡単に分析するソフトが必要
ちょっとしたプログラミングでも
プログラム手入力の何十倍も時間が必要。
 デバグ/テストに時間がかかるため生データを
簡便に処理するようにしよう。
 SPSS でも関数5個以上のプログラムをテスト無しで、
すぐ使える人は多分いない。
生データを下記だけで、簡便に処理するようにしよう!
1. 分かり安い機能名 (基本的に英単語2個の組み合わせ)
2. 簡単なオプションスイッチ(1文字の英数字記号)
3. 場合によりスイッチのパラメータ文字列
作ったコマンド (テキストデータ対象)
Unix/Linux の cpan コマンドでインストール容易
• expskip :
1, 10, 100, 1000, 1万 .. 行目だけ出力。
• alluniq :
行の重複があれば検出し様子を表示。
• crosstable :
2列のデータのクロス集計表を出力。
• colorplus :
ASCIIカラーを(下線も) 指定文字列に。
• colgrep :
列指定で文字列検索しマッチ行を出力。
• colsummary :
各列の値範囲,最頻値をまとめる。
• colchop :
表の各フィールドの文字列長を制限。
• csv2tsv : CSV(RFC4180)をタブ文字区切りに。
• randskip : 効率的にランダムに行を抽出。(乱数生成は出力行ごとに1個。)
colsummaryを less と使う
6
予備スライド
約5枚
現状のコマンド一覧 (2017-07-22)
8
Mercurialでバージョン管理をしている。1,028回コミット済み。
dirhier 動作の様子
9
dirhier コマンドのヘルプ表示
10
企業に蓄積されたデータの
分析に既存のソフトは十分か?
ソフト : ソフト1 ソフト2 ソフト3 ソフト4
主要な
用途
表計算
統計
解析
数値
計算
DB操作
着手
容易さ
◎ ○ ○ △
透明性 × ○ ◎
ベンダ
依存
経年互
換性
△ △
先行き
不明
○
巨大
データ
×
メモリサイズの
制約(ロード時)
要設定
悪く言
うと
泥沼化
容易
freeze
多め
マシンが古
いと無理
DB設計
面倒
データ分析で欲しいもの
1. 結果の正しさの検証手段
 ダブルチェックを容易にするなど
 verbose モードを用意する
2. バグっていたときの検出手段
 エラー/警告をきちんと出す
 入力行数や合計値を表示するなど
3. バグに気付いたときの訂正手段
 途中の計算を複雑にしない

Mais conteúdo relacionado

Semelhante a 既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案

タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!E2D3.org
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューションDell TechCenter Japan
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録syou6162
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Takahiro Inoue
 
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」PC Cluster Consortium
 
20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOpsYukako Shimizu
 
どんなデータでもキレイに魅せる! 〜HTML5/JavaScriptでグラフを描画する今時の手法〜
どんなデータでもキレイに魅せる! 〜HTML5/JavaScriptでグラフを描画する今時の手法〜どんなデータでもキレイに魅せる! 〜HTML5/JavaScriptでグラフを描画する今時の手法〜
どんなデータでもキレイに魅せる! 〜HTML5/JavaScriptでグラフを描画する今時の手法〜Hideyuki Takeuchi
 
20140713 ハッカソン基調講演
20140713 ハッカソン基調講演20140713 ハッカソン基調講演
20140713 ハッカソン基調講演Code_for_Sakai
 
データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】Tetsuya Yoshida
 
Garraway7 Terakoya 前夜祭 プロトタイプのススメ
Garraway7 Terakoya 前夜祭 プロトタイプのススメGarraway7 Terakoya 前夜祭 プロトタイプのススメ
Garraway7 Terakoya 前夜祭 プロトタイプのススメDaiyu Hatakeyama
 
Padocview anonimous2
Padocview anonimous2Padocview anonimous2
Padocview anonimous2Masato Nakai
 
データ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdfデータ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdfH. K
 
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~ケンタ タナカ
 
自由と統制のバランス_分析基盤のアプローチ
自由と統制のバランス_分析基盤のアプローチ自由と統制のバランス_分析基盤のアプローチ
自由と統制のバランス_分析基盤のアプローチRyoji Hasegawa
 
新卒2ヶ月でAIを社会実装させた3つのデザイン(修正前)
新卒2ヶ月でAIを社会実装させた3つのデザイン(修正前)新卒2ヶ月でAIを社会実装させた3つのデザイン(修正前)
新卒2ヶ月でAIを社会実装させた3つのデザイン(修正前)NodokaFujimoto
 
新卒2ヶ月でAIを社会実装させた3つのデザイン
新卒2ヶ月でAIを社会実装させた3つのデザイン新卒2ヶ月でAIを社会実装させた3つのデザイン
新卒2ヶ月でAIを社会実装させた3つのデザインNodokaFujimoto
 
ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦Takumi Kurosawa
 
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!Takashi Okawa
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Atsushi Tsuchiya
 

Semelhante a 既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案 (20)

タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
 
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
PCCC21:株式会社日立製作所 「研究開発力向上のための研究DXソリューション」
 
20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps
 
どんなデータでもキレイに魅せる! 〜HTML5/JavaScriptでグラフを描画する今時の手法〜
どんなデータでもキレイに魅せる! 〜HTML5/JavaScriptでグラフを描画する今時の手法〜どんなデータでもキレイに魅せる! 〜HTML5/JavaScriptでグラフを描画する今時の手法〜
どんなデータでもキレイに魅せる! 〜HTML5/JavaScriptでグラフを描画する今時の手法〜
 
20140713 ハッカソン基調講演
20140713 ハッカソン基調講演20140713 ハッカソン基調講演
20140713 ハッカソン基調講演
 
データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】
 
Garraway7 Terakoya 前夜祭 プロトタイプのススメ
Garraway7 Terakoya 前夜祭 プロトタイプのススメGarraway7 Terakoya 前夜祭 プロトタイプのススメ
Garraway7 Terakoya 前夜祭 プロトタイプのススメ
 
Padocview anonimous2
Padocview anonimous2Padocview anonimous2
Padocview anonimous2
 
データ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdfデータ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdf
 
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
 
自由と統制のバランス_分析基盤のアプローチ
自由と統制のバランス_分析基盤のアプローチ自由と統制のバランス_分析基盤のアプローチ
自由と統制のバランス_分析基盤のアプローチ
 
新卒2ヶ月でAIを社会実装させた3つのデザイン(修正前)
新卒2ヶ月でAIを社会実装させた3つのデザイン(修正前)新卒2ヶ月でAIを社会実装させた3つのデザイン(修正前)
新卒2ヶ月でAIを社会実装させた3つのデザイン(修正前)
 
新卒2ヶ月でAIを社会実装させた3つのデザイン
新卒2ヶ月でAIを社会実装させた3つのデザイン新卒2ヶ月でAIを社会実装させた3つのデザイン
新卒2ヶ月でAIを社会実装させた3つのデザイン
 
ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦
 
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
 
オープンソースで開くビッグデータの扉
オープンソースで開くビッグデータの扉オープンソースで開くビッグデータの扉
オープンソースで開くビッグデータの扉
 

Mais de Toshiyuki Shimono

国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)Toshiyuki Shimono
 
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装Toshiyuki Shimono
 
extracting only a necessary file from a zip file
extracting only a necessary file from a zip fileextracting only a necessary file from a zip file
extracting only a necessary file from a zip fileToshiyuki Shimono
 
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021Toshiyuki Shimono
 
新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬までToshiyuki Shimono
 
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 Multiplicative Decompositions of Stochastic Distributions and Their Applicat... Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...Toshiyuki Shimono
 
Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Toshiyuki Shimono
 
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...Toshiyuki Shimono
 
BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)Toshiyuki Shimono
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...Toshiyuki Shimono
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...Toshiyuki Shimono
 
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Toshiyuki Shimono
 
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなどToshiyuki Shimono
 
ページャ lessを使いこなす
ページャ lessを使いこなすページャ lessを使いこなす
ページャ lessを使いこなすToshiyuki Shimono
 
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Toshiyuki Shimono
 
大きなテキストデータを閲覧するには
大きなテキストデータを閲覧するには大きなテキストデータを閲覧するには
大きなテキストデータを閲覧するにはToshiyuki Shimono
 
A Hacking Toolset for Big Tabular Files (3)
A Hacking Toolset for Big Tabular Files (3)A Hacking Toolset for Big Tabular Files (3)
A Hacking Toolset for Big Tabular Files (3)Toshiyuki Shimono
 
Washingtondc b20161214 (2/3)
Washingtondc b20161214 (2/3)Washingtondc b20161214 (2/3)
Washingtondc b20161214 (2/3)Toshiyuki Shimono
 
耐巨大性を備えた表データ分析用コマンド群
耐巨大性を備えた表データ分析用コマンド群耐巨大性を備えた表データ分析用コマンド群
耐巨大性を備えた表データ分析用コマンド群Toshiyuki Shimono
 

Mais de Toshiyuki Shimono (20)

国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)
 
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
 
extracting only a necessary file from a zip file
extracting only a necessary file from a zip fileextracting only a necessary file from a zip file
extracting only a necessary file from a zip file
 
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
 
新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで
 
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 Multiplicative Decompositions of Stochastic Distributions and Their Applicat... Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
 
Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...
 
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regression via an Ellipse Inscribed in a Square Extensi...
 
BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)BigQueryを使ってみた(2018年2月)
BigQueryを使ってみた(2018年2月)
 
Seminar0917
Seminar0917Seminar0917
Seminar0917
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
 
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
 
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど
 
ページャ lessを使いこなす
ページャ lessを使いこなすページャ lessを使いこなす
ページャ lessを使いこなす
 
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理
 
大きなテキストデータを閲覧するには
大きなテキストデータを閲覧するには大きなテキストデータを閲覧するには
大きなテキストデータを閲覧するには
 
A Hacking Toolset for Big Tabular Files (3)
A Hacking Toolset for Big Tabular Files (3)A Hacking Toolset for Big Tabular Files (3)
A Hacking Toolset for Big Tabular Files (3)
 
Washingtondc b20161214 (2/3)
Washingtondc b20161214 (2/3)Washingtondc b20161214 (2/3)
Washingtondc b20161214 (2/3)
 
耐巨大性を備えた表データ分析用コマンド群
耐巨大性を備えた表データ分析用コマンド群耐巨大性を備えた表データ分析用コマンド群
耐巨大性を備えた表データ分析用コマンド群
 

既存分析ソフトへ
データを投入する前に
簡便な分析するためのソフトの作り方の提案