Mais conteúdo relacionado Semelhante a 【ヒカ☆ラボ】株式会社エアー様~ETLツール活用法について~ (20) Mais de leverages_event (20) 【ヒカ☆ラボ】株式会社エアー様~ETLツール活用法について~2. 自己紹介
株式会社エアー
プロダクト・カンパニー 巽 政明
ダウンタウンの浜田・松本と同世代の大阪生まれ
大学では社会心理学を専攻した文系人間
深い考えなく大手ソフトウェアハウスに入社して25年間勤務
2011年から現職
Talendのコンサルタント兼トレーニング講師
現在、Talend担当セールスマネージャー
© AIR Company Ltd. 2
3. 株式会社エアーについて
https://www.air.co.jp
1983年 大阪で創業 (34期)
社名は Artificial Intelligence Research が由来
第1次AIブーム時、PCで動くLisp製品の日本語版を販売したのが始まり
当時まだAIは実用に達していなかったので…
UNIX用データベースUnifyの日本語化と販売
日本初のIMAP4対応メールソフト「AIR MAIL」を開発・販売
メールセキュリティ製品「WISE Audit」「WISE Alert」等の開発・販売
WISE Auditはメールアーカイバ市場でシェアNo.1! 大手企業様での採用多数!
海外ソフトウェア製品の代理店事業(BI、ETL、仮想化ソリューションなど)
検索・ソート可能暗号ライブラリ(WISE Encrypt)で特許も取得
いま再びAIの世界へ…
© AIR Company Limited 3
6. アンケートです
© AIR Company Ltd. 6
ETLという言葉を聞いたことがありましたか?(今回初めて聞いた方は?)
ETLという言葉の由来を知っていますか?
ETLツールやETL製品をTalend以外に一つ以上知っていますか?
ETLツールを実際に使ったことがありますか?
ETLの仲間で「ELT」という言葉もあるのを知っていますか?
# J-POPバンドの略称ではありません :-)
10. オープンソースETLツール
「Talend Open Studio」(TOS)
Talendは2005年にフランスで開発された
世界初のオープンソースETLツール
Talendが登場するまで、ETLは数百~数千万円する「高嶺の花」だった
Talend社は2016年 NASDAQ上場
現在はガートナー社のデータ統合ツールベンダーのマジッククワドラントでLeader評価
ETL巨大勢力:二つのI社と同じカテゴリー
© AIR Company Ltd.
10
11. Talend Open Studioの動作環境
Windows、Mac、Linuxに対応 (すべて一つのzipに同梱)
Oracle JRE/JDK 1.8以上が必須
Open Javaでは動きません
メモリ4GB以上 (多いほどよい)
OSも64bitにしてください
CPUはできればIntel Core i5クラス以上のものを
結構重いです。特に起動はかなり時間かかります…
© AIR Company Ltd. 11
12. Talend Open Studioの入手
Talend社(日本)サイトのダウンロードページ
http://jp.talend.com/download へアクセス
ページ下部の「Talend Open Studio無償製品のダウンロード」へ
「ビッグデータ統合」を選択
「Open Studio for Big Data」をダウンロード (2.4GBあります)
他に5種類のTOS製品あり
for Data Integration (データ統合) ※Hadoop/NoSQなし版。インストールサイズは小さい。
for Data Quality (データクレンジングのためのプロファイリング)
for ESB (Enterprise Service Bus)
for MDM (Master Data Management)
Data Preparation (エンドユーザのためのデータ加工ツール) ※TOSではない
© AIR Company Ltd. 12
13. Talend Open Studioのインストール
「Talend Open Studio for Big Data」をダウンロードしてZipを解凍
C:¥Talendの下などに。(同梱されているファイルの階層と名前が長いため)
TOS_BD-win-x86_64.exe を選んで起動 (Windowsの場合)
新規プロジェクトを作成 (またはデモプロジェクトを選択)
ユーザー登録を行う(スキップも可能)
必要なJarファイルのダウンロードが求められるので、ライセンス同意して実行
コンポーネントごとにも頻繁に求められるので、ネット接続必須
Jarファイルのダウンロードが終わったら準備完了!
トラブルシューティング:起動ができない場合の大半はJavaの問題
Java8以上か?
Oracle Javaか? Open Javaになっていないか?
Javaにパスが通っているか?
© AIR Company Ltd. 13
17. Talendの開発画面
Eclipseがベース
リポジトリ
プロジェクト、ジョブ、メタデータ等の情報を一元的に集積し、保存、管理する
デザイン・ワークスペース
ジョブを作成する際にコンポーネントとデータフロー(row)を配置するワークスペース
タブ
コンポーネントの詳細設定、ジョブの情報表示、実行、エラー表示等の複数のタブが
存在し、タブを切り替えてそれらを表示する。
パレット
コンポーネントが保存されている
© AIR Company Ltd. 17
21. デモ(1) : 起動~ETLの”E”と”L”
TOSの起動 (→今回は省略します)
画面の説明
• ワークスペース
• リポジトリ
• プロパティ
• パレット
CSVから読みだし→コンソールに出力
CSVから読み出し→一部カラムをExcelに出力
MySQLの場合のプロパティ説明
© AIR Company Ltd. 21
24. TalendのTransform (1) tMap
多機能なデータ変換コンポーネント
レコード単位の変換はほとんどこれでOK
項目の選択、追加
変換(型変換、計算、文字列編集、値生成)
二つ以上のデータソースの結合
コード→名称変換
マッチング
フィルタリング
リジェクト
© AIR Company Ltd. 24
26. TalendのTransform (2) 集計やソート
レコードをキーでグループ化して行う種類の処理
ソート (tSortRow)
グループ単位の集計、最大/最小値、平均値 (tAggregateRow)
重複データの削除 (tUniqRow)
レコードやカラムのフィルタ (tFilterColumn、tFilterRow)
サンプルレコードの抽出 (tSmapleRow) etc.
データフローの複製 (tReplicate)
© AIR Company Ltd. 26
33. ビッグデータ&クラウド Ready
Hadoopの各種ディストリビューションに対応
TOSでも、HDFSアクセス、pig、hive、sqoopが利用可能
各種NoSQLにも対応
AWSの代表的サービスにも対応
Amazon RDS (リレーショナルデータベース) ※Oracle、MySQL、Amazon Auroraに対応
Amazon Redshift (データウェアハウス)
Amazon EMR (Elastic Map Reduce:Hadoopサービス)
Amazon S3 (ストレージサービス)
Amazon EC2 (仮想サーバー) etc.
その他の多数のクラウドサービスにも対応
Microsoft Azure、Google Drive、Dropbox、Salesforce etc.
© AIR Company Ltd. 33
37. Talend 製品シリーズ
Data Management
Platform
Data Services
Platform
Big Data
Platform
Real-time
Big Data Platform
Big Data
プラットフォーム
製品
エントリー
製品
Talend Open Studio
Data Integration
Big Data
Data
Integration ESB MDMData Quality
Fabric Talend Data Fabric
MDM
Platform
ESB
Integration
Cloud
(オープンソース製品)
※白いアイコンは
国内未発売製品
Data
Preparation
39. チーム開発機能 使えます
共有リポジトリ
SVNとgitに対応
Studioから直接操作が可能
遠隔実行機能
ターゲット環境へジョブのデプロイ、テスト実行
が容易
ジョブレット機能
ジョブを部品化して共有
逆に言えば、TOSは一人で開発するためにでき
ている。
© AIR Company Ltd. 39
41. Talend Data Preparation 2.0 ついてきます
• TalendとBIツールの
間を埋める、エンド
ユーザ向けデータ準
備ツール
• Webブラウザアプリ
• Excelライクな表形式
で、分析前のデータ
加工が柔軟にできる。
• 数値文字列等を正し
く認識し、扱える
データ件数が多いな
ど、Excelよりデータ
加工作業がしやすい。
45. Talend Open Studioを何に使うか (1)
データ分析の前処理に
データ分析者の時間のかなりの部分は、分析以前のデータの前処理に使われている
小さい組織でのデータ連携処理
システムのデータ移行
テストデータ作成、加工
© AIR Company Ltd. 45
46. Talend Open Studioを何に使うか (2)
ETL+”O”で広義のデータ処理に
データ処理のプロセスの可視化に
データ処理のためのコードは、場当たり的に大量生産されやすい
Talendを使えば、プロセスもコードも可視化ができる
参考:某社で一般事務員の方が、TOSで事務作業の効率化に成功した事例
複数のExcelやAccessをコピペして別の資料を作る作業をTalendジョブ化
→数日かかっていた作業が10分程度で終わるように!
Talendのメール送信機能を応用して、宛先ごとに別の添付ファイルを送信するのをワン
クリック化した猛者も!
© AIR Company Ltd. 46
50. CM:エアーのTalend関連サービス
有償製品の販売
Talend社公認トレーニング
Talend Open Studioトレーニング
Talend 運用管理者トレーニング
オープンソース版Talend向け有償技術支援サービス
オープンソースライセンスの範囲で、システム構築および運用される
お客様を対象に弊社が技術支援を実施
※OSS製品の保証をするものではありません。
導入支援、ジョブ開発支援、受託開発、コンサルティングなど
© AIR Company Ltd. 50
51. ●所在地 【本社】〒565-0851 大阪府吹田市千里山西5-31-20
【東京】〒106-0032 東京都港区六本木2-2-8 KDXビル
●設立 1983年8月8日 ●代表者 代表取締役:北山洋一
●資本金 80,705,310円 ●売上高 10億2千万円(33期/2016年)
●従業員数 61名(2016年7月現在)
●事業内容 【IT関連製品の開発・販売、サービスの提供】
• メールセキュリティソリューション(WISE Audit / WISE Attach / WISE Alert)
• メッセージングソリューション(WISE Walker / WISE Sync / CommuniGate Pro)
• 仮想化ソリューション(Propalms TSE / Oracle SGD)
• 仮想化環境における印刷問題解決ツール(ScrewDrivers / Simplify Printing)
• 印刷インク/トナーコスト削減ツール(WISE Print)
• 印刷セキュリティソリューション(WISE Print 印刷ログ監査)
• ビックデータ活用(OpenText Analytics / Talend)
• 検索可能な暗号化ライブラリ(WISE Encrypt)
【ソフトウェア受託開発、システム構築サービス】
• IT関連受託開発
• コンサルティング業務
• システムインテグレーション
5
1
最後にもう一度、株式会社エアーについて