Início
Conheça mais
Enviar pesquisa
Carregar
Entrar
Cadastre-se
Anúncio
Check these out next
R超入門機械学習をはじめよう
幹雄 小川
20191211_Apache_Arrow_Meetup_Tokyo
Kohei KaiGai
20190925_DBTS_PGStrom
Kohei KaiGai
20211112_jpugcon_gpu_and_arrow
Kohei KaiGai
広告配信現場で使うSpark機械学習
x1 ichi
pg_bigm(ピージーバイグラム)を用いた全文検索のしくみ
Masahiko Sawada
使ってみませんか?pg hint_plan
Masao Fujii
20190516_DLC10_PGStrom
Kohei KaiGai
1
de
65
Top clipped slide
JAWSUG 20191028
28 de Oct de 2019
•
0 gostou
0 gostaram
×
Seja o primeiro a gostar disto
mostrar mais
•
387 visualizações
visualizações
×
Vistos totais
0
No Slideshare
0
De incorporações
0
Número de incorporações
0
Baixar agora
Baixar para ler offline
Denunciar
Tecnologia
2019年10月28日にCodeBase Nagoyaで開催されるイベント「データ分析の勉強会」で使う資料です。データ分析に関する初心者向けの内容です。
陽平 山口
Seguir
有限会社来栖川電算 事業主 em 有限会社来栖川電算
Anúncio
Anúncio
Anúncio
Recomendados
JAWSUG 20210128
陽平 山口
676 visualizações
•
57 slides
AWS Webinar 20201224
陽平 山口
1.1K visualizações
•
72 slides
気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-
Yasuyuki Sugai
4K visualizações
•
27 slides
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
Yasuyuki Sugai
10.5K visualizações
•
94 slides
pg_bigm(ピージー・バイグラム)を用いた全文検索のしくみ(後編)
Masahiko Sawada
9.7K visualizações
•
46 slides
Deep Learningハンズオン勉強会「Caffeで画像分類を試してみようの会」
Yasuyuki Sugai
31.4K visualizações
•
115 slides
Mais conteúdo relacionado
Apresentações para você
(20)
R超入門機械学習をはじめよう
幹雄 小川
•
14.7K visualizações
20191211_Apache_Arrow_Meetup_Tokyo
Kohei KaiGai
•
1.1K visualizações
20190925_DBTS_PGStrom
Kohei KaiGai
•
1.8K visualizações
20211112_jpugcon_gpu_and_arrow
Kohei KaiGai
•
734 visualizações
広告配信現場で使うSpark機械学習
x1 ichi
•
10K visualizações
pg_bigm(ピージーバイグラム)を用いた全文検索のしくみ
Masahiko Sawada
•
14.2K visualizações
使ってみませんか?pg hint_plan
Masao Fujii
•
20.1K visualizações
20190516_DLC10_PGStrom
Kohei KaiGai
•
1.7K visualizações
Hadoop -ResourceManager HAの仕組み-
Yuki Gonda
•
1.6K visualizações
全文検索In着うた配信サービス
techtalkdwango
•
639 visualizações
2014年日本生態学会広島大会・自由集会「仕事でつかえる!FOSS4G」発表スライド
Mizutani Takayuki
•
5.9K visualizações
Hadoop -NameNode HAの仕組み-
Yuki Gonda
•
4K visualizações
Rユーザのためのspark入門
Shintaro Fukushima
•
9.9K visualizações
(Pythonで作って学ぶ) Youtube の動画リストを作るアプリの開発 第4回
Project Samurai
•
1K visualizações
機械学習 / Deep Learning 大全 (6) Library編
Daiyu Hatakeyama
•
596 visualizações
PostgreSQL:行数推定を読み解く
Hiroya Kabata
•
31.1K visualizações
20180605 azure antenna_workshop
Miyuki Mochizuki
•
636 visualizações
Hadoop~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
•
2.8K visualizações
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
Yu Ishikawa
•
7K visualizações
より深く知るオプティマイザとそのチューニング
Yuto Hayamizu
•
22.5K visualizações
Similar a JAWSUG 20191028
(20)
JAWSUG 20191028 (modified)
陽平 山口
•
882 visualizações
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
Amazon Web Services Japan
•
9.2K visualizações
JAWSUG 20190828
陽平 山口
•
1.1K visualizações
JAWSUG名古屋 AWS勉強会 20180309
陽平 山口
•
537 visualizações
JAWS DAYS 2022
陽平 山口
•
63 visualizações
Big data解析ビジネス
Mie Mori
•
3.5K visualizações
JAWSUG20171220
陽平 山口
•
1.8K visualizações
経済学のための実践的データ分析 5.特許データの分析
Yasushi Hara
•
1.2K visualizações
Amazon Athena で実現する データ分析の広がり
Amazon Web Services Japan
•
12.6K visualizações
20110519 okuyama tokyo_linuxstudy
Takahiro Iwase
•
518 visualizações
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Keisuke Nakata
•
812 visualizações
IT技術者でも1から学べるビジネスモデルキャンバス入門
陽一 滝川
•
18.1K visualizações
MANABIYA Machine Learning Hands-On
陽平 山口
•
4.6K visualizações
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Yasutomo Kawanishi
•
86.5K visualizações
協調フィルタリング with Mahout
Katsuhiro Takata
•
6.4K visualizações
JVM上でのストリーム処理エンジンの変遷
Sotaro Kimura
•
8K visualizações
Pysparkで始めるデータ分析
Tanaka Yuichi
•
6.5K visualizações
ISUCONの勝ち方 YAPC::Asia Tokyo 2015
Masahiro Nagano
•
54.1K visualizações
AI & Deep Learning on AWS at CTO Night&Day 2016 Winter
Yasuhiro Matsuo
•
1.1K visualizações
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
Hideo Takagi
•
649 visualizações
Anúncio
Mais de 陽平 山口
(20)
NGK2023S ChatGPT
陽平 山口
•
268 visualizações
NGK2022S
陽平 山口
•
128 visualizações
KCI PROFILE 2021-10-07
陽平 山口
•
387 visualizações
SIAI2020
陽平 山口
•
715 visualizações
MISO20200530
陽平 山口
•
1.7K visualizações
ML@Loft 20200430
陽平 山口
•
2.5K visualizações
JAWS FESTA 20191102
陽平 山口
•
1.3K visualizações
AI Utilization Seminar 20190709
陽平 山口
•
704 visualizações
JAWSUG 20190620
陽平 山口
•
755 visualizações
JAWS DAYS 2019
陽平 山口
•
3.3K visualizações
JAWS FESTA 2018 OSAKA AHAB
陽平 山口
•
2K visualizações
JAWS FESTA 2018 OSAKA KCI SESSION
陽平 山口
•
1.6K visualizações
NAGOSUTA 20181020
陽平 山口
•
1.4K visualizações
JAWSUG20180925
陽平 山口
•
523 visualizações
Nagoya Career Meetup 2018夏
陽平 山口
•
1.2K visualizações
Annotation Meetup 20180705
陽平 山口
•
2.6K visualizações
WWN 20180526
陽平 山口
•
2.4K visualizações
JAWSUG 20180413
陽平 山口
•
1.2K visualizações
JAWSDAYS 2018 LUNCH SESSION
陽平 山口
•
1K visualizações
Machine Learning Nagoya 20170619
陽平 山口
•
4.6K visualizações
Último
(20)
初学者のためのプロンプトエンジニアリング実践.pptx
Akifumi Niida
•
616 visualizações
OIDC(OpenID Connect)について解説③
iPride Co., Ltd.
•
25 visualizações
Üslup ve tercüme.pdf
1Hmmtks
•
2 visualizações
JSAI2023_企画セッション(仕掛学)資料
Matsushita Laboratory
•
39 visualizações
Forguncy8 製品概要 202305.pptx
フォーガンシー
•
57 visualizações
モバイル・クラウド・コンピューティング-データを如何に格納し、組み合わせ、情報として引き出すか
Masahiko Funaki
•
2 visualizações
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
Deep Learning JP
•
95 visualizações
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
•
6 visualizações
Kubernetes超入門
Takashi Suzuki
•
5 visualizações
JSONEncoderで詰まった話
とん とんぼ
•
144 visualizações
MC-800DMT intrusion detector manual
Vedard Security Alarm System Store
•
3 visualizações
JSTQB_テストマネジメントとレビュープロセス.pdf
akipii Oga
•
266 visualizações
HTTPの仕組みについて
iPride Co., Ltd.
•
11 visualizações
TestSIP (1).pdf
DeependraSingh712859
•
2 visualizações
統計学の攻略_統計的仮説検定の9パターン.pdf
akipii Oga
•
300 visualizações
DrupalをDockerで起動してみる
iPride Co., Ltd.
•
22 visualizações
AIEXPO_CDLE名古屋紹介
KotaMiyano
•
4 visualizações
触感に関わる共感覚的表現と基本6感情の対応関係の検証
Matsushita Laboratory
•
22 visualizações
Windows ChatGPT Bing AI.pptx
Atomu Hidaka
•
7 visualizações
JSTQB_テストプロセスの概念モデル.pdf
akipii Oga
•
295 visualizações
Anúncio
JAWSUG 20191028
初 心 者
は だ ま っ て A m a z o n A t h e n a C o d e B a s e N a g o y a 2 0 1 9 . 1 0 . 2 8 来 栖 川 電 算 取 締 役 山 口 陽 平 J A W S - U G 名 古 屋 デ ー タ 分 析 の 勉 強 会 # j a w s u g
話の流れ 1. はじめに 2. Amazon
Athena 3. まとめ 4. 付録 2
はじめに 自己紹介 & 会社紹介 3
山 口 陽
平 @melleo1978 • 所属 – 有限会社 来栖川電算 取締役 – 名古屋工業大学大学院博士前期課程修了 • 実績 – IPA 未踏ソフトウェア創造事業採択 – Mashup Awards 9 優秀賞受賞 • 興味 – 機械学習,強化学習,UI/UX – 高速化,省資源化,並列分散 ※実物に髪の毛はありません 4
山 口 陽
平 @melleo1978 • [実践]画像認識 を執筆 WEB+DB PRESS Vol.83 – これから画像認識をはじめる人におススメ 5 – OpenCV の使い 方や実装例 – SIFTなどの各種 アルゴリズムや 特定物体認識の しくみ – 精度改善への取 り組み方
来栖川電算 設立 2003年(名古屋工業大学発ベンチャー) 従業員
66人 • SF 世界の技術を実現し、社会に役立てる – AI 技術のライセンス販売・研究・SI • 文字認識,物体認識,動作認識,行動認識 – スマホアプリの企画・制作・運営 スマートライフ技術 NTTドコモ様との共同研究 スマートドライブ技術 大手自動車メーカー様むけ メイドさん もふくめて 6
7 AR付箋 書籍の中身を検索するアプリ Cellars ワインラベルで情報検索するアプリ 画像認識API 商品パッケージで情報検索するAPI 生活情報調査 道路沿いの視覚情報を収集し、活用 交通情報調査 道路沿いの視覚情報を収集し、活用 研究開発支援 タンゴチュウ 写真に写る単語を抽出するサービス 走行データ解析 周辺環境を認識し、様々な解析に活用 地図生成 オルソ画像から地物・交通規則を抽出 動作推定API 加速度センサで人の行動を推定 毎朝体操 腕の動きで体操採点するアプリ ヒーローの動きでゲームを制御 なりきり2.0 ー シ ョ ン 認 識 研究開発支援 研究開発支援 AHAB 大量の実験と計算資源を効率的に管理 ANNOFAB 高品質なアノテーションを大量に生産可能 DNNコンパイラ DNNの推論を10~1000倍も効率化 GameControllerizer プログラマブル・ゲームコントローラ 研究開発支援 類似検索
類似検索 類似検索 文字認識 物体認識 物体認識 物体認識 物体認識 モーション認識 モーション認識 モーション認識物体認識 瞳孔位置推定 眼球運動を監視し、眠気の推定に活用
体制 AI に関わる全てを提供できる体制 8 技術者育成 プロセス開発 ツール開発 チーム育成 データ収集 データ作成 サービス開発 アルゴリズム研究 アルゴリズム開発 サービス運営 企画
技術者集団 様々なアルゴリズムや知識で課題解決 • 最先端の AI
技術 – 文字認識,物体認識,モーション認識 • 限界性能を引き出す優れた実装技術 – 機械学習・コンパイラ・データベースなどの アルゴリズムやバイナリハックを駆使した高 精度化・高速化・省資源化・並列化・分散化 • 高品質なソフトウェアを実現する技術 – 言語・アーキテクチャ・プロセスに対する深 い理解に基づく設計と計画 9
コミュニティ活動 様々な勉強会を主催 スタッフ・会場・懇親会費を提供 10
Amazon Athena S3 にあるファイルに
SQL で問い合わせできる 11
Amazon Athena S3にあるファイルに SQL
で問い合わせできる • 様々なファイル形式・圧縮形式に対応 – Presto(OSS の問い合わせエンジ)のおかげ • CSV, TSV, JSON, ORC, Parquet, … • パーティショニングに対応 – 時系列データを時刻で分割することが多い • 頻繁に問い合わせしないなら安い – 5 $/TB + S3 費用 • クエリのスキャン量に比例する • 10MB 以下のクエリは 10MB 扱いになる 12
使い方は簡単 S3 条のデータをインポートし、SQL で問い合わせるだけ 1.
ワークグループの作成 2. データのインポート 3. データへの問い合わせ 4. テーブルのパーティション 5. データへの問い合わせ(パーティション 版) 13
1. ワークグループの作成 事前準備 14
1. ワークグループの一覧 上段の「Workgroup :
~」でいつでもこの画面に来れる 15
2. ワークグループの作成 ワークグループの名称とクエリの結果の格納場所を決める 16
3. ワークグループの切替 作成したワークグループを選択して切り替える 17
2. データのインポート 分析対象のデータが増えるたびにやること 18
1. データの準備 分析対象のデータの格納場所を確認する 19
2. テーブルの作成 分析対象のデータをテーブルとして取り込む 20
3. 名称と格納場所の指定 データの格納場所(フォルダ)を指定する 21
4. データ形式の指定 データのファイル形式(今回は TSV)を指定する 22
5. カラムの指定 データに含まれる順にカラムの名称と型を指定する 23
6. パーティションの指定 カラム値に応じてデータの格納先が決まる(今回はなし) 24
7. スキーマの確認 テーブルのスキーマはクエリ(DDL)として確認できる 25
3. データへの問い合わせ 分析対象のデータのインポートが終わったらやること 26
1. データへの問い合わせ 問い合わせ(今回はフルスキャン)を SQL
で記述実行する 27
2. 問い合わせ結果の確認 問い合わせ結果はコンソールからすぐに確認できる 28
4. テーブルのパーティション フルスキャンだとお金がかかりすぎると感じたときにやること 29
1. 変換先テーブルの作成 年月日でパーティションする変換先テーブルを作成する 30 raw_reports のスキーマを修正すると簡単
2. データの変換 変換問い合わせ(insert-select)を記述実行する 31 パーティションに使うカラムを生成する
3. 変換後データの確認 スキーマで指定した格納場所を確認する(272 個に分割) 32
5. データへの問い合わせ (パーティション版) パーティションを絞り込めるクエリであれば速く安くなる 33
1. データへの問い合わせ パーティションに使ったカラムで絞り込む必要がある 34 パーティション効果(272 ⇒
5)と Parquet 形式効果により、スキャン量 が 1/100 に、費用が 1/10 になった (5 $/TB であるが 10 MB 以下は 10 MB 扱いとなるため)。
2. 問い合わせ結果の確認 当然だが、パーティションする前と同じ結果になっている 35
まとめ 初心者はだまって Amazon Forecast 36
まとめ 初心者はだまって Amazon Athena •
とりあえず S3 に入れておけばいい – 頻繁に問い合わせしないデータはとありあえ ず S3 に入れて、Athena で処理ればいい • コストを抑えるには – Parquet 形式のファイルをパーティションし て、パーティションに使ったカラムで問い合 わせする – 何気ない問い合わせが膨大なスキャンを発生 させるのを防ぐために LIMIT 句を付けよう 37
機械学習 名古屋 https://machine-learning.connpass.com/ • 勉強会
隔月開催 次回:2019年11月16日(土) – 初心者や非エンジニアも含む幅広い層に向け たアルゴリズム紹介・事例紹介・ハンズオン • 研究会 毎月開催 次回:2019年11月21日(木) – エンジニアや研究者に向けた機械学習関連の 論文紹介(これまで109件) 38 次回 Annofab ハンズオン
製品・サービス 付録① 39
類似検索 膨大なデータの中から類似データを高速・高精度に照合できる 40
画像認識 API 商品パッケージで情報検索する API 商品パッケージが写った画像を送信するだけで、膨大 な
DB から瞬時に種類を特定。クロールした画像から 直接構築した DB を利用。 41
Cellars ワインラベルで情報検索するアプリ ワインラベルにスマホをかざすだけで、18 万件から 瞬時に種類を特定。国内外のコンテストで入賞。株式 会社 Cellars
様による弊社技術の応用事例。 42
AR 付箋 書籍の中身を検索するアプリ 書籍を開いてスマホをかざすだけで、膨大な DB
から 瞬時にページを特定し、貼られている付箋を表示。お 客様による弊社技術の応用事例。 43
物体認識 物体の位置・向き・姿勢・種類を高速・高精度に捉える 44
走行データ解析 周辺環境を認識し、様々な解析に活用 膨大な走行データから歩行者・車両・白線・標識など を検出・追跡し、索引化。必要に応じて、CAN や Lidar なども活用し、高品質化。 45
地図生成 オルソ画像から地物・交通規則を抽出 自動運転に使用可能な高品質な地図をオルソ画像から 高速に抽出できる深層学習手法を開発。株式会社トヨ タマップマスター様との応用事例。 46
交通情報調査 道路沿いの視覚情報を収集し、活用 首都圏を走行する大量の車両のドラレコを解析し、視 覚情報(天候,路面状態,レーン別交通量,…)を DB 化。顧客との研究事例。 47
生活情報調査 道路沿いの視覚情報を収集し、活用 アスクル株式会社様の営業車のドラレコを解析し、視 覚情報(ガソリン価格,駐車場満空,渋滞,事故,行 列,…)を DB 化。ヤフー株式会社様との共同研究。 48
瞳孔位置推定 眼球運動を監視し、眠気の推定に活用 スマートグラスで撮影した映像から瞳孔位置・閉眼状 態を高精度に推定。個人差・外乱に頑健。エッジで 60 fps。知の拠点あいち重点研究プロジェクト事業。 49
文字認識 様々な書体・外乱に対応した 50
タンゴチュウ 写真に写る単語を抽出するサービス 情景画像(スマホで撮影した写真など)に写る単語を 抽出。様々な書体・配置・劣悪な環境(歪み・隠れ・ 擦れ・照明など)での利用を想定。 51
モーション認識 身体の動き・姿勢を高速・高精度に捉える 52
動作推定 API 加速度センサで人の行動を推定 スマホやウォッチの動きから静止・歩行・走行・食 事・睡眠などを推定。同じ仕組みで撮影時の手振れ検 出も可能。株式会社 NTT
ドコモ様との共同研究。 53
毎朝体操 腕の動きで体操採点するアプリ 100 ヶ国 20
万人を超えるユーザから日々送られてく るセンサデータを学習することで体操採点の正確さが 自動改善。JFE スチール株式会社様へ導入。 54
なりきり 2.0 ヒーローの動きでゲームを制御 腕や脚に装着したセンサで体の動きを捉え、家庭用 ゲーム機のコマンドを生成。格闘ゲームが遊べるほど の速さと正確さをスマホ上で実現。 55
研究開発支援 日々使い改良される道具による 56
DNN コンパイラ DNNの推論を 10
~ 1000 倍も高速化 重みや活性の量子化・スパース化、計算の共有などの 様々な手法で DNN を近似し、高速化・省資源化され た実行形式(Linux・Android・iOS)へ変換。 57
AHAB 大量の実験と計算資源を効率的に管理 計算資源をハイブリッドクラウド化する実験スケ ジューラ。実験のスクリプト化、信頼性や再現性の向 上、資源割り当ての効率化などを促進。 58
ANNOFAB 高品質な教師データを大量に生産可能 品質と生産性のトレードオフ、誤り漏れの削減、きめ 細かく柔軟な仕様・課題・進捗の管理。実務で培った ノウハウが詰まったアノテーションサービス。 59
GameControllerizer プログラマブル・ゲームコントローラ ゲーム機・PC・スマホなどに接続するだけでゲーム 操作をプログラミング可能にするデバイス。ビジュア ル・プログラミング(Node-REDなど)にも対応。 60
体制・設備・サポート 付録② 61
体制 AI 実現のための全業務をカバー 62 AI アプリ SI
インフラ AI インフラ データ モデル 研究者アノテータ デザイナ 開発者 職種 正社員 アルバイト 合計 24 時/週以上 12 時/週以上 ※即戦力 試用期間 研究者 20 % 2 % 10 % 0 % 32 % 開発者 15 % 7 % 12 % 3 % 37 % デザイナ 0 % 0 % 3 % 0 % 3 % アノテータ 5 % 23 % 0 % 0 % 28 % 合計 40 % 32 % 25 % 3 % 100 %
設備 研究開発を円滑にするためにあらゆる手を尽くす • 理想的な個人設備 ※好きなものが選べる –
PC,椅子,モニタ,キーボード,マウス,… • 豊富な計算資源とアノテータ ※使いやすい – Ahab:実験用ハイブリッドクラウド – ANNOFAB:アノテーションサービス • 豊富な独自データ ※世界中からどんどん集まる – 自動運転用データ,商品認識用データ,文字 認識用データ,体操採点用データ,… 63
サポート 技術を磨きやすくするためにあらゆる手を尽くす • 様々な働き方 – 自由な時間帯・場所,冒険者制度,… •
優秀な同僚 ※メンタリング(JEDI) – IPA 未踏ソフトウェア創造事業採択者,コン テスト入賞者,OSS コントリビュータ,… • その他 ※全て会社負担 – 自己研鑽のための書籍・機材の購入 – 勉強会・懇親会の開催・参加・移動・宿泊 – 会社の昼会・夕会・飲み会で供される飲食物 64
65 募集中 研究者 開発者 デザイナ
Anúncio