O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

#経済学のための実践的データ分析 11. データのビジュアライゼーション

1.022 visualizações

Publicada em

一橋大学 経済学部 #経済学のための実践的データ分析 11. データのビジュアライゼーション

Publicada em: Educação
  • Did you try ⇒ www.HelpWriting.net ⇐?. They know how to do an amazing essay, research papers or dissertations.
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui

#経済学のための実践的データ分析 11. データのビジュアライゼーション

  1. 1. 経済学のための実践的データ分析 11.データのビジュアライゼーション 1405教室 経済学研究科 原泰史 yasushi.hara@r.hit-u.ac.jp
  2. 2. 確認事項 • 電源タップは足りているでしょうか? • レポートの提出
  3. 3. 今日の内容: データのビジュアライゼー ションとネットワーク分析 • これまでの回で取り上げてきたデータをわかりやすく研究で活 用する手法を学ぶことを目指します。 • Python やR などを用いたデータの可視化手法の確認や、 Tableau (https://www.tableau.com/ja-jp) などのデータ可 視化ソフトウェアの紹介および実習を行います。
  4. 4. Tableau のインストール • https://www.tableau.com/tft/activation からダウンロードしておいてください。 • メールアドレスを聞かれるので, 一橋の学生メールアドレス (hit-u.ac.jp が入ったもの) を入力 • プロダクトキーには, [masked] を指定してください
  5. 5. 最終レポート相談セッション 緊急開催のお知らせ
  6. 6. 5/26 に最終レポート相談セッションを開 催します • 時間 • 2019/5/26 16:00-20:00 • 場所 • Yahoo! ロッジ • https://lodge.yahoo.co.jp/ • 東京都千代田区紀尾井町1-3 17F • 東京メトロ永田町駅 9a出口直結 • 東京メトロ赤坂見附駅より 徒歩1分 • 注意 • 講義とは完全に独立した「非公式」 セッションです
  7. 7. Lodge Kitchen
  8. 8. 相談セッションで出来ること/あるもの • 最終レポートに向けた相談/共同作業 • (たまたまそこにいる)講師との相談 • 大きなディスプレイ(80インチ)と、それを使ったプレゼンの練習 • そこら中にいるIT系なみなさんとのネットワーキング → この講義で取り上げたようなツールを, 実際のビジネスではどう 使っているのかをなんとなく知るには良い機会だと思います.
  9. 9. 注意 • あくまで非公式セッションなので, 参加は必須ではありません • ジュースや飲み物は会場の中で買いましょう • 身分証明書 (学生証) を持参してください • 普段は登録が必要ですが, 今回は学生証があれば入れるようにしておき ます
  10. 10. 今日の内容 (105分) 1: データをビジュアライゼーションするこ と 2: tableau を使ってみよう 3:最終レポートの話 4:成績評価の話
  11. 11. 1. データビジュアライゼー ションで出来ること
  12. 12. (SADA)MASASHI と YOSHIKI
  13. 13. MASASHI と YOSHIKI の共通点 • 幼少期からクラシックの素養がある • MASASHI : バイオリン • YOSHIKI : ピアノ • (生き様が)ロックである • MASASHI: バンドが解散したり, 映画で負債をかかえたり • YOSHIKI: バンドが解散したり, バンドが再結成したり • 身体的故障を抱え楽器演奏ができなかった時期がある • 名曲をたくさん作っている • MASASHI: 親父の一番長い日, 道化師のソネット, 精霊流し • YOSHIKI: FOREVER LOVE, 紅, ART OF LIFE
  14. 14. ビジュアライゼーションすることの意味 • わかりやすく見せる • より多くの人, あるいは伝えるべきひとに伝える • でも、伝えるべき内容が伴っていないとあまり意味はない • MASASHIアプローチ (データを実直に, ありのままに伝える) に するか, YOSHIKI アプローチ (データをよりわかりやすく見せ て, より広く伝える) にするかは対象とするオーディエンス次第
  15. 15. これまでに使ったビジュアライゼーション • (マルチ)散布図 • ヒストグラム • 回帰曲線 • 回帰モデル
  16. 16. まだあまり使っていない可視化技法 • ネットワークグラフ • 次のページから具体例を紹介 • インフォグラフィック • ヒートマップ • ハイライト表 • ツリーマップ • ガントチャート
  17. 17. ネットワーク分析な具体例1. JST/RISTEX 深堀調査 『科学的ブレークスルーとイノベーションをつなぐ研究に着目した「科学と技 術の相互作用」の明確化』 • IIR->Waseda 清水洋先生が研究代表者 • http://www.ristex.jp/examin/others/shinki-pj-result2010.html • 科学から技術に至る知識の流れを特許と論文データベースを接 合することで特定する • ケース • 青色LEDに至るまでに, どのような特許が参照されたのか後方引用関係 から特定する • Shuji Nakamura の2007 年の特許をベースに, そこから後方引用を5次 までたどり知識の流れを測定していく
  18. 18. Network (delete pendants) Source: Web of Knowledge[Derwent Innovation Index]/Web of Science Red node indicates the “Main path”.※. △が特許, ■が論文
  19. 19. 1930s 1960s 1970s 1990s 2000s 1910-2007 (1次引用すべて導入; 上位12社明記) 1980s
  20. 20. 1-1. ネットワーク分析 • 無償のもの • R - https://www.r-project.org/ • KHCoder - http://khc.sourceforge.net/ • (前回の講義) • NetDraw- https://sites.google.com/site/netdrawsoftware/home • Gephi - http://oss.infoscience.co.jp/gephi/gephi.org/ • Sci2 - https://sci2.cns.iu.edu/user/index.php • Pajek - http://vlado.fmf.uni-lj.si/pub/networks/pajek/ • 有償のもの • Vantage Point
  21. 21. 1-1. NetDraw • 無償のネットワーク分析 ソフトウェア • 少々古いが, その分(オン ライン上の)ドキュメン トが充実 • ダウンロードからインス トール, 簡単なネットワー クを描画するところまで 解説します 2019/5/20 22
  22. 22. 1-1. NetDraw のダウンロードとインストール • Analytic Technologies から Product を選び, Ucinet 6 の Download をクリックする • EXE ファイルのダウンロード が終わったら, インストールを 行う • UCINET 6 を起動する 2019/5/20 23
  23. 23. 1-1. Netdraw を用いてネットワークを描画する • UCINET 6 を起動する 2019/5/20 24
  24. 24. 1-1. Netdraw を用いてネットワークを描画する • Excel でかんたんなネットワーク情報図を用意する 2019/5/20 25
  25. 25. 1-1. Netdraw を用いてネットワークを描画す る • UCINET 上でスプレッドシートのアイコンをクリックする 2019/5/20 26
  26. 26. 1-1. Netdraw を用いてネットワークを描画する • UCINET Spreadsheet にはりつける 2019/5/20 27
  27. 27. 1-1. Netdraw を用いてネットワークを描画する • ファイル名をつけて保存する 2019/5/20 28
  28. 28. 1-1. Netdraw を用いてネットワークを描画する • UCINET より Netdrawをひらく 2019/5/20 29
  29. 29. 1-1. Netdraw を用いてネットワークを描画する • 先ほど作成したファイルを NetDraw より開く 2019/5/20 30
  30. 30. 1-1. Netdraw を用いてネットワークを描画する • 関係性が可視化される 2019/5/20 31
  31. 31. 1-2. Gephi • オープンソース版ネットワー ク分析ソフトウェア 2019/5/20 32
  32. 32. 1-2. Gephi の使い方 • Sample ファイルで試してみる • Les Miserables.gexf – レミゼラブルの共起情報ファイル 2019/5/20 33
  33. 33. 1-2. Gephi の使い方 • Import Report が表示されるので, OK をクリックする 2019/5/20 34
  34. 34. 1-2. Gephi の使い方 • ネットワークグラフが表示される 2019/5/20 35
  35. 35. 1-2. Gephi の使い方 • Layout を動かしてみる 2019/5/20 36
  36. 36. 1-2. Gephi の使い方 • データセットに慣れてみる • http://oss.infoscience.co.jp/gephi/wik i.gephi.org/index.php/Datasets.html のうち “[GEXF] EuroSiS Web マップ 調査: 欧州 12 か国の「社会における科学 (Science in Society)」活動主体の Web 上での相互関係をマップしたもの。”をダ ウンロードして表示する. ・ファイルを選択し, OK をクリックする 2019/5/20 37
  37. 37. 1-2. Gephi の使い方 • ネットワークグラフが表示される 2019/5/20 38
  38. 38. 1-3. Sci2 • ネットワーク分析ツール • エンジンとして, Gauss や Gephi, R を利用 • https://sci2.cns.iu.edu/use r/index.php 2019/5/20 39
  39. 39. 1-3. Sci2 • ダウンロード • ダウンロード前にアカウント 登録が必要 • 利用しているオペレーション システムを選択する 2019/5/20 40
  40. 40. 1-3. Sci2 • ZIP ファイルがダウンロー ドされるので, 展開する • Sci2.exe をダブルクリック 2019/5/20 41
  41. 41. 1-3. Sci2 • コンソールが開く • とりあえず, サンプル ファイルでネットワーク 図を書いてみる • [File] – [Load]を選択す る 2019/5/20 42
  42. 42. 1-3. Sci2 • Sampledata -> socialscience -> “Florentine.nwb” を選択 し, 開くをクリックする 2019/5/20 43
  43. 43. 1-3. Sci2 • 右側のData Manager から “NMB file….” を右クリック し, View をクリックする • 元データが表示される 2019/5/20 44
  44. 44. 1-3. Sci2 • Visualization -> Networks -> GUESS を選択する 2019/5/20 45
  45. 45. 1-3. Sci2 • ネットワーク図が表示される • Show Label をクリックして, ノード毎のラベルを表示させる 2019/5/20 46
  46. 46. D3.js • Java Script ライブラリ • https://d3js.org/ • 動的な可視化で広く活用
  47. 47. Zoomable Circule • https://observablehq.com/@ d3/zoomable-circle-packing
  48. 48. Scatter Plot Matrix https://observablehq.com/@d3/scatterplot-matrix
  49. 49. Sankey Diagram https://observablehq.com/@d3/sankey-diagram
  50. 50. Python で使える可視化ライブラリ (すごく一部) • Seaborn • これまでの講義で一部使用 • https://seaborn.pydata.org/ • https://seaborn.pydata.org/examples/index.html • Plotly • https://plot.ly/python/
  51. 51. インフォグラフィック https://public.tableau.com/en-us/s/gallery/fifa-19-top-ranked-players
  52. 52. piktochart • インフォグラフィック作成用サイト • https://piktochart.com/
  53. 53. Web 上でグラフなどを作成可能
  54. 54. 完成品
  55. 55. 2. Tableau を使ってデー タの可視化をいろいろと やってみよう
  56. 56. 今日やりたいこと • FIFA19 のデータ (レポート1で使ったもの) をtableau でいろい ろな手法を使ってビジュアライズしてみる
  57. 57. Tableau とは • “Tableau は、接続からコラボ レーションまでをスムーズに行え る、最も強力でセキュアかつ柔軟 なエンドツーエンドのデータ分析 プラットフォームです。 • データのパワーの活用を可能にし て、ビジネスをサポートします。 個人で利用できるように設計され、 エンタープライズ規模に拡張する こともできる Tableau は、アク ションを生み出すインサイトを データから引き出せる唯一の BI プラットフォームです。” https://www.tableau.com/ja-jp/products/what-is-tableau
  58. 58. Tableau のインストール • https://www.tableau.com/tft/activation にアクセスする
  59. 59. Tableau のインストール • Download Tableau Desktop をクリックする • 大学のメールアドレスを指定し, Download Free Trial をクリック
  60. 60. Tableau のインストール • exe (windows) または dmg (mac) がダウンロードされる ので, インストールを行う
  61. 61. Tableau の起動 • Windows 10 の場合
  62. 62. Tableau にデータをインポートする • 接続から, “Microsoft Excel” を選択する
  63. 63. Tableau にデータをインポートする ファイルを選択する
  64. 64. Tableau にデータをインポートする • “データ インタープリターを使用してクリーニング” をクリック
  65. 65. Tableau でデータを可視化してみる • ウインドウ下のワークシートをクリックする
  66. 66. Tableau でデータを可視化してみる • 左下の”メジャー” から, 列に age を, 行に wage をド ロップする • 合計値が表示され ているので, 右上 に合計値がひとつ プロットされてい る
  67. 67. Tableau でデータを可視化してみる • 列と行それぞれにつ いて▼をクリックし, “メジャー -> 合計値” から “ディメンジョ ン” に選択しなおす
  68. 68. Tableau でデータを可視化してみる • 右下にある値をクリックし, “除外” をクリックする
  69. 69. Tableau でデータを可視化してみる • 散布図が生成される
  70. 70. Tableau で地域ごとの選手数をプロット してみる • “ディメンジョン” をクリックし, 地 理的役割から “国/ 地域” を選択する
  71. 71. Tableau で地域ごとの選手数をプロット してみる • Nationality ごとの選手数を地図上にプロットできる
  72. 72. Tableau で地域ごとの選手数をプロット する • 右下をクリックし, マッピン グできていない国名同士を 手動で対応させる
  73. 73. Tableau で地域ごとの選手数をプロット する • 空欄だった中国 やイングランド, 韓国のデータが 埋め込まれる
  74. 74. 様々な形式でプロットする • 表形式 • 箱ひげ図
  75. 75. 様々な形式でプロットする • 棒グラフ
  76. 76. ツリーマップ
  77. 77. 様々な形式でプロットする • パックバブル • バブルチャート
  78. 78. Wordcloud
  79. 79. 今日の実習 (30分) • Manaba の[データ]セクションにアップロードされている, これ までに講義で利用した • (1)Dbpedia.org ソース • 東証一部/二部/マザーズの企業概要データ • 日本の経済/経営/社会/法学者の概要データ • 日本のロック/ヒップホップ/フォークグループの概要データ • (2) FIFA19 の選手収録データ • (3) 日経NEEDS データ • 東証マザーズ • 東経2部 について, tableau を使って可視化を行いましょう
  80. 80. 今日の実習 • ワードクラウド • 地域や国にマッピングしたグラフ • 棒グラフ • 線グラフ などを作成してみること
  81. 81. まとめ • データのビジュアライゼーションは, データを使ってわかるこ とをより伝えるための手段 • 時と場合に応じてグラフは使い分けよう • 経済学部や経営学部の場合、まだまだ2次元の棒グラフと線グラフ or 散布図が中心かもしれないけれど
  82. 82. 3. レポート (3回目)について
  83. 83. レポート(3回目)の内容 • 概要 • テーマ; とっても細かくやってみる「企業研究」 • 日経NEEDS からデータセットを入手し, 特定の産業, 企業グループにおける財務パ フォーマンスについて比較分析を行い, レポートにまとめる. • レポートでは • (1) とりあげた産業/企業グループの特徴の抽出 • (2) 売上高, 資本金, ROE, ROA など主な財務パフォーマンスのデータおよびその比較 を行った上で, 「もしも自分が就職するのなら」どの企業を選択するか明記すること • 提出期間: 2019/5/13 15:00:00 - 2019/5/20 15:00:00 (JST) • 提出方法: Manaba のレポート提出ページに, ipynbまたはPDF 形式 で提出すること • ※. Word または LaTeX で作成した場合, PDF でアウトプットすること
  84. 84. レポート(3回目) の構成 (テンプレ) • はじめに • 対象企業について • 利用するデータベースについて • 分析結果と考察 • まとめ
  85. 85. レポート(3回目)の進め方 1. まず, 対象とする企業とその競合企業を決める 2. 1. で決めた企業群について, データベースサイトから解析に あたり必要だと思われるデータを取得する 3. Excel and/or Jupyter Notebook で解析を行う 4. Word and/or Jupyter Notebook でレポートにまとめる
  86. 86. 1. 本レポートでの市場画定 • 特定の企業をひとつ取り上げてください • 当該企業と同じ産業に属するであろう、複数の企業を抽出する。 このとき、レポートでは抽出方法について明らかにすること。 抽出方法については (1) 日本標準産業分類に基づく抽出, (2) 業 界情報 (例. https://gyokai-search.com/2nd-genre.htm) など に基づく抽出, (3) その他の方法に基づく抽出 など幾つかの手 法が考えうるが, 選択した手法について明記すること
  87. 87. 2. データベースの選択とデータの抽出 • データベースの選択 • 企業データベース • 日経NEEDS etc… • 論文データベース • Google Scholar, Web of Science etc… • 特許データベース • 特許庁データベース, IIP パテントデータベース etc… • 1. で指定した企業群について, 解析にあたり必要なデータを取 得すること. これら以外のデータベースを利用しても構わない
  88. 88. 3. & 4. データの解析およびレポートの作成 • 2. で取得したデータに関して, 主に以下の分析を行い報告する こと • 産業 (あるいは業界) 構造の特性の抽出 • 主な企業の売上高, 資本金および収益率など, 財務パラメータの比較分 析 • 統計分析 (基本統計量の抽出, 散布図の作成, 回帰分析 etc…) • レポートの最後に、「もしも自分が就職するのなら」どの企業 を選択するのか明記してください • オチとして、「解析の結果こういう理由から、どうもいい企業がない ので自分でスタートアップを作ります」でもOKです。
  89. 89. 4. 成績評価の方法
  90. 90. 成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github 経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
  91. 91. 成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint 以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
  92. 92. 次回予告と 最終レポートについて
  93. 93. 12. [5/24] 機械学習 • R を用いて、木構造を用いて分類および回帰を行う決定木の手 法について、具体例の紹介および実習を行います。また、最終 レポートについての説明を行います。 • これまでに学んだ手法を用いデータ解析を行うことで、グルー プでのレポートをまとめます。このグループの決定を行います。
  94. 94. 13. まとめと最終報告レポート • 1組5-6名のグループを作り, そのメンバーで最終レポートを作 成していただきます。 • データ分析組, データ調達組, プレゼンテーション作成組, プレゼンテーション担 当など役割分担はお任せします。 • 講義の最終回で, 発表時間10分, 質疑応答5分でプレゼンテーションを します。
  95. 95. 13. まとめと最終報告レポート • テーマ • 「○○のための実践的データ分析」 • 卒論や修論や博論の作成の入り口になるような、データの調達とその データの解析を, 講義で取り上げたデータセットおよび分析手法で実施 する • 分析単位はマクロ (国レベル) でもメソ (企業/産業レベル) でもミクロ (個人レベル) でも問いません • 利用できるデータセット • 特に制限なし • 利用できるツール • Tableau, Excel, SQL, Jupyternotebook (Python) など, 特に制限なし
  96. 96. 13. まとめと最終報告レポート • 評価方法 • グループ内での自己評価 • グループ外からの評価 アンケートシステムをManaba or Google Docs で用意します。 • 評価基準 • (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 納品物 • プレゼンテーションに利用したファイル (Word か Powerpoint か Prezi か etc…) を, Manaba にアップロードすること • 期限 • 2019/6/2 17:30
  97. 97. 「定量分析の業務フロー」 2019/5/20 98 リサーチクエス チョンを決める 必要なデータを 探す 論文データ/書誌 情報を使う 特許データ/書誌 情報を使う その他データを使う (プレスリリース /POS データ) デ ー タ の ク リ ー ニ ン グ / 接 合 を 行 う エクセル/Python/Rでグラフを描く Stata/R/Python で回帰分析する KHCoder/R/Python でテキスト分析 する R/Netdraw etc… でネットワーク分 析する 企業データを 使う
  98. 98. 例.元 IIR 西口先生のネットワーク研究 • “コミュニティー・キャピタル 中国・温州人企業家ネットワー クの繁栄と限界” • http://doi.org/10.11207/taaos. 4.1_200 • データに頼らずに, 足で稼いで ネットワークの動態をインタ ビュー調査から明らかにする • 足掛け10年(!) 2019/5/20 99
  99. 99. 例. 元 IIR 西口先生のネットワーク研究 • “傑出したパフォーマンスで知られる中国・温州人企業家の国 際的ネットワークは、コミ ュニティー・キャピタルに依拠する 新たな社会ネットワーク分析に適した事例であり、近 年ビッグ データ一辺倒の観のある米国の定量分析 (Fleming et al. 2007) を補完する意味で、 詳細なフィールド調査に基づく豊かな実証 的知見を提供し得る。さらに Watts 等(1998, 1999, 2003) がシ ミュレーションで数学的に立証したスモールワールドの知見が、 現実に応用可 能なのは、実効的にコミュニティー・キャピタル に支えられた社会ネットワークに限定さ れることも示唆され る。 ” 2019/5/20 100
  100. 100. あくまでリサーチクエスチョンが大切 • データはあくまでデータ • 研究の問いに合わせて必要なデータを持ってくるのが大切で、 データに合わせて研究するのは本末転倒 (そういう研究も多い けど。。。) • 数年前に比べても利用できるデータはますますリッチになって いるので、ますます、「どのような研究がしたくて」、「どの ような問いを立てている」のかが大切に。 2019/5/20 101
  101. 101. ディスカッション(15分くらい) • どういうテーマで解析を行うか/リサーチクエスチョンは何か • 解析を行うためには、どういうデータが必要か • メンバーの役割分担 について、グループ内で(いるメンバーで)ディスカッションをし てください。
  102. 102. THANKS yasushi.hara@r.hit-u.ac.jp

×