Mais conteúdo relacionado Semelhante a 経済学のための実践的データ分析 1. イントロダクション/Jupyter Notebook をインストールする (20) Mais de Yasushi Hara (20) 経済学のための実践的データ分析 1. イントロダクション/Jupyter Notebook をインストールする5. SELF INTRODUCTION
• Yasushi HARA
• 1998-2004
• TOYOTA NATIONAL COLLEGE OF TECHNOLOGY
• 2000
• Exchange Student in Malaysia
• 2002-2009
• CLARAONLINE, INC.
• ICT Hosting Company, nowadays called Cloud system supplier
• 2009-2015
• Institute of Innovation Research, HITOTSUBASHI UNIVERSITY
• 2015-2017
• Science for RE-Designing Science, Technology and Innovation Policy Center, National
Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi
UNIVERSITY/MANAGEMENT INNOVATION CENTER
• 2018-2019
• EHESS Paris – CEAFJP/Michelin Research Fellow
• OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP)
and STI Policy Monitoring and Analysis (REITER) project
• 2019-
• TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of
Economics, Hitotsubashi University
16. 1.[4/9]イントロダクション (ビッグデータ
と社会科学), 分析環境の構築 [座学, 実習]
• 経済学で大量のデータを用いることに、果たしてどのような意
味があるのでしょうか?
• 初回の講義では、経済学はじめ社会科学の研究でデータを活用
する意義について、具体的な研究事例などを交えながら紹介し
ます。また、今日広く用いられている Jupyter Notebook など
の分析環境の導入方法について説明します。
17. 2. [4/12] python, R, Jupyter notebook 事始め (ある
いは、統計分析ソフトちゃんちゃかちゃん)
• Stata や SPSS, SAS など統計分析ソフトは多数存在します。
これらのメリットや特徴について前半は説明します。
• 後半は、本講義で主に利用する jupyter notebook を用いて,
python やR の基本的なコマンドについて実習を交え説明を行
います。テーマは「サンクコスト」です。
18. 統計ソフト
• 無償なもの
• R, (Python), Octave
• 有償なもの
• SAS, SPSS, Eviews, STATA etc…
• メリットとデメリットをまとめてみます。
20. 4. [4/19] SQL ことはじめ
• 大量のデータを運用し活用するためには、データベースを用い
ると便利です。MySQL を用い、データから必要な情報を抽出
し、データ同士を接合する方法について簡単に解説を行い、続
いて実データを用いて解析を行います。MySQL Workbench
および MySQL サーバのインストール方法について解説し、
データのSQL サーバへの展開方法について解説します。
23. 5. [4/23] (人力や Web スクレイピングやRPA
で)データを集めてきて処理をするまでの長く
険しい道 [座学、実習]
• データといっても、そのほとんどは実のところ定型化されてい
ません。Web サイトや書籍や国会図書館から手作業でひとつひ
とつ入力し、あるいは、Web スクレイピングやRPA を用いて,
Web から取得する必要があります。
• データ分析は、こうした事前の作業が作業全体の60-70パーセ
ントを占めています。
• こうした手続きの具体例について、座学を用いて紹介した後、
雑誌や Web に掲載されたデータを取得する手法についてご紹
介します。
24. さがしています
• danchu の3月号
• 日本酒の酒蔵に関するアンケー
ト調査の Raw Data が掲載
• きっかけ; 入山章栄さん (早稲
田ビジネススクール教授; aka
妻の指導教官) のフェイス
ブック投稿
25. 6. [4/26] データベースを用いた分析(1) 特
許データベース [座学、実習]
• 知的財産研究所が提供するIIP パテントデータベース
(http://www.iip.or.jp/patentdb/)に基づき、特許データを具
体例として解析の実習を行います。
• 「どの企業が最も特許を出願しているのか?」、「どのような
分野に特許を出願しているのか?」など、具体的な問いを立て
た上で、問いに基づきデータを抽出することを目指します。
• 分析結果については、レポートとして提出を行う必要がありま
す。
27. 1930s 1960s 1970s 1990s 2000s
青色LEDに至るまでの研究開発プロセス: 1910-2007 (1次引用すべて導入; 上位12社明記)
1980s
引用: 清水2001
29. 7.[5/7] データベースを用いた分析(2) 論文
データベース [座学、実習]
• Clarivate Analytics 社が提供する Web of Science
(https://clarivate.com/products/web-of-science/) では、
論文の書誌情報を取得することが出来ます。
• こうしたデータを用いることで、例えば、「日本の大学で最も
年ごとの論文数が多いのは何処か?」、「(指導教官の)○○先
生が書いた論文はt年にx本で、その論文は累計 y 回引用され
た」などの情報を取得することが出来ます。
• 前回と同様、学生は問いを立てた上で、データベースから必要
な情報を取得し解析を行い、レポートに取りまとめる必要があ
ります。
32. 8.[5/10] データベースを用いた分析(3) 企業デー
タベース/データベース間の接合[座学、実習]
• 帝国データバンク企業・経済高度実証研究センター
(http://www7.econ.hit-u.ac.jp/tdb-caree/about-caree/) が提供
する企業のデータベースについて説明を行います。本データベース
には、企業の取引、出資、銀行取引データや、決算書データなどが
含まれています。こうしたデータセットに基づき、前二回同様、問
いに基づきデータを解析することを目指します。
• 今回も、学生はレポートを提出する必要があります。
• また講義の後半では、NISTEP 企業名辞書
(http://www.nistep.go.jp/research/scisip/rd-and-innovation-
on-industry) などを用い, ID ベースでデータセット間を接合する手
法について説明します。
35. 9. [5/14] Open Linked Data の活用 (RDF, RISIS
などの事例紹介および試用) [座学、実習]
• オープンサイエンスやオープンガバメントの進展によって、特
にヨーロッパでは Open Linked Data と呼ばれるデータセット
を用いた解析プラットフォームや、解析手法が用いられはじめ
ています。
• 本回では、RISIS (https://www.risis2.eu/)と呼ばれる、イノ
ベーション分析のためのデータプラットフォームについて解説
を行い、RDF を用いた解析について解説および簡単な実習を行
います。
36. Open Linked Data の具体例
• 科学者とPhD Advisor の関係性
アメリカの場合 ドイツの場合 日本の場合
DBpedia.org (Wikipedia の掲載情報をRDF にしたサイト)のSPARQL
Endpointに、Linked Data Reactor (http://ld-r.org/) から接続し、Wikipedia
に掲載されているScientist の全情報を取り込み
37. 10. [5/17] テキスト分析
• この回では、これまで用いてきたデータセットについて、異な
るアプローチから解析することを目指します。
• 具体的にはすでに定量化されているデータではなく、特許にお
ける特許名、論文における論文名、企業データベースにおける
企業の概要などのテキストデータを解析する手法について学び
ます。
• 講義ではPython, R および, KHCoder (http://khcoder.net/)
を用い、解析を行います。学生は分析した結果についてレポー
トにまとめ、提出する必要があります。
38. ケーススタディ:
小室さんと華原さんのトークを分析してみよ
う
• TK MUSIC CRAMP
• 1995年から1998年まで放送してた音楽番組
• 1995年度は小室哲哉さんが
• 1996年度はSMAPの中居正広さんが
• 1997年度は華原朋美さんが司会を担当
• 二人の会話を共起グラフ分析して、二人がどのくらいラブラブ
だったのか、どのくらい冷めちゃったのか可視化できるかやっ
てみよう
• 分析対象
• 1996/3/6 オンエアのトーク
• 1998/3/25 オンエアのトーク
3/8/2015 38
40. 抽出語のチェック (1996年)
感動詞 形容詞
うん 65難しい 9
あの 21嬉しい 8
なんか 20高い 4
え 19悪い 3
あ 16楽しい 3
うーん 14欲しい 3
まあ 14厳しい 2
ありがとう 13厚い 2
はい 12小さい 2
ああ 6羨ましい 2
ごめんなさ
い 6太い 2
じゃあ 5大きい 2
そうですね 5優しい 2
ほら 4淋しい 2
名詞
自分 38
感じ 28
音楽 19
テレビ 18
本当 10
ビデオ 7
未来 7
カラオケ 6
ウマ 5
チャンネル 5
ドラマ 5
最初 5
エンディング 4
ゲスト 4
テープ 4
ヘリコプター 4
言葉 4
立場 4
コーラス 3
人名
小室 52
朋 31
朋美 14
よね 4
哲哉 4
遠藤 2
中山 2
美穂 2
シン 1
森高 1
渡辺 1
美里 1
3/8/2015 40
41. 抽出語のチェック (1998年)
感動詞 列1 形容詞 列2 名詞 列3 人名 列4
うん 34嬉しい 6感じ 19小室 39
あ 27難しい 6テレビ 12朋 35
なんか 15可愛い 4音楽 12華原 10
まあ 15遠い 3自分 11朋美 9
はい 14多い 3久し振り 9美紀 6
ああ 9大きい 3時代 8大介 4
ありがとう 6面白い 3弟子 8舞 4
あの 5優しい 3ギャグ 7原 3
と 4恐い 2調子 7西川 3
なるほど 4欲しい 2番組 7大輔 3
え 3良い 2コーナー 5哲哉 3
ほら 3眩しい 2マネージャー 5
ううん 2可愛らしい 1外国 5
じゃあ 2懐かしい 1最初 5
そうですね 2楽しい 1武器 5
そうね 2強い 1名前 5
ねぇ 2激しい 1ジュース 4
あら 1若い 1センス 4
あれ 1数少ない 1ピアノ 4
うーん 1短い 1社長 4
こんばんは 1遅い 1本当 4
ごめん 1長い 1アルバム 3
ごめんなさい 1美味しい 1オレンジ 3
さぁ 1眠い 1ゲスト 3
じゃ 1淋しい 1ステップ 3
すいません 1 スプレー 3
ねえ 1 ハプニング 3
何だ 1 フランス語 33/8/2015 41
45. 11. [5/21] 機械学習
• R を用いて、木構造を用いて分類および回帰を行う決定木の手
法について、具体例の紹介および実習を行います。また、最終
レポートについての説明を行います。
• これまでに学んだ手法を用いデータ解析を行うことで、グルー
プでのレポートをまとめます。このグループの決定を行います。
46. 12. [5/24] データのビジュアライゼー
ションとネットワーク分析
• これまでの回で取り上げてきたデータをわかりやすく研究で活
用する手法を学ぶことを目指します。
• Python やR などを用いたデータの可視化手法の確認や、
Tableau (https://www.tableau.com/ja-jp) などのデータ可
視化ソフトウェアの紹介および実習を行います。
50. 成績評価(1)
• 平常レポート (40パーセント; 必須)
• 講義計画に示したように、複数の回で学生にはレポートを課します。
レポートは Word/PowerPoint形式のメールあるいは, github 経由で
の提出が求められます(どの方法を採用するかは、初回の講義で決定し
ます)。
• レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問
い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ
数や文字数は問いませんが, これらの内容が含まれており, 講義中にア
ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。
• 平常点 (10パーセント)
• 本講義は実習が多く含まれており, また取り扱うデータセットや内容も
多彩です。そのため、受講者同士が協力する必要があります。こうし
た受講者の態度を評価するために、平常点を設けます。
51. 成績評価(2)
• 最終レポート (40パーセント; 必須)
• 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か
ら構成されるグループで、最終レポートの報告を行う必要があります(人数は
受講者の人数により変更される可能性があります)。最終レポートでは、プレ
ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint 以
外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ
ンテーション手法を用いることが出来ます(プレゼンテーションツールについ
ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、
以下の点について評価を行います。
(A.) グループ内の役割分担
(B.) データセットのユニークさおよび、それが適切に処理されているか
(C.) 分析手法のユニークさおよび、それが適切に解析されているか
(D.) プレゼンテーションのユニークさ
(E.) 質疑応答にうまくリプライすることが出来ているか
• 最終レポートの360°グループ評価 (10パーセント)
• 3. の最終レポートについて、グループの自己評価および他のグループからの
評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ
び他のグループは評価を行います。
55. Framework of Innovation Indicators [modified.]
(Pakes and Griliches 1984)
Other
Economi
c
Factors
Non-Knowledge Factors
of Production Output:
Productivity
Firm’s Value
Patent
Patenting
Propensity
Inputs to Innovation
R&D, designing,
marketing research
etc…
Knowhow and
First Mover Advantag
Paper
3/8/2015 55
56. Framework of Innovation Indicators [modified. 2]
(Pakes and Griliches 1984)
Other
Economi
c
Factors
Non-Knowledge Factors
of Production Output:
Productivity
Firm’s Value
Paten
t
Patenting
Propensity
Inputs to Innovation
R&D, designing,
marketing research
etc…
Knowhow and
First Mover Advantag
PaperIn-
tangible
knowledg
e3/8/2015 56
58. 研究手法(2)
1. ひとにきく
1. 発明したひと (=発明者) にきく
1. インタビューをする
2. サーベイ調査をする (アンケート
をとる)
2. 発明に関与したひとにきく
1. インタビューをする
2. サーベイ調査をする (アンケート
をとる)
2. 測ってみる
1. 特許ではかってみる
1. だれとだれが特許を書いたかで
はかってみる
2. だれがだれの特許を引用してい
るかではかってみる
2. 論文ではかってみる
1. だれとだれが論文を書いたかで
はかってみる
2. だれとだれの論文を引用してい
るかではかってみる
3. 特許と論文のつながりではかっ
てみる
1. どの特許が、どの論文を引用し
ているかで測ってみる
2. どの論文が、どの特許を引用し
ているかで測ってみる
3/8/2015 58
59. データベースを使った分析に必要な知識
• Excel で vlookup くらいを使ったことがある
• (現在の)コンピュータは、「命令をしないと動かない」ことを知っ
ている
• コンピュータに対して命令を書くときは(多くの場合) 2byte 文字
ではなくて 1byte 文字で入力する必要があることを知っている
• Select ではなく, select と打つ必要があることを知っている
• マニュアルの通りコンピュータは動かないことを知っている
• 「コレは簡単ですよー」と, 技術者がいう「簡単」と, 自らが認識す
るところの「簡単」には相違があることを知っている
• あきらめないこころ
3/8/2015 59
62. Jupyter notebook とは
• プログラムを実行し、実行結果を記録できるツール
• 数値計算・データ解析で広く用いられている
• 実行結果は notebook 形式で保存可能
• 便利なので使ってみましょう。
72. 次回予定. [4/12] python, R, Jupyter notebook
事始め
• Stata や SPSS, SAS など統計分析ソフトは多数存在します。
これらのメリットや特徴について前半は説明します。
• 後半は、本講義で主に利用する jupyter notebook を用いて,
python やR の基本的なコマンドについて実習を交え説明を行
います。テーマは「サンクコスト」です。