SlideShare uma empresa Scribd logo
1 de 18
Tokyo.R 女子部#2
RMecabを使おう
@nanaya_sac
2013/10/12
Rのインストール
• Windows
http://cran.md.tsukuba.ac.jp/bin/windows/base/
• Mac
http://cran.md.tsukuba.ac.jp/bin/macosx/
(最新ver.は3.0.2)
• インスト後の設定などは
http://ofmind.net/doc/r-tips#USER-CONFIG
個人的やりたいこと
• テキストマイニング
– そこまで難しいものではなくて、単に出てく
る単語のカウントがしたい、程度
• できるようになりたいこと
– 文章データの読み込み
– 形態素解析(どっちでもいい)
– 辞書のカスタマイズ
– ターゲット単語のカウント・集計
テキストマイニングとは
• 大量のテキストの中から有益な情報を探
し出す手法
• 分析のしにくい自由記述データを客観的
に分析可能
方法:文章を分かち書き(形態素解析)をして、
単語の頻度や単語間の関係(共起性・係り受け)
などを分析する
例:すもももももももものうち
→すもも も もも も もも の うち
形態素解析:MeCab
• 読み方:めかぶ
• 形態素解析をしてくれるソフト
配布先:
https://code.google.com/p/mecab/downloads/list
Windows: mecab-0.996.exe
MacOS: mecab-0.996.tar.gz
RMeCabのインストール
• RMeCab:MeCabをRで扱うためのソフト
http://sites.google.com/site/rmecab/home/rmecab_0-9991
• Windows:ファイルを「ダウンロード」に保存し、
install.packages (“RMeCab”, repos = "http://rmecab.jp/R")
• MacOS: Xcodeを入手してインストール
• $ cd Downloads
$ tar zxf mecab-0.996.tar.gz
• $ cd mecab-0.996
• $ ./configure --with-charset="utf8"
• $ make
• $ sudo make install
RMeCabの利用
• R上でパッケージを読み込む
> library(RMeCab)
• この作業はRを起動するたびに行う
• MeCabに関するさまざまな関数が使用可能
になる
RMeCabによる分析
• RMeCabC()関数:日本語テキストを与える
と、形態素解析した結果を返す
> res <- RMeCabC(“すもももももももものう
ち”)
> res
(縦にリストが出力される)
> unlist(res)
(横にリストが出力される)
RMeCabによる分析
• 形態素原型を出力
> res <- RMeCabC(“ご飯を食べた”, 1)
> res
名詞 助詞 動詞 助動詞
ご飯 を 食べる た
(活用形を原型で出力)
RMeCabによる分析
• RMeCabText()関数:作業フォルダにある
ファイルを解析する
※Rの作業フォルダの設定
「ファイル」→「ディレクトリの変更」→わかり
やすいディレクトリを指定
指定した作業フォルダにテキストファイル
(ono.txt)を入れる
RMeCabによる分析:やってみよ
う
• 配布データ:NHKきょうの料理 書き起こ
し
– ono.txt http://db.tt/lBDzYmNS
– 作業フォルダに入れる
• データの内容
– 「きょうの料理」の会話内容
目的:調理行動の説明時にどの程度オノマトペ
が出現するのかを分析する
※オノマトペ:擬音語・擬態語・擬情語などの
総称
RMeCabText()関数
• RMeCabText()関数
> res <- RMeCabText(“ono.txt”)
> res
(縦にリストがずらずら出てくる)
これは・・
• とても見にくい、結果がわかりにくい
• RMeCabFreq()関数:テキストを形態素解析
した後、その頻度を数えデータフレーム
を形成
> res <- RMeCabFreq(“ono.txt”)
> res
(データフレームが出力される)
• ちょっとそれっぽくなった
Mecab辞書の作成(Windows)
• オノマトペの特徴
– さまざまな品詞(名詞・形容動詞・副詞)と
して出現するので、全体のカウントが難しい
– オノマトペ辞書を作成し、別個にカウントす
ればよい
オノマトペ辞書の作成
• 「ふっくら」を登録する
ふっくら -1,-1,1000,オノマトペ,*,*,*,*,ふっく
ら,フックラ, フックラ
(表層形・左文脈ID・右文脈ID・コスト・品詞・
品詞細分類1・品詞細分類2・品詞細分類3・活用
形・原形・読み・発音)
以上の内容をCSVファイルでわかりやすいと
ころ(C:data)に保存する hukkura.csv
辞書の生成
• コマンドプロンプトを使用
– 「スタート」-「プログラム」-「アクセサ
リ」-「コマンドプロンプト」
C:Document and Settings(name)>cd “C:Program Files
(x86)MeCabbin”
C:Program FilesMeCabbin>mecab-dict-index.exe
-d “c:Program FilesMeCabdicipadic”
-u hukkura.dic –f shift-jis –t shid-jis c:datahukkura.csv
これでうまく行くはずなんです
が・・
• 辞書生成時にエラー
– 左文脈IDが見つからないとのこと
– 原因究明を急ぎます
– Time up!
Sorry!
参考図書
テキストマイニング入門
著:石田基広
近刊
「Rで学ぶ日本語テキスト
マイニング」
著:石田基広・小林雄一
郎
http://www.hituzi.co.jp/hitu
zibooks/ISBN978-4-89476-
654-9.htm
2013年10月刊行予定

Mais conteúdo relacionado

Destaque

Intoroduction of Bad Data Handbook
Intoroduction of Bad Data HandbookIntoroduction of Bad Data Handbook
Intoroduction of Bad Data Handbook
Atsushi Hayakawa
 
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
Atsushi Hayakawa
 
Google's r style guideのすゝめ
Google's r style guideのすゝめGoogle's r style guideのすゝめ
Google's r style guideのすゝめ
Takashi Kitano
 
はじめてのパターン認識読書会 第四回 前半
はじめてのパターン認識読書会 第四回 前半はじめてのパターン認識読書会 第四回 前半
はじめてのパターン認識読書会 第四回 前半
Atsushi Hayakawa
 
アクションマイニングを用いた最適なアクションの導出
アクションマイニングを用いた最適なアクションの導出アクションマイニングを用いた最適なアクションの導出
アクションマイニングを用いた最適なアクションの導出
Shintaro Fukushima
 

Destaque (10)

Intoroduction of Bad Data Handbook
Intoroduction of Bad Data HandbookIntoroduction of Bad Data Handbook
Intoroduction of Bad Data Handbook
 
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
 
10分で分かるr言語入門ver2.4
10分で分かるr言語入門ver2.410分で分かるr言語入門ver2.4
10分で分かるr言語入門ver2.4
 
Google's r style guideのすゝめ
Google's r style guideのすゝめGoogle's r style guideのすゝめ
Google's r style guideのすゝめ
 
はじめてのパターン認識読書会 第四回 前半
はじめてのパターン認識読書会 第四回 前半はじめてのパターン認識読書会 第四回 前半
はじめてのパターン認識読書会 第四回 前半
 
StanTutorial
StanTutorialStanTutorial
StanTutorial
 
アクションマイニングを用いた最適なアクションの導出
アクションマイニングを用いた最適なアクションの導出アクションマイニングを用いた最適なアクションの導出
アクションマイニングを用いた最適なアクションの導出
 
Decision tree
Decision treeDecision tree
Decision tree
 
はじめての「R」
はじめての「R」はじめての「R」
はじめての「R」
 
Introduction to statistics
Introduction to statisticsIntroduction to statistics
Introduction to statistics
 

Semelhante a Tokyo.R女子部#2「RMeCabを使おう」

20110519 okuyama tokyo_linuxstudy
20110519 okuyama tokyo_linuxstudy20110519 okuyama tokyo_linuxstudy
20110519 okuyama tokyo_linuxstudy
Takahiro Iwase
 
20110517 okuyama ソーシャルメディアが育てた技術勉強会
20110517 okuyama ソーシャルメディアが育てた技術勉強会20110517 okuyama ソーシャルメディアが育てた技術勉強会
20110517 okuyama ソーシャルメディアが育てた技術勉強会
Takahiro Iwase
 
初心者向け負荷軽減のはなし
初心者向け負荷軽減のはなし初心者向け負荷軽減のはなし
初心者向け負荷軽減のはなし
Oonishi Takaaki
 

Semelhante a Tokyo.R女子部#2「RMeCabを使おう」 (20)

Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例
 
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]SparkとJupyterNotebookを使った分析処理 [Html5 conference]
SparkとJupyterNotebookを使った分析処理 [Html5 conference]
 
日本語:Mongo dbに於けるシャーディングについて
日本語:Mongo dbに於けるシャーディングについて日本語:Mongo dbに於けるシャーディングについて
日本語:Mongo dbに於けるシャーディングについて
 
Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析Bluemixを使ったTwitter分析
Bluemixを使ったTwitter分析
 
Pysparkで始めるデータ分析
Pysparkで始めるデータ分析Pysparkで始めるデータ分析
Pysparkで始めるデータ分析
 
20110519 okuyama tokyo_linuxstudy
20110519 okuyama tokyo_linuxstudy20110519 okuyama tokyo_linuxstudy
20110519 okuyama tokyo_linuxstudy
 
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
 
Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析Apache Sparkを使った感情極性分析
Apache Sparkを使った感情極性分析
 
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
 
利用者主体で行う分析のための分析基盤
利用者主体で行う分析のための分析基盤利用者主体で行う分析のための分析基盤
利用者主体で行う分析のための分析基盤
 
20110517 okuyama ソーシャルメディアが育てた技術勉強会
20110517 okuyama ソーシャルメディアが育てた技術勉強会20110517 okuyama ソーシャルメディアが育てた技術勉強会
20110517 okuyama ソーシャルメディアが育てた技術勉強会
 
Guide to Cassandra for Production Deployments
Guide to Cassandra for Production DeploymentsGuide to Cassandra for Production Deployments
Guide to Cassandra for Production Deployments
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
Ossで作成するチーム開発環境
Ossで作成するチーム開発環境Ossで作成するチーム開発環境
Ossで作成するチーム開発環境
 
【Hpcstudy】みんな、ベンチマークどうやってるの?
【Hpcstudy】みんな、ベンチマークどうやってるの?【Hpcstudy】みんな、ベンチマークどうやってるの?
【Hpcstudy】みんな、ベンチマークどうやってるの?
 
Glueの開発環境(zeppelin)をrancherで作ってみる
Glueの開発環境(zeppelin)をrancherで作ってみるGlueの開発環境(zeppelin)をrancherで作ってみる
Glueの開発環境(zeppelin)をrancherで作ってみる
 
RDB開発者のためのApache Cassandra データモデリング入門
RDB開発者のためのApache Cassandra データモデリング入門RDB開発者のためのApache Cassandra データモデリング入門
RDB開発者のためのApache Cassandra データモデリング入門
 
初心者向け負荷軽減のはなし
初心者向け負荷軽減のはなし初心者向け負荷軽減のはなし
初心者向け負荷軽減のはなし
 

Último

TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
 

Último (8)

2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 

Tokyo.R女子部#2「RMeCabを使おう」