Enviar pesquisa
Carregar
Nltk for biginer
•
8 gostaram
•
5,787 visualizações
Atsushi Hayakawa
Seguir
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 43
Baixar agora
Baixar para ler offline
Recomendados
OpenFlowでいろんなプロトコルを 話そうとするとどうなるか
OpenFlowでいろんなプロトコルを 話そうとするとどうなるか
Masaru Oki
Lagopusとvagrant
Lagopusとvagrant
Masaru Oki
Hokkaido.cap#7 ケーススタディ(セキュリティ解析:前編)
Hokkaido.cap#7 ケーススタディ(セキュリティ解析:前編)
Panda Yamaki
Hokkaido.cap#5 ケーススタディ(ネットワークの遅延と戦う:後編)
Hokkaido.cap#5 ケーススタディ(ネットワークの遅延と戦う:後編)
Panda Yamaki
import dpkt したよ #ssmjp 2014/02/28
import dpkt したよ #ssmjp 2014/02/28
th0x0472
Hokkaido.cap#4 ケーススタディ(ネットワークの遅延と戦う:前編)
Hokkaido.cap#4 ケーススタディ(ネットワークの遅延と戦う:前編)
Panda Yamaki
Scapyで作る・解析するパケット
Scapyで作る・解析するパケット
Takaaki Hoyo
CpawCTF 勉強会 Network
CpawCTF 勉強会 Network
Takaaki Hoyo
Recomendados
OpenFlowでいろんなプロトコルを 話そうとするとどうなるか
OpenFlowでいろんなプロトコルを 話そうとするとどうなるか
Masaru Oki
Lagopusとvagrant
Lagopusとvagrant
Masaru Oki
Hokkaido.cap#7 ケーススタディ(セキュリティ解析:前編)
Hokkaido.cap#7 ケーススタディ(セキュリティ解析:前編)
Panda Yamaki
Hokkaido.cap#5 ケーススタディ(ネットワークの遅延と戦う:後編)
Hokkaido.cap#5 ケーススタディ(ネットワークの遅延と戦う:後編)
Panda Yamaki
import dpkt したよ #ssmjp 2014/02/28
import dpkt したよ #ssmjp 2014/02/28
th0x0472
Hokkaido.cap#4 ケーススタディ(ネットワークの遅延と戦う:前編)
Hokkaido.cap#4 ケーススタディ(ネットワークの遅延と戦う:前編)
Panda Yamaki
Scapyで作る・解析するパケット
Scapyで作る・解析するパケット
Takaaki Hoyo
CpawCTF 勉強会 Network
CpawCTF 勉強会 Network
Takaaki Hoyo
Hokkaido.cap #osc11do Wiresharkを使いこなそう!
Hokkaido.cap #osc11do Wiresharkを使いこなそう!
Panda Yamaki
Pythonでパケット解析
Pythonでパケット解析
euphoricwavism
Hokkaido.cap#3 ケーススタディ(基礎編)
Hokkaido.cap#3 ケーススタディ(基礎編)
Panda Yamaki
Hokkaido.cap#2 一般的なプロトコルのパケットを覗いてみよう
Hokkaido.cap#2 一般的なプロトコルのパケットを覗いてみよう
Panda Yamaki
CTF for ビギナーズ ネットワーク講習資料
CTF for ビギナーズ ネットワーク講習資料
SECCON Beginners
Hokkaido.cap#8 ケーススタディ(セキュリティ解析:後編)
Hokkaido.cap#8 ケーススタディ(セキュリティ解析:後編)
Panda Yamaki
Chainer Contribution Guide
Chainer Contribution Guide
Kenta Oono
tcpdumpとtcpreplayとtcprewriteと他。
tcpdumpとtcpreplayとtcprewriteと他。
(^-^) togakushi
hpingで作るパケット
hpingで作るパケット
Takaaki Hoyo
Hokkaido.cap#10 実践パケット解析まとめ
Hokkaido.cap#10 実践パケット解析まとめ
Panda Yamaki
NanoStrand
NanoStrand
Masashi Umezawa
Scapy presentation Remake(訂正)
Scapy presentation Remake(訂正)
ashigirl ZareGoto
Scapy presentation
Scapy presentation
ashigirl ZareGoto
Ryuの遊び方(pica8も併せてもっと楽しく)(2014/1/23修正版)
Ryuの遊び方(pica8も併せてもっと楽しく)(2014/1/23修正版)
hiroshi oshiba
Seccan2012 secure os
Seccan2012 secure os
Chiharu Usui
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Panda Yamaki
Seurity Camp Award 2016
Seurity Camp Award 2016
slankdev
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
Katsuhiro Morishita
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python
Takanori Suzuki
libpgenでパケット操作
libpgenでパケット操作
slankdev
【関東GPGPU勉強会#2】OpenCVのOpenCL実装oclMat
【関東GPGPU勉強会#2】OpenCVのOpenCL実装oclMat
Yasuhiro Yoshimura
Frequency with nltk
Frequency with nltk
Atsushi Hayakawa
Mais conteúdo relacionado
Mais procurados
Hokkaido.cap #osc11do Wiresharkを使いこなそう!
Hokkaido.cap #osc11do Wiresharkを使いこなそう!
Panda Yamaki
Pythonでパケット解析
Pythonでパケット解析
euphoricwavism
Hokkaido.cap#3 ケーススタディ(基礎編)
Hokkaido.cap#3 ケーススタディ(基礎編)
Panda Yamaki
Hokkaido.cap#2 一般的なプロトコルのパケットを覗いてみよう
Hokkaido.cap#2 一般的なプロトコルのパケットを覗いてみよう
Panda Yamaki
CTF for ビギナーズ ネットワーク講習資料
CTF for ビギナーズ ネットワーク講習資料
SECCON Beginners
Hokkaido.cap#8 ケーススタディ(セキュリティ解析:後編)
Hokkaido.cap#8 ケーススタディ(セキュリティ解析:後編)
Panda Yamaki
Chainer Contribution Guide
Chainer Contribution Guide
Kenta Oono
tcpdumpとtcpreplayとtcprewriteと他。
tcpdumpとtcpreplayとtcprewriteと他。
(^-^) togakushi
hpingで作るパケット
hpingで作るパケット
Takaaki Hoyo
Hokkaido.cap#10 実践パケット解析まとめ
Hokkaido.cap#10 実践パケット解析まとめ
Panda Yamaki
NanoStrand
NanoStrand
Masashi Umezawa
Scapy presentation Remake(訂正)
Scapy presentation Remake(訂正)
ashigirl ZareGoto
Scapy presentation
Scapy presentation
ashigirl ZareGoto
Ryuの遊び方(pica8も併せてもっと楽しく)(2014/1/23修正版)
Ryuの遊び方(pica8も併せてもっと楽しく)(2014/1/23修正版)
hiroshi oshiba
Seccan2012 secure os
Seccan2012 secure os
Chiharu Usui
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Panda Yamaki
Seurity Camp Award 2016
Seurity Camp Award 2016
slankdev
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
Katsuhiro Morishita
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python
Takanori Suzuki
libpgenでパケット操作
libpgenでパケット操作
slankdev
Mais procurados
(20)
Hokkaido.cap #osc11do Wiresharkを使いこなそう!
Hokkaido.cap #osc11do Wiresharkを使いこなそう!
Pythonでパケット解析
Pythonでパケット解析
Hokkaido.cap#3 ケーススタディ(基礎編)
Hokkaido.cap#3 ケーススタディ(基礎編)
Hokkaido.cap#2 一般的なプロトコルのパケットを覗いてみよう
Hokkaido.cap#2 一般的なプロトコルのパケットを覗いてみよう
CTF for ビギナーズ ネットワーク講習資料
CTF for ビギナーズ ネットワーク講習資料
Hokkaido.cap#8 ケーススタディ(セキュリティ解析:後編)
Hokkaido.cap#8 ケーススタディ(セキュリティ解析:後編)
Chainer Contribution Guide
Chainer Contribution Guide
tcpdumpとtcpreplayとtcprewriteと他。
tcpdumpとtcpreplayとtcprewriteと他。
hpingで作るパケット
hpingで作るパケット
Hokkaido.cap#10 実践パケット解析まとめ
Hokkaido.cap#10 実践パケット解析まとめ
NanoStrand
NanoStrand
Scapy presentation Remake(訂正)
Scapy presentation Remake(訂正)
Scapy presentation
Scapy presentation
Ryuの遊び方(pica8も併せてもっと楽しく)(2014/1/23修正版)
Ryuの遊び方(pica8も併せてもっと楽しく)(2014/1/23修正版)
Seccan2012 secure os
Seccan2012 secure os
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Hokkaido.cap#1 Wiresharkの使い方(基礎編)
Seurity Camp Award 2016
Seurity Camp Award 2016
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python
libpgenでパケット操作
libpgenでパケット操作
Semelhante a Nltk for biginer
【関東GPGPU勉強会#2】OpenCVのOpenCL実装oclMat
【関東GPGPU勉強会#2】OpenCVのOpenCL実装oclMat
Yasuhiro Yoshimura
Frequency with nltk
Frequency with nltk
Atsushi Hayakawa
【関東GPGPU勉強会#3】OpenCVの新機能 UMatを先取りしよう
【関東GPGPU勉強会#3】OpenCVの新機能 UMatを先取りしよう
Yasuhiro Yoshimura
Pelicanによる www.python.jpの構築
Pelicanによる www.python.jpの構築
Atsuo Ishimoto
How to run P4 BMv2
How to run P4 BMv2
Kentaro Ebisawa
ソフトウェア工学2023 14 ビルド
ソフトウェア工学2023 14 ビルド
Toru Tamaki
Rdkitの紹介
Rdkitの紹介
Takayuki Serizawa
ngn - 小説ページ生成ツール
ngn - 小説ページ生成ツール
sbr45
OSC 2016 Hokkaido セミナー資料
OSC 2016 Hokkaido セミナー資料
slankdev
Security.gs fes 2010 in tokyo
Security.gs fes 2010 in tokyo
Ren Sakamoto
ゆるかわPhp
ゆるかわPhp
Ryota Mochizuki
広島IT勉強会カレンダー(仮)はRubyを使っています
広島IT勉強会カレンダー(仮)はRubyを使っています
Yoshitake Takata
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
infinite_loop
Django 1.5 における効果的な MTV 設計 & ネイティブApp
Django 1.5 における効果的な MTV 設計 & ネイティブApp
Yikei Lu
20090704rubyist九州
20090704rubyist九州
koki_h
Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...
Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...
JUNICHI YOSHISE
20170131 python3 6 PEP526
20170131 python3 6 PEP526
masahitojp
はてなにおける継続的デプロイメントの現状と Docker の導入
はてなにおける継続的デプロイメントの現状と Docker の導入
Yu Nobuoka
TensorFlow Operation 作ってみた
TensorFlow Operation 作ってみた
Takuya Sakamoto
High performance python computing for data science
High performance python computing for data science
Takami Sato
Semelhante a Nltk for biginer
(20)
【関東GPGPU勉強会#2】OpenCVのOpenCL実装oclMat
【関東GPGPU勉強会#2】OpenCVのOpenCL実装oclMat
Frequency with nltk
Frequency with nltk
【関東GPGPU勉強会#3】OpenCVの新機能 UMatを先取りしよう
【関東GPGPU勉強会#3】OpenCVの新機能 UMatを先取りしよう
Pelicanによる www.python.jpの構築
Pelicanによる www.python.jpの構築
How to run P4 BMv2
How to run P4 BMv2
ソフトウェア工学2023 14 ビルド
ソフトウェア工学2023 14 ビルド
Rdkitの紹介
Rdkitの紹介
ngn - 小説ページ生成ツール
ngn - 小説ページ生成ツール
OSC 2016 Hokkaido セミナー資料
OSC 2016 Hokkaido セミナー資料
Security.gs fes 2010 in tokyo
Security.gs fes 2010 in tokyo
ゆるかわPhp
ゆるかわPhp
広島IT勉強会カレンダー(仮)はRubyを使っています
広島IT勉強会カレンダー(仮)はRubyを使っています
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
Django 1.5 における効果的な MTV 設計 & ネイティブApp
Django 1.5 における効果的な MTV 設計 & ネイティブApp
20090704rubyist九州
20090704rubyist九州
Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...
Recap: Modern CI/CD with Tekton and Prow Automated via Jenkins X - Kubernetes...
20170131 python3 6 PEP526
20170131 python3 6 PEP526
はてなにおける継続的デプロイメントの現状と Docker の導入
はてなにおける継続的デプロイメントの現状と Docker の導入
TensorFlow Operation 作ってみた
TensorFlow Operation 作ってみた
High performance python computing for data science
High performance python computing for data science
Mais de Atsushi Hayakawa
tidyverse.orgの翻訳
tidyverse.orgの翻訳
Atsushi Hayakawa
Zepp play soccerで測ってみた
Zepp play soccerで測ってみた
Atsushi Hayakawa
dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?
Atsushi Hayakawa
トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018
Atsushi Hayakawa
バンクーバー旅行記
バンクーバー旅行記
Atsushi Hayakawa
Analyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.R
Atsushi Hayakawa
Visual Studio CodeでRを使う
Visual Studio CodeでRを使う
Atsushi Hayakawa
トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017
Atsushi Hayakawa
simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65
Atsushi Hayakawa
useR!2017 in Brussels
useR!2017 in Brussels
Atsushi Hayakawa
Japan.R 2016の運営
Japan.R 2016の運営
Atsushi Hayakawa
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Atsushi Hayakawa
統計的学習の基礎 4.4~
統計的学習の基礎 4.4~
Atsushi Hayakawa
Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝
Atsushi Hayakawa
最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情
Atsushi Hayakawa
gepuro task views
gepuro task views
Atsushi Hayakawa
nginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積する
Atsushi Hayakawa
implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化
Atsushi Hayakawa
イケてる分析基盤をつくる
イケてる分析基盤をつくる
Atsushi Hayakawa
らずぱいラジコン
らずぱいラジコン
Atsushi Hayakawa
Mais de Atsushi Hayakawa
(20)
tidyverse.orgの翻訳
tidyverse.orgの翻訳
Zepp play soccerで測ってみた
Zepp play soccerで測ってみた
dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?
トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018
バンクーバー旅行記
バンクーバー旅行記
Analyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.R
Visual Studio CodeでRを使う
Visual Studio CodeでRを使う
トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017
simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65
useR!2017 in Brussels
useR!2017 in Brussels
Japan.R 2016の運営
Japan.R 2016の運営
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
統計的学習の基礎 4.4~
統計的学習の基礎 4.4~
Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝
最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情
gepuro task views
gepuro task views
nginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積する
implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化
イケてる分析基盤をつくる
イケてる分析基盤をつくる
らずぱいラジコン
らずぱいラジコン
Último
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
Último
(9)
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Nltk for biginer
1.
にこにこテキストマイニング勉強会
初めての NLTK ーツイートでの累積頻度ー 早川 敦士
2.
http://www.slideshare.net/gepuro/ に資料が公開されています。
3.
AGENDA ●自己紹介 ●NLTK について ●ツイートの取得 ●MeCab でツイートの分かち書き ●NLTK
を用いて累積頻度プロット ●参考資料
4.
AGENDA ●自己紹介 ●NLTK について ●ツイートの取得 ●MeCab でツイートの分かち書き ●NLTK
を用いて累積頻度プロット ●参考資料
5.
自己紹介
早川 敦士 電気通信大学電気通信学部 システム工学科 二年 TwitterID: @gepuro テキストマイニング初心者 プログラミング初心者
6.
AGENDA ●自己紹介 ●NLTK について ●ツイートの取得 ●MeCab でツイートの分かち書き ●NLTK
を用いて累積頻度プロット ●参考資料
7.
NLTK について
Natural Language Toolkit の略 ペンシルバニア大学で、 コンピュータ言語学コーパスの一部として作成 ● 単純化 ● 一貫性 ● 拡張性 ● モジュール性 を目標にデザインされた。
8.
NLTK について
単純化 退屈で面倒な作業を少なくする ユーザーへ NLP の実用知識を与える 直感的なフレームワーク
9.
NLTK について
一貫性 一貫したインターフェイスとデータ構造 推測しやすいメソッド名
10.
NLTK について
拡張性 新しいソフトウェアモジュールが 容易に対応可能であるような構造
11.
NLTK について
モジュール性 ツールキットの他の部分の理解を必要なしで、独 立して利用できるコンポーネント
12.
NLTK について
要は、 使いやすいように 作った
13.
AGENDA ●自己紹介 ●NLTK について ●ツイートの取得 ●MeCab でツイートの分かち書き ●NLTK
を用いて累積頻度プロット ●参考資料
14.
ツイートの取得
ぺちゃくちゃ Reader で取得 Windows で使用可能です。 python-twitter なるものがあるそうだけど、 知識不足の為、断念。 一度目の挫折 orz
15.
ツイートの取得
まずは、ダウンロード。 しみず工房 http://pcbase.web.infoseek.co.jp/ 過去の投稿を取得後、 csv ファイルに出力
16.
ツイートの取得
csv ファイルには、 ● 何番目のツイートか ● 発言ユーザー ● ツイート内容 ● ツイートの投稿時間 ● 謎の数字
17.
ツイートの取得
今回、使用した情報は、 自分のツイート内容です。 投稿時間等の他の情報は使用しませんでした。
18.
ツイートの取得 Python で csv
を使おうとしたら苦戦しました。 ↓ Google Document を使用した。 二度目の挫折 orz
19.
ツイートの取得 必要な無いツイート以外の内容を削除したのち、
tcv 形式で出力しました。 これで、とりあえず一段落。
20.
AGENDA ●自己紹介 ●NLTK について ●ツイートの取得 ●MeCab でツイートの分かち書き ●NLTK
を用いて累積頻度プロット ●参考資料
21.
MeCab で分かち書き 分かち書きするなら、 MeCab
でしょ!
22.
MeCab で分かち書き という訳で、 MeCab
のインストール $ sudo apt-get install mecab Ubuntu10.10 で動作確認
23.
MeCab で分かち書き $ mecab
-Owakati input.tcv -o twitter.txt これで分かち書きされる。
24.
AGENDA ●自己紹介 ●NLTK について ●ツイートの取得 ●MeCab でツイートの分かち書き ●NLTK
を用いて累積頻度プロット ●参考資料
25.
NLTK を用いて累積頻度プロット
まずは、インストールを、 $ sudo apt-get install python-nltk 参考書を見ながら、 プログラムを書いてみました。
26.
NLTK を用いて累積頻度プロット #!/usr/bin/python import sys import
nltk from nltk.book import * from nltk.corpus import PlaintextCorpusReader reload(sys) sys.setdefaultencoding('utf-8') corpus_root = '/home/dedicatus545/Dropbox/Documents/nlp/' wordlist = PlaintextCorpusReader(corpus_root,'twitter.txt',encoding='utf-8') fdist = FreqDist(wordlist.words('twitter.txt')) fdist.plot(40,cumulative=True)
27.
NLTK を用いて累積頻度プロット
28.
NLTK を用いて累積頻度プロット
文字化け!!
29.
NLTK を用いて累積頻度プロット
しかも、 文字化けだけで無く、 y 軸が割合では無く、 カウントで表示されている。 三度目の挫折 orz
30.
NLTK を用いて累積頻度プロット
しかし、ここは譲ることができない。 という訳で、 文字化けの修正と、 y 軸を割合で表示できるよう にしました。
31.
NLTK を用いて累積頻度プロット
どうやら、 NLTK ツールキットの内部的な問題なので、 ライブラリにパッチを当ててみました。
32.
NLTK を用いて累積頻度プロット
グラフ出力のメソッドは、 /usr/lib/pymodules/python2.6/nltk/probability.py を参照してます。
33.
NLTK を用いて累積頻度プロット
変更した内容は、 ascii コードでの処理を utf-8 に変更 累積の割合で表示できるように、引数を追加 フォントの指定による文字化けの回避です。 http://www.mma.club.uec.ac.jp/~hayakawa/nltk_probability_plot.txt に掲載しました。
34.
NLTK を用いて累積頻度プロット #!/usr/bin/python import nltk from
nltk.book import * from nltk.corpus import PlaintextCorpusReader corpus_root = '/home/dedicatus545/Dropbox/Documents/nlp/' wordlist = PlaintextCorpusReader(corpus_root,'twitter.txt',encoding='utf-8') fdist = FreqDist(wordlist.words('twitter.txt')) fdist.plot(40,cumulative=True,percent=True) # 上位 40 単語でプロット を実行しました。
35.
NLTK を用いて累積頻度プロット
36.
NLTK を用いて累積頻度プロット 助詞や句読点で大半を占めていることが分かる。
自分のツイートの特徴的なものが 出てこなかった。
37.
NLTK を用いて累積頻度プロット そこで、上位
100 語を出力してみた。 fdist.tabulate(100) で表示される。
38.
NLTK を用いて累積頻度プロット
特徴的な語は、 Http, 今日、何、時間、僕、 勉強、 R 、 fkhr 、 mlka 、 けど、良い、アニメ、明日 頻度順
39.
NLTK を用いて累積頻度プロット
アニメ!
40.
NLTK を用いて累積頻度プロット
しかし、アニメより、 勉強という語の方が出現頻度が高くて、 安心しました。
41.
AGENDA ●自己紹介 ●NLTK について ●ツイートの取得 ●MeCab でツイートの分かち書き ●NLTK
を用いて累積頻度プロット ●参考資料
42.
参考資料
出版 O'RELLY 入門 自然言語処理 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳
43.
おわり ご清聴ありがとうございました。
Baixar agora