Enviar pesquisa
Carregar
簡単な算数でできる文章校正
•
0 gostou
•
1,220 visualizações
H
hirokiky
Seguir
【初心者向け】Pythonで手軽に始める文章校正というイベントで登壇した発表資料です。 https://churadata.connpass.com/event/234308/
Leia menos
Leia mais
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 35
Baixar agora
Baixar para ler offline
Recomendados
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
研究法(Claimとは)
研究法(Claimとは)
Jun Rekimoto
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
GentaYoshimura
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
Yusuke Fujimoto
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
Takanori Ogata
Recomendados
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
研究法(Claimとは)
研究法(Claimとは)
Jun Rekimoto
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
GentaYoshimura
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
Yusuke Fujimoto
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
Takanori Ogata
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
Deep Learning JP
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
最適輸送の解き方
最適輸送の解き方
joisino
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
Masanori Kado
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)
対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)
marieooshima
論文の書き方入門 2017
論文の書き方入門 2017
Hironori Washizaki
BERT入門
BERT入門
Ken'ichi Matsui
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
hoxo_m
異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法
MapR Technologies Japan
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
社内勉強会 2014/10/08
社内勉強会 2014/10/08
Takaki Yoneyama
GenerisLightningTalks #18 Naruhiko Ogasawara
GenerisLightningTalks #18 Naruhiko Ogasawara
Naruhiko Ogasawara
Mais conteúdo relacionado
Mais procurados
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
Deep Learning JP
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
最適輸送の解き方
最適輸送の解き方
joisino
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
Masanori Kado
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)
対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)
marieooshima
論文の書き方入門 2017
論文の書き方入門 2017
Hironori Washizaki
BERT入門
BERT入門
Ken'ichi Matsui
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
hoxo_m
異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法
MapR Technologies Japan
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
Mais procurados
(20)
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
全力解説!Transformer
全力解説!Transformer
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
最適輸送の解き方
最適輸送の解き方
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)
対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)
論文の書き方入門 2017
論文の書き方入門 2017
BERT入門
BERT入門
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
Semelhante a 簡単な算数でできる文章校正
社内勉強会 2014/10/08
社内勉強会 2014/10/08
Takaki Yoneyama
GenerisLightningTalks #18 Naruhiko Ogasawara
GenerisLightningTalks #18 Naruhiko Ogasawara
Naruhiko Ogasawara
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
音声認識超比較、各社コグニティブサービス全部入り
音声認識超比較、各社コグニティブサービス全部入り
takuino
Machine Learning Seminar (5)
Machine Learning Seminar (5)
Tomoya Nakayama
言語資源と付き合う
言語資源と付き合う
Yuya Unno
NumPyのすゝめ
NumPyのすゝめ
iPride Co., Ltd.
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno
PyPy 紹介
PyPy 紹介
shoma h
Pythonで業務改善をしたときにあった問題(ライト版)
Pythonで業務改善をしたときにあった問題(ライト版)
Satoshi Yamada
スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronama
Hiroyoshi Komatsu
Code jp2013で行った ショートコーディング について
Code jp2013で行った ショートコーディング について
Fumihito Yokoyama
Semelhante a 簡単な算数でできる文章校正
(12)
社内勉強会 2014/10/08
社内勉強会 2014/10/08
GenerisLightningTalks #18 Naruhiko Ogasawara
GenerisLightningTalks #18 Naruhiko Ogasawara
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
音声認識超比較、各社コグニティブサービス全部入り
音声認識超比較、各社コグニティブサービス全部入り
Machine Learning Seminar (5)
Machine Learning Seminar (5)
言語資源と付き合う
言語資源と付き合う
NumPyのすゝめ
NumPyのすゝめ
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
PyPy 紹介
PyPy 紹介
Pythonで業務改善をしたときにあった問題(ライト版)
Pythonで業務改善をしたときにあった問題(ライト版)
スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronama
Code jp2013で行った ショートコーディング について
Code jp2013で行った ショートコーディング について
Mais de hirokiky
エンジニアが起業のアイディアを見つける方法
エンジニアが起業のアイディアを見つける方法
hirokiky
それ、公開しちゃおうよ - みんなのPython勉強会63登壇
それ、公開しちゃおうよ - みんなのPython勉強会63登壇
hirokiky
プロダクト開発してわかったDjangoの深〜いパーミッション管理の話 @ PyconJP2017
プロダクト開発してわかったDjangoの深〜いパーミッション管理の話 @ PyconJP2017
hirokiky
営業も広報もいない僕たちが11年間やってきたこと
営業も広報もいない僕たちが11年間やってきたこと
hirokiky
LLoT ランゲージアップデート Python
LLoT ランゲージアップデート Python
hirokiky
How we realized SOA by Python at PyCon JP 2015
How we realized SOA by Python at PyCon JP 2015
hirokiky
価値を届ける技術 #bpstudy 96
価値を届ける技術 #bpstudy 96
hirokiky
Pycon2014 django performance
Pycon2014 django performance
hirokiky
gargant.dispatch, a flexible dispatcher for WSGI
gargant.dispatch, a flexible dispatcher for WSGI
hirokiky
Django最速デバッグ指南 PyConAPAC 2013
Django最速デバッグ指南 PyConAPAC 2013
hirokiky
軽量のススメ
軽量のススメ
hirokiky
django-websettingsの紹介
django-websettingsの紹介
hirokiky
pyramid_layoutと僕と、ときどきzope.interface
pyramid_layoutと僕と、ときどきzope.interface
hirokiky
My pyhack 1301
My pyhack 1301
hirokiky
Useful Django 1.4
Useful Django 1.4
hirokiky
使えるDjango1.4
使えるDjango1.4
hirokiky
個人の嗜好を学習し記事を推奨するフィードリーダ
個人の嗜好を学習し記事を推奨するフィードリーダ
hirokiky
卒研中間発表資料:個人に最適化したフィードリーダの構築
卒研中間発表資料:個人に最適化したフィードリーダの構築
hirokiky
Mais de hirokiky
(18)
エンジニアが起業のアイディアを見つける方法
エンジニアが起業のアイディアを見つける方法
それ、公開しちゃおうよ - みんなのPython勉強会63登壇
それ、公開しちゃおうよ - みんなのPython勉強会63登壇
プロダクト開発してわかったDjangoの深〜いパーミッション管理の話 @ PyconJP2017
プロダクト開発してわかったDjangoの深〜いパーミッション管理の話 @ PyconJP2017
営業も広報もいない僕たちが11年間やってきたこと
営業も広報もいない僕たちが11年間やってきたこと
LLoT ランゲージアップデート Python
LLoT ランゲージアップデート Python
How we realized SOA by Python at PyCon JP 2015
How we realized SOA by Python at PyCon JP 2015
価値を届ける技術 #bpstudy 96
価値を届ける技術 #bpstudy 96
Pycon2014 django performance
Pycon2014 django performance
gargant.dispatch, a flexible dispatcher for WSGI
gargant.dispatch, a flexible dispatcher for WSGI
Django最速デバッグ指南 PyConAPAC 2013
Django最速デバッグ指南 PyConAPAC 2013
軽量のススメ
軽量のススメ
django-websettingsの紹介
django-websettingsの紹介
pyramid_layoutと僕と、ときどきzope.interface
pyramid_layoutと僕と、ときどきzope.interface
My pyhack 1301
My pyhack 1301
Useful Django 1.4
Useful Django 1.4
使えるDjango1.4
使えるDjango1.4
個人の嗜好を学習し記事を推奨するフィードリーダ
個人の嗜好を学習し記事を推奨するフィードリーダ
卒研中間発表資料:個人に最適化したフィードリーダの構築
卒研中間発表資料:個人に最適化したフィードリーダの構築
Último
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Shota Ito
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
furutsuka
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Atomu Hidaka
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
osamut
Último
(9)
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
簡単な算数でできる文章校正
1.
清原弘貴@hirokiky 簡単な算数で できる文章校正 (ホントに)
2.
この発表でお伝えしたいこと 自然言語処理って、気軽に楽しめます!
3.
できるようになること 同音異義語の間違いを校正する!
4.
たとえば これは以外な結果になりました → 意外
5.
でも難しいんでしょう? 形態素解析 コーパス 確率的LSA Ngram言語モデル Back-offスムージング LSTM BERT ︙
6.
でも今日だけは違います! Pythonと足し算が分かればOKです 理解できることを優先。説明の正確さは優先度低め。 かつ延長線上には本格的な自然言語があるようにする。
7.
Pythonについて知っておいてほしいこと ● print ● 足し算 ●
if、for ● ファイルオープン ● 辞書 ● リスト、集合 ● import
8.
清原弘貴@hirokiky 簡単な算数で できる文章校正 (ホントに)
9.
お前だれよ @hirokiky(清原弘貴) 株式会社ゼンプロダクツ代表取締役 Shodo(shodo.ink)という AI校正、記事の執筆プラットフォームを開発中! 無料で使えます。
10.
話の展開 ● 同音異義語の校正を「どう作るか」 ● 前提知識をサクッと紹介 ○
形態素解析 ○ N-gram ○ コーパス ● 環境の準備方法を説明 ● 小さなプログラムで遊ぼう ● 校正プログラムを書こう! ○ 同音異義語のチェック対象を見つける ○ コーパスから同音異義語を学習する ○ 学習した内容を元に校正する ● 今後の展望や現状足りないこと ○ 漢字の表記を寄せる ○ 賢い言語モデルを使う
11.
同音異義語の校正をどう作るか
12.
同音異義語の校正を「どう作るか」(1) 「これは以外なものでした」 チェック候補
13.
同音異義語の校正を「どう作るか」(2) イガイ ● 以外 ● 意外 ●
︙
14.
同音異義語の校正を「どう作るか」(3) ● 以外︰20 ● 意外︰98 ●
︙ こっちのほうが それっぽいぞ!
15.
同音異義語の校正を「どう作るか」 ● 校正のチェック対象になる言葉を見つける ● 同音異義語の候補を一覧にする ●
各候補の点数を、文脈などを考慮して計算する ● 現在の値と比較して候補の値が良ければ校正する
16.
前提知識をサクッと紹介
17.
前提知識をサクッと紹介 形態素解析︰ 分かち書きして「かな」や「品詞」を教えてくれる ● これ(コレ) -
代名詞 ● は(ハ) - 助詞 ● 以外(イガイ) - 名詞 ● な(ナ) - 助動詞 ● もの(モノ) - 名詞
18.
前提知識をサクッと紹介 N-gram︰ 分かち書きしたのを2個(N個)ずつまとめたもの ● (“これ”, “は”) ●
(“は”, “以外”) ● (“以外”, “な”) ● (“な”, “もの”) ● ︙
19.
前提知識をサクッと紹介 コーパス︰ 学習とかに使う日本語文のデータ 今回はWikipediaのテキストを文(センテンス)ごとに分けたもの。 Wikipediaにある日本語はそれなりに確からしいと考えて勉強させて もらう。
20.
環境の準備方法を説明 sudo apt install
mecab libmecab-dev pip install fugashi unidic-lite
21.
小さなプログラムで遊ぼう
22.
DEMO https://github.com/zenproducts/chura-22
23.
校正プログラムを書こう
24.
校正プログラムを書こう!(学習1) コーパスを読んでN-gramをカウントした辞書を作る { ('システム', '運用'): 7, ('運用',
'分野'): 1, ('分野', 'で'): 241, ('で', '主に'): 30, }
25.
出現回数で校正する方法 (“意外”, “な”) のカウントは大きくなり、 (“以外”,
“な”) はほぼゼロのはず。 カウントの差が明らかに大きいなら校正エラーとできる。 ※ 「以外なら」は (“以外”, “なら”) となるので区別できる
26.
校正プログラムを書こう!(学習2) 同音異義語の一覧を作る { 'タイゲン': {'体現', '体言',
'大言'}, 'ブンリ': {'分離', '文理'}, 'キソ': {'基礎', '起訴'}, 'ナンセイ': {'南征', '南西'}, }
27.
今回、同音異義語の判定をする対象 ● 2文字の言葉 ● 言葉に漢字が含まれる ●
固有名詞ではない 内蔵、以外、意思、生産など
28.
“これは以外なものですね” これ は 以外 な もの です ね 以外 → 以外
or 意外 (“以外”, “な”) はコーパスに0回 (“意外”, “な”) はコーパスに41回 同音異義語間違い! 以外→意外を検知
29.
DEMO https://github.com/zenproducts/chura-22
30.
今後の展望や現状足りないこと
31.
現状足りないこと ● 単なるカウントなので精度が悪い ● 後ろの言葉しか見てないので文脈を拾いきれない ●
漢字の表記ゆれや旧字などに対応できていない ● 出現頻度がかなり低い言葉も候補にしてしまっている ● ミスがほとんど起こらない同音異義語もチェックしてしまう
32.
今後の展望 ● チャレンジしてみよう ○ N-gramを3にする ○
後ろだけでなく前後で判定する ○ コーパスを色々と変えたり手元にあるテキストを使ってみる ● もっと興味をもったら ○ nltkを使う ○ より良い言語モデルを使う ○ 確率的LSAなどを組み合わせる ○ 優先度の高い同音異義語だけチェックする
33.
まとめ 自然言語処理は楽しい!
34.
でも実際はこの先が難しく興味深い。自前が大変なときは Shodoなら無料から文章校正が使えます https://shodo.ink/
35.
興味を持った方は Shodoというスタートアップがあります。 自然言語処理の情報も発信してるので、 ぜひフォローして応援してください。 https://twitter.com/hirokiky/
Baixar agora