簡単な算数でできる文章校正

清原弘貴@hirokiky
簡単な算数で
できる文章校正
（ホントに）

この発表でお伝えしたいこと
自然言語処理って、気軽に楽しめます！

できるようになること
同音異義語の間違いを校正する！

たとえば
これは以外な結果になりました
→ 意外

でも難しいんでしょう？
形態素解析
コーパス
確率的LSA
Ngram言語モデル
Back-oﬀスムージング
LSTM
BERT
︙

でも今日だけは違います！
Pythonと足し算が分かればOKです
理解できることを優先。説明の正確さは優先度低め。
かつ延長線上には本格的な自然言語があるようにする。

Pythonについて知っておいてほしいこと
● print
● 足し算
● if、for
● ファイルオープン
● 辞書
● リスト、集合
● import

お前だれよ
@hirokiky（清原弘貴）
株式会社ゼンプロダクツ代表取締役
Shodo（shodo.ink）という
AI校正、記事の執筆プラットフォームを開発中！
無料で使えます。

話の展開
● 同音異義語の校正を「どう作るか」
● 前提知識をサクッと紹介
○ 形態素解析
○ N-gram
○ コーパス
● 環境の準備方法を説明
● 小さなプログラムで遊ぼう
● 校正プログラムを書こう！
○ 同音異義語のチェック対象を見つける
○ コーパスから同音異義語を学習する
○ 学習した内容を元に校正する
● 今後の展望や現状足りないこと
○ 漢字の表記を寄せる
○ 賢い言語モデルを使う

同音異義語の校正をどう作るか

同音異義語の校正を「どう作るか」（1）
「これは以外なものでした」
チェック候補

イガイ
● 以外
● 意外
● ︙

● 以外︰20
● 意外︰98
● ︙
こっちのほうが
それっぽいぞ！

同音異義語の校正を「どう作るか」
● 校正のチェック対象になる言葉を見つける
● 同音異義語の候補を一覧にする
● 各候補の点数を、文脈などを考慮して計算する
● 現在の値と比較して候補の値が良ければ校正する

前提知識をサクッと紹介

形態素解析︰
分かち書きして「かな」や「品詞」を教えてくれる
● これ（コレ） - 代名詞
● は（ハ） - 助詞
● 以外（イガイ） - 名詞
● な（ナ） - 助動詞
● もの（モノ） - 名詞

N-gram︰
分かち書きしたのを2個（N個）ずつまとめたもの
● (“これ”, “は”)
● (“は”, “以外”)
● (“以外”, “な”)
● (“な”, “もの”)
● ︙

コーパス︰
学習とかに使う日本語文のデータ
今回はWikipediaのテキストを文（センテンス）ごとに分けたもの。
Wikipediaにある日本語はそれなりに確からしいと考えて勉強させて
もらう。

環境の準備方法を説明
sudo apt install mecab libmecab-dev
pip install fugashi unidic-lite

小さなプログラムで遊ぼう

DEMO
https://github.com/zenproducts/chura-22

校正プログラムを書こう

校正プログラムを書こう！（学習1）
コーパスを読んでN-gramをカウントした辞書を作る
{
('システム', '運用'): 7,
('運用', '分野'): 1,
('分野', 'で'): 241,
('で', '主に'): 30,
}

出現回数で校正する方法
(“意外”, “な”) のカウントは大きくなり、
(“以外”, “な”) はほぼゼロのはず。
カウントの差が明らかに大きいなら校正エラーとできる。
※ 「以外なら」は (“以外”, “なら”) となるので区別できる

校正プログラムを書こう！（学習2）
同音異義語の一覧を作る
{
'タイゲン': {'体現', '体言', '大言'},
'ブンリ': {'分離', '文理'},
'キソ': {'基礎', '起訴'},
'ナンセイ': {'南征', '南西'},
}

今回、同音異義語の判定をする対象
● 2文字の言葉
● 言葉に漢字が含まれる
● 固有名詞ではない
内蔵、以外、意思、生産など

“これは以外なものですね”
これ　は　以外　な　もの　です　ね
以外 → 以外 or 意外
(“以外”, “な”) はコーパスに0回
(“意外”, “な”) はコーパスに41回
同音異義語間違い！　以外→意外を検知

今後の展望や現状足りないこと

現状足りないこと
● 単なるカウントなので精度が悪い
● 後ろの言葉しか見てないので文脈を拾いきれない
● 漢字の表記ゆれや旧字などに対応できていない
● 出現頻度がかなり低い言葉も候補にしてしまっている
● ミスがほとんど起こらない同音異義語もチェックしてしまう

今後の展望
● チャレンジしてみよう
○ N-gramを3にする
○ 後ろだけでなく前後で判定する
○ コーパスを色々と変えたり手元にあるテキストを使ってみる
● もっと興味をもったら
○ nltkを使う
○ より良い言語モデルを使う
○ 確率的LSAなどを組み合わせる
○ 優先度の高い同音異義語だけチェックする

まとめ
自然言語処理は楽しい！

でも実際はこの先が難しく興味深い。自前が大変なときは
Shodoなら無料から文章校正が使えます
https://shodo.ink/

興味を持った方は
Shodoというスタートアップがあります。
自然言語処理の情報も発信してるので、
ぜひフォローして応援してください。
https://twitter.com/hirokiky/

簡単な算数でできる文章校正

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 簡単な算数でできる文章校正

Semelhante a 簡単な算数でできる文章校正 (12)

Mais de hirokiky

Mais de hirokiky (18)

Último

Último (9)

簡単な算数でできる文章校正