3. 1章:テキストデータで扱われる単語の説明
単語の説明
• トークン:処理する単位「単語」
• 語彙:単語の相対 有限で考えることが多い(名詞,動詞,形容詞,数詞(wikipedia 引用))
• 句:文より短い2単語以上文法的または意味的な集まり,この単位で処理することがある
• 文:文を1つの記号列として扱うことが多い
This is an apple. Do you like apple ?
例
トークン:8(句読点も含めると10)
語彙:7(This is an apple do you like)
句:this is , an apple ....
文: This is an apple. / Do you like apple ?
5. 1章:自然言語処理のタスク
• 品詞タグ付けと構文解析:文の構文の次に単語の品詞を考える.
The business results are above average.
英語の主な品詞タグ(例)
UKW : 不明な品詞
CC:等位接続詞
CD :基数
DT:限定詞
IN :前置詞
JJ :形容詞
NN :名詞
NNP :固有名詞
PRP :代名詞
QT :数量詞
RB :副詞
SYM :記号
VB :動詞
WH :Wh語
https://www.ibm.com/support/knowledgecenter/ja/SS5RWK_3.5.0/com.ibm.discovery.es.ta.doc/iiysspostagset.htm品詞一覧
NP(名詞句) VP(動詞句)
IN(前置詞)
NP(名詞句)
VB(動詞)
NN(名詞)
DT(限定詞)JJ(形容詞)NN(名詞)
6. 1章:自然言語処理のタスク
• 単語分割
単語の分割がない(日本語) 元々空白で単語分割(英語)
Dear Mr.Gere,
I hope you are doing fine.
Thank you for coming to our office the
other day in your busy days.We want to
work with you but due to some reason,
we must to cancel your unofficial job
offer.
Thank you for your understanding and
continuous support.
Best Regards,
Manabu Eibun
テキストで単語に分割されていない言語を単語に分割するタスク
吾輩は猫である。名前はまだ無い。
どこで生れたかとんと見当けんとうが
つかぬ。何でも薄暗いじめじめした所で
ニャーニャー泣いていた事だけは記憶し
ている。吾輩はここで始めて人間という
ものを見た。しかもあとで聞くとそれは
書生という人間中で一番獰悪どうあくな
種族であったそうだ。この書生というの
は時々我々を捕つかまえて煮にて食うと
いう話である。しかしその当時は何とい
う考もなかったから別段恐しいとも思わ
なかった。ただ彼の掌てのひらに載せら