SlideShare uma empresa Scribd logo
1 de 31
Baixar para ler offline
説明文と記述要素の関係要因の調査
そこにクエリの「何」が書かれているのか
長岡技術科学大学
久保木武承 山本和英
1
検索の課題
2
クエリについての“何”の説明なの?
Z80の……
内容がすぐに
はわからない
語が含まれて
いるだけかも
しれない
記述要素の提案
3
本文を端的に表す“記述要素”の生成
Z80の……
概要,仕様
使い方
別のページ
です
記述要素の定義
(1) 「“クエリ” の」で接続される語
例)“個人情報保護法”の「施行時期」
(2)クエリ+記述要素のみで完結するもの
○ 個人情報保護法の「内容」
× 個人情報保護法の「内容の変化」
実際にこのルールで取ってみると…?
4
記述要素候補の取得
クエリ:個人情報保護法
記述要素の異なり数 366
適切な記述要素 289(79%)
不適切な記述要素 77(21%)
・定義に則った単純な手法
→79%がそのまま利用可能
適切な例:施行,適用,定義,対策,改正,影響
不適切な例:民間事業者,過剰,全面
次の付与実験では、文数の多い52個を使用 5
記述要素の付与
▼目標
記述要素が本文に含まれなくてもいい
▼仮定
同じ記述要素の説明
→共通の語彙を含む
▼アプローチ
共通の語彙を含む説明文に付与
6
記述要素の付与
クエリ:個人情報保護法の規定
前項の規定により事案が移送されたときは、当該事案については、
保有個人情報を移送を受けた行政機関が保有する行政機関個人情
報保護法第二条第三項に規定する保有個人情報と、開示請求を移
送を受けた行政機関の長に対する行政機関個人情報保護法第十
二条第二項に規定する開示請求とみなして、行政機関個人情報保
護法の規定を適用する。この場合において、行政機関個人情報保
護法第十九条第一項中「第十三条第三項」とあるのは、「独立行政
法人等個人情報保護法第十三条第三項」とする。
7
(1)クエリの“記述要素”のを含む段落を抽出
記述要素の付与
クエリ:個人情報保護法の規定
前項の規定により事案が移送されたときは、当該事案については、
保有個人情報を移送を受けた行政機関が保有する行政機関個人
情報保護法第二条第三項に規定する保有個人情報と、開示請求を
移送を受けた行政機関の長に対する行政機関個人情報保護法第
十二条第二項に規定する開示請求とみなして、行政機関個人情報
保護法の規定を適用する。この場合において、行政機関個人情報
保護法第十九条第一項中「第十三条第三項」とあるのは、「独立行
政法人等個人情報保護法第十三条第三項」とする。
8
(2)“記述要素”のキーワードを抜き出す
記述要素の付与
規定のキーワード
・行政機関
・行政機関個人情報保護
法第二条第三項
・保有個人情報
・開示請求
・行政機関個人情報保護
法第十二条第二項
9
(3)キーワードを含む文に“記述要素“を付与
個人情報保護法
を含む文の語
・行政機関
・保有個人情報
・開示請求
付与
今回用いたキーワード群=トリガ
(1)共起語によるトリガ
→1単語、2単語、3単語の組み合わせで生成
例:罰則→(刑事,懲役,罰金)
10
(2)係り受けペアによるトリガ
→記述要素の同義語、下位語も使用
例:適用→(平成17年4月1日,施行)
共起語によるトリガ(1)
●同記述要素の段落の10%以上で共起
する内容語を取得
・検索クエリに用いた語は除外
● 「1単語のみ/2単語/3単語」の組み
合わせで抽出
→キーワードをより多く持っている文と内容の
相関を判断
11
共起語によるトリガ(2)
●予備実験をうけてトリガを限定
(1)一度以上使われたトリガを使用
(2)間違いを2回以上したトリガを不使用
(3)3個以上の異なる記述要素で使われたトリ
ガを不使用
→エラーになりやすい語を排除することで、トリ
ガと記述要素の結びつきを強くする
これで付与を行ってみよう
12
実験-共起語トリガによる付与
・再現率は高いが適合率は低い
・トリガの制約はきいている→平均候補数は減少
・実際に使われたトリガは…?
名称 再現率 適合率 F値 平均候補数
ans 0.72 0.06 0.10 54.0
1trigger(1) 0.70 0.07 0.13 41.4
2trigger(1) 0.70 0.08 0.14 36.5
3trigger(1) 0.62 0.09 0.16 27.3
1trigger(1)(2) 0.42 0.15 0.22 5.9
2trigger(1)(2) 0.54 0.10 0.17 20.9
3trigger(1)(2) 0.55 0.10 0.16 21.8
1trigger(1)(2)(3) 0.37 0.16 0.22 3.4
2trigger(1)(2)(3) 0.52 0.10 0.17 18.5
3trigger(1)(2)(3) 0.55 0.10 0.17 20.3
13
共起トリガによる付与の例
運用→(内閣,国民,月)
施行状況→(公表,内閣,年)
14
毎日新聞社説より「個人情報保護法 「官」だけ得した1年だ
った」 内閣府が昨年7月、幹部の人事異動で従来は公表し
てきた生年月日や最終学歴などを「個人情報に該当する」と
して外した。 国の政策にかかわる幹部官僚の経歴はその
人物を国民がチェックするうえで欠かせないが、他の省庁も
次々と後を追った。
記述要素に関係ある語が得られてはいる
結論-共起語トリガによる付与
●結果
・トリガへの制約で平均候補数は減少
→トリガは限定できている
・説明で使いそうな語は得られた
→トリガは狙い通りに作られている
・しかし、全体として適合率が低い
語の有無では文の内容を保証できない?
→もっと文法的な制約をかけてみよう 15
実験-係り受けトリガによる付与
調査項目
・より構文的な制約の影響
トリガ
「(名詞|動詞)-記述要素(同義語・下位語
含) 」の係り受けペアを抽出
・同義語・下位語はWordNetから抽出
実験条件の変更
・曖昧なor重複する記述要素を削除 16
まとめ-共起・係り受けトリガ比較
p/p=記述要素は正しく付与
p/n=間違って付与した
n/p=取り逃している
n/n=記述要素がないことを正しく認識 17
トリガ 精度 適合率 再現率
system/answer
p/p p/n n/p n/n
1単語 0.46 0.13 0.77 148 978 44 730
2単語 0.73 0.19 0.50 96 409 961299
3単語 0.85 0.23 0.21 41 140 1511568
係り受け 0.86 0.31 0.06 11 24 1811615
正解
セット
0.10- - 192- - 1708
まとめ-共起・係り受けトリガ比較
・係り受けでも精度が低い→大量のエラーのせい
18
トリガ 精度 適合率 再現率
system/answer
p/p p/n n/p n/n
1単語 0.46 0.13 0.77 148 978 44 730
2単語 0.73 0.19 0.50 96 409 961299
3単語 0.85 0.23 0.21 41 140 1511568
係り受け 0.86 0.31 0.06 11 24 1811615
正解
セット
0.10- - 192- - 1708
トリガは正解と不正解の分別に向かない?
→考察へ
考察-実験結果:p/n(エラー)
▼記述要素と関連が高いトリガが多い
22件(92%)―(日付,記述要素),制定(制
限,設ける)等
エラーだからといって、トリガが悪いとは
言えない
19
語の有無だけでは適合率を保証できな
い、という知見に一致する結果
じゃあ何が決定の要因なの?
考察-実験結果:n/p(1)
人はどうやって記述要素を判断したのか
→n/p 181件を人手で再調査
20
判断箇所が不明確
・28文(15%)
・11個は「解説」
・他「対応(4個)」等、
少量のものが幾つか
判断箇所が明確
・153文(85%)
どんな所だった?
考察-実験結果:n/p(2)
クエリが話題として取り上げられている部
分だけが使われていた
→判断に全文は使っていない
例)定義・規定
「個人情報保護法18条2項により, 個人
情報利用目的の事前明示義務が定めら
れている」
21
考察
●トリガの価値
・当てはまりうる記述要素を提示
・しかし、適合率は保証しない
●適合率の向上のヒント
・全文を見るのではなく、クエリに関わる
部分だけを取り扱う
22
まとめ
23
記述要素の判定
・キーワードを利用
・再現率は高い
・適合率が低い
保証要因は何?
課題
クエリについての“何”の説明なの?
本文を端的に表す“記述要素”の生成
今後の課題
●記述要素の保証要因の調査
→適合率の向上を狙う
▼方針
・全文をそのまま使う事はしない
・クエリの話題である事が保証された部分
だけ使用する
24
25
実際に用いた記述要素
ガイドライン/ポイント/意味/違反/運用/影響
/過剰/過剰反応/解釈/解説/改正/概要/
完全施行/観点/関連/基礎/基礎知識/基本
/基本理念/規制/規定/義務/義務規定/教
育/見直し/施行/施行以来/施行後/施行状
況/施行状況調査/施行前/趣旨/重要性/遵
守/条文/制定/成立/精神/全面施行/対応
/対策/対象/対象外/逐条/逐条解説/定め
/定義/適用/適用除外/適用対象/内容/背
景/罰則/範囲/壁/本格施行/目的/問題/
理解/理念/立法
係り受けトリガによる実験の記述要素
・使用した記述要素は以下の通り
意味/違反/運用/影響/解釈/解説/改正/
関連/規定/教育/施行/遵守/制定/成立/
対応/対策/定義/適用/理解
27
p/pの例
●定義(生存,識別)
死者に関する情報であってもその内容が遺族等の
生存する個人を識別できる場合には個人情報保護
法の個人情報として取り扱う必要があります。
●影響(名簿,月)
今年も約2600世帯の名簿を作成する予定だったが、
個人情報保護法が全面施行された4月以降、同市に
「市の職員でもない人間がなぜ来るのか」といった問
い合わせが相次いだ。……
28
p/nの例
●影響(多い,施行)
主催した道中小企業家同友会帯広支部の石戸谷和
政事務局長は「個人情報保護法といっても、正直、
何から始めればいいのか分からない経営者が多い。
施行が目の前に迫り、せっぱ詰まっている」と経営者
たちの胸の内を代弁する。
29
n/pの例
●影響
情報漏洩罪が出てきた背景には、従業員が個人情
報を漏洩するケースが多く、かつ技術による防御に
は限界があるという認識がある。情報セキュリティに
完璧はありえない。完璧を求めなくとも情報セキュリ
ティ対策にはコストがかかり、個人情報保護法の施
行以来、企業は多大なコスト負担に泣いているとい
う現状がある。
30
実験-係り受けトリガによる付与(3)
・記述要素が含まれていても必ずしも適切な付与に
はならない
31
Trigger
Precision
pp/
(pp+pn)
system/answer
p/p p/n n/p n/n
記述要素 0.67 6 3 0 0
同義語 0.21 3 11 0 0
下位語 0.17 2 10 0 0
正解セット - 192 - - 1708

Mais conteúdo relacionado

Mais de 長岡技術科学大学 自然言語処理研究室

Mais de 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 

Último

Último (11)

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

説明文と記述要素の関係要因の調査~そこにクエリの「何」が書かれているのか~