Sistem Question Answering menggunakan teknik Knowledge Annotation dan Knowledge Mining untuk menjawab pertanyaan dari World Wide Web. Teknik ini melibatkan penandaihan pengetahuan dari basis data tertutup dan penambangan pengetahuan dari hasil pencarian di internet untuk memperoleh jawaban atas pertanyaan fakta. Sistem ini mampu menjawab 36,6% pertanyaan dengan tepat tanpa dukungan pengetahuan eksplisit.
Question Answering from the Web Using Knowledge Annotation and Knowledge Mining TechniquesP resentasi 2
1. Question Answering from the Web Using
Knowledge Annotation and Knowledge Mining Techniques
oleh
Jimmy Lin and Boris Katz
diceritakan kembali oleh:
Jan Peter Alexander
2. Poin Penting Paper
● Sistem Question-Answering
● Data dari World Wide Web (WWW)
ARANEA
● Teknik
● Knowledge Annotation
● Knowledge Minning
START
paragraf
3. Permasalahan
● Sistem Temu-Kembali Traditional
● Pencarian dengan daftar potensi halaman.
[bikin pusing]
● Factoid!
● Pertanyaan mengarah ke Jawaban
– Kapan John Doe Lahir?
● Jawaban sederhana
– 1970 [TAHUN]
4. Konsep
● Hukum Zipf (Zipf’s Law)
“A small fraction of question types accounts for a
significant portion of all question instances.”
“Sebagian kecil dari jenis pertanyaan menjawab
sebagian besar pertanyaan-pertanyaan yang ada.”
9. Kuantitas daripada Kualitas
Ada 2 Jenis kueri:
- Tepat (exact)
Pattern matching
- Tidak Tepat (inexact)
Sekumpulan kata kunci
“When did the
Mesozoic period end?”
Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
10. “When did the
Mesozoic period end?”
Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan Query: When did the Mesozoic
period end
Tipe: inexact
Skor: 1
Snippet yg hendak digali: 100
Query: the Mesozoic period
ended
Tipe: inexact
Skor: 1
Snippet yg hendak digali: 100
Query: the Mesozoic period
ended ?x
Type: exact
Skor: 2
Snippet yg hendak digali: 100
Maks. panjang ?x: 50
Maks. panjang kata ?x: 5
11. Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
Menghasilkan semua kemungkinan
N-gram
(Unigram, Bigram, Trigram, dan
Tetragram)
dari potongan teks hasil Eksekusi
Permintaan.
Lalu diberi skor awal berdasarkan tipe
teks (exact vs. inexact) tersebut.
12. Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
N-gram diskor ulang berdasarkan
jumlah penemuan kembali n-gram
tersebut.
Konsep:
Sebuah jawaban yang ditemukan pada
beberapa dokumen memiliki
kemungkinan sebagai jawaban sahih.
13. Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
N-gram dieliminasi berdasarkan
kriteria:
✔ Kandidat diawali/diakhiri stop word
dibuang
✔ Kandidat yang mengandung
pertanyaan asli dibuang.
Kecuali yang mengandung focus
words.
“How many meters. . . ”
✔ Heuristik untuk menerapkan tipe
jawaban
“how far”, “how fast”, “how tall”
→ Jawaban numerik
✔ Filter-filter tertutup (fixed-list)
untuk jawaban bertipe closed-
class items.
“what sports...”, “what
nationality...”, “what language...”
14. Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
Menggabungkan n-gram yang lebih
pendek ke n-gram yang panjang
apabila
n-gram pendek terdapat di dalam n-
gram yang panjang.
Skor “de Soto”
ditambahkan ke
Skor “Hernando de Soto”
18. Hasil
# of q. %
Knowledge
Annotation
Benar 30 6.0
Tidak tepat 2 0.4
Salah 10 2.0
Total 42 8.4
Knowledge
Mining
Benar 153 30.6
Tidak tepat 43 8.6
Salah 262 52.4
Total 458 91.6
Total Benar 183 36.6
Tidak tepat 45 9.0
Salah 272 54.4
Total 500 100.0
Performa
Knowledge
Annotation
Benar 71.4
Tidak tepat 4.7
Salah 23.9
Knowledge
Mining
Benar 33.4
Tidak Tepat 9.4
Salah 57.2
● Unsupported
(AQUAINT)
● inexact
19. Hasil (cont'd)
● Sekitar 16% (30/183) jawaban tepat didapat dari
knowledge annotation.
● 28 basisdata access schemata
● 7 knowledge source
● Hanya data beberapa hari kerja
● Butuh pemahaman tentang natural language.
● Human error (Machine Learning);
● Pertanyaan temporal (“Gubernur tahun 1950”);
● Nilai Semantik (“orang kedua”);
21. Contoh Hasil Kueri
● When is Gerald Ford’s birthday?
● July 14, 1913
● (extracted using knowledge annotation techniques from biography.com)
● Who founded Taoism?
● Lao Tzu
● (extracted using knowledge mining techniques)
● What was the name of the first child of English parents to be born in
America?
● Virginia Dare
● (extracted using knowledge mining techniques)
22. Mining Problem
● (1) Wilt Chamberlain scored 100 points on March 2,
1962 against the New Yorks Knicks.
● (2) On December 8, 1961, Wilt Chamberlain scored
78 points in a triple overtime game. It was a new
NBA record, but Warriors coach Frank McGuire
didn’t expect it to last long, saying, “He’ll get 100
points someday.” McGuire’s prediction came true
just a few months later in a game against the New
York Knicks on March 2.
Notas do Editor
Jenis pertanyaannya sama. Butuh jenis informasi yang sama -- cuma beda jawaban saja. Contoh: Ibu kota Amerika apa, yah? Ibu kota Indonesia apa, yah?
Jenis pertanyaannya sama. Butuh jenis informasi yang sama -- cuma beda jawaban saja. Contoh: Ibu kota Amerika apa, yah? Ibu kota Indonesia apa, yah?