SlideShare uma empresa Scribd logo
1 de 22
Question Answering from the Web Using
Knowledge Annotation and Knowledge Mining Techniques
oleh
Jimmy Lin and Boris Katz
diceritakan kembali oleh:
Jan Peter Alexander
Poin Penting Paper
● Sistem Question-Answering
● Data dari World Wide Web (WWW)
ARANEA
● Teknik
● Knowledge Annotation
● Knowledge Minning
START
paragraf
Permasalahan
● Sistem Temu-Kembali Traditional
● Pencarian dengan daftar potensi halaman.
[bikin pusing]
● Factoid!
● Pertanyaan mengarah ke Jawaban
– Kapan John Doe Lahir?
● Jawaban sederhana
– 1970 [TAHUN]
Konsep
● Hukum Zipf (Zipf’s Law)
“A small fraction of question types accounts for a
significant portion of all question instances.”
“Sebagian kecil dari jenis pertanyaan menjawab
sebagian besar pertanyaan-pertanyaan yang ada.”
Konsep (cont'd)
Aranea
Web
Databases
Google
Knowledge
Annotation
Knowledge
Mining
Knowledge
Boosting
Questions
Answers
Knowledge
Annotation
CIA
World Factbook
Biography.com 50states.com...
When was x born?
What is the birth date of x?
...
→ {biography.com, x, birthdate}
Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
Kuantitas daripada Kualitas
Ada 2 Jenis kueri:
- Tepat (exact)
Pattern matching
- Tidak Tepat (inexact)
Sekumpulan kata kunci
“When did the
Mesozoic period end?”
Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
“When did the
Mesozoic period end?”
Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan Query: When did the Mesozoic
period end
Tipe: inexact
Skor: 1
Snippet yg hendak digali: 100
Query: the Mesozoic period
ended
Tipe: inexact
Skor: 1
Snippet yg hendak digali: 100
Query: the Mesozoic period
ended ?x
Type: exact
Skor: 2
Snippet yg hendak digali: 100
Maks. panjang ?x: 50
Maks. panjang kata ?x: 5
Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
Menghasilkan semua kemungkinan
N-gram
(Unigram, Bigram, Trigram, dan
Tetragram)
dari potongan teks hasil Eksekusi
Permintaan.
Lalu diberi skor awal berdasarkan tipe
teks (exact vs. inexact) tersebut.
Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
N-gram diskor ulang berdasarkan
jumlah penemuan kembali n-gram
tersebut.
Konsep:
Sebuah jawaban yang ditemukan pada
beberapa dokumen memiliki
kemungkinan sebagai jawaban sahih.
Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
N-gram dieliminasi berdasarkan
kriteria:
✔ Kandidat diawali/diakhiri stop word
dibuang
✔ Kandidat yang mengandung
pertanyaan asli dibuang.
Kecuali yang mengandung focus
words.
“How many meters. . . ”
✔ Heuristik untuk menerapkan tipe
jawaban
“how far”, “how fast”, “how tall”
→ Jawaban numerik
✔ Filter-filter tertutup (fixed-list)
untuk jawaban bertipe closed-
class items.
“what sports...”, “what
nationality...”, “what language...”
Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
Menggabungkan n-gram yang lebih
pendek ke n-gram yang panjang
apabila
n-gram pendek terdapat di dalam n-
gram yang panjang.
Skor “de Soto”
ditambahkan ke
Skor “Hernando de Soto”
Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
skor=skor∗
1
∣A∣
∑
w∈A
log
N
wc

Knowledge
Mining
Formulasikan Permintaan
Buat N-grams
Pilih (vote)
Saring Kandidat
Kombinasikan Kandidat
Nilai Kandidat
Dapatkan Dukungan
Eksekusi Permintaan
Cek apakah jawaban benar ada di
teks snippet asli yang didapat dari
web.
Knowledge
Boosting
Pengecekan secara heuristik:
Sekumpulan prosedur untuk
mengenali lokasi geografis, tahun.
Knowledge
Annotation
Knowledge
Mining
Hasil
# of q. %
Knowledge
Annotation
Benar 30 6.0
Tidak tepat 2 0.4
Salah 10 2.0
Total 42 8.4
Knowledge
Mining
Benar 153 30.6
Tidak tepat 43 8.6
Salah 262 52.4
Total 458 91.6
Total Benar 183 36.6
Tidak tepat 45 9.0
Salah 272 54.4
Total 500 100.0
Performa
Knowledge
Annotation
Benar 71.4
Tidak tepat 4.7
Salah 23.9
Knowledge
Mining
Benar 33.4
Tidak Tepat 9.4
Salah 57.2
● Unsupported
(AQUAINT)
● inexact
Hasil (cont'd)
● Sekitar 16% (30/183) jawaban tepat didapat dari
knowledge annotation.
● 28 basisdata access schemata
● 7 knowledge source
● Hanya data beberapa hari kerja
● Butuh pemahaman tentang natural language.
● Human error (Machine Learning);
● Pertanyaan temporal (“Gubernur tahun 1950”);
● Nilai Semantik (“orang kedua”);
Kesimpulan
● Aranea menggunakan 2 jenis teknik:
● Knowledge Annotation
● Knowledge Mining
Contoh Hasil Kueri
● When is Gerald Ford’s birthday?
● July 14, 1913
● (extracted using knowledge annotation techniques from biography.com)
● Who founded Taoism?
● Lao Tzu
● (extracted using knowledge mining techniques)
● What was the name of the first child of English parents to be born in
America?
● Virginia Dare
● (extracted using knowledge mining techniques)
Mining Problem
● (1) Wilt Chamberlain scored 100 points on March 2,
1962 against the New Yorks Knicks.
● (2) On December 8, 1961, Wilt Chamberlain scored
78 points in a triple overtime game. It was a new
NBA record, but Warriors coach Frank McGuire
didn’t expect it to last long, saying, “He’ll get 100
points someday.” McGuire’s prediction came true
just a few months later in a game against the New
York Knicks on March 2.

Mais conteúdo relacionado

Destaque (8)

Daniel parada
Daniel paradaDaniel parada
Daniel parada
 
Formas de evaluacion Mapa conceptual
Formas de evaluacion Mapa conceptualFormas de evaluacion Mapa conceptual
Formas de evaluacion Mapa conceptual
 
Partit
PartitPartit
Partit
 
Sobre aprender feiticaria
Sobre aprender feiticariaSobre aprender feiticaria
Sobre aprender feiticaria
 
Delicious
DeliciousDelicious
Delicious
 
Weekend Ranger Leather
Weekend Ranger LeatherWeekend Ranger Leather
Weekend Ranger Leather
 
Energia 1
Energia 1Energia 1
Energia 1
 
Engenharia ambiental PPR
Engenharia ambiental PPREngenharia ambiental PPR
Engenharia ambiental PPR
 

Último

Demonstrasi Kontekstual Modul 1.2. pdf
Demonstrasi Kontekstual  Modul 1.2.  pdfDemonstrasi Kontekstual  Modul 1.2.  pdf
Demonstrasi Kontekstual Modul 1.2. pdfvebronialite32
 
rpp bangun-ruang-sisi-datar kelas 8 smp.pdf
rpp bangun-ruang-sisi-datar kelas 8 smp.pdfrpp bangun-ruang-sisi-datar kelas 8 smp.pdf
rpp bangun-ruang-sisi-datar kelas 8 smp.pdfGugunGunawan93
 
Catatan di setiap Indikator Fokus Perilaku
Catatan di setiap Indikator Fokus PerilakuCatatan di setiap Indikator Fokus Perilaku
Catatan di setiap Indikator Fokus PerilakuHANHAN164733
 
TPPK_panduan pembentukan tim TPPK di satuan pendidikan
TPPK_panduan pembentukan tim TPPK di satuan pendidikanTPPK_panduan pembentukan tim TPPK di satuan pendidikan
TPPK_panduan pembentukan tim TPPK di satuan pendidikanNiKomangRaiVerawati
 
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdf
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdfAKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdf
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdfTaqdirAlfiandi1
 
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptx
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptxTopik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptx
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptxsyafnasir
 
Materi power point Kepemimpinan leadership .ppt
Materi power point Kepemimpinan leadership .pptMateri power point Kepemimpinan leadership .ppt
Materi power point Kepemimpinan leadership .pptAcemediadotkoM1
 
Modul Ajar Matematika Kelas 2 Fase A Kurikulum Merdeka
Modul Ajar Matematika Kelas 2 Fase A Kurikulum MerdekaModul Ajar Matematika Kelas 2 Fase A Kurikulum Merdeka
Modul Ajar Matematika Kelas 2 Fase A Kurikulum MerdekaAbdiera
 
5. HAK DAN KEWAJIBAN JEMAAH indonesia.pdf
5. HAK DAN KEWAJIBAN JEMAAH indonesia.pdf5. HAK DAN KEWAJIBAN JEMAAH indonesia.pdf
5. HAK DAN KEWAJIBAN JEMAAH indonesia.pdfWahyudinST
 
Membuat Strategi Penerapan Kurikulum Merdeka di dalam Kelas
Membuat Strategi Penerapan Kurikulum Merdeka di dalam KelasMembuat Strategi Penerapan Kurikulum Merdeka di dalam Kelas
Membuat Strategi Penerapan Kurikulum Merdeka di dalam KelasHardaminOde2
 
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...Kanaidi ken
 
Wawasan Nusantara sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...
Wawasan Nusantara  sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...Wawasan Nusantara  sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...
Wawasan Nusantara sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...MarwanAnugrah
 
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKA
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKAPPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKA
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKARenoMardhatillahS
 
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptxAKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptxWirionSembiring2
 
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.ppt
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.pptPertemuan 3-bioavailabilitas-dan-bioekivalensi.ppt
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.pptNabilahKhairunnisa6
 
SBM_Kelompok-7_Alat dan Media Pembelajaran.pptx
SBM_Kelompok-7_Alat dan Media Pembelajaran.pptxSBM_Kelompok-7_Alat dan Media Pembelajaran.pptx
SBM_Kelompok-7_Alat dan Media Pembelajaran.pptxFardanassegaf
 
PUEBI.bahasa Indonesia/pedoman umum ejaan bahasa Indonesia pptx.
PUEBI.bahasa Indonesia/pedoman umum ejaan bahasa Indonesia pptx.PUEBI.bahasa Indonesia/pedoman umum ejaan bahasa Indonesia pptx.
PUEBI.bahasa Indonesia/pedoman umum ejaan bahasa Indonesia pptx.aechacha366
 
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2noviamaiyanti
 
Panduan Mengisi Dokumen Tindak Lanjut.pdf
Panduan Mengisi Dokumen Tindak Lanjut.pdfPanduan Mengisi Dokumen Tindak Lanjut.pdf
Panduan Mengisi Dokumen Tindak Lanjut.pdfandriasyulianto57
 
1.2.a.6. Demonstrasi Konstektual - Modul 1.2 (Shinta Novianti - CGP A10).pdf
1.2.a.6. Demonstrasi Konstektual - Modul 1.2 (Shinta Novianti - CGP A10).pdf1.2.a.6. Demonstrasi Konstektual - Modul 1.2 (Shinta Novianti - CGP A10).pdf
1.2.a.6. Demonstrasi Konstektual - Modul 1.2 (Shinta Novianti - CGP A10).pdfShintaNovianti1
 

Último (20)

Demonstrasi Kontekstual Modul 1.2. pdf
Demonstrasi Kontekstual  Modul 1.2.  pdfDemonstrasi Kontekstual  Modul 1.2.  pdf
Demonstrasi Kontekstual Modul 1.2. pdf
 
rpp bangun-ruang-sisi-datar kelas 8 smp.pdf
rpp bangun-ruang-sisi-datar kelas 8 smp.pdfrpp bangun-ruang-sisi-datar kelas 8 smp.pdf
rpp bangun-ruang-sisi-datar kelas 8 smp.pdf
 
Catatan di setiap Indikator Fokus Perilaku
Catatan di setiap Indikator Fokus PerilakuCatatan di setiap Indikator Fokus Perilaku
Catatan di setiap Indikator Fokus Perilaku
 
TPPK_panduan pembentukan tim TPPK di satuan pendidikan
TPPK_panduan pembentukan tim TPPK di satuan pendidikanTPPK_panduan pembentukan tim TPPK di satuan pendidikan
TPPK_panduan pembentukan tim TPPK di satuan pendidikan
 
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdf
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdfAKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdf
AKSI NYATA Strategi Penerapan Kurikulum Merdeka di Kelas (1).pdf
 
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptx
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptxTopik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptx
Topik 1 - Pengenalan Penghayatan Etika dan Peradaban Acuan Malaysia.pptx
 
Materi power point Kepemimpinan leadership .ppt
Materi power point Kepemimpinan leadership .pptMateri power point Kepemimpinan leadership .ppt
Materi power point Kepemimpinan leadership .ppt
 
Modul Ajar Matematika Kelas 2 Fase A Kurikulum Merdeka
Modul Ajar Matematika Kelas 2 Fase A Kurikulum MerdekaModul Ajar Matematika Kelas 2 Fase A Kurikulum Merdeka
Modul Ajar Matematika Kelas 2 Fase A Kurikulum Merdeka
 
5. HAK DAN KEWAJIBAN JEMAAH indonesia.pdf
5. HAK DAN KEWAJIBAN JEMAAH indonesia.pdf5. HAK DAN KEWAJIBAN JEMAAH indonesia.pdf
5. HAK DAN KEWAJIBAN JEMAAH indonesia.pdf
 
Membuat Strategi Penerapan Kurikulum Merdeka di dalam Kelas
Membuat Strategi Penerapan Kurikulum Merdeka di dalam KelasMembuat Strategi Penerapan Kurikulum Merdeka di dalam Kelas
Membuat Strategi Penerapan Kurikulum Merdeka di dalam Kelas
 
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...
RENCANA + Link2 Materi Pelatihan/BimTek "Teknik Perhitungan & Verifikasi TKDN...
 
Wawasan Nusantara sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...
Wawasan Nusantara  sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...Wawasan Nusantara  sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...
Wawasan Nusantara sebagai satu kesatuan, politik, ekonomi, sosial, budaya, d...
 
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKA
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKAPPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKA
PPT TEKS TANGGAPAN KELAS 7 KURIKUKULM MERDEKA
 
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptxAKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
 
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.ppt
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.pptPertemuan 3-bioavailabilitas-dan-bioekivalensi.ppt
Pertemuan 3-bioavailabilitas-dan-bioekivalensi.ppt
 
SBM_Kelompok-7_Alat dan Media Pembelajaran.pptx
SBM_Kelompok-7_Alat dan Media Pembelajaran.pptxSBM_Kelompok-7_Alat dan Media Pembelajaran.pptx
SBM_Kelompok-7_Alat dan Media Pembelajaran.pptx
 
PUEBI.bahasa Indonesia/pedoman umum ejaan bahasa Indonesia pptx.
PUEBI.bahasa Indonesia/pedoman umum ejaan bahasa Indonesia pptx.PUEBI.bahasa Indonesia/pedoman umum ejaan bahasa Indonesia pptx.
PUEBI.bahasa Indonesia/pedoman umum ejaan bahasa Indonesia pptx.
 
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2
PRESENTASI PEMBELAJARAN IPA PGSD UT MODUL 2
 
Panduan Mengisi Dokumen Tindak Lanjut.pdf
Panduan Mengisi Dokumen Tindak Lanjut.pdfPanduan Mengisi Dokumen Tindak Lanjut.pdf
Panduan Mengisi Dokumen Tindak Lanjut.pdf
 
1.2.a.6. Demonstrasi Konstektual - Modul 1.2 (Shinta Novianti - CGP A10).pdf
1.2.a.6. Demonstrasi Konstektual - Modul 1.2 (Shinta Novianti - CGP A10).pdf1.2.a.6. Demonstrasi Konstektual - Modul 1.2 (Shinta Novianti - CGP A10).pdf
1.2.a.6. Demonstrasi Konstektual - Modul 1.2 (Shinta Novianti - CGP A10).pdf
 

Question Answering from the Web Using Knowledge Annotation and Knowledge Mining TechniquesP resentasi 2

  • 1. Question Answering from the Web Using Knowledge Annotation and Knowledge Mining Techniques oleh Jimmy Lin and Boris Katz diceritakan kembali oleh: Jan Peter Alexander
  • 2. Poin Penting Paper ● Sistem Question-Answering ● Data dari World Wide Web (WWW) ARANEA ● Teknik ● Knowledge Annotation ● Knowledge Minning START paragraf
  • 3. Permasalahan ● Sistem Temu-Kembali Traditional ● Pencarian dengan daftar potensi halaman. [bikin pusing] ● Factoid! ● Pertanyaan mengarah ke Jawaban – Kapan John Doe Lahir? ● Jawaban sederhana – 1970 [TAHUN]
  • 4. Konsep ● Hukum Zipf (Zipf’s Law) “A small fraction of question types accounts for a significant portion of all question instances.” “Sebagian kecil dari jenis pertanyaan menjawab sebagian besar pertanyaan-pertanyaan yang ada.”
  • 7. Knowledge Annotation CIA World Factbook Biography.com 50states.com... When was x born? What is the birth date of x? ... → {biography.com, x, birthdate}
  • 8. Knowledge Mining Formulasikan Permintaan Buat N-grams Pilih (vote) Saring Kandidat Kombinasikan Kandidat Nilai Kandidat Dapatkan Dukungan Eksekusi Permintaan
  • 9. Kuantitas daripada Kualitas Ada 2 Jenis kueri: - Tepat (exact) Pattern matching - Tidak Tepat (inexact) Sekumpulan kata kunci “When did the Mesozoic period end?” Knowledge Mining Formulasikan Permintaan Buat N-grams Pilih (vote) Saring Kandidat Kombinasikan Kandidat Nilai Kandidat Dapatkan Dukungan Eksekusi Permintaan
  • 10. “When did the Mesozoic period end?” Knowledge Mining Formulasikan Permintaan Buat N-grams Pilih (vote) Saring Kandidat Kombinasikan Kandidat Nilai Kandidat Dapatkan Dukungan Eksekusi Permintaan Query: When did the Mesozoic period end Tipe: inexact Skor: 1 Snippet yg hendak digali: 100 Query: the Mesozoic period ended Tipe: inexact Skor: 1 Snippet yg hendak digali: 100 Query: the Mesozoic period ended ?x Type: exact Skor: 2 Snippet yg hendak digali: 100 Maks. panjang ?x: 50 Maks. panjang kata ?x: 5
  • 11. Knowledge Mining Formulasikan Permintaan Buat N-grams Pilih (vote) Saring Kandidat Kombinasikan Kandidat Nilai Kandidat Dapatkan Dukungan Eksekusi Permintaan Menghasilkan semua kemungkinan N-gram (Unigram, Bigram, Trigram, dan Tetragram) dari potongan teks hasil Eksekusi Permintaan. Lalu diberi skor awal berdasarkan tipe teks (exact vs. inexact) tersebut.
  • 12. Knowledge Mining Formulasikan Permintaan Buat N-grams Pilih (vote) Saring Kandidat Kombinasikan Kandidat Nilai Kandidat Dapatkan Dukungan Eksekusi Permintaan N-gram diskor ulang berdasarkan jumlah penemuan kembali n-gram tersebut. Konsep: Sebuah jawaban yang ditemukan pada beberapa dokumen memiliki kemungkinan sebagai jawaban sahih.
  • 13. Knowledge Mining Formulasikan Permintaan Buat N-grams Pilih (vote) Saring Kandidat Kombinasikan Kandidat Nilai Kandidat Dapatkan Dukungan Eksekusi Permintaan N-gram dieliminasi berdasarkan kriteria: ✔ Kandidat diawali/diakhiri stop word dibuang ✔ Kandidat yang mengandung pertanyaan asli dibuang. Kecuali yang mengandung focus words. “How many meters. . . ” ✔ Heuristik untuk menerapkan tipe jawaban “how far”, “how fast”, “how tall” → Jawaban numerik ✔ Filter-filter tertutup (fixed-list) untuk jawaban bertipe closed- class items. “what sports...”, “what nationality...”, “what language...”
  • 14. Knowledge Mining Formulasikan Permintaan Buat N-grams Pilih (vote) Saring Kandidat Kombinasikan Kandidat Nilai Kandidat Dapatkan Dukungan Eksekusi Permintaan Menggabungkan n-gram yang lebih pendek ke n-gram yang panjang apabila n-gram pendek terdapat di dalam n- gram yang panjang. Skor “de Soto” ditambahkan ke Skor “Hernando de Soto”
  • 15. Knowledge Mining Formulasikan Permintaan Buat N-grams Pilih (vote) Saring Kandidat Kombinasikan Kandidat Nilai Kandidat Dapatkan Dukungan Eksekusi Permintaan skor=skor∗ 1 ∣A∣ ∑ w∈A log N wc 
  • 16. Knowledge Mining Formulasikan Permintaan Buat N-grams Pilih (vote) Saring Kandidat Kombinasikan Kandidat Nilai Kandidat Dapatkan Dukungan Eksekusi Permintaan Cek apakah jawaban benar ada di teks snippet asli yang didapat dari web.
  • 17. Knowledge Boosting Pengecekan secara heuristik: Sekumpulan prosedur untuk mengenali lokasi geografis, tahun. Knowledge Annotation Knowledge Mining
  • 18. Hasil # of q. % Knowledge Annotation Benar 30 6.0 Tidak tepat 2 0.4 Salah 10 2.0 Total 42 8.4 Knowledge Mining Benar 153 30.6 Tidak tepat 43 8.6 Salah 262 52.4 Total 458 91.6 Total Benar 183 36.6 Tidak tepat 45 9.0 Salah 272 54.4 Total 500 100.0 Performa Knowledge Annotation Benar 71.4 Tidak tepat 4.7 Salah 23.9 Knowledge Mining Benar 33.4 Tidak Tepat 9.4 Salah 57.2 ● Unsupported (AQUAINT) ● inexact
  • 19. Hasil (cont'd) ● Sekitar 16% (30/183) jawaban tepat didapat dari knowledge annotation. ● 28 basisdata access schemata ● 7 knowledge source ● Hanya data beberapa hari kerja ● Butuh pemahaman tentang natural language. ● Human error (Machine Learning); ● Pertanyaan temporal (“Gubernur tahun 1950”); ● Nilai Semantik (“orang kedua”);
  • 20. Kesimpulan ● Aranea menggunakan 2 jenis teknik: ● Knowledge Annotation ● Knowledge Mining
  • 21. Contoh Hasil Kueri ● When is Gerald Ford’s birthday? ● July 14, 1913 ● (extracted using knowledge annotation techniques from biography.com) ● Who founded Taoism? ● Lao Tzu ● (extracted using knowledge mining techniques) ● What was the name of the first child of English parents to be born in America? ● Virginia Dare ● (extracted using knowledge mining techniques)
  • 22. Mining Problem ● (1) Wilt Chamberlain scored 100 points on March 2, 1962 against the New Yorks Knicks. ● (2) On December 8, 1961, Wilt Chamberlain scored 78 points in a triple overtime game. It was a new NBA record, but Warriors coach Frank McGuire didn’t expect it to last long, saying, “He’ll get 100 points someday.” McGuire’s prediction came true just a few months later in a game against the New York Knicks on March 2.

Notas do Editor

  1. Jenis pertanyaannya sama. Butuh jenis informasi yang sama -- cuma beda jawaban saja. Contoh: Ibu kota Amerika apa, yah? Ibu kota Indonesia apa, yah?
  2. Jenis pertanyaannya sama. Butuh jenis informasi yang sama -- cuma beda jawaban saja. Contoh: Ibu kota Amerika apa, yah? Ibu kota Indonesia apa, yah?