แปลงร่างรัฐธรรมนูญ “ฉบับมีชัย” จาก PDF ให้เป็น Plain Text
1. แปลงร่างรัฐธรรมนูญ
“ฉบับมีชัย” ให้เป็น PLAIN TEXT
เอาข้อมูลที่เปิดเป็น PDF มาใช้ก็ยากหน่อย
@bact อาทิตย์ สุริยะวงศ์กุล
International Open Data Day — BarCamp Bangkok: Open Data 5 มีนาคม 2559
3. TEXT
ขั้นตอน
1.ดาวน์โหลดต้นฉบับ ร่างรัฐธรรมนูญจาก www.parliament.go.th
2.แปลง PDF เป็น HTML (ด้วย Apache PDFBox)
3.แปลงอักขระ Private Use Areas (PUA) เป็นอักขระปกติ
4.แปลงเป็น plain text
5.สลับลำดับตัวอักษรให้ถูกต้อง
6.(optional) แปลงเลขไทยเป็นเลขอารบิก
7.(ยังไม่ได้ทำ) แปลงเป็น HTML + formatting (heading, div)
4. TEXT
แปลง PDF เป็น HTML ก่อน
▸ java -jar pdfbox-app.jar ExtractText -html
<ชื่อไฟล์PDF> <ชื่อไฟล์HTML>
▸ ที่ต้องแปลงเป็น HTML เพราะใน PDF ของเอกสาร มีการใช้โค้ด
ใน PUA (Private Use Areas) เพื่อความสวยงามของเอกสาร
▸ ซึ่งถ้าแปลงเป็น text ไปรวดเดียวเลย อักขระ PUA จะหาย (invalid
Unicode code point)
5. TEXT
แปลง HTML ENTITIES เป็นอักษรปกติ + แปลง PUA
▸ Apache PDFBox จะ
แปลงอักษรไทยเป็น
HTML Entities
(“ร” -> บ)
เราต้องแปลงมันอีกทีให้
เป็นอักษรที่คนอ่านออก
▸ พร้อมกันนี้ จะแปลง
อักขระในส่วน Private
Use Area (PUA) ด้วย