Mais conteúdo relacionado
Semelhante a 03-Data-Exploration.en.th.pptx (15)
03-Data-Exploration.en.th.pptx
- 1. บทที่ 03
การสารวจข ้อมูล
ดร.สตีเฟน เฮอร์โบลด์
herbold@cs.uni-goettingen.de
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
Translated from English to Thai - www.onlinedoctranslator.com
- 2. โครงร่าง
• ภาพรวม
• สรุปสถิติ
• การสร ้างภาพ สาหรับการสารวจข ้อมูล
• สรุป
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
- 3. เป้าหมายของการสารวจข ้อมูล
• เป้าหมาย:
• เข ้าใจลักษณะพื้นฐานของข ้อมูล
• ตัวอย่างลักษณะ:
• โครงสร ้าง
• ขนาด
• ความสมบูรณ์
• ความสัมพันธ์
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
- 4. วิธีการ สาหรับการสารวจข ้อมูล
• โดยปกติ เชิงโต ้ตอบ และกึ่งอัตโนมัติ
• ข ้อความบรรณาธิการ,ระบบ โทร(ศีรษะ/มากกว่า/น้อย) ฯลฯถึง ดูที่ดิบ
ข ้อมูล โดยตรง
• ช่วยให ้ถึง เข ้าใจ เดอะ โครงสร ้าง
• สถิติ และ การสร ้างภาพข ้อมูล ถึง เรียนรู้เกี่ยวกับ การกระจาย และ
ความสัมพันธ์
• การสารวจควรอีกด ้วยรวม เมตา ข ้อมูล
• ลักษณะเฉพาะชื่อ,ติดตามลิงค์ ฯลฯ
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
- 5. โครงร่าง
• ภาพรวม
• สรุปสถิติ
• การสร ้างภาพ สาหรับการสารวจข ้อมูล
• สรุป
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
- 6. อธิบาย สถิติ
• สรุป ข ้อมูล ผ่าน เดี่ยว ค่า
• อย่าทานาย อะไรก็ตาม เกี่ยวกับ เดอะ ข ้อมูล( สถิติอุปนัย)
• ทั่วไปสถิติ ครอบคลุมในนี้ คอร์ส
• ศูนย์กลางแนวโน้ม(หมายถึง/มัธยฐาน/โหมด)
• ความแปรปรวน(มาตรฐาน เบี่ยงเบน,ระหว่างควอไทล์ พิสัย)
• พิสัยของ ข ้อมูล(นาที/สูงสุด)
• อื่นสาคัญ สถิติ
• เคอร์โตซิสและความเบ ้สาหรับ เดอะ รูปร่าง ของ การกระจาย
• มากกว่ามาตรการ สาหรับ ศูนย์กลาง แนวโน้ม, เช่น,ตัดแต่ง วิธี,ฮาร์มอนิก
หมายถึง
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
- 7. ศูนย์กลางแนวโน้ม
• „ทั่วไป“ค่า ของ เดอะ ข ้อมูล
• เลขคณิต หมายถึง
• 𝑚𝑒𝑎𝑛 𝑥 =
1
𝑛 𝑖=1
𝑛
𝑥𝑖กับ𝑥 = 𝑥1, … , 𝑥𝑛 ∈ ℝ𝑛
• ค่ามัธยฐาน
• เดอะค่า นั่นแยกเดอะ สูงขึ้นครึ่งจาก เดอะ ข ้อมูล ของ เดอะ ต่ากว่าครึ่ง
• โหมด
• เดอะค่า นั่น ปรากฏขึ้น ที่สุดในเดอะ ข ้อมูล
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
- 8. ความแปรปรวน
• วัดสาหรับ เดอะ การแพร่กระจาย ของ เดอะ ข ้อมูล
• อีกด ้วยเรียกว่า การกระจายตัว
• มาตรฐานเบี่ยงเบน
• วัด สาหรับ เดอะ ความแตกต่าง ของ การสังเกต ถึง เดอะ เลขคณิต หมายถึง
• 𝑠𝑑 𝑥 = 𝑖=1
𝑛 𝑥𝑖−𝑚𝑒𝑎𝑛 𝑥
2
𝑛−1
• ควอไทล์ช่วง (IQR)
• เปอร์เซ็นต์ไทล์:ค่า ด ้านล่าง ที่กที่ให ้ไว ้เปอร์เซ็นต์น้าตก
• ความแตกต่าง ระหว่าง เดอะ75%เปอร์เซ็นต์ไทล์ และ เดอะ25%เปอร์เซ็นต์
ไทล์
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ค่ามัธยฐานเป็น เดอะ50%เปอร์เซ็นต์ไทล์
- 9. พิสัยของ ข ้อมูล
• พิสัยสาหรับ ที่ ค่า เป็น สังเกต
• สามารถเป็นไม่มีที่สิ้นสุด!
• ขั้นต่า
• เล็กที่สุด สังเกต ค่า
• ขีดสุด
• ใหญ่ที่สุด สังเกต ค่า
• พฤษภาคมเป็น อย่างยิ่ง บิดเบี้ยว โดยไม่ถูกต ้องข ้อมูล
• ทาให ้มันยังเป็นดี เครื่องมือ ถึง ค ้นพบไม่ถูกต ้องข ้อมูล
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
- 10. ตัวอย่าง
• สุ่มพิมพ์บนเดอะ ปุ่ มกด
• 𝑥 =
(1,2,1,1,3,4,5,2,3,4,5,1,3,2,1,6,5,4,9,4,3,6,1,5,6,8,4,6,5,1,3,2,1,6,8,7,6,1,3,1,6,8,4,7,6,4,3,5,4,9,7,4,3,1,4,6,8,7,9,1,4,6,1,3,8,6,7,4,9,6,5,1,3,6,8,7)
• แนวโน้มเข ้าสู่ส่วนกลาง:
• หมายถึง: 4.46052631579
• ค่ามัธยฐาน: 4.0
• โหมด (นับ): 1 (14)
• ความแปรปรวน
• เอสดี: 2.41944311488
• ไอคิวอาร์: 3.0
• พิสัย
• นาที: 1
• สูงสุด: 9
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
- 11. โครงร่าง
• ภาพรวม
• สรุปสถิติ
• การสร้างภาพ สาหรับการสารวจข้อมูล
• สรุป
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
- 13. อธิบายหลอกลวง สถิติ
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ผม
เอ็กซ์ ย
10.00
น 8.04
8.00 น 6.95
13.00
น 7.58 น
9.00 น 8.81
11.00
น 8.33 น
14.00
น 9.96
6.00 น 7.24 น
4.00 น 4.26
12.00
น
10.84
น
7.00 น 4.82
5.00 น 5.68
ii
x ย
10.00
น 9.14
8.00 น 8.14
13.00
น 8.74
9.00 น 8.77
11.00
น 9.26 น
14.00
น 8.10 น
6.00 น 6.13
4.00 น 3.10
12.00
น 9.13 น
7.00 น 7.26 น
5.00 น 4.74
สาม
x ย
10.00
น 7.46 น
8.00 น 6.77
13.00
น
12.74
น
9.00 น 7.11
11.00
น 7.81
14.00
น 8.84
6.00 น 6.08 น
4.00 น 5.39 น
12.00
น 8.15 น
7.00 น 6.42 น
iv
x ย
8.00 น 6.58 น
8.00 น 5.76
8.00 น 7.71
8.00 น 8.84
8.00 น 8.47 น
8.00 น 7.04
8.00 น 5.25 น
19.00
น
12.50
น
8.00 น 5.56
8.00 น 7.91
8.00 น 6.89
มี เดอะเหมือนกัน
• หมายถึง
• มาตรฐาน
เบี่ยงเบน
• ความสัมพันธ์
ระหว่างxและย
• เชิงเส ้นการถดถอย
แอนส์คอมบ์ ควอเตต
- 14. การสารวจคุณสมบัติเดียว
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
แปลงของ เดอะบอสตันบ ้าน ราคา ข ้อมูล ชุด
http://archive.ics.uci.edu/ml/machine-learning-databases/housing/
สุดขั้ว เบ ้
ส่วนผสม ของ
สอง ปกติ
หลังจากการเอา
ไป เดอะ
ลอการิทึม
ดูเหมือนว่าทาเทียมสูงค่า
จัดกลุ่มทั้งหมดสูงขึ้น รายได ้
- 15. บ็อกซ์พล็อต
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ค่ามัธย
ฐาน
75%
เปอร์เซ็นต์
ไทล์
25%
เปอร์เซ็นต์
ไทล์
พิสัยของ
ข ้อมูล ยกเว ้น
ค่าผิดปกติ
ค่า
ผิดปก
ติ
คาจากัดความภายนอกสามารถ
เปลี่ยนแปลงได ้เราใช ้"IQR มากกว่า 1.5
เท่าจากเปอร์เซ็นไทล์ 25%/75%"
คุณควรตรวจสอบสิ่งนี้ในแพ็คเกจที่คุณใช ้
เสมอ
- 16. จับคู่พล็อตกระจายกับ ถดถอย
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ไม่ ความสัมพันธ์
มองเห็นได ้
เชิงเส ้นที่
แข็งแกร่ง
ความสัมพันธ์
ฮิสโตแกรม ของ ข ้อมูล
ในเดอะ คอลัมน์
- 17. จับคู่แปลงกับ ชั้นเรียน
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ดี การแยก ของ สี
ฟ้า, แต่เขียว และ
ส ้มเป็น ทับซ ้อนกัน
ดี การแยก ของ
ทั้งหมดสาม ชั้น
เรียน
ความหนาแน่น
แปลง ของ ข ้อมูล
ในเดอะ คอลัมน์
แยกออกจากกัน
โดย ชั้นเรียน
- 18. ความสัมพันธ์ แผนที่ความร ้อน
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
สีแสดง ความ
แข็งแกร่ง ของ
ความสัมพันธ์
ความสัมพันธ์
ระหว่าง พรีเมี่ยม
และ การสูญเสีย
ความสัมพันธ์
ระหว่าง เหตุผล
สาหรับ อุบัติเหตุ
ที่นั่น เป็นแตกต่างความสัมพันธ์ ค่า
สัมประสิทธิ์.เรา ใช ้แล ้ว เพียร์สัน ค่า
สัมประสิทธิ์,ที่ มาตรการเชิงเส ้น
ความสัมพันธ์.
- 19. เฮกซ์บินแปลงสาหรับ มากมาย ตัวอย่าง
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ไม่ได ้ดู โครงสร ้าง
เนื่องจากถึง จานวน
ของ ข ้อมูล
หกเหลี่ยมถังขยะ
เปิดเผย เดอะ
โครงสร ้าง
- 20. แปลงเส ้นสาหรับ ไทม์ซีรีส์
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
เชิงเส ้นแนวโน้ม
ปกติเสียงรบกวน ลวดลาย
ตามฤดูกาล?
พิสัยของ ค่า
- 21. โครงร่าง
• ภาพรวม
• สรุปสถิติ
• การสร ้างภาพ สาหรับการสารวจข ้อมูล
• สรุป
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
- 22. สรุป
• สาคัญ ถึง เข ้าใจ เดอะ ข ้อมูล มีอยู่
• สรุปสถิติ จัดเตรียมกดี ภาพรวม
• สามารถเป็น หลอกลวง!
• การสร ้างภาพ เป็นทรงพลังทาง ถึง เข ้าใจ ข ้อมูล
• ความเข ้าใจของ เมตา ข ้อมูลและอย่างไร โดเมน ผู้เชี่ยวชาญ เข ้าใจ
ข ้อมูล อย่างเท่าเทียมกัน สาคัญ!
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science