SlideShare uma empresa Scribd logo
1 de 22
บทที่ 03
การสารวจข ้อมูล
ดร.สตีเฟน เฮอร์โบลด์
herbold@cs.uni-goettingen.de
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
Translated from English to Thai - www.onlinedoctranslator.com
โครงร่าง
• ภาพรวม
• สรุปสถิติ
• การสร ้างภาพ สาหรับการสารวจข ้อมูล
• สรุป
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
เป้าหมายของการสารวจข ้อมูล
• เป้าหมาย:
• เข ้าใจลักษณะพื้นฐานของข ้อมูล
• ตัวอย่างลักษณะ:
• โครงสร ้าง
• ขนาด
• ความสมบูรณ์
• ความสัมพันธ์
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
วิธีการ สาหรับการสารวจข ้อมูล
• โดยปกติ เชิงโต ้ตอบ และกึ่งอัตโนมัติ
• ข ้อความบรรณาธิการ,ระบบ โทร(ศีรษะ/มากกว่า/น้อย) ฯลฯถึง ดูที่ดิบ
ข ้อมูล โดยตรง
• ช่วยให ้ถึง เข ้าใจ เดอะ โครงสร ้าง
• สถิติ และ การสร ้างภาพข ้อมูล ถึง เรียนรู้เกี่ยวกับ การกระจาย และ
ความสัมพันธ์
• การสารวจควรอีกด ้วยรวม เมตา ข ้อมูล
• ลักษณะเฉพาะชื่อ,ติดตามลิงค์ ฯลฯ
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
โครงร่าง
• ภาพรวม
• สรุปสถิติ
• การสร ้างภาพ สาหรับการสารวจข ้อมูล
• สรุป
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
อธิบาย สถิติ
• สรุป ข ้อมูล ผ่าน เดี่ยว ค่า
• อย่าทานาย อะไรก็ตาม เกี่ยวกับ เดอะ ข ้อมูล( สถิติอุปนัย)
• ทั่วไปสถิติ ครอบคลุมในนี้ คอร์ส
• ศูนย์กลางแนวโน้ม(หมายถึง/มัธยฐาน/โหมด)
• ความแปรปรวน(มาตรฐาน เบี่ยงเบน,ระหว่างควอไทล์ พิสัย)
• พิสัยของ ข ้อมูล(นาที/สูงสุด)
• อื่นสาคัญ สถิติ
• เคอร์โตซิสและความเบ ้สาหรับ เดอะ รูปร่าง ของ การกระจาย
• มากกว่ามาตรการ สาหรับ ศูนย์กลาง แนวโน้ม, เช่น,ตัดแต่ง วิธี,ฮาร์มอนิก
หมายถึง
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ศูนย์กลางแนวโน้ม
• „ทั่วไป“ค่า ของ เดอะ ข ้อมูล
• เลขคณิต หมายถึง
• 𝑚𝑒𝑎𝑛 𝑥 =
1
𝑛 𝑖=1
𝑛
𝑥𝑖กับ𝑥 = 𝑥1, … , 𝑥𝑛 ∈ ℝ𝑛
• ค่ามัธยฐาน
• เดอะค่า นั่นแยกเดอะ สูงขึ้นครึ่งจาก เดอะ ข ้อมูล ของ เดอะ ต่ากว่าครึ่ง
• โหมด
• เดอะค่า นั่น ปรากฏขึ้น ที่สุดในเดอะ ข ้อมูล
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ความแปรปรวน
• วัดสาหรับ เดอะ การแพร่กระจาย ของ เดอะ ข ้อมูล
• อีกด ้วยเรียกว่า การกระจายตัว
• มาตรฐานเบี่ยงเบน
• วัด สาหรับ เดอะ ความแตกต่าง ของ การสังเกต ถึง เดอะ เลขคณิต หมายถึง
• 𝑠𝑑 𝑥 = 𝑖=1
𝑛 𝑥𝑖−𝑚𝑒𝑎𝑛 𝑥
2
𝑛−1
• ควอไทล์ช่วง (IQR)
• เปอร์เซ็นต์ไทล์:ค่า ด ้านล่าง ที่กที่ให ้ไว ้เปอร์เซ็นต์น้าตก
• ความแตกต่าง ระหว่าง เดอะ75%เปอร์เซ็นต์ไทล์ และ เดอะ25%เปอร์เซ็นต์
ไทล์
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ค่ามัธยฐานเป็น เดอะ50%เปอร์เซ็นต์ไทล์
พิสัยของ ข ้อมูล
• พิสัยสาหรับ ที่ ค่า เป็น สังเกต
• สามารถเป็นไม่มีที่สิ้นสุด!
• ขั้นต่า
• เล็กที่สุด สังเกต ค่า
• ขีดสุด
• ใหญ่ที่สุด สังเกต ค่า
• พฤษภาคมเป็น อย่างยิ่ง บิดเบี้ยว โดยไม่ถูกต ้องข ้อมูล
• ทาให ้มันยังเป็นดี เครื่องมือ ถึง ค ้นพบไม่ถูกต ้องข ้อมูล
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ตัวอย่าง
• สุ่มพิมพ์บนเดอะ ปุ่ มกด
• 𝑥 =
(1,2,1,1,3,4,5,2,3,4,5,1,3,2,1,6,5,4,9,4,3,6,1,5,6,8,4,6,5,1,3,2,1,6,8,7,6,1,3,1,6,8,4,7,6,4,3,5,4,9,7,4,3,1,4,6,8,7,9,1,4,6,1,3,8,6,7,4,9,6,5,1,3,6,8,7)
• แนวโน้มเข ้าสู่ส่วนกลาง:
• หมายถึง: 4.46052631579
• ค่ามัธยฐาน: 4.0
• โหมด (นับ): 1 (14)
• ความแปรปรวน
• เอสดี: 2.41944311488
• ไอคิวอาร์: 3.0
• พิสัย
• นาที: 1
• สูงสุด: 9
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
โครงร่าง
• ภาพรวม
• สรุปสถิติ
• การสร้างภาพ สาหรับการสารวจข้อมูล
• สรุป
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
รูปภาพอธิบายเพิ่มเติมกว่า1,000 คา
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ตัวเลขเป็น ทา ขึ้น และ พาย ชาร์ต ควร จริงๆ แล ้ว เป็น หลีกเลี่ยง
อธิบายหลอกลวง สถิติ
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ผม
เอ็กซ์ ย
10.00
น 8.04
8.00 น 6.95
13.00
น 7.58 น
9.00 น 8.81
11.00
น 8.33 น
14.00
น 9.96
6.00 น 7.24 น
4.00 น 4.26
12.00
น
10.84
น
7.00 น 4.82
5.00 น 5.68
ii
x ย
10.00
น 9.14
8.00 น 8.14
13.00
น 8.74
9.00 น 8.77
11.00
น 9.26 น
14.00
น 8.10 น
6.00 น 6.13
4.00 น 3.10
12.00
น 9.13 น
7.00 น 7.26 น
5.00 น 4.74
สาม
x ย
10.00
น 7.46 น
8.00 น 6.77
13.00
น
12.74
น
9.00 น 7.11
11.00
น 7.81
14.00
น 8.84
6.00 น 6.08 น
4.00 น 5.39 น
12.00
น 8.15 น
7.00 น 6.42 น
iv
x ย
8.00 น 6.58 น
8.00 น 5.76
8.00 น 7.71
8.00 น 8.84
8.00 น 8.47 น
8.00 น 7.04
8.00 น 5.25 น
19.00
น
12.50
น
8.00 น 5.56
8.00 น 7.91
8.00 น 6.89
มี เดอะเหมือนกัน
• หมายถึง
• มาตรฐาน
เบี่ยงเบน
• ความสัมพันธ์
ระหว่างxและย
• เชิงเส ้นการถดถอย
แอนส์คอมบ์ ควอเตต
การสารวจคุณสมบัติเดียว
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
แปลงของ เดอะบอสตันบ ้าน ราคา ข ้อมูล ชุด
http://archive.ics.uci.edu/ml/machine-learning-databases/housing/
สุดขั้ว เบ ้
ส่วนผสม ของ
สอง ปกติ
หลังจากการเอา
ไป เดอะ
ลอการิทึม
ดูเหมือนว่าทาเทียมสูงค่า
 จัดกลุ่มทั้งหมดสูงขึ้น รายได ้
บ็อกซ์พล็อต
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ค่ามัธย
ฐาน
75%
เปอร์เซ็นต์
ไทล์
25%
เปอร์เซ็นต์
ไทล์
พิสัยของ
ข ้อมูล ยกเว ้น
ค่าผิดปกติ
ค่า
ผิดปก
ติ
คาจากัดความภายนอกสามารถ
เปลี่ยนแปลงได ้เราใช ้"IQR มากกว่า 1.5
เท่าจากเปอร์เซ็นไทล์ 25%/75%"
คุณควรตรวจสอบสิ่งนี้ในแพ็คเกจที่คุณใช ้
เสมอ
จับคู่พล็อตกระจายกับ ถดถอย
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ไม่ ความสัมพันธ์
มองเห็นได ้
เชิงเส ้นที่
แข็งแกร่ง
ความสัมพันธ์
ฮิสโตแกรม ของ ข ้อมูล
ในเดอะ คอลัมน์
จับคู่แปลงกับ ชั้นเรียน
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ดี การแยก ของ สี
ฟ้า, แต่เขียว และ
ส ้มเป็น ทับซ ้อนกัน
ดี การแยก ของ
ทั้งหมดสาม ชั้น
เรียน
ความหนาแน่น
แปลง ของ ข ้อมูล
ในเดอะ คอลัมน์
แยกออกจากกัน
โดย ชั้นเรียน
ความสัมพันธ์ แผนที่ความร ้อน
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
สีแสดง ความ
แข็งแกร่ง ของ
ความสัมพันธ์
ความสัมพันธ์
ระหว่าง พรีเมี่ยม
และ การสูญเสีย
ความสัมพันธ์
ระหว่าง เหตุผล
สาหรับ อุบัติเหตุ
ที่นั่น เป็นแตกต่างความสัมพันธ์ ค่า
สัมประสิทธิ์.เรา ใช ้แล ้ว เพียร์สัน ค่า
สัมประสิทธิ์,ที่ มาตรการเชิงเส ้น
ความสัมพันธ์.
เฮกซ์บินแปลงสาหรับ มากมาย ตัวอย่าง
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
ไม่ได ้ดู โครงสร ้าง
เนื่องจากถึง จานวน
ของ ข ้อมูล
หกเหลี่ยมถังขยะ
เปิดเผย เดอะ
โครงสร ้าง
แปลงเส ้นสาหรับ ไทม์ซีรีส์
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
เชิงเส ้นแนวโน้ม
ปกติเสียงรบกวน ลวดลาย
ตามฤดูกาล?
พิสัยของ ค่า
โครงร่าง
• ภาพรวม
• สรุปสถิติ
• การสร ้างภาพ สาหรับการสารวจข ้อมูล
• สรุป
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science
สรุป
• สาคัญ ถึง เข ้าใจ เดอะ ข ้อมูล มีอยู่
• สรุปสถิติ จัดเตรียมกดี ภาพรวม
• สามารถเป็น หลอกลวง!
• การสร ้างภาพ เป็นทรงพลังทาง ถึง เข ้าใจ ข ้อมูล
• ความเข ้าใจของ เมตา ข ้อมูลและอย่างไร โดเมน ผู้เชี่ยวชาญ เข ้าใจ
ข ้อมูล อย่างเท่าเทียมกัน สาคัญ!
ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล
https://sherbold.github.io/intro-to-data-science

Mais conteúdo relacionado

Semelhante a 03-Data-Exploration.en.th.pptx

หลักการแก้ปัญหา
หลักการแก้ปัญหาหลักการแก้ปัญหา
หลักการแก้ปัญหา
Sarun Suksri
 
การจำลองความคิด
การจำลองความคิดการจำลองความคิด
การจำลองความคิด
Strisuksa Roi-Et
 
Digital Content and Website Standard
Digital Content and Website StandardDigital Content and Website Standard
Digital Content and Website Standard
Boonlert Aroonpiboon
 

Semelhante a 03-Data-Exploration.en.th.pptx (15)

Digital Standard
Digital StandardDigital Standard
Digital Standard
 
Digital Standard
Digital StandardDigital Standard
Digital Standard
 
Deepcut Thai word Segmentation @ NIDA
Deepcut Thai word Segmentation @ NIDADeepcut Thai word Segmentation @ NIDA
Deepcut Thai word Segmentation @ NIDA
 
Digital Standard
Digital StandardDigital Standard
Digital Standard
 
Digital Museum Development
Digital Museum DevelopmentDigital Museum Development
Digital Museum Development
 
Digital Media Standard
Digital Media StandardDigital Media Standard
Digital Media Standard
 
Digital Collection ... Guideline
Digital Collection ... GuidelineDigital Collection ... Guideline
Digital Collection ... Guideline
 
หลักการแก้ปัญหา
หลักการแก้ปัญหาหลักการแก้ปัญหา
หลักการแก้ปัญหา
 
Wat Makutkasattriyaram e-museum
Wat Makutkasattriyaram e-museumWat Makutkasattriyaram e-museum
Wat Makutkasattriyaram e-museum
 
KIDS-D AND BEYOND
KIDS-D AND BEYONDKIDS-D AND BEYOND
KIDS-D AND BEYOND
 
การจำลองความคิด
การจำลองความคิดการจำลองความคิด
การจำลองความคิด
 
Digital Content and Website Standard
Digital Content and Website StandardDigital Content and Website Standard
Digital Content and Website Standard
 
ผลงานวิชาการและคลังความรู้กับประเด็นที่ควรคำนึงในยุคดิจิทัล Reference tools &...
ผลงานวิชาการและคลังความรู้กับประเด็นที่ควรคำนึงในยุคดิจิทัล Reference tools &...ผลงานวิชาการและคลังความรู้กับประเด็นที่ควรคำนึงในยุคดิจิทัล Reference tools &...
ผลงานวิชาการและคลังความรู้กับประเด็นที่ควรคำนึงในยุคดิจิทัล Reference tools &...
 
Digital Standard & Web Policy
Digital Standard & Web PolicyDigital Standard & Web Policy
Digital Standard & Web Policy
 
การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...
การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...
การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...
 

Mais de paijitk (11)

IDIO2020_B3_DataViz_EdoraFNguyenJ_acc.pdf
IDIO2020_B3_DataViz_EdoraFNguyenJ_acc.pdfIDIO2020_B3_DataViz_EdoraFNguyenJ_acc.pdf
IDIO2020_B3_DataViz_EdoraFNguyenJ_acc.pdf
 
ลำดับการโพสต์วันปฐมนิเทศ ญาณสาสมาธิ (ออนไ.pdf
ลำดับการโพสต์วันปฐมนิเทศ ญาณสาสมาธิ (ออนไ.pdfลำดับการโพสต์วันปฐมนิเทศ ญาณสาสมาธิ (ออนไ.pdf
ลำดับการโพสต์วันปฐมนิเทศ ญาณสาสมาธิ (ออนไ.pdf
 
Chapter_01wht.pdf
Chapter_01wht.pdfChapter_01wht.pdf
Chapter_01wht.pdf
 
functions2-200924082810.pdf
functions2-200924082810.pdffunctions2-200924082810.pdf
functions2-200924082810.pdf
 
stringsinpython-181122100212.pdf
stringsinpython-181122100212.pdfstringsinpython-181122100212.pdf
stringsinpython-181122100212.pdf
 
Python-review1.pdf
Python-review1.pdfPython-review1.pdf
Python-review1.pdf
 
Functions_21_22.pdf
Functions_21_22.pdfFunctions_21_22.pdf
Functions_21_22.pdf
 
Functions_19_20.pdf
Functions_19_20.pdfFunctions_19_20.pdf
Functions_19_20.pdf
 
01. Introduction.en.th.pptx
01. Introduction.en.th.pptx01. Introduction.en.th.pptx
01. Introduction.en.th.pptx
 
Lecture_2_Stats.pdf
Lecture_2_Stats.pdfLecture_2_Stats.pdf
Lecture_2_Stats.pdf
 
Lecture_1_Intro.pdf
Lecture_1_Intro.pdfLecture_1_Intro.pdf
Lecture_1_Intro.pdf
 

03-Data-Exploration.en.th.pptx

  • 1. บทที่ 03 การสารวจข ้อมูล ดร.สตีเฟน เฮอร์โบลด์ herbold@cs.uni-goettingen.de ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science Translated from English to Thai - www.onlinedoctranslator.com
  • 2. โครงร่าง • ภาพรวม • สรุปสถิติ • การสร ้างภาพ สาหรับการสารวจข ้อมูล • สรุป ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science
  • 3. เป้าหมายของการสารวจข ้อมูล • เป้าหมาย: • เข ้าใจลักษณะพื้นฐานของข ้อมูล • ตัวอย่างลักษณะ: • โครงสร ้าง • ขนาด • ความสมบูรณ์ • ความสัมพันธ์ ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science
  • 4. วิธีการ สาหรับการสารวจข ้อมูล • โดยปกติ เชิงโต ้ตอบ และกึ่งอัตโนมัติ • ข ้อความบรรณาธิการ,ระบบ โทร(ศีรษะ/มากกว่า/น้อย) ฯลฯถึง ดูที่ดิบ ข ้อมูล โดยตรง • ช่วยให ้ถึง เข ้าใจ เดอะ โครงสร ้าง • สถิติ และ การสร ้างภาพข ้อมูล ถึง เรียนรู้เกี่ยวกับ การกระจาย และ ความสัมพันธ์ • การสารวจควรอีกด ้วยรวม เมตา ข ้อมูล • ลักษณะเฉพาะชื่อ,ติดตามลิงค์ ฯลฯ ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science
  • 5. โครงร่าง • ภาพรวม • สรุปสถิติ • การสร ้างภาพ สาหรับการสารวจข ้อมูล • สรุป ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science
  • 6. อธิบาย สถิติ • สรุป ข ้อมูล ผ่าน เดี่ยว ค่า • อย่าทานาย อะไรก็ตาม เกี่ยวกับ เดอะ ข ้อมูล( สถิติอุปนัย) • ทั่วไปสถิติ ครอบคลุมในนี้ คอร์ส • ศูนย์กลางแนวโน้ม(หมายถึง/มัธยฐาน/โหมด) • ความแปรปรวน(มาตรฐาน เบี่ยงเบน,ระหว่างควอไทล์ พิสัย) • พิสัยของ ข ้อมูล(นาที/สูงสุด) • อื่นสาคัญ สถิติ • เคอร์โตซิสและความเบ ้สาหรับ เดอะ รูปร่าง ของ การกระจาย • มากกว่ามาตรการ สาหรับ ศูนย์กลาง แนวโน้ม, เช่น,ตัดแต่ง วิธี,ฮาร์มอนิก หมายถึง ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science
  • 7. ศูนย์กลางแนวโน้ม • „ทั่วไป“ค่า ของ เดอะ ข ้อมูล • เลขคณิต หมายถึง • 𝑚𝑒𝑎𝑛 𝑥 = 1 𝑛 𝑖=1 𝑛 𝑥𝑖กับ𝑥 = 𝑥1, … , 𝑥𝑛 ∈ ℝ𝑛 • ค่ามัธยฐาน • เดอะค่า นั่นแยกเดอะ สูงขึ้นครึ่งจาก เดอะ ข ้อมูล ของ เดอะ ต่ากว่าครึ่ง • โหมด • เดอะค่า นั่น ปรากฏขึ้น ที่สุดในเดอะ ข ้อมูล ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science
  • 8. ความแปรปรวน • วัดสาหรับ เดอะ การแพร่กระจาย ของ เดอะ ข ้อมูล • อีกด ้วยเรียกว่า การกระจายตัว • มาตรฐานเบี่ยงเบน • วัด สาหรับ เดอะ ความแตกต่าง ของ การสังเกต ถึง เดอะ เลขคณิต หมายถึง • 𝑠𝑑 𝑥 = 𝑖=1 𝑛 𝑥𝑖−𝑚𝑒𝑎𝑛 𝑥 2 𝑛−1 • ควอไทล์ช่วง (IQR) • เปอร์เซ็นต์ไทล์:ค่า ด ้านล่าง ที่กที่ให ้ไว ้เปอร์เซ็นต์น้าตก • ความแตกต่าง ระหว่าง เดอะ75%เปอร์เซ็นต์ไทล์ และ เดอะ25%เปอร์เซ็นต์ ไทล์ ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science ค่ามัธยฐานเป็น เดอะ50%เปอร์เซ็นต์ไทล์
  • 9. พิสัยของ ข ้อมูล • พิสัยสาหรับ ที่ ค่า เป็น สังเกต • สามารถเป็นไม่มีที่สิ้นสุด! • ขั้นต่า • เล็กที่สุด สังเกต ค่า • ขีดสุด • ใหญ่ที่สุด สังเกต ค่า • พฤษภาคมเป็น อย่างยิ่ง บิดเบี้ยว โดยไม่ถูกต ้องข ้อมูล • ทาให ้มันยังเป็นดี เครื่องมือ ถึง ค ้นพบไม่ถูกต ้องข ้อมูล ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science
  • 10. ตัวอย่าง • สุ่มพิมพ์บนเดอะ ปุ่ มกด • 𝑥 = (1,2,1,1,3,4,5,2,3,4,5,1,3,2,1,6,5,4,9,4,3,6,1,5,6,8,4,6,5,1,3,2,1,6,8,7,6,1,3,1,6,8,4,7,6,4,3,5,4,9,7,4,3,1,4,6,8,7,9,1,4,6,1,3,8,6,7,4,9,6,5,1,3,6,8,7) • แนวโน้มเข ้าสู่ส่วนกลาง: • หมายถึง: 4.46052631579 • ค่ามัธยฐาน: 4.0 • โหมด (นับ): 1 (14) • ความแปรปรวน • เอสดี: 2.41944311488 • ไอคิวอาร์: 3.0 • พิสัย • นาที: 1 • สูงสุด: 9 ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science
  • 11. โครงร่าง • ภาพรวม • สรุปสถิติ • การสร้างภาพ สาหรับการสารวจข้อมูล • สรุป ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science
  • 12. รูปภาพอธิบายเพิ่มเติมกว่า1,000 คา ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science ตัวเลขเป็น ทา ขึ้น และ พาย ชาร์ต ควร จริงๆ แล ้ว เป็น หลีกเลี่ยง
  • 13. อธิบายหลอกลวง สถิติ ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science ผม เอ็กซ์ ย 10.00 น 8.04 8.00 น 6.95 13.00 น 7.58 น 9.00 น 8.81 11.00 น 8.33 น 14.00 น 9.96 6.00 น 7.24 น 4.00 น 4.26 12.00 น 10.84 น 7.00 น 4.82 5.00 น 5.68 ii x ย 10.00 น 9.14 8.00 น 8.14 13.00 น 8.74 9.00 น 8.77 11.00 น 9.26 น 14.00 น 8.10 น 6.00 น 6.13 4.00 น 3.10 12.00 น 9.13 น 7.00 น 7.26 น 5.00 น 4.74 สาม x ย 10.00 น 7.46 น 8.00 น 6.77 13.00 น 12.74 น 9.00 น 7.11 11.00 น 7.81 14.00 น 8.84 6.00 น 6.08 น 4.00 น 5.39 น 12.00 น 8.15 น 7.00 น 6.42 น iv x ย 8.00 น 6.58 น 8.00 น 5.76 8.00 น 7.71 8.00 น 8.84 8.00 น 8.47 น 8.00 น 7.04 8.00 น 5.25 น 19.00 น 12.50 น 8.00 น 5.56 8.00 น 7.91 8.00 น 6.89 มี เดอะเหมือนกัน • หมายถึง • มาตรฐาน เบี่ยงเบน • ความสัมพันธ์ ระหว่างxและย • เชิงเส ้นการถดถอย แอนส์คอมบ์ ควอเตต
  • 14. การสารวจคุณสมบัติเดียว ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science แปลงของ เดอะบอสตันบ ้าน ราคา ข ้อมูล ชุด http://archive.ics.uci.edu/ml/machine-learning-databases/housing/ สุดขั้ว เบ ้ ส่วนผสม ของ สอง ปกติ หลังจากการเอา ไป เดอะ ลอการิทึม ดูเหมือนว่าทาเทียมสูงค่า  จัดกลุ่มทั้งหมดสูงขึ้น รายได ้
  • 15. บ็อกซ์พล็อต ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science ค่ามัธย ฐาน 75% เปอร์เซ็นต์ ไทล์ 25% เปอร์เซ็นต์ ไทล์ พิสัยของ ข ้อมูล ยกเว ้น ค่าผิดปกติ ค่า ผิดปก ติ คาจากัดความภายนอกสามารถ เปลี่ยนแปลงได ้เราใช ้"IQR มากกว่า 1.5 เท่าจากเปอร์เซ็นไทล์ 25%/75%" คุณควรตรวจสอบสิ่งนี้ในแพ็คเกจที่คุณใช ้ เสมอ
  • 16. จับคู่พล็อตกระจายกับ ถดถอย ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science ไม่ ความสัมพันธ์ มองเห็นได ้ เชิงเส ้นที่ แข็งแกร่ง ความสัมพันธ์ ฮิสโตแกรม ของ ข ้อมูล ในเดอะ คอลัมน์
  • 17. จับคู่แปลงกับ ชั้นเรียน ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science ดี การแยก ของ สี ฟ้า, แต่เขียว และ ส ้มเป็น ทับซ ้อนกัน ดี การแยก ของ ทั้งหมดสาม ชั้น เรียน ความหนาแน่น แปลง ของ ข ้อมูล ในเดอะ คอลัมน์ แยกออกจากกัน โดย ชั้นเรียน
  • 18. ความสัมพันธ์ แผนที่ความร ้อน ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science สีแสดง ความ แข็งแกร่ง ของ ความสัมพันธ์ ความสัมพันธ์ ระหว่าง พรีเมี่ยม และ การสูญเสีย ความสัมพันธ์ ระหว่าง เหตุผล สาหรับ อุบัติเหตุ ที่นั่น เป็นแตกต่างความสัมพันธ์ ค่า สัมประสิทธิ์.เรา ใช ้แล ้ว เพียร์สัน ค่า สัมประสิทธิ์,ที่ มาตรการเชิงเส ้น ความสัมพันธ์.
  • 19. เฮกซ์บินแปลงสาหรับ มากมาย ตัวอย่าง ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science ไม่ได ้ดู โครงสร ้าง เนื่องจากถึง จานวน ของ ข ้อมูล หกเหลี่ยมถังขยะ เปิดเผย เดอะ โครงสร ้าง
  • 20. แปลงเส ้นสาหรับ ไทม์ซีรีส์ ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science เชิงเส ้นแนวโน้ม ปกติเสียงรบกวน ลวดลาย ตามฤดูกาล? พิสัยของ ค่า
  • 21. โครงร่าง • ภาพรวม • สรุปสถิติ • การสร ้างภาพ สาหรับการสารวจข ้อมูล • สรุป ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science
  • 22. สรุป • สาคัญ ถึง เข ้าใจ เดอะ ข ้อมูล มีอยู่ • สรุปสถิติ จัดเตรียมกดี ภาพรวม • สามารถเป็น หลอกลวง! • การสร ้างภาพ เป็นทรงพลังทาง ถึง เข ้าใจ ข ้อมูล • ความเข ้าใจของ เมตา ข ้อมูลและอย่างไร โดเมน ผู้เชี่ยวชาญ เข ้าใจ ข ้อมูล อย่างเท่าเทียมกัน สาคัญ! ข ้อมูลเบื้องต ้นเกี่ยวกับวิทยาศาสตร์ข ้อมูล https://sherbold.github.io/intro-to-data-science