Anúncio
Anúncio

Mais conteúdo relacionado

Último(20)

Destaque(20)

Anúncio

Chương 2. Làm sạch dữ liệu.pptx

  1. CHƯƠNG II Làm sạch dữ liệu Lecturer: Nguyễn Văn Phú
  2. MỤC TIÊU • Kiến thức: • Kiểm tra dữ liệu nhập vào và dùng phần mềm SPSS để làm sạch dữ liệu trước khi tiến hành phân tích dữ liệu. • Làm được các bước cơ bản như tìm, sửa dữ liệu nhập sai, sắp xếp dữ liệu, tách nối file dữ liệu trong SPSS. • Kỹ năng • Mã hóa lại các biến trong phân tích dữ liệu như mã hóa lại biến từ thang đo định lượng sang thang đo định danh, mã hóa dữ liệu từ câu hỏi mở sang câu hỏi đóng.
  3. NỘI DUNG • 2.1. Mã hóa dữ liệu • 2.2 Lý do làm sạch dữ liệu • 2.3 Các biện pháp ngăn ngừa • 2.4 Các phương pháp làm sạch dữ liệu • 2.5. Tách nối file
  4. 2.1. Mã hóa dữ liệu • Mã hóa dữ liệu làm tăng độ tin cậy, tính nhất quán. • Chỉ mã hóa dữ liệu cho thang đo danh nghĩa/thứ bậc. • Có thể mã hóa LẠI dữ liệu định lượng -> dữ liệu định tính(thang đo thứ bậc). • có 2 hình thức mã hóa • Mã hóa trước • Mã hóa sau
  5. Mã hóa trước • Mã hóa trước khi nhập liệu
  6. Mã hóa sau • Mục đích của mã hóa sau là làm tăng chất lượng của mẫu. • Mã hóa lại các giá trị của biến. • Mã hóa giá trị khuyết. • Mã hóa tự động các giá của biến định lượng (rời rạc) -> định tính (thứ bậc)
  7. Mã hóa lại các giá trị của biến • Tính toán khoảng chia phù hợp. • Thống kê • Thực hiện mã hóa: • Cách 1. Transform -> Recode into same variable • Cách 2. Transform -> Recode into different variable
  8. Cách 1. Transform -> Recode into same variable Old and New Value
  9. Cách 1. Transform -> Recode into same variable Mã hóa các giá trị của biến định lượng (liên tục) -> định tính (thứ bậc).
  10. Cách 2. Transform -> Recode into different variable Old and New Value
  11. Mã hóa tự động • Mã hóa tự động các giá trị của biến định lượng (rời rạc) -> định tính (thứ bậc). • Transform -> Automatic Recode
  12. 2.2 Lý do làm sạch dữ liệu • Nguyên nhân lỗi dữ liệu: • Nhập liệu • Lỗi thiết bị • Chất lượng phỏng vấn • Trả lời không nhất quán • … • Làm sạch dữ liệu: • Đảm bảo tính đúng của dữ liệu • Đảm bảo độ tin cậy • Đảm bảo sự nhất quán
  13. 2.3 Các biện pháp ngăn ngừa • Xây dựng nội dung điều tra khảo sát rõ rang, dễ hiểu, tránh nhập nhằng • Thiết bị đo lường phải chính xác • Đào tạo, huấn luyện đội ngũ phỏng vấn viên • Nhập liệu cẩn thận, chính xác
  14. 2.4 Các phương pháp làm sạch dữ liệu • Dùng Value label để phát hiện các giá trị sai của biến có thang đo danh nghĩa hoặc thứ bậc. • Dùng bảng tần số. • Dùng đồ thị RÂU (Boxlot) • Dùng bảng chéo. • Dùng Select case. • Cách tìm và sửa dữ liệu nhập sai.
  15. Dùng Value label • Dùng Value label để phát hiện các giá trị sai của biến có thang đo danh nghĩa hoặc thứ bậc • VALUES LABEL phát hiện các giá trị chưa gán nhãn VALUES LABEL Giá trị sai
  16. Dùng Value label • Ưu điểm • Đơn giản, dễ sử dụng, dễ phát hiện lỗi • Nhược điểm • Không biết được số lượng lỗi • Phải duyệt từng trang màn hình để tìm lỗi
  17. Dùng bảng tần số • Analyze -> Descriptive Statistics -> Frequencies. Chọn biến từ DS -> Variables
  18. Dùng bảng tần số
  19. Dùng bảng tần số • Ưu điểm • Đơn giản, dễ sử dụng • Biết được các lỗi và số lượng của chúng • Nhược điểm • Chỉ tìm được lỗi trên từng biến • Không phát hiện được lỗi kết hợp
  20. Dùng đồ thị RÂU (Boxlot) • Để phát hiện các giá trị bất thường • Ưu điểm • Dùng tốt cho biến định lượng • Cho biết vị trí của giá trị bất thường trong Data file • Nhược điểm • Chỉ áp dụng cho tường biến, không có khả năng kết hợp
  21. Dùng đồ thị RÂU (Boxlot)
  22. Dùng bảng chéo • Analyze -> Descriptive Statistics -> CrossTab
  23. Dùng bảng chéo • Dò từng cặp để phát hiên lỗi
  24. Dùng bảng chéo • Ưu điểm • Phát hiện lỗi kết hợp • Nhược điểm • Không áp dụng được cho trường hợp có điều kiện phức tạp
  25. SỬ DỤNG SELECT CASE • BẢNG SỰ THẬT (CHÂN TRỊ)
  26. SỬ DỤNG SELECT CASE • Sử dụng hàm ANY() để phát hiện lỗi không nhất quán. Cú pháp: • ANY(Test,Values_List) • Trong đó: • Test: Giá trị cần kiểm tra • Values_List: Có 1 hoặc nhiều giá trị. Đây là danh sách đối chiếu với Test. • Hàm ANY() trả về 1 trong 3 giá trị: • =1 nếu Test trùng với 1 giá trị trong Values_List • =0 nếu Test không trùng với 1 giá trị trong Values_List • = . (Missing) nếu Test là Missing
  27. SELECT CASE • Data -> Select case -> if codition is satisfield -> if
  28. SELECT CASE • Data -> Select case -> if codition is satisfield -> if
  29. Cách tìm và sửa dữ liệu nhập sai. • Tìm các giá trị lỗi • Dùng lệnh find • Sort case • Dùng các biểu thức logic
  30. Cách tìm và sửa dữ liệu nhập sai. • Dùng lệnh find. Trước khi dùng: • Chọn cột biến cần kiểm tra • Tắt chế độ Value Label • Gọi lệnh FIND: • EDIT => FIND • Ctrl + F Nhập giá trị tìm kiếm Đánh dấu V cho Replace Nhập giá trị thay thế
  31. Cách tìm và sửa dữ liệu nhập sai. • Dùng lệnh find. Nếu không tắt chế độ Value Label. Không thể thay thế
  32. Cách tìm và sửa dữ liệu nhập sai. • Sort case • Data => Sort case
  33. Cách tìm và sửa dữ liệu nhập sai. • Dùng các biểu thức logic • Ví dụ: tìm những người có nghề giáo viên và tuổi =18 • (nghe=2)&(tuoi=18):
  34. 2.5. Tách, nối file dữ liệu • Nối file dữ liệu Nguồn A Nguồn B Trộn A&B
  35. 2.5. Tách, nối file dữ liệu • Nối file dữ liệu • Mở file dữ liệu đích (Destination file) • Data => Merge file => Add Case Mở file dữ liệu nguồn (DataSoure file)
  36. Tổng kết
Anúncio