MỤC TIÊU
• Kiến thức:
• Kiểm tra dữ liệu nhập vào và dùng phần mềm SPSS để làm sạch dữ liệu trước khi tiến hành
phân tích dữ liệu.
• Làm được các bước cơ bản như tìm, sửa dữ liệu nhập sai, sắp xếp dữ liệu, tách nối file dữ
liệu trong SPSS.
• Kỹ năng
• Mã hóa lại các biến trong phân tích dữ liệu như mã hóa lại biến từ thang đo định lượng
sang thang đo định danh, mã hóa dữ liệu từ câu hỏi mở sang câu hỏi đóng.
NỘI DUNG
• 2.1. Mã hóa dữ liệu
• 2.2 Lý do làm sạch dữ liệu
• 2.3 Các biện pháp ngăn ngừa
• 2.4 Các phương pháp làm sạch dữ liệu
• 2.5. Tách nối file
2.1. Mã hóa dữ liệu
• Mã hóa dữ liệu làm tăng độ tin cậy, tính nhất quán.
• Chỉ mã hóa dữ liệu cho thang đo danh nghĩa/thứ bậc.
• Có thể mã hóa LẠI dữ liệu định lượng -> dữ liệu định tính(thang đo thứ bậc).
• có 2 hình thức mã hóa
• Mã hóa trước
• Mã hóa sau
Mã hóa sau
• Mục đích của mã hóa sau là làm tăng chất lượng của mẫu.
• Mã hóa lại các giá trị của biến.
• Mã hóa giá trị khuyết.
• Mã hóa tự động các giá của biến định lượng (rời rạc) -> định tính (thứ bậc)
Mã hóa lại các giá trị của biến
• Tính toán khoảng chia phù hợp.
• Thống kê
• Thực hiện mã hóa:
• Cách 1. Transform -> Recode into same variable
• Cách 2. Transform -> Recode into different variable
Mã hóa tự động
• Mã hóa tự động các giá trị của biến định lượng (rời rạc) -> định tính (thứ bậc).
• Transform -> Automatic Recode
2.2 Lý do làm sạch dữ liệu
• Nguyên nhân lỗi dữ liệu:
• Nhập liệu
• Lỗi thiết bị
• Chất lượng phỏng vấn
• Trả lời không nhất quán
• …
• Làm sạch dữ liệu:
• Đảm bảo tính đúng của dữ liệu
• Đảm bảo độ tin cậy
• Đảm bảo sự nhất quán
2.3 Các biện pháp ngăn ngừa
• Xây dựng nội dung điều tra khảo sát rõ rang, dễ hiểu, tránh nhập nhằng
• Thiết bị đo lường phải chính xác
• Đào tạo, huấn luyện đội ngũ phỏng vấn viên
• Nhập liệu cẩn thận, chính xác
2.4 Các phương pháp làm sạch dữ liệu
• Dùng Value label để phát hiện các giá trị sai của biến có thang đo danh nghĩa
hoặc thứ bậc.
• Dùng bảng tần số.
• Dùng đồ thị RÂU (Boxlot)
• Dùng bảng chéo.
• Dùng Select case.
• Cách tìm và sửa dữ liệu nhập sai.
Dùng Value label
• Dùng Value label để phát hiện các giá trị sai của biến có thang đo danh nghĩa
hoặc thứ bậc
• VALUES LABEL phát hiện các giá trị chưa gán nhãn
VALUES
LABEL
Giá
trị
sai
Dùng Value label
• Ưu điểm
• Đơn giản, dễ sử dụng, dễ phát hiện lỗi
• Nhược điểm
• Không biết được số lượng lỗi
• Phải duyệt từng trang màn hình để tìm lỗi
Dùng bảng tần số
• Ưu điểm
• Đơn giản, dễ sử dụng
• Biết được các lỗi và số lượng của chúng
• Nhược điểm
• Chỉ tìm được lỗi trên từng biến
• Không phát hiện được lỗi kết hợp
Dùng đồ thị RÂU (Boxlot)
• Để phát hiện các giá trị bất thường
• Ưu điểm
• Dùng tốt cho biến định lượng
• Cho biết vị trí của giá trị bất thường trong Data file
• Nhược điểm
• Chỉ áp dụng cho tường biến, không có khả năng kết hợp
SỬ DỤNG SELECT CASE
• Sử dụng hàm ANY() để phát hiện lỗi không nhất quán. Cú pháp:
• ANY(Test,Values_List)
• Trong đó:
• Test: Giá trị cần kiểm tra
• Values_List: Có 1 hoặc nhiều giá trị. Đây là danh sách đối chiếu với Test.
• Hàm ANY() trả về 1 trong 3 giá trị:
• =1 nếu Test trùng với 1 giá trị trong Values_List
• =0 nếu Test không trùng với 1 giá trị trong Values_List
• = . (Missing) nếu Test là Missing
Cách tìm và sửa dữ liệu nhập sai.
• Tìm các giá trị lỗi
• Dùng lệnh find
• Sort case
• Dùng các biểu thức logic
Cách tìm và sửa dữ liệu nhập sai.
• Dùng lệnh find. Trước khi dùng:
• Chọn cột biến cần kiểm tra
• Tắt chế độ Value Label
• Gọi lệnh FIND:
• EDIT => FIND
• Ctrl + F
Nhập giá trị tìm kiếm
Đánh dấu V cho Replace
Nhập giá trị thay thế
Cách tìm và sửa dữ liệu nhập sai.
• Dùng lệnh find. Nếu không tắt chế độ Value Label.
Không thể thay thế
Cách tìm và sửa dữ liệu nhập sai.
• Sort case
• Data => Sort case
Cách tìm và sửa dữ liệu nhập sai.
• Dùng các biểu thức logic
• Ví dụ: tìm những người có nghề giáo viên và tuổi =18
• (nghe=2)&(tuoi=18):
2.5. Tách, nối file dữ liệu
• Nối file dữ liệu
Nguồn A Nguồn B
Trộn A&B