Please Enable JavaScript in your Browser to visit this site

KTL cơ bảnXử lý dữ liệu

Các phương pháp xử lý missing

2. Phương pháp xử lý dữ liệu missing

Sau khi đã biết nguyên nhân và sự tồn tại của dữ liệu missing, chúng ta sẽ quyết định lựa chọn một phương pháp để cho kết quả ước lượng ít thiên chệch nhất. Có các nhóm phương pháp sau:

  • Phương pháp loại bỏ giá trị missing (deletion methods) bao gồm Listwise delection và Pairwise deletion.

Xem thêm: Phân biệt listwise vs pairwise deletion

  • Phương pháp thế giản đơn (Single Imputation Methods): thay thế giá trị trung bình/trung vị, phương pháp biến giả hoặc hồi quy giản đơn.
  • Phương pháp dựa trên mô hình (Model-Based Methods) bao gồm ước lượng ML (Maximum Likelihood), và MI (Multiple imputation).

Chúng ta sẽ lần lượt tìm hiểu các phương pháp xử lý dữ liệu missing, đầu tiên là phương pháp loại bỏ giá trị missing.

2.1. Phương pháp loại bỏ giá trị missing (Deletion methods)

Có 2 phương pháp loại bỏ giá trị missing thường được sử dụng là listwise deletion và pairwise deletion. Phần này mô tả rõ hơn về 2 phương pháp listwise và pairwise deletion đã trình bày ở bài trước.

  • Phương pháp listwise deletion

Nếu bất kì biến nào của quan sát có chứa giá trị missing thì quan sát đó sẽ bị loại bỏ khỏi tập dữ liệu khi thực hiện phân tích. Do vậy, dữ liệu sau khi loại bỏ giá trị missing theo phương pháp listwise deletion chỉ bao gồm những quan sát có đầy đủ giá trị thực. Listwise deletion cũng là lựa chọn mặc định của Stata khi thực hiện các phân tích thống kê đa biến.

Phân biệt Listwise với Pairwise deletion

Nhận xét về listwise deletion

Với listwise deletion thì quá trình tính toán đơn giản, có thể so sánh giữa các phân tích. Tuy nhiên, làm giảm khả năng giải thích (n giảm), không sử dụng hết thông tin thu thập, cũng như làm thiên chệch kết quả nếu dữ liệu không phải MCAR.

sum
mean

  • Phương pháp pairwise deletion

Ngược lại với phương pháp listwise deletion, phương pháp pairwise deletion chỉ loại giá trị missing của biến thay vì bỏ cả dữ liệu của quan sát. Do đó, dữ liệu sau khi loại bỏ giá trị missing theo phương pháp pairwise deletion áp dụng cho tất cả các quan sát, trong đó tồn tại giá trị thực ở các biến.

Phân biệt Listwise với Pairwise deletion

Nhận xét về phương pháp pairwise deletion

Điểm hạn chế của Listwise deletion lại là điểm mạnh của Pairwise deletion bởi nó giữ lại nhiều nhất cở mẫu và khai thác tối đa thông tin có được. Tuy nhiên, không thể so sánh các kết quả phân tích với nhau bởi các mẫu là khác nhau.

Previous page 1 2 3 4 5Next page
Back to top button