Các phương pháp xử lý missing
Đây là bài viết thứ 2 trong chuỗi bài viết về dữ liệu missing và các phương pháp xử lý missing. Phần trình bày trước đã giới thiệu sơ lược về dữ liệu missing, cũng như cách phát hiện và tổng hợp nó trong dữ liệu. Tiếp đến, chúng ta sẽ tìm hiểu về các phương pháp xử lý dữ liệu missing. Tuy nhiên, trước khi đề cập đến phương pháp xử lý chúng ta cần tìm hiểu rõ nguồn gốc hoặc phân loại các dữ liệu missing trước khi có biện pháp xử lý chúng.
1. Nguồn gốc phát sinh dữ liệu missing
Nguồn gốc của dữ liệu missing có thể là các vấn đề ngẫu nhiên hoặc không ngẫu nhiên. Xét trên khía cạnh này, dữ liệu missing có thể được phân thành 3 loại thường gặp là missing hoàn toàn ngẫu nhiên (MCAR), missing ngẫu nhiên (MAR) và missing không phải là ngẫu nhiên.
Theo đó:
- 1 giá trị missing (y) gọi là MCAR thì (y) không phụ thuộc vào x hoặc y
Ví dụ: các bảng khảo sát được hỏi ngẫu nhiên từ các mẫu trong tổng thể
- 1 giá trị missing (y) gọi là MAR thì (y) phụ thuộc vào x nhưng không phụ thuộc y
Ví dụ: các đối tượng làm việc trong lĩnh vực dịch vụ thường ít trả lời các câu hỏi liên quan đến thu nhập.
- 1 giá trị missing gọi là MNAR thì nếu giá trị missing này phụ thuộc vào biến có giá trị missing
Ví dụ: các đối tượng có thu nhập cao thường ít trả lời các câu hỏi về thu nhập
Chúng ta không thể biết chắc 100% nguồn gốc gây ra missing. Rất nhiều phương pháp xử lý missing giả định rằng các missing có dạng MCAR, MAR nhưng dữ liệu thực tế của chúng ta thường là NMAR. Tuy nhiên, may mắn là các phương pháp xử lý MAR sử dụng dữ liệu missing NMAR vẫn cho kết quả tốt. Sở dĩ như vậy là vì:
- Chúng ta có thể sử dụng cách đo lường gián tiếp để dự báo các giá trị missing, chẳng hạn như sử dụng biến số năm đi học hoặc chi tiêu để đo lường thu nhập ở những người thu nhập cao.
- Các ước lượng hợp lý cực đại – ML (Maximum Likelihood) và ước lượng thay thế lặp – MI (Multiple Imputation) thường không chệch đối với NMAR, mặc dù nó giả định missing dạng MAR (Schafer & Graham, 2002).