Xác định điểm dị biệt cho các phân phối lệch

Trong các phân tích đơn biến và đa biến, rất khó xác định các điểm dị biệt (outliers) trong trường hợp phân phối bị lệch (skewed) hoặc có đuôi dầy (heavy-tailed distributions). Trong bài viết này, Vietlod sẽ giới thiệu công cụ gboxplot (trường hợp đơn biến) và sdasym (trường hợp đa biến) để xác định các điểm dị biệt này.
Xác định điểm dị biệt đơn biết
Các biểu đồ hộp (box plot) có lẽ là công cụ được sử dụng phổ biến nhất để trực quan hóa dữ liệu đơn biến và xác định các outliers. Tuy nhiên, Hubert and Vandervieren (2008) đã chỉ ra rằng công cụ này không phù hợp với dữ liệu có phân phối bị lệch hoặc đuôi dầy và đã đề xuất một công cụ thay thế. Phương pháp thay thế này có độ phức tạp tính toán cao trong việc ước tính độ lệch dữ liệu. Gần đây, Bruffaerts, Verardi and Vermandele (2014) đã đề xuất một thủ tục thay thế với tên gọi biểu đồ hợp tổng quát (generalized box plot) có độ phức tạp ít hơn. Lệnh gboxplot sẽ thực hiện thủ tục này trên Stata.

Đối với biểu đồ hộp chuẩn thì một điểm nằm ngoài đoạn [P1 = Q1 – 1.5*IQR; P3 = Q3 + 1.5*IQR] được xem là điểm dị biệt (với IQR = Q3 – Q1).
Hình 1: Biểu đồ hộp chuẩn trong trường hợp thông thường.

Phần nội dung có thu phí bên dưới đã được ẩn.

Xin mời bạn đăng nhập để tiếp tục nội dung...

* Nếu chưa có tài khoản Premium, mời bạn đăng ký tại đây.

Chân thành cảm ơn sự quan tâm của bạn!

1 2 3Next page
Thẻ

Bài liên quan

Back to top button
Close
Close