KTL cơ bảnXử lý dữ liệu

Phân biệt gen vs egen, listwise vs pairwise deletion

Trong mỗi kỹ thuật thống kê, chúng ta cần biết chắc là đang thao tác trên các quan sát hợp lý (non-missing) hay có tồn tại các giá trị missing. Do vậy, hiểu và quản lý các giá trị missing là một việc rất quan trọng trong bất kì loại phân tích thống kê nào. Bài viết sẽ trình bày cách mã hóa và phân biệt listwise vs pairwise delection trong hồi quy và cách tạo biến gen vs egen trong trường hợp dữ liệu tồn tại missing.

Sử dụng đoạn code sau để nhập 7 quan sát sau vào Stata

clear
input id x1 x2 x3
1 1.5 1.4 1.6
2 -999 . 1.9
3 . 2.0 1.6
4 . . 2.2
5 1.9 -99 2
6 1.8 2.0 1.9
7 . . .
end
list

save missing_data.dta, replace

Chúng ta thấy bên cạnh các giá trị missing (.) thì các quan sát còn có các giá trị đặc biệt như -999 hoặc -99. Các giá trị mã hóa đặc biệt này có những ý nghĩa đặc trưng trong thu thập dữ liệu. Stata xem giá trị missing là giá trị lớn hơn bất kì giá trị nào trong tập dữ liệu. Stata cho phép chúng ta mã hóa các loại dữ liệu dạng số thành 27 loại vô cùng lớn được kí hiệu từ “.a” đến “.z” “.”

Xem thêm:

1 2 3 4Trang sau
Back to top button