KTL cơ bảnXử lý dữ liệu

Kiểm tra dữ liệu nhập – Stata

Trước khi tiến hành thao tác và phân tích dữ liệu, rất cần thiết chúng ta phải kiểm tra dữ liệu. Bài viết sau sẽ tổng hợp một số lệnh phổ biến trên Stata được sử dụng để thực hiện quá trình kiểm tra dữ liệu này.

Bài viết sử dụng dữ liệu thực hành là hsb2.dta
use https://www.vietlod.com/data/hsb2.dta, clear

LệnhÝ nghĩa
cdThay đổi thư mục làm việc
useChọn tập dữ liệu thao tác
describeMô tả thông tin các biến
listLiệt kê thông tin các biến
codebookMô tả chi tiết các thành phần của tập dữ liệu
logTạo file nhật ký thao tác
summarizeThống kê mô tả các biến
tabstatTạo bảng thống kê mô tả cho biến
tableTạo một bảng thống kê
stemĐồ thị thân – lá
graphĐồ thị graph
kdensityĐề thị phân phối Kernel
sortSắp xếp các quan sát trong tập dữ liệu
histogramĐồ thị histogram
tabulateTạo bảng tần suất
correlateTính hệ số tương quan
pwcorrTính hệ số tương quan từng cặp

Đầu tiên chúng ta tạo 1 file nhật ký (file log) để lưu lại quá trình làm việc của bài viết

log using data_screening.txt, text replace
describe

Câu lệnh describe sẽ mô tả thông tin sơ bộ về các biến trong tập dữ liệu như kiểu định dạng, thiết lập hiển thị, nhãn biến và giá trị nhãn của các biến. Theo đó, tất cả các biến trong tập dữ liệu đều có định dạng số (number).

codebook

Câu lệnh codebook sẽ mô tả chi tiết hơn về thông tin của các biến. Ngoài các thông tin ở câu lệnh describe trên, lệnh codebook cho biết về khoảng giá trị (range), giá trị rỗng (missing), giá trị trùng (unique values) của các biến. Riêng đối với các biến liên tục thì lệnh codebook còn cho biết thông tin về giá trị trung bình (mean), độ lệch chuẩn (std. dev), phân vị (percentiles) của các biến.

1 2Trang sau
Back to top button