KTL cơ bảnXử lý dữ liệu

Đồ thị phân phối trên Stata

Các đồ thị phân phối (Distribution plots) rất hữu ích trong việc mô tả dạng phân phối của dữ liệu. Thông thường các đồ thị phân phối được sử dụng để hỗ trợ các kiểm định về tính chất phân phối của biến, cũng như là tính chất phân phối của phần dư. Trong đó, tính chất phân phối chuẩn của biến/phần dư là một trong những tính chất phân phối quan trọng nhất. Bài viết sẽ trình bày 20 dạng đồ thị phân phối quan trong được sử dụng phổ biến trên phần mềm Stata như histogram, boxplot, kdensity…

Xem thêm ý nghĩa và công dụng của đồ thị histogram trên SPSS

Bảng tổng hợp 20 loại đồ thị phân phối quan trọng được thể hiện trong 3 cột gồm: cột đầu tiên chính là loại đồ thị, cột thứ 2 bao gồm dữ liệu được sử dụng minh họa cùng với câu lệnh thực hiện trên Stata, và cột cuối cùng là minh họa kết quả thực hiện.

Để dễ dàng áp dụng các loại đồ thị phân riêng và tất cả các dạng đồ thị khác nói chung trong nghiên cứu của mình, theo kinh nghiệm của bản thân, đầu tiên các bạn hình dung dạng đồ thị mong muốn của mình, kế tiếp tìm loại đồ thị gần giống nhất với đồ thị mình mong muốn (hình dạng, công dụng, kiểu biến…) và cuối cùng là copy và thay thế các biến trong câu lệnh tương ứng ở bảng bên dưới để thực hiện.

Loại đồ thịCú pháp lệnh/Diễn giảiKết quả
Đồ thị mật độ histogram của biến liên tụcwebuse sp500, clear
histogram open
Đồ thị Histogram of continuous variable as density
Đồ thị tần suất histogram với đường phân phốiwebuse sp500, clear
histogram open, frequency kdensity
Đồ thị Frequencies and overlaid kernel density histogram
Đồ thị tần suất histogram với đường cong phân phối chuẩnwebuse sp500, clear
histogram open, frequency normal
Đồ thị Frequencies and overlaid normal density histogram curve
Đồ thị boxplot theo biến danh mụcwebuse bplong, clear
graph box bp, over(agegrp)
Đồ thị Box plot by values of categorical variable
Đồ thị boxplot của 2 biến liên tụcwebuse bpwide, clear
graph box bp_before bp_after
Đồ thị Box plot of two variables
Đồ thì boxplot của 2 biến liên tục ở các nhóm biến danh mụcwebuse bpwide, clear
graph box bp_before bp_after, over(agegrp)
Đồ thị Box plot categorical variable two values
Đồ thị boxplot theo biến danh mục dạng nằm ngangwebuse bplong, clear
graph box bp, over(agegrp) horizontal
Đồ thị Horizontal box plot categorical variable
Đồ thì boxplot dạng ngang của 2 biến liên tục ở các nhóm biến danh mụcwebuse bpwide, clear
graph box bp_before bp_after, over(agegrp)
Đồ thị Horizontal Box plot categorical variable two values
Đồ thị boxplot của 2 biến kèm theo giá trị trung vị của biếnwebuse bpwide, clear
graph box bp_before bp_after, medtype(marker) medmarker(msymbol(diamond))
Đồ thị Box plot of two variables with symbol as median
Đồ thị đối xứngwebuse auto, clear
symplot price
Đồ thị Symmetry plot
Đồ thị histogram theo các dạng hàm của biếnwebuse auto, clear
gladder mpg, fraction
Đồ thị Histograms gladder
Đồ thị phân vị theo dạng hàmwebuse citytemp, clear
qladder heatdd
Đồ thị Quantiles qladder
Spike plotwebuse nlsw88, clear
spikeplot age
Đồ thị Spike plot
Quantile plotwebuse auto, clear
quantile price
Đồ thị Quantile plot
Quantile–normal plotwebuse auto, clear
qnorm price
Đồ thị Quantile–normal plot
Đồ thị phân phối xác suất chuẩn hóawebuse auto, clear
pnorm price
Đồ thị Standardized normal probability plot
Đồ thị phân vị Chi2webuse auto, clear
egen c1 = std(price)
qchi c1
Đồ thị Chi-squared quantile plot
Đồ thị xác suất Chi2webuse auto, clear
egen d1 = std(price)
pchi d1
Đồ thị Chi-squared probability plot
Quantile–quantile plotwebuse auto, clear
generate weightd = weight if !foreign
generate weightf = weight if foreign==1
qqplot weightd weightf
Đồ thị Quantile–quantile plot
Sunflower plotwebuse auto, clear
sunflower mpg displ
Đồ thị Sunflower plot

Nguồn tham khảo: http://www.stata.com/support/

Back to top button