Hồi quy có ràng buộc – STATA
Trong những trường hợp các biến giải thích trong mô hình có mối quan hệ ràng buộc lẫn nhau thì chúng ta phải xét đến những ràng buộc này trong phân tích hồi quy. Phương pháp hồi quy trong trường hợp này được gọi là hồi quy có ràng buộc. Bài viết sau sẽ minh họa cách thực hiện hồi quy có ràng buộc trên STATA (lệnh cnsreg).
Phần minh họa sử dụng dữ liệu thực hành là hsb2.dta
use https://www.vietlod.com/data/hsb2.dta, clear
Tập dữ liệu bao gồm 200 quan sát từ các trường trung học. Các biến trong tập dữ liệu bao gồm: id, female, race, ses, schtyp, program, read, write, math, science và socst.
Đầu tiên, chúng ta hồi quy OLS để tiên lượng biến socst theo các biến read, write, math, science và female để đánh giá sơ bộ về hệ số ước lượng của các biến.
regress socst read write math science female
Nhận xét:
Hệ số của biến read và write là rất giống nhau, làm chúng ta có cảm giác cả 2 biến này đều đo lường khả năng ngôn ngữ. Tương tự như vậy, hệ số của biến math và science cũng rất giống nhau (cả 2 đều không có ý nghĩa thống kê). Giả sử, chúng ta có lí do tin tưởng rằng hệ số của biến read và write là bằng nhau và hệ số của biến math và science cũng bằng nhau. Chúng ta có thể thực hiện kiểm tra nhận định trên bằng lệnh test trong STATA như sau:
test read=write
(1) read – write = 0.0
F( 1, 194) = 0.00
Prob > F = 0.9558
Chúng ta cũng có thể sử dụng lệnh testparm để kiểm tra sự bằng nhau về hệ số ước lượng của nhiều hơn 2 biến
testparm read write, equal
(1) – read + write = 0.0
( 1, 194) = 0.00
Prob > F = 0.9558
testparm math science, equal
(1) – math + science = 0.0
F( 1, 194) = 1.45
Prob > F = 0.2299
Cả 2 kiểm định này đều cho thấy sự khác nhau giữa các hệ số không có ý nghĩa thống kê. Hay nói cách khác có thể chấp nhận giả thuyết về sự bằng nhau giữa ở các cặp hệ số trên.
Bây giờ chúng ta sẽ thực hiện cả hai kiểm định này và sử dụng tùy chọn accum ở câu lệnh test thứ hai để cộng dồn kết quả ở kiểm định đầu.
test read=write
(1) read – write = 0.0
F( 1, 194) = 0.00
Prob > F = 0.9558
test math=science, accum
(1) read – write = 0.0
(2) math – science = 0.0
F( 2, 194) = 0.73
Prob > F = 0.4852
Kiểm định thứ 2 có 2 bậc tự do, bởi vì nó kiểm định cùng lúc cả 2 giả thuyết liệt kê trong câu lệnh. Kết quả kiểm định này không có ý nghĩa thống kê, cho thấy rằng sự khác nhau giữa các cặp hệ số này không có ý nghĩa thống kê. Chúng ta có thể ước ượng mô hình hồi quy trong đó bổ sung thêm ràng buộc các hệ số bằng nhau, chẳng hạn thêm ràng buộc hệ số của biến read bằng với hệ số của biến write.
Đầu tiên, chúng ta định nghĩa các ràng buộc bằng lệnh constraint với cú pháp như sau:
constraint define 1 read = write
Tiếp đến, chúng ta hồi quy mô hình với các ràng buộc này bằng câu lệnh cnsreg.
cnsreg socst read write math science female, constraint(1)
Để ý rằng các tham số ước lượng cho 2 biến read và write là tương tự nhau (hệ số ước lượng, sai số chuẩn, t-test…). Lưu ý rằng bậc tự do của F là 4 chứ không phải là 5 như mô hình OLS. Điều này bởi vì, chỉ một hệ số được ước lượng cho read và write.
Thông thường, giá trị Root MSE sẽ tăng trong mô hình bị ràng buộc, bởi vì việc ước lượng trong điều kiện các giới hạn tuyến tính sẽ không cải thiện độ phù hợp so với mô hình không bị giới hạn (các hệ số sẽ tối thiểu hóa SSE là những hệ số từ mô hình không bị ràng buộc).
Tiếp đến, chúng ta thêm một ràng buộc thứ 2 về sự bằng nhau giữa hệ số 2 biến math và science:
constraint define 2 math = science
cnsreg socst read write math science female, constraint(1 2)
Bây giờ, hệ số của biến read = write và math = science và bậc tự do của mô hình là 3. Quan sát giá trị Root MSE là hơi cao hơn so với các mô hình trước, nhưng chúng ta không nhấn mạnh đến sự thay đổi này. Điều quan tâm là nếu thực sự trong tổng thể các hệ số bằng nhau của biến read = write và math = science, thì những ràng buộc này sẽ làm cho kết quả ước lượng ổn định hơn và tổng quát hơn.
KẾT LUẬN VỀ HỒI QUY CÓ RÀNG BUỘC Phương pháp hồi quy có ràng buộc được sử dụng trong các nghiên cứu về hàm cầu (năng lượng, thực phẩm), các hàm chi phí hoặc các hàm sản xuất. Nó cũng thường được sử dụng kết hợp trong phân tích dữ liệu bảng. Một ví dụ khác cho hồi quy có ràng buộc là ước lượng hàm Cobb-Douglas trong trường hợp năng suất không đổi theo quy mô. Giả sử, chúng ta muốn ước lượng mức đóng góp của từng thành phần như lao động, vốn, và TFP đến sự tăng trưởng trong một số ngành kinh tế theo mô hình Cobb-Douglas: \(Q = A{K^\alpha }{L^\beta }\) Hoặc dưới dạng hàm Log – Log như sau: $$Log(Q) = Log(A) + \alpha Log(K) + \beta Log(L)$$ Khi đó, trong phương trình hồi quy, chúng ta thêm ràng buộc về hệ số ước lượng của K và L như sau: \(\alpha + \beta\) = 1.