Giới thiệu lệnh lasso trên Stata 16

Cú pháp và các tùy chọn thiết lập câu lệnh lasso

Tiếp theo bài tổng quan về mô hình Lasso, Vietlod sẽ đi sâu giới thiệu về bộ câu lệnh lasso để ước lượng các mô hình Lasso trên Stata 16. Đầu tiên là một số thông tin hữu ích về mô hình Lasso, giúp chúng ta có thể hiểu sâu hơn về các thiết lập mô hình ở câu lệnh lasso.

Giới thiệu Lasso
Lasso ban đầu là từ viết tắt của “Least Absolute Shrinkage And Selection Operator” tạm gọi là thuật toán chọn lọc và rút gọn tối thiểu tuyệt đối. Ngày nay, Lasso được coi là một từ riêng chứ không phải là một từ viết tắt.

Lasso được sử dụng để cho việc dự báo (prediction), lựa chọn mô hình (model selection) và là một thành phần của các ước lượng để thực hiện việc suy diễn (inference). Một cách đơn giản có thể hiểu Lasso là một phương pháp lựa chọn và ước lượng các biến xuất hiện trong một mô hình. Nó có thể ước lượng các mô hình tuyến tính, logit/probit và Poission (trừ câu lệnh sqrtlasso chỉ ước lượng mô hình tuyến tính).

Lasso là một dạng của phương pháp hồi quy hiệu chuẩn (Penalized regression methods). Phương pháp hồi quy hiệu chuẩn đã ngày càng trở nên quan trọng đối với các nhà nghiên cứu ứng dụng. Với tính sẵn có của rất nhiều dữ liệu thì việc lựa chọn các biến liên quan đưa vào mô hình là rất quan trọng. Công cụ Lasso trên Stata 16 bao gồm Ridge Regression (Hoerl & Kennard, 1970), Lasso (Tibshirani, 1996), the Elastic Net (Zou & Hastie, 2005), the Adaptive Lasso (Zou, 2006), the Adaptive Elastic Net (Zou & Zhang, 2009), và the Group Lasso (Yuan & Lin, 2006).

Lasso, Elastic Net, Square-Root Lasso được xây dựng cho mục tiêu lựa chọn mô hình và dự báo. Các công cụ lệnh như lasso, elasticnet, sqrtlasso trên Stata 16 sẽ thực thi những phương pháp này. Câu lệnh lassoelasticnet sẽ ước lượng (fit) cho các biến kết quả dạng liên tục (continuous), nhị phân (binary) và các biến đếm (count outcomes), trong khi lệnh sqrtlasso sẽ tính toán cho các biến kết quả dạng liên tục.

Stata 16 cũng cung cấp các lệnh lasso cho mục đích suy diễn. Chúng sử dụng các Lasso để lựa chọn biến kiểm soát (control variables) xuất hiện trong mô hình, và chúng ước tính các hệ số và sai số chuẩn cho một tập con trong danh sách các biến. Lệnh lasso cho mục đích suy diễn thực thi các phương pháp như lựa chọn kép (double selection), tách riêng từng phần (partialing out), và cross-fit partialing out. Với mỗi phương pháp này, các hồi quy tuyến tính, logit hoặc Poisson có thể được sử dụng để mô hình hóa các biến phụ thuộc dạng liên tục, nhị phân hoặc biến đếm. Phương pháp Partialing outcross-fit partialing out cũng cho phép sự tồn tại các biến nội sinh trong các mô hình tuyến tính.

Phần nội dung có thu phí bên dưới đã được ẩn.

Xin mời bạn đăng nhập để tiếp tục nội dung...

* Nếu chưa có tài khoản Premium, mời bạn đăng ký tại đây.

Chân thành cảm ơn sự quan tâm của bạn!

1 2 3Next page

Bài liên quan

Back to top button