Quản lý các biến trong tập dữ liệu lớn

Công cụ variable lists, vl trong bộ lệnh lasso ở Stata 16

Điểm mạnh của Lasso là khả năng làm việc với tập dữ liệu lớn với hàng ngàn hoặc hàng chục ngàn biến một cách tự động. Để làm được điều này, trong Lasso, Stata 16 cung cấp một công cụ vl (variable lists) giúp thực hiện quản lý danh sách các biến.

Xem thêm:

Nhu cầu quản lý danh sách biến
Trong các ví dụ của mục này, chúng tôi sử dụng bộ dữ liệu có kích thước thực tế cho lasso. Bộ dữ liệu bao gồm 1.058 quan sát và 172 biến. Tuy nhiên, đây chỉ là một bộ dữ liệu kích thước nhỏ cho Lasso. Lasso cũng có thể được sử dụng với các bộ dữ liệu có hàng ngàn hoặc hàng chục ngàn biến. Số lượng biến thậm chí có thể lớn hơn số lượng quan sát. Điều cần thiết cho lasso là tập hợp các biến tiềm năng chứa một tập hợp các biến nằm trong mô hình thực hoặc có tương quan với các biến trong mô hình thực. Vậy một mô hình thực nên có bao nhiêu biến là phù hợp?

Trước khi đi vào phần thực hành ước lượng Lasso cũng như thuận tiện trong việc minh họa cho nhiều mô hình Lasso trên Stata thì chúng ta cần tìm hiểu cách quản lý các biến tiềm năng trong tập dữ liệu. Bởi vì tập dữ liệu có rất nhiều biến, chúng ta không thể hoặc rất khó thao tác nhập từng biến vào từng mô hình ước lượng. Rất may, trên Stata 16 có công cụ vl (variable lists) giúp chúng ta thực hiện quản lý danh sách các biến này.

Phần nội dung có thu phí bên dưới đã được ẩn.

Xin mời bạn đăng nhập để tiếp tục nội dung...

* Nếu chưa có tài khoản Premium, mời bạn đăng ký tại đây.

Chân thành cảm ơn sự quan tâm của bạn!

1 2 3 4 5Next page

Bài liên quan

Back to top button