Phân tích hồi quy

Hồi quy logit giản đơn

I. GIỚI THIỆU VỀ HỒI QUY LOGIT GIẢN ĐƠN

Trong các bài trước về phân tích hồi qui tuyến tính và phân tích phương sai, chúng ta phân tích các mối liên hệ giữa một biến phụ thuộc liên tục và một hay nhiều biến độc lập (liên tục hoặc không liên tục). Nhưng trong nhiều trường hợp, biến phụ thuộc không phải là biến liên tục mà là biến đo lường nhị phân: có/không, nghèo/không nghèo… Bài viết này sẽ trình bày một mô hình hồi quy đơn giản, gọi là hồi quy logit giản đơn để xác định mối liên hệ giữa 2 biến cũng như là dự báo một mức xác suất xảy ra ở biến phụ thuộc tương ứng với mỗi giá trị của biến độc lập.

Ví dụ, chúng ta muốn biết tác động việc ăn kiêng và chế độ vận động đến nguy cơ mắc bệnh cao huyết áp. Ở đây, các biến chế độ ăn kiêng và chế độ vận động là các biến định danh; mắc bệnh cao huyết áp là biến phụ thuộc có 2 giá trị {1: mắc bệnh và 0: không mắc bệnh).

Phân tích hồi quy logit được thực hiện dựa trên 4 giả định như sau:

  1. Biến phụ thuộc là biến đo lường dạng nhị phân (chỉ có 2 giá trị)[1]. Tham khảo bài viết các loại thang đo trong phân tích dữ liệu.
  2. Phải có ít nhất một biến độc lập, có thể là biến liên tục hoặc biến phân loại (thứ tự hoặc định danh).
  3. Các quan sát độc lập và biến phụ thuộc phải loại trừ lẫn nhau (xung khắc)
  4. Có mối quan hệ tuyến tính giữa biến độc lập và dạng logarit của biến phụ thuộc.

II. PHƯƠNG PHÁP HỒI QUY LOGIT GIẢN ĐƠN

Nếu chỉ xác định mối quan hệ giữa 2 biến, chúng ta có thể sử dụng phân tích phương sai một chiều, kiểm định t-test trung bình 2 mẫu độc lập hoặc các kiểm định phi tham số tương ứng. Tuy nhiên, để dự báo mức xác suất xảy ra ứng với một giá trị của biến cố thì sử dụng hồi quy logit giản đơn là một lựa chọn hợp lý.

Nguyên tắc thực hiện dự báo xác suất như sau:

  • Gọi xác suất biến cố x ghi nhận từ n đối tượng là p (còn được gọi nguy cơ). p được tính bằng x/n
  • Khi đó, khả năng của một biến cố được xác định là \(odds(p|x) = \frac{p}{{1 – p}}\)
  • Hàm logit của một khả năng (odds) được định nghĩa: \(logit(p) = \log (\frac{p}{{1 – p}}) = \log (odds)\)
  • Mô hình hồi quy logit cho một biến độc lập x được viết là: \(logit(p) = \alpha + \beta x\)

Trong đó, \(\alpha\), \(\beta\) được ước lượng từ dữ liệu mẫu, theo phương pháp hợp lí cực đại ML (Maximum Likelihood)[2].

  • Từ phương trình hồi quy trên thì khả năng xảy ra (odds) của một biến cố x còn được viết dưới dạng: \(odds(p|x) = \frac{p}{{1 – p}} = {e^{\alpha + \beta x}}\)
  • Tỉ số khả năng tại 2 giá trị \({{x_0}}\) và \({{x_0 + 1}}\) của biến cố x (gọi là odds ratio). Odds ratio còn được gọi là tỉ số khả dĩ hay hệ số được mũ hóa (exponentiated coefficients), được xác định như sau:

\(\begin{array}{ccccccccccccccc}{odds}&{ratio}&{ = \frac{{odds(p|{x_0} + 1)}}{{odds(p|{x_0})}} = {e^\beta }}\end{array}\)

  • Sau khi đã có hệ số ước lượng \({\hat \alpha }\) và \({\hat \beta }\), tính toán giá trị xác suất dự báo \({\hat p}\) theo biến cố như sau: \(\hat p = \frac{1}{{1 + {e^{ – (\hat \alpha + \hat \beta x)}}}}\)
1 2 3Trang sau
Xem thêm
Back to top button