KTL cơ bảnPhân tích hồi quy

Giải thích Odds một cách đơn giản

Các dạng của hồi quy logit, probit đều cho kết quả các hệ số ước lượng là log của odds, logit hoặc tỉ lệ odds (OR). Việc giải thích các hệ số này đôi khi dễ nhầm lẫn. Bài viết sẽ hướng dẫn cách giải thích odds một ví dụ đơn giản có thể tính tay hoặc sử dụng hồi quy logit giản đơn.

Giả sử chúng ta có bảng 2×2 về tỉ lệ trúng tuyển vào đại học của 10 học sinh nam và học sinh nữ được cho ở bảng như sau:

Trúng tuyểnĐượcKhông
Giới tínhNam73
Nữ37

1. Xác suất

Trước khi giải thích odds, chúng ta cần biết odds là gì? Chúng ta cần nhắc lại khái niệm về xác suất.

Xác suất là khả năng xảy ra một sự kiện. Nó được tính bằng tỉ lệ giữa số trường hợp xảy ra một sự kiện đó (p) so với tổng số các trường hợp (p+q).

Như vậy,

  • Xác suất trúng tuyển của sinh viên nam là 7/10 hay 0.7 và xác suất không trúng tuyển là 0.3
  • Xác suất trúng tuyển của sinh viên nữ là 3/10 hay 0.3 và xác suất không trúng tuyển là 0.7

2. Odds

Odds cũng có định nghĩa tương tự như xác suất, nhưng ở đây chính là tỉ lệ của 2 xác suất. Cụ thể, Odds được định nghĩa là tỉ lệ giữa xác suất xảy ra 1 sự kiện so với xác suất không xảy ra sự kiện đó.

Chúng ta có thể sử dụng khái niệm xác suất này để tính odds được trúng tuyển cho cả sinh viên nam và nữ như sau:

  • Odds(nam) = 0.7/0.3 = 2.33333
  • Odds(nữ) = 0.3/0.7 = 0.42857

3. Tỉ lệ Odds

Tiếp đến, chúng ta tính tỉ lệ odds (odds ratio) được trúng tuyển của nhóm sinh viên nam so với nhóm sinh viên nữ là:

  • OR = 2.3333/.42857 = 5.44
  • OR = 5.44 có nghĩa, odds được trúng tuyển ở nhóm sinh viên nam cao hơn 5.44 lần so với odds được trúng tuyển ở nhóm sinh viên nữ.

Chúng ta có thể sử dụng hồi quy logit để minh họa quá trình trên. Đặt biến được trúng tuyển admited {1: được trúng tuyển; 0: không trúng tuyển}; Biến giới tính gender {1: nam; 0: nữ}.

Trong Stata, hồi quy logit có thể được thực hiện bằng lệnh logit hoặc logistic. Sự khác nhau giữa logit logistic thể hiện ở chổ hệ số ước lượng. Lệnh logit sẽ cho hệ số ước lượng coef là log của odds hay logit. Ngược lại, lệnh logistic sẽ cho hệ số ước lượng Odds ratios hay tỉ lệ odds (OR).

Sử dụng lệnh input để nhập dữ liệu như sau:

input admit gender freq
1 1 7
1 0 3
0 1 3
0 0 7
end

Thực hiện hồi quy logit như sau:

logit admit gender [weight=freq], nolog
Giải thích odds - hồi quy logit

Hoặc được thể hiện dưới dạng tỉ lệ odds (OR) khi thêm tùy chọn or ở phía sau câu lệnh logit

logit admit gender [fweight=freq], nolog or
Giải thích odds - hồi quy logit

Câu lệnh trên cũng tương đương câu lệnh: logistic admit gender [weight=freq], nolog

Chúng ta thấy rằng giá trị z = 1.74 ở hệ số và tỉ lệ odss của biến gender.

4. logit

Giá trị logit của một mức xác suất (p) được định nghĩa là logarit cơ số e của odds, có công thức là:

[1] logit(p) = ln(odds) = ln(p/q)

Giá trị logit có thể thay đổi từ \( – \infty \) đến \( + \infty \)

logit có mối quan hệ tuyến tính với các biến giải thích trong mô hình hồi quy logit như sau:

[2] logit(p) = a + bX

hoặc

[3] log(p/q) = a + bX

Điều này có nghĩa các hệ số trong hồi quy logit là thành phần log của odds. Chẳng hạn, hệ số của biến gender bằng 1.694596 cho biết sự thay đổi 1 đơn vị của biến gender (0 thành 1) sẽ làm thay đổi 1.694596 đơn vị trong log của odds được trúng tuyển.

Logarit cơ số e 2 về của [3] chúng ta sẽ có:

  • Odds(x) = \({e^{a + bx}}\) và
  • Odds(x+1) = \({e^{a + b(x+1)}}\)

Theo định nghĩa của tỉ lệ odds thì:

\(OR = \frac{{odds(x + 1)}}{{odds(x)}} = \frac{{{e^{a + b(x + 1)}}}}{{{e^{a + bx}}}}\)

Hay \(OR = {e^b} = {e^{^{{\bf{1}}.{\bf{694596}}}}} = 5.44\)

Các kết quả này phù hợp với phần tính minh họa tính tay ban đầu.

 

Back to top button