KTL cơ bảnPhân tích hồi quy

Phát hiện khuyết tật dữ liệu trong hồi quy logit

Tiếp theo bài chẩn đoán kết quả mô hình logit, bài viết này đi sâu hơn phát hiện những vấn đề tiềm ẩn trong mô hình, trong đó quan trọng nhất là các quan sát có ảnh hưởng thống kê lên kết quả ước lượng. Chúng ta cần phải kiểm tra các quan sát này bởi nhiều lý do như: (i) lỗi nhập liệu, (ii) chúng là các điểm đặc biệt mà chúng ta muốn quan tâm, (iii) chúng có thể kéo lệch kết quả hồi quy.

Các phần dư Pearson và các dạng chuẩn hóa của nó là một dạng của phần dư. Các phần dư Pearson được định nghĩa là sự chênh lệch được chuẩn hóa giữa tần suất dự đoán và tần suất quan sát. Chúng ta lường sự chênh lệch giữa giá trị quan sát và giá trị dự báo. Phần dư lệch (Deviance residual) là một dạng phần dư khác, nó đo lường sự chênh lệch giữa các giá trị quan sát cực đại và log của các hàm hợp lí được tính toán. Vì hồi quy logistic sử dụng nguyên tắc hợp lí cực đại nên mục tiêu của hồi quy logistic là tối thiểu hóa tổng của các phần dư lệch (tương tự tối thiểu hóa phần dư trong OLS). Một thống kê khác, đôi khi còn gọi là đường chéo mũ (hat diagonal) vì nó là đường chéo của ma trận giá trị dự báo (hat matrix), đo lường tính bật (leverage) của một quan sát. Đôi khi thống kê này còn được gọi là đòn bẩy Pregibon (Pregibon leverage). Chúng ta lần lượt kiểm tra các vấn đề tiềm ẩn qua 3 thống kê này như sau.

. logit hiqual avg_ed yr_rnd meals fullc yxfc, nolog

Logistic regression                               Number of obs   =       1158
                                                  LR chi2(5)      =     933.71
                                                  Prob > chi2     =     0.0000
Log likelihood = -263.83452                       Pseudo R2       =     0.6389

------------------------------------------------------------------------------
      hiqual |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      avg_ed |   1.968948   .2850145     6.91   0.000      1.41033    2.527566
      yr_rnd |   -.548494    .368032    -1.49   0.136    -1.269823    .1728354
       meals |  -.0789775   .0079544    -9.93   0.000    -.0945678   -.0633872
       fullc |   .0499983     .01452     3.44   0.001     .0215396     .078457
        yxfc |  -.1329371   .0325104    -4.09   0.000    -.1966562   -.0692179
       _cons |  -3.655163   1.016975    -3.59   0.000    -5.648396   -1.661929
------------------------------------------------------------------------------

Ghi chú, ở đây: yxfc=yr_rnd*fullc, với fullc=full-r(mean)

1 2 3 4 5 6Trang sau
Back to top button