Please Enable JavaScript in your Browser to visit this site

KTL cơ bảnPhân tích hồi quy

Phát hiện khuyết tật dữ liệu trong hồi quy logit

Chúng ta đã tạo ra 2 dạng đồ thị theo 3 dạng phần dư đã nêu bên trên là đồ thị phần dư theo giá trị dự báo và đồ thị phần dư theo chỉ số (đồ thị chỉ số). Cả hai đều truyền tải các thông tin giống nhau. Các điểm dữ liệu dường như phân tán rộng ở đồ thị chỉ số giúp ta dễ quan sát các điểm cực đoan (extreme observations) – đó là các quan sát xa nhất so với phần lớn các quan sát còn lại. Ví dụ, quan sát số 1403 có giá trị phần dư Pearson và phần dư lệch lớn nhất. Giá trị quan sát của biến hiqual là 1 nhưng xác suất dự đoán là rất, rất thấp (có nghĩa là các mô hình dự đoán biến kết quả hiqual là 0). Điều này dẫn đến phần dư lớn. Nhưng chú ý rằng quan sát năm 1403 không phải là xấu về mặt đòn bẩy. Điều đó nói lên rằng việc loại bỏ quan sát đặc biệt này khỏi mô hình thì kết quả ước lượng của hồi quy logistic cũng không có quá nhiều khác biệt so với các mô hình bao gồm các quan sát này.

Chúng ta có thể sử dụng lệnh clist để liệt kê những quan sát dị biệt nhất dựa trên đồ thị.

. clist if snum==1819 | snum==1402 | snum==1403

Observation 243

        snum         1403        dnum          315     schqual         high
      hiqual         high      yr_rnd        yrrnd       meals          100
      enroll          497        cred          low     cred_ml          low
     cred_hl          low       pared       medium    pared_ml       medium
    pared_hl            .       api00          808       api99          824
        full           59    some_col           28      awards           No
         ell           27      avg_ed         2.19          ym          100
    Imeal__1   .300735645    Imeal_p1  .4554675962    _est_f~l            1
    _est_r~e            1       fullc    -29.12417        yxfc    -29.12417


Observation 715

        snum         1819        dnum          401     schqual          low
      hiqual     not high      yr_rnd        yrrnd       meals          100
      enroll          872        cred          low     cred_ml          low
     cred_hl          low       pared          low    pared_ml          low
    pared_hl          low       api00          406       api99          372
        full           51    some_col            0      awards          Yes
         ell           74      avg_ed            5          ym          100
    Imeal__1   .300735645    Imeal_p1  .4554675962    _est_f~l            1
    _est_r~e            1       fullc    -37.12417        yxfc    -37.12417


Observation 1131

        snum         1402        dnum          315     schqual         high
      hiqual         high      yr_rnd        yrrnd       meals           85
      enroll          654        cred          low     cred_ml          low
     cred_hl          low       pared       medium    pared_ml       medium
    pared_hl            .       api00          761       api99          717
        full           36    some_col           23      awards          Yes
         ell           30      avg_ed         2.37          ym           85
    Imeal__1  .2151176818    Imeal_p1   .306719575    _est_f~l            1
    _est_r~e            1       fullc    -52.12417        yxfc    -52.12417
Previous page 1 2 3 4 5 6Next page
Back to top button