Phân tích hồi quy

Hệ số tương quan hạng Spearman

I. GIỚI THIỆU VỀ TƯƠNG QUAN HẠNG SPEARMAN

Sử dụng tương quan hạng Spearman để kiểm tra mối quan hệ giữa hai biến được xếp hạng hoặc một biến được xếp hạng và một biến đo lường. Bạn có thể sử dụng tương quan hạng Spearman thay cho hồi quy/tương quan Pearson khi bạn lo lắng về phân phối không chuẩn của dữ liệu. Tuy nhiên, điều này không phải thật luôn cần thiết[1].

Tương quan hạng Spearman được thực hiện dựa trên các giả định sau:

  1. Biến kiểm định có thể là dạng thứ tự, tỉ lệ, khoảng và có phân phối bất kì. Tham khảo bài viết các loại thang đo trong phân tích dữ liệu.
  2. Các biến phải thỏa mãn tính chất đơn điệu (monotonics)[*]. Đây là giả định quan trọng của tương quan hạng Spearman.

Giả thuyết H0 cho rằng hệ số tương quan Spearman, \(\rho \) (“rho”), bằng 0. Hệ số \(\rho \) bằng 0 nghĩa là các hạng của một biến không thay đổi theo sự tăng/giảm các hạng của biến còn lại.

Xem thêm: kiểm định phi tham số

[*]Tính đơn điệu giữa 2 biến được thể hiện khi giá trị của một biến tăng thì cũng làm tăng giá trị của biến còn lại hoặc khi tăng giá trị của một biến thì làm giảm giá trị của biến còn lại. Tính đơn điệu của 2 biến có thể minh họa qua hình bên dưới:

Tính đơn điệu - monotonic

Tính đơn điệu ít bị hạn chế hơn mối quan hệ tuyến tính (linear relationship). Ở hình (b), không tồn tại mối quan hệ tuyến tính nhưng tồn tại tính đơn hiệu giữa hai biến.  Trường hợp này, bạn không thể sử dụng tương quan Pearson nhưng vẫn có thể sử dụng tương quan hạng Spearman.

Tương quan hạng Spearman (\(\rho \)) có cách tính tương tự như hệ số tương quan Pearson (r), ngoại trừ bạn thực hiện trực tiếp trên các hạng (chứ không phải các dữ liệu đo lường). Các bước tính toán cụ thể như sau:

Bước 1: Xếp hạng các biến theo tứ tự giảm dần. Để chuyển một biến đo lường thành biến hạng, gán giá trị cao nhất là 1, kế tiếp là 2 và tương tự vậy (Xếp hạng giá trị của biến đo lường theo thứ tự giảm dần). Sử dụng hạng trung bình cho các quan sát có giá trị đo lường bằng nhau.

Bước 2: Tính toán sự chênh lệch hạng của từng cặp biến \({d_i}\)

Bước 3: Tính hệ số tương quan hạng \(\rho \):

  • Trường hợp không có hạng bằng nhau: \(\rho = 1 – \frac{{6\sum\limits_{i = 1}^n {d_i^2} }}{{n({n^2} – 1)}}\)
  • Trường hợp có hạng bằng nhau: \(\rho = \frac{{\sum\limits_i^n {({x_i} – \bar x)({y_i} – \bar y)} }}{{\sum\limits_i^n {{{({x_i} – \bar x)}^2}{{({y_i} – \bar y)}^2}} }}\)

Bước 4: Tính và so sánh giá trị thống kê t

  • Đối với số quan sát trên 10, thay r bằng \(\rho \) trong công thức tính giá trị thống kê t như sau:

\({t_s} = {\raise0.5ex\hbox{$ {\sqrt {(n-2)*{\rho ^2}} }$}
\kern-0.1em/\kern-0.15em
\lower0.25ex\hbox{$ {\sqrt {1 – {\rho ^2}} }$}}\)

  • Nếu số quan sát từ 10 trở xuống thì tính toán t và p-value từ phân phối chuẩn t sẽ không còn chính xác. Khi đó, có thể sử dụng cách tra bảng (thống kê t) ứng với số quan sát để có được những giá trị này.

Lưu ý, bạn không nên vẽ đường hồi quy để mô tả hoặc dự báo khi bạn thực hiện tương quan hạng Spearman.

Ví dụ thực hành phân tích tương quan hạng Spearman:

Sử dụng số liệu về chiến lược bán hàng được sử dụng ở bài Kiểm định Friedman. Đây là dữ liệu doanh số bán hàng ứng với 3 chiến lược bán bình thường, bán giảm giá và bán kèm qua tặng được thu thập từ 25 cửa hàng Dữ liệu thực hành Spearman

  • Dữ liệu của các biến có ít nhất một biến (nonediscount, gift) không có phân phối chuẩn theo bất kì tiêu chí kiểm định phân phối chuẩn nào (Xem thêm Kiểm định FriedmanKiểm tra phân phối chuẩn).
  • Một trong hai biến thực hành không có phân phối chuẩn, về nguyên tắc, tương quan Pearson là không phù hợp sử dụng. Tuy nhiên, trong phần thực hành minh họa này, tôi muốn trình bày cả 2 cách để các bạn có sự so sánh và kiểm chứng nhận định đã nêu ở đầu bài[1].
1 2Trang sau
Back to top button