Khuynh hướng phân tán của dữ liệu

06/10/2014

5 phút

Khuynh hướng tập trung - phân tán của dữ liệu

Phạm vi và độ lệch

– Phạm vi được tính bằng giá trị lớn nhất – giá trị nhỏ nhất (Range = Max – Min). Theo ví dụ ở bài đo lường khuynh hướng tập trung của dữ liệu, ta có: Range = 25.1- 17.9 = 7.2 giây.

– Độ lệch (Deviation): cả 2 tham số Range và IQR không quan tâm đến giá trị trung tâm (thường sử dụng giá trị trung bình). Khi muốn đo lường sự phân tán của dữ liệu so với giá trị trung tâm, ta đo lường độ lệch của mỗi quan sát so với giá trị trung tâm. Giả sử ta sử dụng giá trị trung bình làm giá trị trung tâm, khi đó ta có tổng độ lệch của tất cả quan sát với giá trị trung bình là: \(d = \sum\limits_{i = 1}^n {({x_i} – \bar x)} = 0\)

Vì tổng độ lệch này bằng 0 nên ta không thể dùng độ lệch này để mô tả sự phân tán của dữ liệu.

Để khắc phục vấn đề này, ta có thể sử dụng tổng các giá trị tuyệt đối các độ lệch: \(\delta = \sum\limits_{i = 1}^n {\left| {{x_i} – \bar x} \right|} \)
Để loại bỏ ảnh hưởng của kích thước mẫu (vì mỗi mẫu có kích thước khác nhau) ta chia tổng này cho kích thước mẫu, ta có: \(\bar \delta = \frac{1}{n}\sum\limits_{i = 1}^n {\left| {{x_i} – \bar x} \right|} \)

Tuy nhiên vấn đề của giá trị tuyệt đối là tính không liên tục tại gốc tọa độ (trong trường hợp này là mean) vì vậy các nhà thống kê đã tìm ra công thức tốt hơn để mô tả sự biến thiên của dữ liệu đó là phương sai và độ lệch chuẩn.

Phương sai và độ lệch chuẩn

Để tránh tổng các độ lệch bằng 0 và loại bỏ ảnh hưởng của kích thước mẫu người ta tính tổng bình phương các độ lệch và chia cho kích thước mẫu trừ 1 (hiệu chỉnh). Ta có kết quả là “trung bình tổng bình phương các độ lệch” và gọi là phương sai mẫu.

\({s^2} = \frac{1}{{n – 1}}\sum\limits_{i = 1}^n {{{\left( {{x_i} – \bar x} \right)}^2}} \)

Phương sai là tham số rất tốt để đo lường sự biến thiên (hay phân tán) của dữ liệu trong mẫu vì nó đã quan tâm đến độ lệch của mỗi quan sát so với số trung bình, loại bỏ ảnh hưởng của kích thước mẫu. Tuy nhiên, điểm yếu của phương sai là không cùng đơn vị tính với Mean. Đơn vị tính của phương sai là bình phương của đơn vị tính của trung bình. Chẳng hạn, đơn vị tính của thời gian chạy trung bình là giây trong khí đó đơn vị tính của phương sai là giây bình phương.

Để giải quyết vấn đề này, người ta lấy căn bậc 2 của phương sai (độ lệch chuẩn)

\(s = \sqrt {{s^2}} = \sqrt {\frac{1}{{n – 1}}\sum\limits_{i = 1}^n {{{\left( {{x_i} – \bar x} \right)}^2}} } \)

Một vấn đề nữa cần quan tâm là mỗi lần lấy mẫu ta có 1 số trung bình (mean) và từ đó ta tính được phương sai của mẫu. Phương sai của mẫu cho biết sự biến thiên của các cá thể trong quần thể. Giả sử ta lấy mẫu k lần, và ta có k số trung bình.

Để mô tả sự biến thiên của các số trung bình mẫu lấy từ tổng thể người ta sử dụng đại lượng sai số chuẩn được tính bằng cách lấy phương sai chia cho căn bậc hai của kích thước mẫu: \(\sigma = \frac{s}{{\sqrt n }}\)

Các loại thang đo dữ liệu khác nhau sẽ cho thấy cách hiển thị xu hướng tập trung cũng khác nhau.

Khuynh hướng tập trung và khuynh hướng phân tán của dữ liệu theo các kiểu biến

Giá trị thống kê	Định danh	Thứ tự	Khoảng/tỷ lệ
Trung bình	Không	Không	Có
Trung vị	Không	Có	Có, đặc biệt khi bị lệch
Mode	Có	Có thể	Không
Phương sai/Độ lệch chuẩn	Không	Không	Có
Khoảng phân vị IQR	Không	Có	Có, đặc biệt khi bị lệch
Tần suất	Có	Có thể	Không

Nguồn: https://wikis.uit.tufts.edu/confluence/display/SSSI/Home

NHẬN XÉT VỀ ĐỘ LỆCH CHUẨN

Tóm lại: Độ lệch chuẩn mô tả biến thiên của các cá thể trong tổng thể còn sai số chuẩn mô tả sự biến thiên của các số trung bình mẫu lấy từ tổng thể. Một cách dễ hiểu nếu ta lấy mẫu k lần từ tổng thể và ta có k số trung bình mẫu thì độ lệch chuẩn của k số trung bình mẫu gọi là sai số chuẩn (chú ý k thường rất lớn và trong thực tế ta không biết được số trung bình của tổng thể).