KTL cơ bảnXử lý dữ liệu

Khuynh hướng tập trung của dữ liệu

1. Giới thiệu về khuynh hướng tập trung của dữ liệu

Chương này giới thiệu sơ lược về các khái niệm cơ bản của thống kê dùng trong mô tả dữ liệu như các tham số đo lường xu hướng tập trung của dữ liệu (mean, median, mode) và đo lường sự biến thiên của dữ liệu (Range, Variance và Standard Deviation, Standard Error).

Để dễ hình dung, ta bắt đầu với ví dụ đơn giản sau:

Giả sử rằng bạn chạy 100 m trong 6 lần, mỗi lần chạy bạn dùng đồng hồ đo lại thời gian chạy (tính bằng giây) và kết quả 6 lần chạy của bạn gồm 6 giá trị (còn gọi là quan sát) như sau:

x={25.1, 21.2, 17.9, 23.0, 24.6, 19.5}

Dữ liệu này cho bạn biết những thông tin gì? Sau đây là một số thống kê đơn giản của dữ liệu về thời gian chạy 100m của bạn:

  • Thời gian chạy trung bình là 21.9 giây
  • Giá trị giữa (hay trung vị) là 22.1 giây
  • Thời gian chạy cao nhất là 25.1 giây và thời gian chạy thấp nhất là 17.9 giây.
  • Phương sai là 8.2 giây bình phương và độ lệch chuẩn là 2.9 giây.

2. Đo lường khuynh hướng tập trung của dữ liệu

Khuynh hướng tập trung của dữ liệu thường được đo lường qua 3 tham số đó là số trung bình, số trung vị và số mode.

1.

Mean (số trung bình):

Trung bình số học được tính đơn giản bằng tổng của tất cả các giá trị của dữ liệu trong mẫu chia cho kích thước mẫu.

\(\bar x = \frac{1}{n}\sum\limits_{i = 1}^n {{x_i}} \)

Với dữ liệu trên ta có:

\(\bar x = \frac{1}{6}(25.1 + 21.2 + 17.9 + 23.0 + 24.6 + 19.5) = 21.9\) (giây)

2.

Median (trung vị):

Số trung vị (Median) là giá trị giữa trong một phân bố chia phân bố thành 2 nhóm mà trong đó số các số trong mỗi nhóm bằng nhau. Nói cách khác, nếu m là trung vị của một phân bố nào đó thì 1/2 cá thể trong phân bố đó có giá trị nhỏ hơn hay bằng m và một nửa còn lại có giá trị bằng hoặc lớn hơn m.

Median được tính như sau:

  • Sắp xếp dữ liệu theo thứ tự tăng dần (hoặc giảm dần): 17.9-19.5-21.2-23.0-24.6-25.1
  • Nếu số phần tử là số lẻ thì median chính là giá trị ở giữa.
  • Nếu số phần tử là một số chẳn thì median là trung bình của 2 giá trị ở giữa. Với số liệu trên ta có median = 22.1 (bằng trung bình của 21.2 và 23.0)

Còn tiếp…

1 2Trang sau
Back to top button