Hướng dẫn tạo đồ thị phân tán SPSS
How to create a scatter Plot in SPSS Statistics

Tóm tắt: Đồ thị phân tán là một công cụ trực quan mạnh mẽ giúp khám phá mối quan hệ giữa hai biến liên tục trước khi thực hiện các phân tích thống kê phức tạp. Hướng dẫn này sẽ đưa bạn qua từng bước tạo và diễn giải đồ thị phân tán trong SPSS, từ thiết lập cơ bản đến tùy chỉnh nâng cao với đường hồi quy và hệ số tương quan. Bạn sẽ học cách phát hiện mối quan hệ tuyến tính (linear relationship), điểm dị biệt (outliers) và đánh giá sức mạnh của mối tương quan giữa các biến.
Giới thiệu
Nội dung chính
Trong thế giới phân tích dữ liệu, việc hiểu rõ mối quan hệ giữa các biến là nền tảng để đưa ra những quyết định chính xác. Đồ thị phân tán (scatter plot) chính là “cửa sổ” đầu tiên giúp chúng ta nhìn thấy bức tranh tổng thể về dữ liệu trước khi đi sâu vào các phân tích thống kê phức tạp.
Trước khi tiến hành các phân tích như hồi quy tuyến tính, phân tích tương quan (Pearson, Spearman), ANCOVA, chúng ta thường kiểm tra dữ liệu bằng đồ thị phân tán để:
- Phát hiện mối quan hệ tuyến tính hoặc phi tuyến tính giữa hai biến
- Xác định và đánh giá các điểm dị biệt có thể ảnh hưởng đến kết quả phân tích
- Thể hiện trực quan sức mạnh và hướng của mối quan hệ
- Kiểm tra tính đồng tuyến (homoscedasticity) – một giả thiết quan trọng trong nhiều phân tích thống kê
Giả thiết và yêu cầu
Để tạo đồ thị phân tán hiệu quả, dữ liệu của bạn cần đáp ứng một số điều kiện cơ bản:
- Cả hai biến phải là biến liên tục (continuous variables) hoặc có thể xử lý như biến liên tục
- Dữ liệu không có quá nhiều giá trị bị thiếu (missing values)
- Kích thước mẫu đủ lớn để tạo ra đồ thị có ý nghĩa (khuyến nghị tối thiểu 30 quan sát)
- Các biến có phạm vi giá trị hợp lý, không bị méo mó bởi các giá trị cực đoan
Ví dụ thực tế
Trong nghiên cứu giáo dục, một câu hỏi quan trọng là: “Liệu khả năng ghi nhớ của trẻ có ảnh hưởng đến khả năng đọc hiểu của chúng không?” Để trả lời câu hỏi này, chúng ta sẽ khám phá mối quan hệ giữa:
- Biến phụ thuộc (Y):
read
– điểm số khả năng đọc hiểu - Biến độc lập (X):
mem
– điểm số khả năng ghi nhớ
Ngoài ra, bộ dữ liệu còn chứa các biến khác như age
(tuổi) và iq
(chỉ số IQ), có thể được sử dụng trong các phân tích mở rộng sau này.
Dữ liệu mẫu
Chúng ta sẽ sử dụng file dữ liệu ols.sav chứa thông tin về 200 học sinh với các biến được chuẩn hóa trên thang điểm từ 0 đến 100. Dữ liệu này được thiết kế để minh họa các khái niệm thống kê cơ bản và đã được làm sạch, phù hợp cho mục đích học tập.
Analyze → Descriptive Statistics → Frequencies
để hiểu phân phối của dữ liệu.Hướng dẫn thực hành từng bước
Bước 1: Truy cập chức năng đồ thị phân tán
Đầu tiên, chúng ta cần truy cập vào chức năng tạo đồ thị phân tán trong SPSS:
Vào Graphs → Legacy Dialogs → Scatter/Dot…
Bước 2: Lựa chọn loại đồ thị phân tán
Cửa sổ Scatter/Dot mở ra với năm tùy chọn chính:
- Simple Scatter: Đồ thị cơ bản cho mối quan hệ giữa hai biến
- Overlay Scatter: Hiển thị nhiều cặp biến trên cùng một đồ thị
- Matrix Scatter: Tạo ma trận đồ thị cho nhiều biến cùng lúc
- Simple Dot: Đồ thị chấm đơn giản
- 3-D Scatter: Đồ thị ba chiều cho ba biến
Đối với ví dụ của chúng ta, chọn Simple Scatter vì đây là lựa chọn phù hợp nhất để khám phá mối quan hệ giữa hai biến read
và mem
.
Bước 3: Thiết lập các biến cho đồ thị
Bấm nút Define để mở cửa sổ thiết lập chi tiết:
- Kéo biến
read
vào ô Y Axis (trục tung) - Kéo biến
mem
vào ô X Axis (trục hoành)
Bước 4: Tùy chỉnh tiêu đề và nhãn
Để đồ thị chuyên nghiệp hơn, bạn có thể thêm tiêu đề và ghi chú bằng cách bấm nút Titles…:
Một số gợi ý cho tiêu đề:
- Title: “Mối quan hệ giữa Khả năng ghi nhớ và Khả năng đọc hiểu”
- Subtitle: “Dữ liệu từ 200 học sinh”
- Footnote: “Nguồn: Dữ liệu nghiên cứu giáo dục”
Hoàn tất bằng cách bấm Continue và OK.
Bước 5: Phân tích đồ thị cơ bản
Đồ thị phân tán ban đầu sẽ hiển thị như sau:
Từ đồ thị này, chúng ta có thể quan sát thấy:
- Các điểm dữ liệu có xu hướng tập trung theo một đường chéo từ dưới trái lên trên phải
- Điều này cho thấy mối quan hệ tương quan thuận (positive correlation)
- Không có điểm dữ liệu nào nằm quá xa so với xu hướng chung
- Sự phân tán của các điểm tương đối đồng đều
Bước 6: Thêm đường hồi quy tuyến tính
Để hiểu rõ hơn về mối quan hệ, chúng ta sẽ thêm đường hồi quy tuyến tính (linear regression line) và hệ số xác định (coefficient of determination):
Double-click vào đồ thị để mở Chart Editor, sau đó:
- Vào Elements → Fit Line at Total
- Trong cửa sổ Properties, chọn Linear ở mục Fit Method
- Đánh dấu vào Display R-square in chart để hiển thị hệ số xác định
- Bấm Apply và Close
Bước 7: Đọc hiểu kết quả hoàn chỉnh
Đồ thị cuối cùng sẽ hiển thị đường hồi quy và giá trị $R^2$:
Diễn giải kết quả
Từ đồ thị hoàn chỉnh, chúng ta có thể rút ra những kết luận quan trọng:
Hệ số xác định (R²)
Giá trị R² = 0.673 có nghĩa là:
- 67.3% sự biến thiên trong điểm số đọc hiểu được giải thích bởi điểm số ghi nhớ
- Đây là một mối quan hệ khá mạnh trong lĩnh vực khoa học xã hội
- 32.7% còn lại do các yếu tố khác chưa được đưa vào mô hình
Hệ số tương quan (r)
Hệ số tương quan Pearson r = √0.673 ≈ 0.82, cho thấy mối tương quan mạnh và tích cực giữa hai biến.
Các biến thể nâng cao
Đồ thị phân tán theo nhóm
Bạn có thể tạo đồ thị phân tán phân chia theo các nhóm khác nhau bằng cách:
- Kéo biến phân loại (như giới tính, trình độ học vấn) vào ô Set Markers by
- Điều này giúp so sánh mối quan hệ giữa các nhóm khác nhau
Đồ thị ma trận (Matrix Scatter)
Khi cần khám phá mối quan hệ giữa nhiều biến cùng lúc, sử dụng ma trận phân tán (Matrix Scatter) để tạo ma trận đồ thị hiển thị tất cả các cặp biến.
Khắc phục sự cố thường gặp
Đồ thị không hiển thị điểm dữ liệu
- Kiểm tra xem các biến có dữ liệu hay không
- Đảm bảo rằng bạn đã chọn đúng biến cho trục X và Y
- Kiểm tra scale của dữ liệu – có thể các giá trị quá nhỏ hoặc quá lớn
Đường hồi quy không khớp với dữ liệu
Nếu đường hồi quy tuyến tính không phù hợp với dữ liệu, hãy thử:
- Sử dụng Quadratic hoặc Cubic trong Fit Method
- Kiểm tra xem có điểm dị biệt (outliers) không
- Xem xét biến đổi dữ liệu (data transformation) như log, căn bậc hai
Ứng dụng thực tế
Đồ thị phân tán được sử dụng rộng rãi trong nhiều lĩnh vực:
Trong nghiên cứu y học
- Khám phá mối quan hệ giữa tuổi và huyết áp
- Đánh giá hiệu quả của liều lượng thuốc
- Phân tích mối tương quan giữa BMI và nguy cơ bệnh tật
Trong kinh doanh
- Phân tích mối quan hệ giữa chi phí quảng cáo và doanh thu
- Đánh giá tương quan giữa kinh nghiệm nhân viên và năng suất
- Khám phá mối quan hệ giữa giá cả và nhu cầu
Trong giáo dục
- Nghiên cứu mối quan hệ giữa thời gian học và kết quả thi
- Đánh giá tương quan giữa các môn học khác nhau
- Phân tích ảnh hưởng của các yếu tố xã hội-kinh tế đến thành tích học tập
Tổng kết
Đồ thị phân tán là một công cụ không thể thiếu trong hành trình khám phá dữ liệu. Thông qua hướng dẫn chi tiết này, bạn đã học được cách tạo, tùy chỉnh và diễn giải đồ thị phân tán một cách chuyên nghiệp trong SPSS.
Việc thành thạo kỹ năng này sẽ giúp bạn:
- Tiết kiệm thời gian trong quá trình phân tích dữ liệu
- Đưa ra những quyết định có cơ sở khoa học
- Truyền tải thông tin một cách trực quan và thuyết phục
- Phát hiện sớm các vấn đề tiềm ẩn trong dữ liệu
Hãy nhớ rằng đồ thị phân tán chỉ là bước đầu tiên. Sau khi xác định được mối quan hệ tiềm năng, bạn cần tiến hành các phân tích thống kê chuyên sâu hơn để đưa ra kết luận chính xác và đáng tin cậy.
Key Points:
- Đồ thị phân tán là công cụ khám phá mối quan hệ giữa hai biến liên tục
- Luôn kiểm tra điểm dị biệt và tính đồng tuyến trước khi phân tích sâu
- Giá trị R² cho biết tỷ lệ phương sai được giải thích bởi mối quan hệ tuyến tính
- Đường hồi quy tuyến tính giúp hình dung rõ hơn xu hướng của dữ liệu
- Kết hợp đồ thị với các phân tích thống kê khác để có kết luận toàn diện