Nối dữ liệu với SPSS – Merging data
Mục tiêu của bài viết là hướng dẫn cách sắp xếp, nối dữ liệu trên SPSS. Bài viết sẽ hướng dẫn chi tiết 2 cách nối dữ liệu đó là thêm quan sát và bổ sung thêm biến trong trường hợp có so khớp và không so khớp.
A. NỐI DỮ LIỆU KHÔNG SO KHỚP
Dữ liệu trong các file SPSS (*.sav) có thể được nối (merge) với nhau thành một file dữ liệu. Bạn có thể nối một file vào một file hiện hành bằng cách thêm quan sát (Add Cases) hoặc thêm biến (Add Variables)
Trong SPSS, để nối dữ liệu, chọn Merge Files… từ menu Data của file dữ liệu hiện hành. Từ đó, chọn Add Cases… hoặc Add Variables…
Thêm quan sát
Để thêm quan sát vào file hiện hành, chọn Add Cases… từ menu Data–>Merge Files.
Tìm và chọn file có chứa các quan sát bạn cần ghép bằng nút Browse
Bấm Continue
Để đảm bảo quá trình nối dữ liệu được chính xác, SPSS sẽ so khớp các biến ở hai file. Cửa sổ mới mở ra cho biết các biến chung giữa file bạn muốn nối dữ liệu với file hiện hành. Các biến này được tự động thêm vào mục Variables in New Active Dataset: và các biến không khớp sẽ nằm trong mục Unpaired Variables:
Bấm OK để thực hiện ghép các quan sát vào file dữ liệu hiện hành.
Kết quả:
Từ file dữ liệu ban đầu hsb1.sav (file hiện hành) với 11 biến và 100 quan sát. Kết quả sau khi thêm các quan sát từ file dữ liệu hsb2.sav số quan sát tăng lên là 200 quan sát nhưng số biến giảm đi 3 biến (math, science và socst) còn lại 8 biến chung ở cả hai file. 3 biến giảm đi này chính là 3 biến ở file hiện hành nhưng không có ở file có quan sát muốn bổ sung.
Thêm biến
Để thêm biến vào file hiện hành, chọn Add Variables… từ menu Data–>Merge Files.
Tìm và chọn file có chứa các quan sát bạn cần ghép bằng nút Browse
Bấm Continue
Một cửa sổ mở ra cho biết các biến bạn muốn nối dữ liệu với file hiện hành. Các biến này được sẽ nằm ở mục New Active Dataset: và các biến không muốn nối sẽ nằm trong mục Excluded Variables:
Bấm OK để thực hiện đưa các biến vào file dữ liệu hiện hành.
Kết quả:
Từ file dữ liệu ban đầu hsb2.sav (file hiện hành) với 8 biến và 100 quan sát. Kết quả sau khi thêm các quan sát từ file dữ liệu hsb1.sav số quan sát vẫn là 200 quan sát nhưng số biến tăng thêm 3 biến (math, science và socst). 3 biến tăng thêm này không có ở file hiện hành nhưng có ở file có biến được nối.
BÀN LUẬN VỀ NỐI DỮ LIỆU
Ở trường hợp thêm biến, bạn có nghĩ 100 quan sát ở file mới sau khi thêm biến có phải là 100 quan sát chung của 2 file dữ liệu hsb2 (file hiện hành) và file hsb1 không? Hơn nữa, dữ liệu sau khi nối, theo bạn, có đạt độ tin cậy cao không (nghĩa là 3 biến math, science và socst thêm vào có phản ánh đúng cho 100 quan sát ở file dữ liệu sau khi nối không? Nếu tất cả là không thì bạn giải quyết vấn đề này ra sao?