Nhập xuất dữ liệu với SPSS
Nhập xuất dữ liệu trong SPSS cho thực hành kinh tế lượng

Tóm tắt: Bài viết hướng dẫn chi tiết cách nhập xuất dữ liệu trong SPSS phục vụ thực hành kinh tế lượng. Nội dung bao gồm thao tác thủ công nhập dữ liệu, nhập từ file Excel, xuất kết quả phân tích, cấu hình tiếng Việt và quản lý thang đo. Các bạn sẽ học được quy trình hoàn chỉnh từ chuẩn bị dữ liệu đến xuất báo cáo, kèm theo code tương đương trong Stata, R và Python để đa dạng hóa công cụ nghiên cứu.
Giới thiệu
Nội dung chính
- Giới thiệu
- Ví dụ thực tế từ kinh tế Việt Nam
- Hướng dẫn thực hành chi tiết
- Quy trình làm việc hiệu quả
- Các lỗi thường gặp và cách khắc phục
- Ứng dụng trong nghiên cứu kinh tế Việt Nam
- Tổng kết
- Phụ lục: Code trên các phần mềm khác
Trong thực hành kinh tế lượng, việc quản lý dữ liệu hiệu quả là nền tảng quyết định chất lượng của toàn bộ quá trình nghiên cứu. SPSS (Statistical Package for the Social Sciences) là một trong những công cụ phân tích thống kê mạnh mẽ và phổ biến nhất, đặc biệt phù hợp cho sinh viên và nhà nghiên cứu kinh tế mới bắt đầu.
Ví dụ trong nghiên cứu kinh tế Việt Nam, khi thực hiện khảo sát về thu nhập hộ gia đình, hiệu quả doanh nghiệp, hay đánh giá tác động chính sách, việc thu thập dữ liệu thường được thực hiện qua nhiều kênh khác nhau: bảng câu hỏi Excel, file CSV từ hệ thống, dữ liệu từ các cơ quan thống kê, hoặc nhập liệu thủ công. Quản lý dữ liệu chuyên nghiệp đòi hỏi khả năng linh hoạt chuyển đổi giữa các định dạng và đảm bảo tính toàn vẹn thông tin.
Ví dụ thực tế từ kinh tế Việt Nam
Để minh họa tầm quan trọng của nhập xuất dữ liệu, chúng ta xem xét ví dụ nghiên cứu mức độ hài lòng của khách hàng về chất lượng dịch vụ ngân hàng tại Việt Nam. Dự án này đòi hỏi:
- Thu thập dữ liệu từ khảo sát trực tuyến (file Excel)
- Nhập liệu bổ sung từ phỏng vấn trực tiếp
- Mã hóa các biến định tính (giới tính, nghề nghiệp, khu vực)
- Xuất kết quả phân tích để báo cáo cho ngân hàng
- Chia sẻ dữ liệu đã xử lý với nhóm nghiên cứu
Trong bối cảnh thực hành kinh tế lượng tại Việt Nam, việc xử lý dữ liệu tiếng Việt (tên khách hàng, địa chỉ, ghi chú) cũng là thách thức kỹ thuật cần được giải quyết chuyên nghiệp.
Hướng dẫn thực hành chi tiết
Thao tác thủ công nhập xuất dữ liệu
Cửa sổ Data Editor
Cửa sổ Data Editor trong SPSS là trung tâm quản lý dữ liệu với hai chế độ xem quan trọng:
- Data View: Cho phép nhập và biên tập dữ liệu thủ công, hiển thị dữ liệu dạng bảng với hàng là quan sát và cột là biến
- Variable View: Cho phép tạo và thiết lập các thông số của biến, bao gồm định nghĩa thuộc tính và đặc điểm của từng biến
Các thuộc tính quan trọng của biến
Trong cửa sổ Variable View, việc thiết lập đúng thuộc tính biến là nền tảng cho phân tích chính xác:
- Name: Tên biến, có thể bao gồm chữ, số và ký tự đặc biệt. Nên sử dụng tên ngắn gọn, có ý nghĩa (ví dụ: income, age, gender)
- Type: Kiểu dữ liệu (số hoặc chuỗi). Chọn Numeric cho dữ liệu số, String cho văn bản
- Label: Mô tả thông tin của biến bằng tiếng Việt, giúp dễ hiểu trong báo cáo
- Values: Mã hóa giá trị của biến (ví dụ: 1 = Nam, 2 = Nữ cho biến giới tính)
- Missing: Giá trị bỏ qua trong phân tích (thường là 99, -99 hoặc để trống)
Nhập dữ liệu từ file Excel
Nhập dữ liệu từ Excel là kỹ năng thiết yếu trong thực hành kinh tế lượng vì hầu hết dữ liệu thô được lưu trữ ở định dạng này:
Quy trình nhập dữ liệu từ Excel
- Từ menu File, chọn Open → Data
- Trong hộp thoại, chọn file type Excel (*.xls, *.xlsx)
- Chọn file dữ liệu cần nhập và nhấn Open
- Nếu dòng đầu tiên của file Excel là tên biến, tích chọn Read variable names from the first row of data
- Kiểm tra preview dữ liệu và nhấn OK
- Đảm bảo dòng đầu tiên chứa tên biến (không có khoảng trống, ký tự đặc biệt)
- Loại bỏ các dòng trống, merged cells
- Kiểm tra định dạng số (không có dấu phẩy ngăn cách hàng nghìn)
- Mã hóa missing values nhất quán (ví dụ: để trống hoặc dùng 99)
Xuất dữ liệu ra file
Xuất dữ liệu từ Output Viewer
Sau khi thực hiện phân tích, việc xuất kết quả từ Output Viewer giúp chia sẻ và lưu trữ findings:
- Từ menu File, chọn Export
- Chọn định dạng file cần xuất: Excel (cho bảng số liệu), Word (cho báo cáo), PDF (cho chia sẻ)
- Cấu hình tùy chọn xuất (chỉ bảng được chọn hoặc toàn bộ output)
- Nhấn OK để hoàn tất
Xuất dữ liệu từ Data Editor
Khi cần chia sẻ dataset đã được xử lý và làm sạch:
- Từ menu File, chọn Save As hoặc Export
- Chọn định dạng file Excel (.xlsx) hoặc CSV cho khả năng tương thích cao
- Chọn các biến cần xuất (hoặc toàn bộ dataset)
- Nhấn Save hoặc Finish
Nhập dấu tiếng Việt trong SPSS
Việc xử lý tiếng Việt chính xác là yêu cầu quan trọng trong thực hành kinh tế lượng tại Việt Nam:
Cấu hình Unicode cho tiếng Việt
- Mở một file mới hoặc file hiện tại
- Vào menu Edit → Options
- Chọn tab General
- Trong phần Character Encoding for Data and Syntax, chọn Unicode (UTF-8)
- Nhấn OK và khởi động lại SPSS
Vai trò của thang đo trong SPSS
Thang đo (Measure) trong SPSS có vai trò quan trọng trong việc chọn phương pháp phân tích phù hợp:
- Scale (Ratio/Interval): Dữ liệu liên tục như thu nhập, tuổi, điểm số – áp dụng được các phép toán số học
- Ordinal: Dữ liệu thứ bậc như mức độ hài lòng (1 = Rất không hài lòng, 5 = Rất hài lòng)
- Nominal: Dữ liệu phân loại như giới tính, ngành nghề, khu vực địa lý
Quy trình làm việc hiệu quả
Trong thực hành kinh tế lượng, một quy trình nhập xuất dữ liệu chuyên nghiệp bao gồm:
Giai đoạn chuẩn bị
- Thiết kế cấu trúc dữ liệu và codebook trước khi thu thập
- Chuẩn hóa định dạng file Excel (template nhất quán)
- Định nghĩa quy tắc mã hóa cho missing values
- Lập danh sách tên biến và nhãn tương ứng
Giai đoạn thực hiện
- Nhập dữ liệu và kiểm tra chất lượng ngay lập tức
- Thiết lập Variable View hoàn chỉnh (Name, Label, Values, Missing)
- Thực hiện làm sạch và biến đổi dữ liệu cần thiết
- Dự phòng file .sav trước khi phân tích
Giai đoạn hoàn thiện
- Export kết quả phân tích theo định dạng phù hợp với mục đích sử dụng
- Lưu trữ cả dữ liệu thô và dữ liệu đã xử lý
- Tạo documentation về quy trình xử lý dữ liệu
- Chia sẻ dataset với metadata đầy đủ
Các lỗi thường gặp và cách khắc phục
- Encoding issues: Tiếng Việt hiển thị sai → Sử dụng UTF-8 encoding
- Missing variable labels: Khó hiểu ý nghĩa biến → Thiết lập Label đầy đủ
- Incorrect data types: Số được nhận dạng là text → Kiểm tra Type trong Variable View
- Inconsistent missing values: Nhiều cách mã hóa khác nhau → Chuẩn hóa trước khi nhập
Ứng dụng trong nghiên cứu kinh tế Việt Nam
Kỹ năng nhập xuất dữ liệu trong SPSS có ứng dụng rộng rãi trong thực hành kinh tế lượng:
Nghiên cứu thị trường lao động
- Nhập dữ liệu từ khảo sát lực lượng lao động (Labor Force Survey)
- Xử lý thông tin về lương, trình độ, kinh nghiệm
- Xuất báo cáo phân tích cho cơ quan quản lý
Đánh giá tác động chính sách
- Nhập dữ liệu bảng từ nhiều năm và nhiều địa phương
- Mã hóa các biến chính sách và các biến kiểm soát
- Xuất kết quả phân tích DiD (difference-in-differences analysis)
Nghiên cứu tài chính doanh nghiệp
- Nhập dữ liệu báo cáo tài chính từ các nguồn khác nhau
- Tính toán các ratio và chỉ số tài chính
- Xuất dashboard cho nhà đầu tư và ban lãnh đạo
Tổng kết
Việc thành thạo nhập xuất dữ liệu trong SPSS là nền tảng quan trọng cho mọi hoạt động thực hành kinh tế lượng. Từ những thao tác cơ bản như nhập liệu thủ công đến các kỹ thuật nâng cao như xử lý dữ liệu đa định dạng, mỗi kỹ năng đều đóng góp vào chất lượng cuối cùng của nghiên cứu.
Các bạn đã học được cách:
- Quản lý dữ liệu hiệu quả thông qua Data Editor và Variable View
- Nhập dữ liệu từ Excel với các thiết lập phù hợp
- Xuất kết quả phân tích sang nhiều định dạng
- Cấu hình SPSS để hỗ trợ tiếng Việt
- Hiểu rõ vai trò của mức đo lường trong phân tích
Trong bối cảnh kinh tế số và big data ngày càng phát triển, khả năng linh hoạt chuyển đổi giữa các công cụ và định dạng dữ liệu sẽ là lợi thế cạnh tranh quan trọng cho các nhà nghiên cứu kinh tế.
Key Points:
- Data Editor có hai view chính: Data View cho nhập liệu và Variable View cho thiết lập thuộc tính biến
- Nhập dữ liệu Excel cần chú ý đến tên biến, kiểu dữ liệu và xử lý giá trị missing
- Export có thể thực hiện từ Output Viewer (kết quả phân tích) hoặc Data Editor (raw dataset)
- Cấu hình Unicode (UTF-8) là bắt buộc để xử lý tiếng Việt chính xác
- Measurement levels (Scale, Ordinal, Nominal) ảnh hưởng đến lựa chọn phương pháp phân tích
- Quy trình làm việc chuyên nghiệp bao gồm preparation, execution và finalization
- Best practices: backup data, document processes, và maintain data integrity
Phụ lục: Code trên các phần mềm khác

SPSS Syntax
SPSS Syntax (.sps)
* Nhập xuất dữ liệu trong SPSS bằng Syntax
* Tác giả: Thực hành kinh tế lượng
* ===== NHẬP DỮ LIỆU =====
* Nhập dữ liệu từ Excel
GET DATA
/TYPE=XLSX
/FILE='C:\Data\survey_data.xlsx'
/SHEET=name 'Sheet1'
/CELLRANGE=full
/READNAMES=on
/ASSUMEDSTRWIDTH=32767.
* Nhập dữ liệu từ CSV
GET DATA
/TYPE=TXT
/FILE='C:\Data\survey_data.csv'
/ENCODING='UTF8'
/DELCASE=LINE
/DELIMITERS=","
/QUALIFIER='"'
/ARRANGEMENT=DELIMITED
/FIRSTCASE=2
/VARIABLES=
id F8.0
age F8.0
income F10.2
gender A10
region A20.
* Thiết lập thuộc tính biến
VARIABLE LABELS
id 'Mã số khách hàng'
age 'Tuổi'
income 'Thu nhập hàng tháng (triệu đồng)'
gender 'Giới tính'
region 'Khu vực sinh sống'.
* Mã hóa giá trị
VALUE LABELS
gender 1 'Nam' 2 'Nữ'
/region 1 'Miền Bắc' 2 'Miền Trung' 3 'Miền Nam'.
* Thiết lập missing values
MISSING VALUES income (99, 999).
* ===== XUẤT DỮ LIỆU =====
* Xuất ra Excel
SAVE OUTFILE='C:\Output\processed_data.sav'.
SAVE TRANSLATE OUTFILE='C:\Output\data_export.xlsx'
/TYPE=XLS
/VERSION=12
/MAP
/REPLACE
/FIELDNAMES
/CELLS=VALUES.
* Xuất ra CSV với UTF-8
SAVE TRANSLATE OUTFILE='C:\Output\data_export.csv'
/TYPE=CSV
/ENCODING='UTF8'
/MAP
/REPLACE
/FIELDNAMES
/CELLS=VALUES.
* Xuất kết quả phân tích
OUTPUT EXPORT
/CONTENTS EXPORT=VISIBLE LAYERS=PRINTSETTING MODELVIEWS=PRINTSETTING
/XLSX DOCUMENTFILE='C:\Output\analysis_results.xlsx'
/OPERATION=CREATEFILE.
Stata
Code Stata (.do)
// Nhập xuất dữ liệu trong Stata
// Tác giả: Thực hành kinh tế lượng
* ===== NHẬP DỮ LIỆU =====
* Nhập dữ liệu từ Excel
import excel "C:\Data\survey_data.xlsx", sheet("Sheet1") firstrow clear
* Hoặc sử dụng import delimited cho CSV
import delimited "C:\Data\survey_data.csv", encoding(UTF-8) clear
* Kiểm tra cấu trúc dữ liệu
describe
summarize
* ===== THIẾT LẬP THUỘC TÍNH BIẾN =====
* Đổi tên biến
rename (var1 var2 var3 var4) (id age income gender)
* Thiết lập variable labels
label variable id "Mã số khách hàng"
label variable age "Tuổi"
label variable income "Thu nhập hàng tháng (triệu đồng)"
label variable gender "Giới tính"
* Mã hóa giá trị cho biến phân loại
encode gender, generate(gender_coded)
label define gender_lbl 1 "Nam" 2 "Nữ"
label values gender_coded gender_lbl
* Xử lý missing values
replace income = . if income == 99 | income == 999
mvdecode _all, mv(99=.\999=.)
* ===== XUẤT DỮ LIỆU =====
* Lưu file Stata
save "C:\Output\processed_data.dta", replace
* Xuất ra Excel
export excel using "C:\Output\data_export.xlsx", ///
firstrow(variables) replace
* Xuất ra CSV với encoding phù hợp
export delimited using "C:\Output\data_export.csv", ///
encoding(UTF-8) replace
* Xuất kết quả phân tích ra Word/PDF
putdocx begin
putdocx paragraph, style(Title)
putdocx text ("Báo cáo phân tích dữ liệu")
summarize income age
putdocx paragraph
putdocx text ("Thống kê mô tả:")
putdocx table results = etable
putdocx save "C:\Output\analysis_report.docx", replace
* Xuất ra log file
log using "C:\Output\analysis_log.log", replace
// Thực hiện các phân tích...
log close
R
Code R (.R)
# Nhập xuất dữ liệu trong R
# Cài đặt và load các package cần thiết
if (!require(readxl)) install.packages("readxl")
if (!require(writexl)) install.packages("writexl")
if (!require(haven)) install.packages("haven")
if (!require(readr)) install.packages("readr")
if (!require(dplyr)) install.packages("dplyr")
if (!require(labelled)) install.packages("labelled")
library(readxl)
library(writexl)
library(haven)
library(readr)
library(dplyr)
library(labelled)
# ===== NHẬP DỮ LIỆU =====
# Nhập dữ liệu từ Excel
data <- read_excel("C:/Data/survey_data.xlsx",
sheet = "Sheet1",
col_names = TRUE,
locale = locale(encoding = "UTF-8"))
# Nhập dữ liệu từ CSV
data <- read_csv("C:/Data/survey_data.csv",
locale = locale(encoding = "UTF-8"))
# Nhập dữ liệu từ SPSS
data <- read_sav("C:/Data/survey_data.sav")
# Kiểm tra cấu trúc dữ liệu
str(data)
head(data)
summary(data)
# ===== THIẾT LẬP THUỘC TÍNH BIẾN =====
# Đổi tên biến
data <- data %>%
rename(
id = V1,
age = V2,
income = V3,
gender = V4,
region = V5
)
# Thiết lập variable labels
var_label(data$id) <- "Mã số khách hàng"
var_label(data$age) <- "Tuổi"
var_label(data$income) <- "Thu nhập hàng tháng (triệu đồng)"
var_label(data$gender) <- "Giới tính"
var_label(data$region) <- "Khu vực sinh sống"
# Mã hóa giá trị cho biến phân loại
data$gender <- factor(data$gender,
levels = c(1, 2),
labels = c("Nam", "Nữ"))
data$region <- factor(data$region,
levels = c(1, 2, 3),
labels = c("Miền Bắc", "Miền Trung", "Miền Nam"))
# Xử lý missing values
data$income[data$income %in% c(99, 999)] <- NA
# ===== XUẤT DỮ LIỆU =====
# Xuất ra Excel
write_xlsx(data, "C:/Output/data_export.xlsx")
# Xuất ra CSV với UTF-8
write_csv(data, "C:/Output/data_export.csv",
locale = locale(encoding = "UTF-8"))
# Xuất ra SPSS format (giữ nguyên labels)
write_sav(data, "C:/Output/data_export.sav")
# Xuất ra Stata format
write_dta(data, "C:/Output/data_export.dta")
# Tạo báo cáo HTML với R Markdown
if (!require(rmarkdown)) install.packages("rmarkdown")
library(rmarkdown)
# Tạo template báo cáo
report_template <- '
---
title: "Báo cáo phân tích dữ liệu"
author: "Thực hành kinh tế lượng"
date: "`r Sys.Date()`"
output: html_document
---