Hay cần học

Hướng dẫn nối dữ liệu với gói dplyr trên RStudio

Joining Data with dplyr

Bài viết sẽ hướng dẫn cách nối (kết hợp) các data.frame bằng cách sử dụng package dplyr qua các nhóm câu lệnh join như:

left_join(x, y): kết hợp tất cả các cột trong data frame x với cột tương ứng trong data frame y nhưng chỉ giữ lại các quan sát của x.

right_join(x, y): tương tự cách kết hợp của left_join(x,y) nhưng giữ lại các quan sát từ data frame y.

full_join(x, y): kết hợp tất cả các cột của x và tất cả các cột của y và giữ lại tất cả các quan sát ở cả hai data frame.

Left join, Right join và Full join
Nguyên tắc nối data frame theo Left join, Right join và Full join

inner_join(x, y): kết hợp tất cả các cột có trong x hoặc y nhưng chỉ giữ lại những dòng (quan sát) mà hiện diện ở cả hai data frame.

Nối 2 data frame theo cách Inner join
Nối 2 data frame theo cách Inner join trong gói dplyr trên RStudio

semi_join(x, y): trả về các cột tư data frame x và chỉ giữ lại những dòng của x mà có trong y.

Nối 2 data frame trên RStudio với Semi join
Nối 2 data frame trên RStudio với Semi join

anti_join(x, y): trả về các cột từ data frame x và chỉ giữ lại những dòng của x mà không có ở y.

Nối 2 data frame trên RStudio với anti join
Nối 2 data frame trên RStudio với anti join

 

Hoặc tóm tắt qua biểu đồ Venn với các câu lệnh như sau:

Biểu đồ Venne cho các câu lệnh join
Biểu đồ Venne cho các câu lệnh join trong gói dplyr để nối các data frame

Tham khảo chi tiết tại:

  • https://r4ds.had.co.nz/relational-data.html
  • https://craig.rbind.io/post/2020-03-29-asgr-2-2-joining-data/
  • https://www.r-bloggers.com/2022/01/how-to-join-tables-in-r/
Back to top button