Hay cần học

Hướng dẫn chi tiết sử dụng RegEx

để trích dữ liệu chuỗi trên RStudio

Bài viết hướng dẫn chi tiết cách sử dụng RegEX để trích chuỗi trên RStudio thông qua 20 nguyên tắc cơ bản cùng các ví dụ chi tiết như trích số điện thoại, email, tên miền hoặc chức danh của các chuỗi. Sử dụng hàm str_extract_allstr_detect trong gói stringr để trích chuỗi cần lấy.

20 nguyên tắc cơ bản của RegEx được trình bày như sau:

 1. . = Matches Any Character
 2.  \d = Digit (0–9)
 3.  \D = Not a digit (0–9)
 4.  \w = Word Character (a-z, A-Z, 0–9, _)
 5.  \W = Not a word character
 6.  \s = Whitespace (space, tab, newline)
 7.  \S = Not whitespace (space, tab, newline)
 8.  \b = Word Boundary
 9.  \B = Not a word boundary
 10.  ^ = Beginning of a string
 11.  $ = End of a String
 12.  [] = matches characters or brackets
 13.  [^ ] = matches characters Not in backets
 14.  | = Either Or
 15.  ( ) = Group
 16.  * = 0 or more
 17.  + = 1 or more
 18.  ? = Yes or No
 19.  {x} = Exact Number
 20.  {x, y} = Range of Numebrs (Maximum, Minimum)

Chi tiết tại:

A Complete Beginners Guide to Regular Expressions in R

Back to top button