Hay cần học

Hướng dẫn chi tiết sử dụng RegEx

để trích dữ liệu chuỗi trên RStudio

Bài viết hướng dẫn chi tiết cách sử dụng RegEX để trích chuỗi trên RStudio thông qua 20 nguyên tắc cơ bản cùng các ví dụ chi tiết như trích số điện thoại, email, tên miền hoặc chức danh của các chuỗi. Sử dụng hàm str_extract_allstr_detect trong gói stringr để trích chuỗi cần lấy.

20 nguyên tắc cơ bản của RegEx được trình bày như sau:

  1. . = Matches Any Character
  2.  \d = Digit (0–9)
  3.  \D = Not a digit (0–9)
  4.  \w = Word Character (a-z, A-Z, 0–9, _)
  5.  \W = Not a word character
  6.  \s = Whitespace (space, tab, newline)
  7.  \S = Not whitespace (space, tab, newline)
  8.  \b = Word Boundary
  9.  \B = Not a word boundary
  10.  ^ = Beginning of a string
  11.  $ = End of a String
  12.  [] = matches characters or brackets
  13.  [^ ] = matches characters Not in backets
  14.  | = Either Or
  15.  ( ) = Group
  16.  * = 0 or more
  17.  + = 1 or more
  18.  ? = Yes or No
  19.  {x} = Exact Number
  20.  {x, y} = Range of Numebrs (Maximum, Minimum)

Chi tiết tại:

A Complete Beginners Guide to Regular Expressions in R

Back to top button