Biểu thức chính quy (regex) và tiếng Việt
Giới thiệu
Biểu thức chính quy, hay regex (regular expressions), là công cụ mạnh mẽ để xử lý và tìm kiếm chuỗi ký tự. Trong lập trình và xử lý văn bản, regex giúp tìm kiếm, khớp mẫu và thao tác trên văn bản một cách hiệu quả, đặc biệt hữu ích khi kiểm tra tính hợp lệ, tách chuỗi, hoặc thay thế văn bản.
Bài viết này sẽ khám phá cách sử dụng regex với văn bản tiếng Việt. Với các đặc thù như dấu thanh và ký tự đặc biệt, sử dụng regex có thể gặp thách thức, nhưng nếu hiểu rõ và vận dụng tốt, bạn có thể giải quyết nhiều bài toán xử lý văn bản nhanh chóng và hiệu quả.
Trước hết về tìm kiếm với text
Khi nói về việc tìm kiếm văn bản, một trong những ứng dụng phổ biến nhất của regex là tìm kiếm các mẫu ký tự cụ thể trong một đoạn văn bản. Ví dụ, bạn có thể muốn tìm tất cả các địa chỉ email trong một đoạn văn bản, các số điện thoại, hoặc các từ cụ thể nào đó.
Dưới đây là một số ví dụ cơ bản về việc sử dụng regex trong tìm kiếm:
-
Tìm kiếm từ đơn giản: Nếu bạn muốn tìm kiếm một từ cụ thể trong văn bản, bạn có thể sử dụng regex rất đơn giản. Ví dụ, để tìm từ "học", bạn chỉ cần sử dụng mẫu
học
. -
Tìm kiếm từ có dấu: Tiếng Việt có nhiều dấu thanh, vì vậy việc tìm kiếm từ có dấu đòi hỏi mẫu regex phải chính xác. Ví dụ, để tìm từ "học", b ạn có thể sử dụng mẫu
học
hoặch[oóọỏõ]c
để tìm các biến thể có dấu. -
Tìm kiếm tên một người: Tên người Việt Nam thường bao gồm họ, tên đệm và tên. Một mẫu regex để tìm kiếm tên người Việt Nam có thể khá phức tạp do sự đa dạng và cấu trúc khác nhau của tên.