Đặc điểm của ký tự Cyrillic trong regex Python
Một lợi thế lớn của regex trong Python
là các ký tự Cyrillic
thuộc nhóm \w. Hãy thay thế
tất cả các chữ cái Latinh và Cyrillic trong
chuỗi sau:
txt = 'x232x 456 xax xтекстx'
res = re.sub('x[\w]*x', '!', txt)
print(res)
Kết quả thực thi mã:
'! 456 ! !'
Các chữ cái Cyrillic cũng có thể được tìm kiếm bằng
nhóm trong dấu ngoặc vuông: [а-я].
Nhưng nó có một vấn đề - nhóm này không bao gồm
chữ cái 'ё'. Để bao gồm nó, cần
thêm chữ cái này vào nhóm:
res = re.sub('x[а-яё]*x', '!', txt)
print(res)
Kết quả thực thi mã:
'! 456 xax !'
Cho chuỗi:
txt = 'wйw wяw wёw wqw'
Viết biểu thức chính quy tìm các chuỗi
theo mẫu: có chữ cái
'w' ở hai bên, và ở giữa - một chữ cái Cyrillic.
Cho chuỗi:
txt = 'ааа ббб ёёё ззз ййй ААА БББ ЁЁЁ ЗЗЗ ЙЙЙ'
Viết biểu thức chính quy tìm tất cả các từ theo mẫu: bất kỳ chữ cái Cyrillic nào bất kỳ số lần nào.