Características do cirílico em expressões regulares do Python
Uma grande vantagem das expressões regulares no Python
é que os caracteres cirílicos
pertencem ao grupo \w. Vamos substituir
todas as letras latinas e cirílicas na
seguinte string:
txt = 'x232x 456 xax xтекстx'
res = re.sub('x[\w]*x', '!', txt)
print(res)
Resultado da execução do código:
'! 456 ! !'
Letras cirílicas também podem ser buscadas com
a ajuda de um grupo entre colchetes: [а-я].
Mas há um problema com isso - a letra
'ё' não está incluída. Para incluí-la, é necessário
adicionar esta letra ao grupo:
res = re.sub('x[а-яё]*x', '!', txt)
print(res)
Resultado da execução do código:
'! 456 xax !'
Dada a string:
txt = 'wйw wяw wёw wqw'
Escreva uma expressão regular que encontrará strings
segundo o padrão: nas extremidades há letras
'w', e entre elas - uma letra cirílica.
Dada a string:
txt = 'ааа ббб ёёё ззз ййй ААА БББ ЁЁЁ ЗЗЗ ЙЙЙ'
Escreva uma expressão regular que encontrará todas as palavras segundo o padrão: qualquer letra cirílica qualquer número de vezes.