Particularités du cyrillique dans les regex Python
Un grand avantage des regex en Python
est que les caractères cyrilliques
font partie du groupe \w. Remplaçons
toutes les lettres latines et cyrilliques dans
la chaîne suivante :
txt = 'x232x 456 xax xтекстx'
res = re.sub('x[\w]*x', '!', txt)
print(res)
Résultat de l'exécution du code :
'! 456 ! !'
Les lettres cyrilliques peuvent également être recherchées avec
un groupe entre crochets : [а-я].
Mais il y a un problème - la lettre
'ё' n'en fait pas partie. Pour l'inclure, il faut
ajouter cette lettre au groupe :
res = re.sub('x[а-яё]*x', '!', txt)
print(res)
Résultat de l'exécution du code :
'! 456 xax !'
Étant donné la chaîne :
txt = 'wйw wяw wёw wqw'
Écrivez une regex qui trouvera les chaînes
selon le motif : sur les bords se trouvent les lettres
'w', et entre elles - une lettre cyrillique.
Étant donné la chaîne :
txt = 'ааа ббб ёёё ззз ййй ААА БББ ЁЁЁ ЗЗЗ ЙЙЙ'
Écrivez une regex qui trouvera tous les mots selon le motif : n'importe quelle lettre cyrillique un nombre quelconque de fois.