Besonderheiten von kyrillischen Zeichen in Python-Regexen
Ein großer Vorteil von regulären Ausdrücken in Python
ist, dass kyrillische Zeichen
in die Gruppe \w fallen. Lassen Sie uns alle
lateinischen und kyrillischen Buchstaben in
der folgenden Zeichenkette ersetzen:
txt = 'x232x 456 xax xтекстx'
res = re.sub('x[\w]*x', '!', txt)
print(res)
Ergebnis der Codeausführung:
'! 456 ! !'
Kyrillische Buchstaben können auch mit
einer Gruppe in eckigen Klammern gesucht werden: [а-я].
Aber damit gibt es ein Problem - der Buchstabe
'ё' wird hier nicht erfasst. Um ihn einzuschließen, muss
dieser Buchstabe zur Gruppe hinzugefügt werden:
res = re.sub('x[а-яё]*x', '!', txt)
print(res)
Ergebnis der Codeausführung:
'! 456 xax !'
Gegeben ist die Zeichenkette:
txt = 'wйw wяw wёw wqw'
Schreiben Sie einen regulären Ausdruck, der Zeichenketten
nach dem Muster findet: an den Rändern stehen die Buchstaben
'w', und dazwischen - ein kyrillischer Buchstabe.
Gegeben ist die Zeichenkette:
txt = 'ааа ббб ёёё ззз ййй ААА БББ ЁЁЁ ЗЗЗ ЙЙЙ'
Schreiben Sie einen regulären Ausdruck, der alle Wörter nach dem Muster findet: beliebiger kyrillischer Buchstabe beliebig oft.