Python正規表現におけるキリル文字の特性
Pythonの正規表現の大きな利点は、
キリル文字がグループ \w に含まれていることです。
次の文字列内のすべてのラテン文字とキリル文字を置き換えてみましょう:
txt = 'x232x 456 xax xтекстx'
res = re.sub('x[\w]*x', '!', txt)
print(res)
コード実行結果:
'! 456 ! !'
キリル文字は、角括弧内のグループ [а-я] を使用して検索することもできます。
しかし、これには問題があります - 文字 'ё' はここに含まれません。
この文字を含めるには、グループにこの文字を追加する必要があります:
res = re.sub('x[а-яё]*x', '!', txt)
print(res)
コード実行結果:
'! 456 xax !'
次の文字列が与えられています:
txt = 'wйw wяw wёw wqw'
パターンに一致する文字列を見つける正規表現を書いてください: 両端に文字 'w' があり、その間にキリル文字がある。
次の文字列が与えられています:
txt = 'ааа ббб ёёё ззз ййй ААА БББ ЁЁЁ ЗЗЗ ЙЙЙ'
パターンに一致するすべての単語を見つける正規表現を書いてください: 任意のキリル文字が任意の回数繰り返される。