Posebnosti cirilice v regularnih izrazih Python
Velika prednost regularnih izrazov v Pythonu
je, da cirilični znaki
spadajo v skupino \w. Zamenjajmo
vse latinične in cirilične črke v
naslednji vrstici:
txt = 'x232x 456 xax xтекстx'
res = re.sub('x[\w]*x', '!', txt)
print(res)
Rezultat izvajanja kode:
'! 456 ! !'
Cirilične črke lahko iščemo tudi s
pomočjo skupine v oglatih oklepajih: [а-я].
Vendar obstaja težava - črka
'ё' ne bo vključena.
Za njeno vključitev je treba
to črko dopisati skupini:
res = re.sub('x[а-яё]*x', '!', txt)
print(res)
Rezultat izvajanja kode:
'! 456 xax !'
Podan niz:
txt = 'wйw wяw wёw wqw'
Napišite regularni izraz, ki bo našel nize
po vzorcu: ob straneh sta črki
'w', med njima pa je cirilična črka.
Podan niz:
txt = 'ааа ббб ёёё ззз ййй ААА БББ ЁЁЁ ЗЗЗ ЙЙЙ'
Napišite regularni izraz, ki bo našel vse besede po vzorcu: poljubna cirilična črka poljubno število krat.