Karakteristike ćirilice u regularnim izrazima Pajtona

Velika prednost regularnih izraza u Pajtonu je to što ćirilični simboli pripadaju grupi \w. Hajde da zamenimo sva latinična i ćirilična slova u sledećem stringu:

txt = 'x232x 456 xax xтекстx'
res = re.sub('x[\w]*x', '!', txt)

print(res)

Rezultat izvršavanja koda:

'! 456 ! !'

Takođe, ćirilična slova se mogu tražiti pomoću grupe u uglastim zagradama: [а-я]. Ali sa njom postoji problem - tu ne ulazi slovo 'ё'. Da bi ga uključili, potrebno je dopisati ovo slovo grupi:

res = re.sub('x[а-яё]*x', '!', txt)
print(res)

Rezultat izvršavanja koda:

'! 456 xax !'

Dat je string:

txt = 'wйw wяw wёw wqw'

Napišite regularni izraz koji će pronaći stringove po šablonu: na krajevima stoje slova 'w', a između njih - ćirilično slovo.

Dat je string:

txt = 'ааа ббб ёёё ззз ййй ААА БББ ЁЁЁ ЗЗЗ ЙЙЙ'

Napišite regularni izraz koji će pronaći sve reči po šablonu: bilo koje ćirilično slovo bilo koji broj puta.