Χαρακτηριστικά της κυριλλικής σε κανονικές εκφράσεις της Python

Ένα μεγάλο πλεονέκτημα των κανονικών εκφράσεων στην Python είναι ότι τα κυριλλικά σύμβολα ανήκουν στην ομάδα \w. Ας αντικαταστήσουμε όλα τα λατινικά και κυριλλικά γράμματα στην ακόλουθη συμβολοσειρά:

txt = 'x232x 456 xax xтекстx'
res = re.sub('x[\w]*x', '!', txt)

print(res)

Αποτέλεσμα εκτέλεσης κώδικα:

'! 456 ! !'

Επίσης, τα κυριλλικά γράμματα μπορούν να αναζητηθούν με τη βοήθεια ομάδας σε αγκύλες: [а-я]. Αλλά με αυτήν υπάρχει ένα πρόβλημα - εδώ δεν περιλαμβάνεται το γράμμα 'ё'. Για να συμπεριληφθεί χρειάζεται να προστεθεί αυτό το γράμμα στην ομάδα:

res = re.sub('x[а-яё]*x', '!', txt)
print(res)

Αποτέλεσμα εκτέλεσης κώδικα:

'! 456 xax !'

Δίνεται συμβολοσειρά:

txt = 'wйw wяw wёw wqw'

Γράψτε μια κανονική έκφραση, που θα βρει συμβολοσειρές σύμφωνα με το πρότυπο: στα άκρα υπάρχουν γράμματα 'w', και ανάμεσά τους - κυριλλικό γράμμα.

Δίνεται συμβολοσειρά:

txt = 'ааа ббб ёёё ззз ййй ААА БББ ЁЁЁ ЗЗЗ ЙЙЙ'

Γράψτε μια κανονική έκφραση, που θα βρει όλες τις λέξεις σύμφωνα με το πρότυπο: οποιοδήποτε κυριλλικό γράμμα οποιονδήποτε αριθμό φορ.