पायथन में रेगुलर एक्सप्रेशन की लालच को सीमित करना

रेगुलर एक्सप्रेशन डिफ़ॉल्ट रूप से लालची होते हैं। इसका मतलब है कि वे अधिकतम संभव वर्णों को कैप्चर करते हैं। आइए एक उदाहरण से समझते हैं। मान लीजिए कि हमारे पास ऐसी स्ट्रिंग है:

txt = 'aeeex zzz x kkk'

इस स्ट्रिंग में हम सबस्ट्रिंग 'aeeex' को निम्नलिखित पैटर्न के अनुसार ढूंढना चाहते हैं: अक्षर 'a', फिर कोई भी वर्ण एक या अधिक बार, फिर अक्षर 'x':

res = re.sub('a.+x', '!', txt)
print(res)

हालांकि हमें स्ट्रिंग '! zzz x kkk' प्राप्त करनी है, स्ट्रिंग '! kkk' प्रिंट होगी। इसका कारण यह है कि हमारा रेगुलर एक्सप्रेशन अक्षर 'a' से अक्षर 'x' तक के सभी वर्ण ढूंढता है। लेकिन हमारी स्ट्रिंग में दो अक्षर 'x' हैं! लालच के कारण ऐसा होता है कि रेगुलर एक्सप्रेशन आखिरी 'x' तक ढूंढता है, जिससे वह अतिरिक्त वर्ण कैप्चर कर लेता है जिसकी हमें आवश्यकता नहीं थी।

निस्संदेह, अक्सर ऐसा व्यवहार हमें ही चाहिए होता है। लेकिन इस विशेष मामले में हमें लालच को रद्द करना होगा और रेगुलर एक्सप्रेशन को बताना होगा, कि वह पहले 'x' तक ही ढूंढे। इस मामले में रिपीटिशन ऑपरेटर के बाद प्रश्न चिह्न लगाना चाहिए:

res = re.sub('a.+?x', '!', txt)
print(res) # स्ट्रिंग '! zzz x kkk' प्रिंट करेगा

लालच को सभी रिपीटिशन ऑपरेटरों के लिए सीमित किया जा सकता है: *, और ?, और {} - इस तरह: *?, ?? और {}?।

एक स्ट्रिंग दी गई है:

txt = 'aba accca azzza wwwwa'

एक रेगुलर एक्सप्रेशन लिखें, जो सभी स्ट्रिंग्स ढूंढे जिनके किनारों पर अक्षर 'a' हों, और उनमें से प्रत्येक को '!' से बदल दे। अक्षरों 'a' के बीच कोई भी वर्ण ('a' के अलावा) हो सकता है।