Hífen dentro de conjuntos em expressões regulares do Python

O hífen - também é um caractere especial dentro de [ ] (mas fora deles - não). Se você precisa do próprio hífen como um caractere - coloque-o onde ele não será interpretado como um separador de intervalo.

Por que isso é importante: você pode criar um intervalo de caracteres sem perceber. Por exemplo, assim - '[:-@]' - você acha que está selecionando dois-pontos, hífen e arroba, mas na verdade, obtém-se um intervalo de caracteres entre : e @. Este intervalo inclui os seguintes caracteres: ? < = > :

De onde eles vêm? Da tabela ASCII - o dois-pontos tem um número menor que o da arroba - e assim forma-se um intervalo. Ou seja, todos os intervalos são formados de acordo com a tabela ASCII (se desejar, você pode usar isso a seu favor).

Como lidar com isso: coloque o caractere hífen onde ele definitivamente não será interpretado como um caractere de intervalo, por exemplo, no início ou no final (ou seja, depois de [ ou antes de ]).

Você também pode escapar o hífen - então ele representará a si próprio, independentemente da posição. Por exemplo, em vez de [:-@] escreva [:\-@] - e não haverá mais um intervalo, mas sim três caracteres - dois-pontos, hífen e arroba @.

Exemplo

No exemplo a seguir, o padrão de busca é: dígito 1, depois uma letra de 'a' a 'z', depois dígito 2:

txt = '1a2 1-2 1c2 1z2'
res = re.sub('1[a-z]2', '!', txt)

print(res)