python 正则表达式学习小结

日期：2020-06-21 栏目：程序人生浏览：次

　　在Python中实现正则的方式是通过re（regular expression的缩写）模块来实现的，你可以调用re模块的各种方法来实现不同的功能，下面我们就来说下，在Python中通过re模块可以调用那些方法，以及这些方法的作用都是什么；还有就是正则的实例以及各种特殊符号的含义：

　　1、re.sub和replace:

　　　　sub的全拼是substitute，也就是替换的意思；既然知道是替换了，那就很容易用到实例中了，其实replace也是替换的意思，只不过它们的用法不太相同，下面用一个例子来详细说明下它们的异同之处：

>>> import re >>> str1 = 'Hello 111 is 222' >>> str2 = str1.replace('111','222') >>> print(str2) Hello 222 is 222 >>>

　　　这是一个简单的例子，如果是下面这种情形，把所有的数字都换成222，那么用replace实现起来就比较麻烦，而用re模块的sub方法实现起来就比较的简单：（如果是更复杂的操作，使用replace可能就无法实现了。）

>>> import re >>> str1 = 'Hello 123 is 456' >>> str2 = re.sub('\d+','222',str1) >>> print(str2) Hello 222 is 222 >>>

　　2、re.search()和re.match():

　　　　match: 只从字符串的开始与正则表达式匹配，匹配成功返回matchobject,否则返回none.

　　　　search:将字符串的所有字串尝试与正则表达式匹配，如果所有的字串都没有匹配成功则返回none，否则返回matchobject.

　　　　下面这个例子说明了match和search的异同点，也说明了，在实际的应用中，search用的还是比较多的：

import re str = 'helloword,i am alex' if not re.match('word',str): print('cannot match') print(re.match('hello',str1).group()) print(re.search('word',str1).group()) #显示结果 cannot match hello word

　　3、re.split:

　　　　在Python中，如果想对一个字符串进行分割的话，只需要调用str的split方法就可以实现，但是这个split只能根据某个字符来进行分割的操作，如果要同时指定多个字符来进行分割的话，它就无法实现了。

　　　　好在re模块也提供了split这个方法来对字符串进行分割，而且这个方法更加强大，可以同时根据多个字符进行分割的操作，下面来看分别看一下str的split和re的split有什么不同的地方：

str1 = 'helloword,i;am\nalex' str2 = str1.split(',') print(str2) import re str3 = re.split('[,|;|\n]',str1) print(str3) #下面是不同的输出结果 ['helloword', 'i;am\nalex'] ['helloword', 'i', 'am', 'alex']

　　　　从中我们可以看出，上面说的真实性。

　　4、findall:

　　　　findall方法基本上都是和compile方法同时出现的，它们的用法是：

　　　　　　先由compile将一个正则表达式的字符串形式转换成pattern实例，然后再使用patte实例调用findall方法生成match对象来获取结果，在将它们结合的实例之前，我们先来看下正则表达式中预设的特殊字符含义：

　　　　\d 匹配任何十进制数；它相当于类 [0-9]。

　　　　\D 匹配任何非数字字符；它相当于类 [^0-9]。

　　　　\s 匹配任何空白字符；它相当于类 [ "t"n"r"f"v]。

　　　　\S 匹配任何非空白字符；它相当于类 [^ "t"n"r"f"v]。

　　　　\w 匹配任何字母数字字符；它相当于类 [a-zA-Z0-9_]。

　　　　\W 匹配任何非字母数字字符；它相当于类 [^a-zA-Z0-9_]。

　　　看完这几个特殊字符的含义，我们再举一个例子来说明一下上面的论点：

import re str1 = 'asdf12dvdve4gb4' pattern1 = re.compile('\d') pattern2 = re.compile('[0-9]') mch1 = pattern1.findall(str1) mch2 = pattern2.findall(str1) print('mch1:\t%s'% mch1) print('mch2:\t%s'% mch2) #输出结果 mch1: ['1', '2', '4', '4']13 mch2: ['1', '2', '4', '4']

　　　上面的两个实例都可以很好的阐述上面的论点，而且也表明了，特殊字符\d确实跟[0-9]是一样的，通过输出结果就可以看出，那么如果你不想把每个数字都拆分为一个元素放在列表中，而是想把12整体的输出出来，那么你可以这样做：（就是在\d的后面加上个+号来实现的，这里的+号表示的是把一个或者多个相连的十进制数字整体输出）

import re str1 = 'asdf12dvdve4gb4' pattern1 = re.compile('\d+') pattern2 = re.compile('[0-9]') mch1 = pattern1.findall(str1) mch2 = pattern2.findall(str1) print('mch1:\t%s'% mch1) print('mch2:\t%s'% mch2) #输出结果 mch1: ['12', '4', '4'] mch2: ['1', '2', '4', '4']

　　　我们再举一个小例子，这个例子是结合特殊字符和re的sub功能实现一下把字符串中所有的空格都给去掉：

import re str1 = 'asd \tf12d vdve4gb4' new_str = re.sub('\s*','',str) print(new_str) #输出结果 asdf12dvdve4gb4

　　5、元字符：

　　　　我们通常所说的二元字符有;2元字符：. ^ $ * + ? { } [ ] | ( ) \

转载注明出处：https://www.heiqu.com/wjpydj.html

python 正则表达式学习小结

相关推荐