当前位置:
首页
文章
前端
详情

Python3正则表达式

在Python中使用正则表达式

Python语言通过标准库中的 re模块 (import re)支持正则表达式。

使用 match 方法匹配字符串

  • 匹配字符串也就是设定一个文本模式,然后判断另外一个字符串是否符合这个文本模式。

    import re

    第1个参数表示文本模式,第2个参数表示待匹配的字符串

    m = re.match('hello', 'hello world') if m is not None: print(m.group()) # hello

使用search方法在一个字符串中查找模式

import re
# 第1个参数表示文本模式,第2个参数表示待查找的字符串
m = re.search('abc','xabcy')
print(m.group()) # abc

匹配多个字符串

  • 如果想要搜索多个字符串,最简单的方法是在文本模式字符串中使用 **择一匹配符号(|)**。择一匹配符号只要满足任何一个,就算匹配成功。

    import re s = 'bike|car|truck' m = re.match(s, 'bike') print(m.group()) # bike m = re.match(s, 'truck') print(m.group()) # truck

匹配任何单个字符(.)

  • 点(.),这个符号可以匹配任意一个单个字符。

    m = re.match('bin.', 'bind') # 匹配成功

其中 . 可以表示任意一个字符,例如:"bind"、"binx"、"bin4"都可以和文本模式匹配成功。

使用字符集匹配([])

  • 如果待匹配的字符串中,某些字符可以有多个选择,就需要使用字符集([])。如 [abc] 表示在a、b、c三个字符中取其中任何一个。

重复、可选和特殊字符(*、+、?、\w、\d、{N})

  • *:表示字符串出现0到n次,'a*' 表示字符a出现0到n次
  • +:表示字符串出现1到n次,'a+' 表示字符a出现1到n次
  • ?:表示可选符号,a? 表示a可有可无
  • \w:表示任意一个字母或数字
  • \d:表示任意一个数字
  • {N}:表示前面修饰的部分重复N次,(abc){3} 表示字符串'abc'重复3次

分组

  • 如果一个模式字符串中有用一对 圆括号 括起来,那么这部分就会作为一组。

    m = re.match('(\d\d\d)-(\d\d)', '123-45') # 匹配

匹配字符串的起始和结尾以及单词边界(^、$、\b)

  • ^:表示匹配字符串的开始,如:^the,表示以 the 开始
  • $:表示匹配字符串的结束,如:the$,表示以 the 结束
  • \b:表示单词的边界,如:\bthis,则 what's this? 匹配,what's sthiss? 不匹配

使用findall和finditer查找每一次出现的位置

  • findall函数用于查询字符串中某个正则表达式模式全部的非重复出现情况,如果搜索到结果,则返回包含结果的列表,否则返回一个空列表

    import re result = re.findall('bike', 'This is a bike. This is my bike.') print(result) # ['bike', 'bike']

  • finditer与findall函数类似,区别是findall会返回一个列表,而finditer函数返回一个迭代器

用sub和subn搜索与替换

  • 这两个函数都是将字符串中所有匹配正则表达式的部分替换成其他字符串。sub 函数 返回替换后的结果subn 函数 返回一个元组,元组的第1个元素是替换后的结果,第2个元素是替换的总数

    import re

    sub函数第1个参数是正表达式,第2个参数是要替换的字符串,第3个参数是被替换的字符串

    result = re.sub('Bill', 'Mike', 'Bill is my son') print(result) # Mike is my son

    result = re.subn('Bill', 'Mike', 'Bill is my son') print(result) # ('Mike is my son', 1)

使用split分隔字符串

  • split函数用于根据正则表达式分隔字符串

    import re result = re.split(';', 'Bill;Mike;John') print(result) # ['Bill', 'Mike', 'John']

    result = re.split('[a-z]{3}-[0-9]{2}', 'testabc-4312productxyz-43abill') print(result) # ['test', '12product', 'abill']

一些常用的正则表达式

  • Email:'[0-9a-zA-z]+@[0-9a-zA-z]+.[0-9a-zA-z]{2,3}'
  • IP地址:'\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}'
  • Web地址:'https?:/{2}\w.+'

免责申明:本站发布的内容(图片、视频和文字)以转载和分享为主,文章观点不代表本站立场,如涉及侵权请联系站长邮箱:xbc-online@qq.com进行反馈,一经查实,将立刻删除涉嫌侵权内容。