python怎么使用正则表达式匹配内容_python正则表达式使用指南

Python通过re模块实现正则表达式,核心是编写模式字符串并使用search、match、findall、sub等函数进行查找、匹配、提取和替换操作。

python怎么使用正则表达式匹配内容_python正则表达式使用指南

Python使用正则表达式主要通过内置的

re

模块来实现,它提供了一系列函数,让你能够定义复杂的文本匹配模式,并在字符串中查找、替换或提取符合这些模式的内容。核心思想是先写一个描述目标文本结构的“模式字符串”,然后用

re

模块的函数去处理你想要分析的文本。

解决方案

在Python里玩转正则表达式,我的经验是,首先得把

re

模块请进来。这就像你要盖房子,得先有工具箱。

import re

然后,我们就可以开始干活了。最常用的几个工具大概是这样的:

re.search(pattern, string)

: 这个函数会扫描整个字符串,找到第一个匹配

pattern

的位置。如果找到了,它会返回一个

Match

对象;如果没找到,就返回

None

。我个人觉得,这是日常使用频率最高的函数之一,因为很多时候我只需要知道“有没有”或者“第一个是什么”。

立即学习“Python免费学习笔记(深入)”;

text = "我的电话是138-0013-8000,紧急联系人电话是13912345678。"pattern = r"d{3}-d{4}-d{4}" # 匹配手机号格式,r前缀表示这是一个原始字符串,避免反斜杠的转义问题match = re.search(pattern, text)if match:    print(f"找到了第一个电话号码: {match.group(0)}") # group(0)返回整个匹配到的字符串    # 输出: 找到了第一个电话号码: 138-0013-8000else:    print("没找到符合格式的电话号码。")

re.match(pattern, string)

: 和

search

有点像,但它有个严格的规定:只从字符串的开头进行匹配。如果模式不在字符串开头,即使后面有匹配项,

Match

也会返回

None

。这在处理固定格式的字符串开头时特别有用,比如我经常用它来验证文件名的前缀。

text_start = "Hello World!"text_middle = "Say Hello World!"pattern_hello = r"Hello"match_start = re.match(pattern_hello, text_start)match_middle = re.match(pattern_hello, text_middle)if match_start:    print(f"从开头匹配到: {match_start.group(0)}") # 输出: 从开头匹配到: Helloelse:    print("开头未匹配到。")if match_middle:    print(f"从开头匹配到: {match_middle.group(0)}")else:    print("开头未匹配到。") # 输出: 开头未匹配到。

re.findall(pattern, string)

: 如果你需要找出字符串中所有不重叠的匹配项,

findall

就是你的不二之选。它会返回一个包含所有匹配字符串的列表。我发现它在从日志文件或网页内容中批量提取信息时特别好用。

text_all_numbers = "商品A价格12.5元,商品B价格99.99元,商品C价格3元。"pattern_price = r"d+.?d*" # 匹配整数或小数all_prices = re.findall(pattern_price, text_all_numbers)print(f"所有价格: {all_prices}") # 输出: 所有价格: ['12.5', '99.99', '3']

re.sub(pattern, repl, string, count=0)

: 这个函数用来替换字符串中匹配

pattern

的部分。

repl

可以是字符串,也可以是一个函数。

count

参数可以限制替换的次数。我经常用它来清洗数据,比如把多余的空格替换掉,或者把一些敏感信息脱敏。

text_clean = "你好  世界!  这是一个   测试。"pattern_spaces = r"s+" # 匹配一个或多个空格cleaned_text = re.sub(pattern_spaces, " ", text_clean)print(f"清理后的文本: {cleaned_text}") # 输出: 清理后的文本: 你好 世界! 这是一个 测试。

理解这几个基本函数,并掌握如何构建模式字符串,你就已经迈出了Python正则表达式的第一步。

Python正则表达式中常用的匹配模式有哪些?

说实话,正则表达式的“模式”才是它真正强大且让人又爱又恨的地方。刚开始学的时候,我常常被那些符号搞得头晕眼花,但一旦掌握了,你会发现它们能解决很多看似复杂的文本处理问题。这里我把我日常最常用的一些模式总结一下:

基本字符匹配:

.

(点): 匹配除了换行符

n

之外的任意一个字符。这玩意儿简直是万能牌,但用的时候得小心,因为它可能匹配到你不想匹配的东西。

d

: 匹配任意一个数字(0-9)。我的密码验证、电话号码提取都离不开它。

d

: 匹配任意一个非数字字符

w

: 匹配任意一个字母、数字或下划线([a-zA-Z0-9_])。处理变量名、单词时很方便。

w

: 匹配任意一个非字母、数字、下划线字符

s

: 匹配任意一个空白字符(空格、制表符、换行符等)。文本清洗时,它和

+

组合起来是神器。

s

: 匹配任意一个非空白字符

数量词(Quantifiers): 这些是用来指定前面那个字符或组要出现多少次的。

*

: 匹配零次或多次。比如

a*

能匹配

""

,

a

,

aa

,

aaa

+

: 匹配一次或多次

a+

能匹配

a

,

aa

,

aaa

…但不能匹配

""

?

: 匹配零次或一次

colou?r

可以匹配

color

colour

{n}

: 匹配恰好n次

d{4}

匹配四位数字。

{n,}

: 匹配至少n次

d{3,}

匹配三位或更多位数字。

{n,m}

: 匹配n到m次

d{3,5}

匹配三到五位数字。

边界匹配:

^

: 匹配字符串的开头

$

: 匹配字符串的结尾

b

: 匹配单词边界。比如

bcatb

只会匹配独立的单词”cat”,而不会匹配”category”中的”cat”。这在精确匹配单词时非常有用。

b

: 匹配非单词边界

字符集:

[abc]

: 匹配方括号中的任意一个字符。比如

[aeiou]

匹配任意一个元音字母。

[a-z]

: 匹配指定范围内的字符

[0-9]

等同于

d

[^abc]

: 匹配不在方括号中的任意一个字符

[^0-9]

等同于

d

分组与捕获:

(pattern)

: 用小括号括起来的部分形成一个捕获组。这不仅能让你把一组模式当作一个整体来应用数量词(比如

(ab)+

),还能让你在

Match

对象中单独提取这个组匹配到的内容(通过

match.group(1)

match.group(2)

等)。我个人觉得,分组是正则表达式进阶的必经之路,数据提取全靠它了。

(?:pattern)

: 非捕获组。它也把模式当作一个整体,但不会捕获匹配到的内容,所以不会占用

group()

的索引。当你只想分组而不关心捕获时,用这个可以提升一点点性能,也让代码更清晰。

选择符:

|

:

cat|dog

可以匹配”cat”或”dog”。

转义:


(反斜杠): 如果你的模式中需要匹配正则表达式的特殊字符本身(比如

.

,

*

,

?

,

+

,

(

,

)

,

[

,

]

,

{

,

}

,

^

,

$

,

|

,


),你就需要在它们前面加上反斜杠进行转义。比如要匹配一个点号,你得写

.

构建这些模式的时候,我通常会先在心里模拟一下,或者直接用一些在线的正则表达式测试工具(比如regex101.com)来验证我的模式是不是真的能匹配到我想要的东西。

在Python中处理正则表达式匹配结果时有哪些技巧和注意事项?

匹配到了结果,怎么用好它,这也有不少学问。我这里分享一些我常用的技巧和踩过的一些坑。

Match对象的妙用: 当

re.search()

re.match()

找到匹配时,它们返回的是一个

Match

对象。这个对象可不只是告诉你“有”或“没有”那么简单,它包含了匹配的所有细节:

match.group(0)

: 返回整个匹配到的字符串。这是最常用的。

match.group(1)

,

match.group(2)

…: 返回对应捕获组匹配到的字符串。如果你有多个捕获组,它们会按从左到右的顺序编号。

match.groups()

: 返回一个包含所有捕获组内容的元组。

match.start()

: 返回匹配开始的索引。

match.end()

: 返回匹配结束的索引(不包含)。

match.span()

: 返回一个元组

(start, end)

。利用这些,你可以精确地知道匹配到的内容是什么,在哪里。

text = "联系电话是: (010)1234-5678"pattern = r"((d{3}))(d{4}-d{4})" # 两个捕获组,一个用于区号,一个用于号码match = re.search(pattern, text)if match:    print(f"完整匹配: {match.group(0)}") # 输出: (010)1234-5678    print(f"区号: {match.group(1)}")   # 输出: 010    print(f"号码: {match.group(2)}")   # 输出: 1234-5678    print(f"所有分组: {match.groups()}") # 输出: ('010', '1234-5678')    print(f"匹配位置: {match.span()}")  # 输出: (7, 22)

贪婪与非贪婪匹配: 这是个经典陷阱!默认情况下,正则表达式的数量词(

*

,

+

,

?

,

{n,m}

)都是“贪婪”的,它们会尽可能多地匹配字符。但有时候,你可能只想要最短的匹配。这时,你可以在数量词后面加上一个

?

,让它变成“非贪婪”模式。

html_text = "

标题1

内容

标题2

"greedy_pattern = r"

.*

" # 贪婪模式non_greedy_pattern = r"

.*?

" # 非贪婪模式greedy_match = re.search(greedy_pattern, html_text)if greedy_match: print(f"贪婪匹配: {greedy_match.group(0)}") # 输出:

标题1

内容

标题2

non_greedy_match = re.search(non_greedy_pattern, html_text)if non_greedy_match: print(f"非贪婪匹配: {non_greedy_match.group(0)}") # 输出:

标题1

你看,一个

?

区别,结果大相径庭。我刚开始用的时候就经常被这个坑到,以为

.*

就能匹配一个标签,结果把整个HTML都吞了。

编译正则表达式: 如果你需要在程序中多次使用同一个正则表达式模式,那么使用

re.compile()

来编译它是一个非常好的习惯。它会把模式编译成一个

RegexObject

对象,这样在后续使用时就不用每次都重新编译了,能提升一点性能。对于短脚本可能不明显,但对于处理大量文本或在循环中频繁使用正则的场景,编译带来的好处是实实在在的。

phone_pattern = re.compile(r"(d{3})-(d{4})-(d{4})")text_list = ["电话: 139-1234-5678", "座机: 010-8765-4321"]for text in text_list:    match = phone_pattern.search(text)    if match:        print(f"找到号码: {match.group(0)}")

匹配标志(Flags):

re

模块提供了一些标志,可以改变正则表达式的匹配行为。这些标志可以作为函数的第三个参数传入,或者在编译时传入。

re.IGNORECASE

(或

re.I

): 忽略大小写。

re.DOTALL

(或

re.S

): 让

.

(点号)也能匹配换行符

n

。默认情况下

.

是不匹配换行符的。

re.MULTILINE

(或

re.M

): 改变

^

$

的行为。在多行模式下,

^

不仅匹配字符串开头,还匹配每一行的开头;

$

不仅匹配字符串结尾,还匹配每一行的结尾。

multi_line_text = "First linenSecond line"pattern_dotall = r"First.*line"match_dotall = re.search(pattern_dotall, multi_line_text, re.DOTALL)if match_dotall:    print(f"DOTALL匹配: '{match_dotall.group(0)}'") # 输出: 'First linenSecond line'

处理无匹配情况: 永远要记得,

re.search()

re.match()

在没有找到匹配时会返回

None

。所以,在使用

Match

对象之前,务必进行非空判断,否则直接访问

match.group()

会抛出

AttributeError

。这是我个人写代码时最常犯的低级错误之一,因为有时候我太自信我的模式了,哈哈。

no_match_text = "没有数字"pattern_digit = r"d+"match_obj = re.search(pattern_digit, no_match_text)if match_obj: # 良好的编程习惯    print(f"找到了: {match_obj.group(0)}")else:    print("什么也没找到。")

掌握这些技巧,能让你在处理匹配结果时更加得心应手,避免一些不必要的错误。

Python正则表达式在实际开发中能解决哪些具体问题?

正则表达式在实际开发中简直是文本处理的瑞士军刀,用途非常广泛。我个人在很多场景下都依赖它,从最简单的文本清理到复杂的数据提取。

数据验证: 这是我用得最多的场景之一。

邮箱地址验证: 虽然完全符合RFC标准的邮箱正则非常复杂,但一个简单的模式(比如

r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$"

)就能过滤掉大部分不合法的输入。手机号码验证: 针对不同国家的手机号格式,编写相应的正则进行验证。比如中国大陆的11位手机号(

r"^1[3-9]d{9}$"

)。URL验证: 确保用户输入的链接格式正确。密码强度检查: 检查密码是否包含大小写字母、数字、特殊字符,以及是否达到最小长度。

文本提取: 从非结构化或半结构化文本中抽取出你想要的信息。

日志文件解析: 从大量的服务器日志中提取出错误信息、IP地址、请求时间、特定事件ID等。比如,我想找出所有包含“ERROR”关键字的行,并提取其后的错误代码。网页爬虫数据提取: 虽然现在很多爬虫会用BeautifulSoup等库解析HTML,但在处理特定格式的文本块或JS代码中的数据时,正则依然是高效且直接的工具。比如,从


标签中提取JSON数据。结构化数据转换: 从一些旧格式的文本文件中提取字段,然后转换成JSON或CSV格式。

文本清洗与转换: 让杂乱无章的文本变得规整。

去除多余空格:

re.sub(r"s+", " ", text)

可以把文本中连续的空格、制表符、换行符等替换成单个空格。格式化日期/时间: 将不同格式的日期字符串统一转换为标准格式。敏感信息脱敏: 比如将身份证号码或银行卡号的中间几位用星号代替,保护用户隐私。HTML/XML标签清理: 从文本中移除所有HTML标签,只保留纯文本内容(当然,对于复杂的HTML,用解析库更稳妥)。

简单的文本搜索和替换:

在大量代码文件中查找并替换某个变量名或函数名,特别是当这个名字可能出现在不同的上下文,需要精确匹配时。批量修改文档中的特定短语或格式。

我个人觉得,正则表达式的魅力在于它提供了一种模式化思维来处理文本。当你的目标文本结构有规律可循,但又不是严格的固定格式时,正则就能大显身手。不过,我也要提醒一句:不要滥用正则表达式。对于一些简单的字符串操作,比如判断一个子串是否存在(

"sub" in string

)或者简单的分割(

string.split(',')

),直接使用Python字符串的内置方法通常更清晰、性能更好。只有当模式变得复杂、需要模糊匹配、或者需要捕获特定子结构时,正则表达式才是最佳选择。过度使用正则,不仅会让代码难以阅读和维护,还可能因为模式写得不好而引入意想不到的bug。所以,用之前先思考一下,是不是真的需要它。

以上就是python怎么使用正则表达式匹配内容_python正则表达式使用指南的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1371760.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
python如何安装指定版本的库_pip安装python库指定版本的方法
上一篇 2025年12月14日 11:43:54
Python怎么向列表末尾添加元素_Python列表元素添加方法
下一篇 2025年12月14日 11:44:04

相关推荐

  • composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

    require用于声明项目运行必需的依赖,如框架、数据库组件和第三方SDK,这些包会随项目部署到生产环境;2. require-dev用于声明仅在开发和测试阶段需要的工具,如PHPUnit、PHPStan、Faker等,不会默认部署到生产环境;3. 安装时composer install根据环境决定…

    2026年5月10日
    900
  • 修复Django电商项目中AJAX过滤产品列表图片不显示问题

    在Django电商项目中,当使用AJAX动态加载过滤后的产品列表时,常遇到图片无法正常显示的问题。这通常是由于前端模板中图片加载方式(如data-setbg属性结合JavaScript库)与AJAX动态内容更新机制不兼容所致。解决方案是直接在AJAX返回的HTML中使用标准的标签来渲染图片,确保浏览…

    2026年5月10日
    000
  • 开源免费PHP工具 PHP开发效率提升利器

    推荐开源免费PHP开发工具以提升效率:VS Code、Sublime Text轻量高效,PhpStorm专业强大;调试用Xdebug、Kint、Ray;依赖管理选Composer;代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer;数据库管理可用%ignore_a_1%MyA…

    2026年5月10日
    000
  • Matplotlib 地图中多类型图例的创建与优化

    Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化

    本教程旨在解决matplotlib地图可视化中,如何在一个图例中同时展示颜色块(如区域分类)和自定义标记(如特定兴趣点)的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时,如何利用`matplotlib.lines.line2d`创建标记图例句柄,并将其与颜色块图例句柄合并,从而生成一…

    2026年5月10日 用户投稿
    100
  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 利用海象运算符简化条件赋值:Python教程与最佳实践

    本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…

    2026年5月10日
    000
  • Debian syslog性能优化技巧有哪些

    提升Debian系统syslog (通常基于rsyslog)性能,关键在于精简配置和高效处理日志。以下策略能有效优化日志管理,提升系统整体性能: 精简配置,高效加载: 在rsyslog配置文件中,仅加载必要的输入、输出和解析模块。 使用全局指令设置日志级别和格式,避免不必要的处理。 自定义模板: 创…

    2026年5月10日
    000
  • 怎么在PHP代码中实现图片上传功能_PHP图片上传功能实现与安全处理教程

    首先创建含enctype的HTML表单,再用PHP接收文件,检查目录、移动临时文件,验证类型与大小,生成唯一文件名,并调整php.ini限制以确保上传成功。 如果您尝试在PHP项目中添加图片上传功能,但服务器无法正确接收或保存文件,则可能是由于表单配置、文件处理逻辑或安全限制的问题。以下是实现该功能…

    2026年5月10日
    100
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

    SFINAE 是“替换失败不是错误”的原则,指模板实例化时若参数替换导致错误,只要存在其他合法候选,编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景,如通过 decltype 或 enable_if 控制函数重载,实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

    2026年5月10日
    000
  • HTML如何隐藏滚动条或去除滚动条

    滚动条可以存在也可以不存在,本文主要介绍了html 隐藏滚动条和去除滚动条的方法的相关资料,大家一起来学习一下html隐藏滚动条或去除滚动条的方法吧。 1. html 标签加属性 XML/HTML Code复制内容到剪贴板 2.body中加入以下代码 立即学习“前端免费学习笔记(深入)”; html…

    用户投稿 2026年5月10日
    000
  • Golang gRPC流式请求异常处理

    在Golang的gRPC流式通信中,必须通过context.Context处理异常。应监听上下文取消或超时,及时释放资源,设置合理超时,避免连接长时间挂起,并在goroutine中通过context控制生命周期。 在使用 Golang 和 gRPC 实现流式通信时,异常处理是确保服务健壮性的关键部分…

    2026年5月10日
    000
  • Go语言mgo查询构建:深入理解bson.M与日期范围查询的正确实践

    本文旨在解决go语言mgo库中构建复杂查询时,特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性,解释为何直接索引`interface{}`会导致“invalid operation”错误,并提供一种推荐的、结构清晰的代码重构方案,以确保查询条件能够正确…

    2026年5月10日
    100
  • vscode上怎么运行html_vscode上运行html步骤【指南】

    首先保存文件为.html格式,再通过浏览器或Live Server插件打开预览;推荐安装Live Server实现本地服务器运行与实时刷新,提升开发体验。 在 VS Code 上运行 HTML 文件并不需要复杂的配置,只需几个简单步骤即可预览页面效果。VS Code 本身是一个代码编辑器,不直接运行…

    2026年5月10日
    100
  • RichHandler与Rich Progress集成:解决显示冲突的教程

    在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时,可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

    2026年5月10日
    000
  • 修复点击时按钮抖动:CSS垂直对齐实践

    本文探讨了在Web开发中,交互式按钮(如播放/暂停按钮)在点击时发生意外垂直位移的问题。通过分析CSS样式变化对元素布局的影响,我们发现这是由于按钮不同状态下的边框样式和内边距改变,以及默认的垂直对齐行为共同作用所致。核心解决方案是利用CSS的vertical-align属性,将其设置为middle…

    2026年5月10日
    000
  • Golang goroutine与channel调试技巧

    使用go run -race检测数据竞争,结合runtime.NumGoroutine监控协程数量,通过pprof分析阻塞调用栈,利用select超时避免永久阻塞,有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心,但它们也带来了调试上…

    2026年5月10日
    000
  • 页面中文本域的值怎么设置

    标签定义多行的文本输入控件。 文本区中可容纳无限数量的文本,其中的文本的默认字体是等宽字体(通常是 Courier)。 可以通过 cols 和 rows 属性来规定 textarea 的尺寸,不过更好的办法是使用 CSS 的 height 和 width 属性。 注释:在文本输入区内的文本行间,用 …

    2026年5月10日
    000
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • php常量怎么用_PHP常量(define/const)定义与使用方法

    PHP中可通过define函数和const关键字定义常量,用于存储不可变值。define适用于全局作用域,支持动态名称和条件定义,如define(‘SITE_NAME’, ‘MyWebsite’);const在编译时生效,语法简洁但限制多,只能在类或全…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信