python怎么使用正则表达式匹配内容_python正则表达式使用指南

程序猿 • 2025年12月14日 11:44:02 • 用户投稿 • 阅读 0

Python通过re模块实现正则表达式，核心是编写模式字符串并使用search、match、findall、sub等函数进行查找、匹配、提取和替换操作。

Python使用正则表达式主要通过内置的

re

模块来实现，它提供了一系列函数，让你能够定义复杂的文本匹配模式，并在字符串中查找、替换或提取符合这些模式的内容。核心思想是先写一个描述目标文本结构的“模式字符串”，然后用

re

模块的函数去处理你想要分析的文本。

解决方案

在Python里玩转正则表达式，我的经验是，首先得把

re

模块请进来。这就像你要盖房子，得先有工具箱。

import re

然后，我们就可以开始干活了。最常用的几个工具大概是这样的：

re.search(pattern, string)

: 这个函数会扫描整个字符串，找到第一个匹配

pattern

的位置。如果找到了，它会返回一个

Match

对象；如果没找到，就返回

None

。我个人觉得，这是日常使用频率最高的函数之一，因为很多时候我只需要知道“有没有”或者“第一个是什么”。

立即学习“Python免费学习笔记（深入）”；

text = "我的电话是138-0013-8000，紧急联系人电话是13912345678。"pattern = r"d{3}-d{4}-d{4}" # 匹配手机号格式，r前缀表示这是一个原始字符串，避免反斜杠的转义问题match = re.search(pattern, text)if match:    print(f"找到了第一个电话号码: {match.group(0)}") # group(0)返回整个匹配到的字符串    # 输出: 找到了第一个电话号码: 138-0013-8000else:    print("没找到符合格式的电话号码。")

re.match(pattern, string)

: 和

search

有点像，但它有个严格的规定：只从字符串的开头进行匹配。如果模式不在字符串开头，即使后面有匹配项，

Match

也会返回

None

。这在处理固定格式的字符串开头时特别有用，比如我经常用它来验证文件名的前缀。

text_start = "Hello World!"text_middle = "Say Hello World!"pattern_hello = r"Hello"match_start = re.match(pattern_hello, text_start)match_middle = re.match(pattern_hello, text_middle)if match_start:    print(f"从开头匹配到: {match_start.group(0)}") # 输出: 从开头匹配到: Helloelse:    print("开头未匹配到。")if match_middle:    print(f"从开头匹配到: {match_middle.group(0)}")else:    print("开头未匹配到。") # 输出: 开头未匹配到。

re.findall(pattern, string)

: 如果你需要找出字符串中所有不重叠的匹配项，

findall

就是你的不二之选。它会返回一个包含所有匹配字符串的列表。我发现它在从日志文件或网页内容中批量提取信息时特别好用。

text_all_numbers = "商品A价格12.5元，商品B价格99.99元，商品C价格3元。"pattern_price = r"d+.?d*" # 匹配整数或小数all_prices = re.findall(pattern_price, text_all_numbers)print(f"所有价格: {all_prices}") # 输出: 所有价格: ['12.5', '99.99', '3']

re.sub(pattern, repl, string, count=0)

: 这个函数用来替换字符串中匹配

pattern

的部分。

repl

可以是字符串，也可以是一个函数。

count

参数可以限制替换的次数。我经常用它来清洗数据，比如把多余的空格替换掉，或者把一些敏感信息脱敏。

text_clean = "你好  世界！  这是一个   测试。"pattern_spaces = r"s+" # 匹配一个或多个空格cleaned_text = re.sub(pattern_spaces, " ", text_clean)print(f"清理后的文本: {cleaned_text}") # 输出: 清理后的文本: 你好 世界！ 这是一个 测试。

理解这几个基本函数，并掌握如何构建模式字符串，你就已经迈出了Python正则表达式的第一步。

Python正则表达式中常用的匹配模式有哪些？

说实话，正则表达式的“模式”才是它真正强大且让人又爱又恨的地方。刚开始学的时候，我常常被那些符号搞得头晕眼花，但一旦掌握了，你会发现它们能解决很多看似复杂的文本处理问题。这里我把我日常最常用的一些模式总结一下：

基本字符匹配:

(点): 匹配除了换行符

之外的任意一个字符。这玩意儿简直是万能牌，但用的时候得小心，因为它可能匹配到你不想匹配的东西。

: 匹配任意一个数字（0-9）。我的密码验证、电话号码提取都离不开它。

: 匹配任意一个非数字字符。

: 匹配任意一个字母、数字或下划线（[a-zA-Z0-9_]）。处理变量名、单词时很方便。

: 匹配任意一个非字母、数字、下划线字符。

: 匹配任意一个空白字符（空格、制表符、换行符等）。文本清洗时，它和

组合起来是神器。

: 匹配任意一个非空白字符。

数量词（Quantifiers）: 这些是用来指定前面那个字符或组要出现多少次的。

: 匹配零次或多次。比如

a*

能匹配

""

aa

aaa

…

: 匹配一次或多次。

a+

能匹配

aa

aaa

…但不能匹配

""

。

: 匹配零次或一次。

colou?r

可以匹配

color

或

colour

。

{n}

: 匹配恰好n次。

d{4}

匹配四位数字。

{n,}

: 匹配至少n次。

d{3,}

匹配三位或更多位数字。

{n,m}

: 匹配n到m次。

d{3,5}

匹配三到五位数字。

边界匹配:

: 匹配字符串的开头。

: 匹配字符串的结尾。

: 匹配单词边界。比如

bcatb

只会匹配独立的单词”cat”，而不会匹配”category”中的”cat”。这在精确匹配单词时非常有用。

: 匹配非单词边界。

字符集:

[abc]

: 匹配方括号中的任意一个字符。比如

[aeiou]

匹配任意一个元音字母。

[a-z]

: 匹配指定范围内的字符。

[0-9]

等同于

。

[^abc]

: 匹配不在方括号中的任意一个字符。

[^0-9]

等同于

。

分组与捕获:

(pattern)

: 用小括号括起来的部分形成一个捕获组。这不仅能让你把一组模式当作一个整体来应用数量词（比如

(ab)+

），还能让你在

Match

对象中单独提取这个组匹配到的内容（通过

match.group(1)

、

match.group(2)

等）。我个人觉得，分组是正则表达式进阶的必经之路，数据提取全靠它了。

(?:pattern)

: 非捕获组。它也把模式当作一个整体，但不会捕获匹配到的内容，所以不会占用

group()

的索引。当你只想分组而不关心捕获时，用这个可以提升一点点性能，也让代码更清晰。

选择符:

: 或。

cat|dog

可以匹配”cat”或”dog”。

转义:

(反斜杠): 如果你的模式中需要匹配正则表达式的特殊字符本身（比如

），你就需要在它们前面加上反斜杠进行转义。比如要匹配一个点号，你得写

。

构建这些模式的时候，我通常会先在心里模拟一下，或者直接用一些在线的正则表达式测试工具（比如regex101.com）来验证我的模式是不是真的能匹配到我想要的东西。

在Python中处理正则表达式匹配结果时有哪些技巧和注意事项？

匹配到了结果，怎么用好它，这也有不少学问。我这里分享一些我常用的技巧和踩过的一些坑。

Match对象的妙用: 当

re.search()

或

re.match()

找到匹配时，它们返回的是一个

Match

对象。这个对象可不只是告诉你“有”或“没有”那么简单，它包含了匹配的所有细节：

match.group(0)

: 返回整个匹配到的字符串。这是最常用的。

match.group(1)

match.group(2)

…: 返回对应捕获组匹配到的字符串。如果你有多个捕获组，它们会按从左到右的顺序编号。

match.groups()

: 返回一个包含所有捕获组内容的元组。

match.start()

: 返回匹配开始的索引。

match.end()

: 返回匹配结束的索引（不包含）。

match.span()

: 返回一个元组

(start, end)

。利用这些，你可以精确地知道匹配到的内容是什么，在哪里。

text = "联系电话是: (010)1234-5678"pattern = r"((d{3}))(d{4}-d{4})" # 两个捕获组，一个用于区号，一个用于号码match = re.search(pattern, text)if match:    print(f"完整匹配: {match.group(0)}") # 输出: (010)1234-5678    print(f"区号: {match.group(1)}")   # 输出: 010    print(f"号码: {match.group(2)}")   # 输出: 1234-5678    print(f"所有分组: {match.groups()}") # 输出: ('010', '1234-5678')    print(f"匹配位置: {match.span()}")  # 输出: (7, 22)

贪婪与非贪婪匹配: 这是个经典陷阱！默认情况下，正则表达式的数量词（

{n,m}

）都是“贪婪”的，它们会尽可能多地匹配字符。但有时候，你可能只想要最短的匹配。这时，你可以在数量词后面加上一个

，让它变成“非贪婪”模式。

html_text = "标题1
内容
标题2
"greedy_pattern = r".*
" # 贪婪模式non_greedy_pattern = r".*?
" # 非贪婪模式greedy_match = re.search(greedy_pattern, html_text)if greedy_match:    print(f"贪婪匹配: {greedy_match.group(0)}") # 输出: 标题1
内容
标题2
non_greedy_match = re.search(non_greedy_pattern, html_text)if non_greedy_match:    print(f"非贪婪匹配: {non_greedy_match.group(0)}") # 输出: 标题1

你看，一个

的区别，结果大相径庭。我刚开始用的时候就经常被这个坑到，以为

.*

就能匹配一个标签，结果把整个HTML都吞了。

编译正则表达式: 如果你需要在程序中多次使用同一个正则表达式模式，那么使用

re.compile()

来编译它是一个非常好的习惯。它会把模式编译成一个

RegexObject

对象，这样在后续使用时就不用每次都重新编译了，能提升一点性能。对于短脚本可能不明显，但对于处理大量文本或在循环中频繁使用正则的场景，编译带来的好处是实实在在的。

phone_pattern = re.compile(r"(d{3})-(d{4})-(d{4})")text_list = ["电话: 139-1234-5678", "座机: 010-8765-4321"]for text in text_list:    match = phone_pattern.search(text)    if match:        print(f"找到号码: {match.group(0)}")

匹配标志（Flags）:

re

模块提供了一些标志，可以改变正则表达式的匹配行为。这些标志可以作为函数的第三个参数传入，或者在编译时传入。

re.IGNORECASE

(或

re.I

): 忽略大小写。

re.DOTALL

(或

re.S

): 让

（点号）也能匹配换行符

。默认情况下

是不匹配换行符的。

re.MULTILINE

(或

re.M

): 改变

和

的行为。在多行模式下，

不仅匹配字符串开头，还匹配每一行的开头；

不仅匹配字符串结尾，还匹配每一行的结尾。

multi_line_text = "First linenSecond line"pattern_dotall = r"First.*line"match_dotall = re.search(pattern_dotall, multi_line_text, re.DOTALL)if match_dotall:    print(f"DOTALL匹配: '{match_dotall.group(0)}'") # 输出: 'First linenSecond line'

处理无匹配情况: 永远要记得，

re.search()

和

re.match()

在没有找到匹配时会返回

None

。所以，在使用

Match

对象之前，务必进行非空判断，否则直接访问

match.group()

会抛出

AttributeError

。这是我个人写代码时最常犯的低级错误之一，因为有时候我太自信我的模式了，哈哈。

no_match_text = "没有数字"pattern_digit = r"d+"match_obj = re.search(pattern_digit, no_match_text)if match_obj: # 良好的编程习惯    print(f"找到了: {match_obj.group(0)}")else:    print("什么也没找到。")

掌握这些技巧，能让你在处理匹配结果时更加得心应手，避免一些不必要的错误。

Python正则表达式在实际开发中能解决哪些具体问题？

正则表达式在实际开发中简直是文本处理的瑞士军刀，用途非常广泛。我个人在很多场景下都依赖它，从最简单的文本清理到复杂的数据提取。

数据验证: 这是我用得最多的场景之一。

邮箱地址验证: 虽然完全符合RFC标准的邮箱正则非常复杂，但一个简单的模式（比如

r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$"

）就能过滤掉大部分不合法的输入。手机号码验证: 针对不同国家的手机号格式，编写相应的正则进行验证。比如中国大陆的11位手机号（

r"^1[3-9]d{9}$"

）。URL验证: 确保用户输入的链接格式正确。密码强度检查: 检查密码是否包含大小写字母、数字、特殊字符，以及是否达到最小长度。

文本提取: 从非结构化或半结构化文本中抽取出你想要的信息。

日志文件解析: 从大量的服务器日志中提取出错误信息、IP地址、请求时间、特定事件ID等。比如，我想找出所有包含“ERROR”关键字的行，并提取其后的错误代码。网页爬虫数据提取: 虽然现在很多爬虫会用BeautifulSoup等库解析HTML，但在处理特定格式的文本块或JS代码中的数据时，正则依然是高效且直接的工具。比如，从

标签中提取JSON数据。结构化数据转换: 从一些旧格式的文本文件中提取字段，然后转换成JSON或CSV格式。

文本清洗与转换: 让杂乱无章的文本变得规整。

去除多余空格:

re.sub(r"s+", " ", text)

可以把文本中连续的空格、制表符、换行符等替换成单个空格。格式化日期/时间: 将不同格式的日期字符串统一转换为标准格式。敏感信息脱敏: 比如将身份证号码或银行卡号的中间几位用星号代替，保护用户隐私。HTML/XML标签清理: 从文本中移除所有HTML标签，只保留纯文本内容（当然，对于复杂的HTML，用解析库更稳妥）。

简单的文本搜索和替换:

在大量代码文件中查找并替换某个变量名或函数名，特别是当这个名字可能出现在不同的上下文，需要精确匹配时。批量修改文档中的特定短语或格式。

我个人觉得，正则表达式的魅力在于它提供了一种模式化思维来处理文本。当你的目标文本结构有规律可循，但又不是严格的固定格式时，正则就能大显身手。不过，我也要提醒一句：不要滥用正则表达式。对于一些简单的字符串操作，比如判断一个子串是否存在（

"sub" in string

）或者简单的分割（

string.split(',')

），直接使用Python字符串的内置方法通常更清晰、性能更好。只有当模式变得复杂、需要模糊匹配、或者需要捕获特定子结构时，正则表达式才是最佳选择。过度使用正则，不仅会让代码难以阅读和维护，还可能因为模式写得不好而引入意想不到的bug。所以，用之前先思考一下，是不是真的需要它。

以上就是python怎么使用正则表达式匹配内容_python正则表达式使用指南的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1371760.html

git go html js json python python正则表达式区别工具正则表达式爬虫邮箱

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

python如何安装指定版本的库_pip安装python库指定版本的方法

上一篇 2025年12月14日 11:43:54

Python怎么向列表末尾添加元素_Python列表元素添加方法

下一篇 2025年12月14日 11:44:04

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
好文分享

为什么自定义样式表在 Safari 中访问百度页面时无法生效？

自定义样式表在 safari 中失效的原因用户尝试在 safari 偏好设置中添加自定义样式表，代码如下： body { background-image: url(“/users/luxury/desktop/wallhaven-o5762l.png”) !important;} 测试后发现，在…

程序猿
2025年12月24日
1000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
好文分享

HTML、CSS 和 JavaScript 中的简单侧边栏菜单

构建一个简单的侧边栏菜单是一个很好的主意，它可以为您的网站添加有价值的功能和令人惊叹的外观。侧边栏菜单对于客户找到不同项目的方式很有用，而不会让他们觉得自己有太多选择，从而创造了简单性和秩序。今天，我将分享一个简单的 HTML、CSS 和 JavaScript 源代码来创建一个简单的侧边栏菜单。…

程序猿
2025年12月24日
5000
好文分享

前端代码辅助工具：如何选择最可靠的AI工具？

前端代码辅助工具：可靠性探讨对于前端工程师来说，在HTML、CSS和JavaScript开发中借助AI工具是司空见惯的事情。然而，并非所有工具都能提供同等的可靠性。个性化需求关于哪个AI工具最可靠，这个问题没有一刀切的答案。每个人的使用习惯和项目需求各不相同。以下是一些影响选择的重要因素：立…

程序猿
2025年12月24日
1000
好文分享

带有 HTML、CSS 和 JavaScript 工具提示的响应式侧边导航栏

响应式侧边导航栏不仅有助于改善网站的导航，还可以解决整齐放置链接的问题，从而增强用户体验。通过使用工具提示，可以让用户了解每个链接的功能，包括设计紧凑的情况。在本教程中，我将解释使用 html、css、javascript 创建带有工具提示的响应式侧栏导航的完整代码。对于那些一直想要一个干净、简…

程序猿
2025年12月24日
1000
如何在网页 F12 调试中查看鼠标悬停时才出现的 DOM 元素？

如何在网页 f12 调试中查看鼠标悬停时才出现的 dom 元素？在 f12 调试模式下，鼠标悬停时才出现的 dom 元素无法通过直接选择查看。解决方法根据显示原理的不同而有所区别： 1. css 控制的元素强制开启悬停状态：在 firefox 浏览器中，可以通过在开发者工具中手动开启选中元素的 …

程序猿
2025年12月24日 • 好文分享
2000
好文分享

布局 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在这里查看视觉效果：固定导航 – 布局 – codesandbox两列 – 布局 – codesandbox三列 – 布局 – codesandbox圣杯 &#8…

程序猿
2025年12月24日
1000
好文分享

隐藏元素 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看隐藏元素的视觉效果 – codesandbox 隐藏元素 hiding elements hiding elements hiding elements hiding elements hiding element…

程序猿
2025年12月24日
5000
居中 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看垂直中心 – codesandbox 和水平中心的视觉效果。通过 css 居中垂直居中 centering centering centering centering centering centering立即…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

如何在 Laravel 框架中轻松集成微信支付和支付宝支付？

如何用 laravel 框架集成微信支付和支付宝支付问题：如何在 laravel 框架中集成微信支付和支付宝支付？回答：建议使用 easywechat 的 laravel 版，easywechat 是一个由腾讯工程师开发的高质量微信开放平台 sdk，已被广泛地应用于许多 laravel 项目中…

程序猿
2025年12月24日
1000
好文分享

如何在移动端实现子 div 在父 div 内任意滑动查看？

如何在移动端中实现让子 div 在父 div 内任意滑动查看在移动端开发中，有时我们需要让子 div 在父 div 内任意滑动查看。然而，使用滚动条无法实现负值移动，因此需要采用其他方法。解决方案：使用绝对布局（absolute）或相对布局（relative）：将子 div 设置为绝对或相对定…

程序猿
2025年12月24日
1000
好文分享

移动端嵌套 DIV 中子 DIV 如何水平滑动？

移动端嵌套 DIV 中子 DIV 滑动在移动端开发中，遇到这样的问题：当子 DIV 的高度小于父 DIV 时，无法在父 DIV 中水平滚动子 DIV。无限画布要实现子 DIV 在父 DIV 中任意滑动，需要创建一个无限画布。使用滚动无法达到负值，因此需要使用其他方法。相对定位一种方法是将子…

程序猿
2025年12月24日
1000
好文分享

移动端项目中，如何消除rem字体大小计算带来的CSS扭曲？

移动端项目中消除rem字体大小计算带来的css扭曲在移动端项目中，使用rem计算根节点字体大小可以实现自适应布局。但是，此方法可能会导致页面打开时出现css扭曲，这是因为页面内容在根节点字体大小赋值后重新渲染造成的。解决方案：要避免这种情况，将计算根节点字体大小的js脚本移动到页面的最前面，即…

程序猿
2025年12月24日
0000
好文分享

Nuxt 移动端项目中 rem 计算导致 CSS 变形，如何解决？

Nuxt 移动端项目中解决 rem 计算导致 CSS 变形在 Nuxt 移动端项目中使用 rem 计算根节点字体大小时，可能会遇到一个问题：页面内容在字体大小发生变化时会重绘，导致 CSS 变形。解决方案：可将计算根节点字体大小的 JS 代码块置于页面最前端的标签内，确保在其他资源加载之前执…

程序猿
2025年12月24日
2000
好文分享

Nuxt 移动端项目使用 rem 计算字体大小导致页面变形，如何解决？

rem 计算导致移动端页面变形的解决方法在 nuxt 移动端项目中使用 rem 计算根节点字体大小时，页面会发生内容重绘，导致页面打开时出现样式变形。如何避免这种现象？解决方案：移动根节点字体大小计算代码到页面顶部，即 head 中。原理： flexível.js 也遇到了类似问题，它的解决…

程序猿
2025年12月24日
0000
好文分享

形状 – CSS 挑战

您可以在 github 仓库中找到这篇文章中的所有代码。您可以在此处查看 codesandbox 的视觉效果。通过css绘制各种形状如何在 css 中绘制正方形、梯形、三角形、异形三角形、扇形、圆形、半圆、固定宽高比、0.5px 线？ shapes 0.5px line .square { w…

程序猿
2025年12月24日
1000
好文分享

TDesign UI库中小程序开发的CSS选择器：为什么“.t-grid–card”能生效？

TDesign UI库中CSS选择器困惑在小程序开发中，使用TDesign UI库时，您可能会遇到一个困惑的CSS选择器。例如，在DOM结构中，一个元素的class为”t-grid t-card class t-class”, 但其CSS选择器却是”&#8216…

程序猿
2025年12月24日
2000
好文分享

有哪些美观的开源数字大屏驾驶舱框架？

开源数字大屏驾驶舱框架推荐问题：有哪些美观的开源数字大屏驾驶舱框架？答案：资源包 [弗若恩智能大屏驾驶舱开发资源包](https://www.fanruan.com/resource/152) 软件 [弗若恩报表 – 数字大屏可视化组件](https://www.fanruan.c…

程序猿
2025年12月24日
0000
好文分享

逻辑属性与旧版属性：如何根据文本方向选择合适的CSS属性？

CSS 逻辑属性与旧版属性 CSS 中引入了逻辑属性和旧版属性的概念。这些属性负责控制页面元素的外观和布局。逻辑属性逻辑属性以逻辑方向命名，如左右、上下。它们根据元素在文档流中的位置来确定元素的外观。例如：立即学习“前端免费学习笔记（深入）”； marginBlockStart：控制元素在垂直…

程序猿
2025年12月24日
1000