PHP怎么过滤正则表达式_PHP正则表达式安全使用指南

答案:PHP中过滤正则表达式的核心是防止恶意模式导致ReDoS或代码执行。需用preg_quote转义用户字符串,验证模式语法,限制回溯与递归深度,避免e修饰符,优先使用preg_replace_callback,并结合UTF-8和分隔符等最佳实践确保安全。

php怎么过滤正则表达式_php正则表达式安全使用指南

当我们在PHP中谈论“过滤正则表达式”时,我们最核心的目的是防止恶意或构造不当的正则表达式对我们的应用造成安全威胁或性能问题。这通常意味着我们不能直接信任和执行来自用户或其他不可信源的正则表达式模式。关键在于:对所有外部输入的正则表达式模式进行严格的验证和限制,并且在将用户数据作为普通字符串嵌入到正则表达式中时,必须进行适当的转义。

在PHP中,安全使用正则表达式,尤其是涉及用户输入时,是一个需要深思熟虑的问题。我个人觉得,很多人在开发中可能会下意识地直接把用户输入拼接到正则表达式里,或者允许用户自定义复杂的匹配规则,这其实埋下了很大的隐患。

解决方案

要安全地处理PHP中的正则表达式,尤其是当它们可能受到外部输入影响时,我们需要采取多方面的策略。首先,最直接也最容易被忽视的一点是:如果你只是想在正则表达式中匹配一个用户提供的字面字符串,而不是让用户定义一个完整的正则表达式模式,那么一定要使用

preg_quote()

函数。这个函数会转义所有可能被解释为正则表达式特殊字符的字符,例如

.

*

+

等,确保你的用户输入被当作普通文本来处理。

$userInput = "我喜欢.NET 和 PHP!";$pattern = '/^这是我喜欢的内容:' . preg_quote($userInput, '/') . '$/';if (preg_match($pattern, "这是我喜欢的内容:我喜欢.NET 和 PHP!")) {    echo "匹配成功,用户输入被安全地当作字面量处理了。";} else {    echo "匹配失败。";}// 错误示范:没有使用 preg_quote// $dangerousPattern = '/^这是我喜欢的内容:' . $userInput . '$/';// 这会把 .NET 里的 . 当作任意字符,而不是字面上的点。

其次,如果你确实需要允许用户提供正则表达式模式本身(比如在一个搜索功能中),那么挑战就大得多了。你不能简单地信任它。你需要一套严谨的验证机制。这不仅仅是检查语法是否正确(

preg_match

如果模式无效会返回

false

,并且

preg_last_error()

会给出错误码),更重要的是要防止正则表达式拒绝服务攻击 (ReDoS)。恶意构造的正则表达式,比如

/(a+)+s/

,在匹配特定字符串时可能会导致指数级的回溯,耗尽服务器资源。要缓解ReDoS,你可以:

立即学习“PHP免费学习笔记(深入)”;

限制模式复杂度: 尝试分析用户提供的正则表达式,拒绝那些包含过多嵌套量词、不必要的回溯组或复杂前瞻/后瞻的模式。这没有一个银弹,可能需要自定义的解析逻辑,或者使用一些库来评估模式的“危险性”。设置执行时间限制: 在执行

preg_match

等函数之前,可以利用PHP的

set_time_limit()

函数,或者更细粒度地,调整

php.ini

中的

pcre.backtrack_limit

pcre.recursion_limit

。这些设置可以防止单个正则表达式操作占用过多的CPU时间或内存。如果匹配操作超过这些限制,PHP会抛出警告或错误。

// 假设用户输入了一个潜在的ReDoS模式$userPattern = '/(a+)+s/'; // 这是一个经典的ReDoS例子$testString = str_repeat('a', 20) . 'b'; // 构造一个触发回溯的字符串// 尝试设置一个较短的执行时间限制set_time_limit(1); // 允许脚本执行1秒// 也可以在php.ini中设置 pcre.backtrack_limit 和 pcre.recursion_limit// 或者在运行时通过 ini_set() 设置,但通常不推荐在每次请求中频繁修改// ini_set('pcre.backtrack_limit', 100000); // 限制回溯步数$startTime = microtime(true);if (@preg_match($userPattern, $testString)) { // 使用 @ 抑制潜在的警告    echo "匹配成功,但可能耗时很长。";} else {    $error = preg_last_error();    if ($error === PREG_BACKTRACK_LIMIT_ERROR || $error === PREG_RECURSION_LIMIT_ERROR) {        echo "正则表达式匹配因回溯/递归限制而失败,可能是一个ReDoS尝试。";    } else if ($error === PREG_BAD_UTF8_OFFSET_ERROR || $error === PREG_INTERNAL_ERROR) {        echo "正则表达式模式无效或存在内部错误。";    } else {        echo "匹配失败或发生其他错误。";    }}$endTime = microtime(true);echo "操作耗时:" . ($endTime - $startTime) . "秒";

在我看来,最好的做法是尽量避免让用户直接提供正则表达式。如果业务需求确实如此,那么上述的限制和验证是必不可少的,并且要做好充分的错误处理和日志记录。

为什么用户输入的正则表达式会带来安全风险?

用户输入的正则表达式,如果未经严格处理,就像给了一个陌生人一把万能钥匙,他不仅可能打开你家门,甚至可能把你的家搞得一团糟。这背后的风险主要有几个层面:

拒绝服务攻击 (ReDoS):这是最直接也最常见的威胁。某些正则表达式模式,在匹配特定输入字符串时,会导致正则表达式引擎进行指数级或多项式级的回溯。例如,

/(a|aa)+b/

匹配

aaaaaaaaaaaaaaaaaaaaaaaaaaaaaac

这样的字符串时,引擎会尝试无数种匹配

a

aa

的组合,直到耗尽CPU资源,导致服务器响应缓慢甚至崩溃。攻击者可以利用这一点,通过发送少量恶意请求就使你的服务瘫痪。我曾经见过一个案例,一个简单的搜索功能因为允许用户输入未经验证的正则表达式,导致服务器CPU直接飙到100%,整个应用都卡死了。数据泄露或绕过安全控制:一个精心构造的正则表达式可能会绕过你预设的输入验证规则。比如,你可能期望某个字段只包含字母数字,但如果攻击者能注入一个正则表达式,它可能会匹配到一些不应该被匹配到的敏感数据,或者绕过某些过滤规则,从而导致SQL注入、XSS等更深层次的漏洞。意外行为和逻辑错误:即使不是恶意的,用户提供的正则表达式也可能因为语法错误、语义不清或者与你的应用逻辑不符,导致程序产生意料之外的行为。比如,一个开发者可能期望某个模式只匹配URL,但用户提供了一个过于宽泛的模式,结果匹配到了不相关的文本,导致业务逻辑出错。性能下降:即使没有达到ReDoS的程度,一个效率低下的正则表达式模式也可能显著增加CPU负担,尤其是在处理大量数据时。这虽然不是直接的安全漏洞,但会严重影响用户体验和系统稳定性。

总而言之,用户输入的正则表达式就像一把双刃剑,它提供了极大的灵活性,但也带来了巨大的风险。我们必须像对待其他任何用户输入一样,对其进行最严格的“沙盒化”处理。

在PHP中,如何安全地处理用户提供的正则表达式模式?

当业务逻辑确实要求用户能够自定义正则表达式模式时,我们不能简单地一刀切地禁止,而是要采取一系列防御措施,确保模式的安全性和可靠性。这比仅仅使用

preg_quote()

要复杂得多,因为它涉及到对模式本身的分析和限制。

语法验证:这是第一步,也是最基础的。在PHP中,我们可以通过尝试执行

preg_match()

函数,并结合

preg_last_error()

来检查正则表达式的语法是否有效。如果模式无效,

preg_match()

会返回

false

,并且

preg_last_error()

会返回一个非零的错误码(例如

PREG_BAD_UTF8_ERROR

PREG_INTERNAL_ERROR

)。

function isValidRegexPattern(string $pattern): bool {    // 尝试一个简单的匹配,但不关心结果    @preg_match($pattern, '');    $error = preg_last_error();    // 检查是否是语法错误或者PCRE内部错误    if ($error === PREG_NO_ERROR) {        return true;    } else {        // 记录错误或向用户提示        error_log("Invalid regex pattern: " . $pattern . " Error code: " . $error);        return false;    }}$userPattern1 = '/^(d+)?$/'; // 有效$userPattern2 = '/[a-';     // 无效语法$userPattern3 = '/(?P.*)/'; // 有效,命名捕获组echo "Pattern 1 valid: " . (isValidRegexPattern($userPattern1) ? 'Yes' : 'No') . "";echo "Pattern 2 valid: " . (isValidRegexPattern($userPattern2) ? 'Yes' : 'No') . "";echo "Pattern 3 valid: " . (isValidRegexPattern($userPattern3) ? 'Yes' : 'No') . "";

仅仅验证语法是不够的,因为一个语法正确的模式也可能是恶意的。

限制PCRE资源:前面提到了

pcre.backtrack_limit

pcre.recursion_limit

。这些是PHP配置项,可以限制PCRE引擎在匹配过程中允许的最大回溯步数和最大递归深度。将它们设置到一个合理的值,可以有效防止ReDoS攻击。如果一个匹配操作超过这些限制,它会提前终止并报错,从而保护服务器资源。你可以在

php.ini

中全局设置,也可以在脚本运行时通过

ini_set()

临时设置(尽管后者不总是推荐,因为它会影响当前脚本的所有PCRE操作)。

// 在脚本开始时设置,或者在需要严格限制的地方ini_set('pcre.backtrack_limit', 100000); // 默认通常是1000000ini_set('pcre.recursion_limit', 50000);  // 默认通常是500000

这些值需要根据你的服务器性能和预期负载进行测试和调整。设置得太低可能会导致合法的复杂匹配失败,设置得太高则失去了保护作用。

模式复杂度分析(高级):这是最难但也最有效的一步。你可以尝试编写一个简单的解析器,或者利用现有的PCRE解析库(如果PHP生态中有的话)来分析用户提供的正则表达式的结构。你可以:

禁止或限制某些复杂特性:例如,过多的嵌套量词(如

(a+)+

)、lookarounds(前瞻/后瞻)、条件表达式等。这些特性虽然强大,但也更容易被滥用。限制模式长度:一个过长的模式本身就可能暗示着复杂性或恶意意图。检查重复的捕获组或非捕获组:虽然不总是危险,但过度嵌套的组可能会增加回溯的风险。

这部分没有通用的代码示例,因为它高度依赖于你对“复杂”或“危险”的定义。通常,如果你的应用需要用户提供非常复杂的正则表达式,你可能需要重新考虑设计,或者只允许预定义的、经过严格测试的模式,而不是完全自由的输入。

在我看来,如果你不能完全信任用户,那么提供一个受限的正则表达式“DSL”(领域特定语言),或者提供一个图形化的构建器,让用户通过组合预设的、安全的组件来构建模式,可能是一个更稳妥的选择。这既能满足用户对灵活性的需求,又能将风险控制在你可接受的范围内。

除了过滤,还有哪些PHP正则表达式的最佳实践可以提升安全性?

除了对用户输入的正则表达式进行严格的过滤和验证,我们在日常使用PHP正则表达式时,还有一些通用的最佳实践可以提升代码的健壮性和安全性,避免潜在的陷阱。

始终使用

preg_last_error()

进行错误检查

preg_match()

preg_replace()

等函数在失败时可能返回

false

,但这不代表没有发生错误。使用

preg_last_error()

可以获取PCRE引擎的最后错误代码,帮助你理解为什么操作失败,例如是因为模式无效、回溯限制、递归限制还是其他内部错误。这对于调试和生产环境中的错误日志记录至关重要。

$pattern = '/(a+)+b/';$subject = str_repeat('a', 50) . 'b';ini_set('pcre.backtrack_limit', 100); // 故意设置一个很低的值if (preg_match($pattern, $subject) === false) {    $error = preg_last_error();    switch ($error) {        case PREG_BACKTRACK_LIMIT_ERROR:            echo "错误:回溯限制超出。";            break;        case PREG_RECURSION_LIMIT_ERROR:            echo "错误:递归限制超出。";            break;        // ... 处理其他错误类型        default:            echo "正则表达式操作发生未知错误 (代码: $error)。";    }} else {    echo "匹配成功。";}

避免使用

e

PREG_REPLACE_EVAL

)修饰符:这个修饰符允许替换字符串被当作PHP代码来执行。这是一个巨大的安全漏洞,因为它等同于允许在你的服务器上执行任意代码,尤其当替换字符串中包含用户输入时。PHP 7.0.0 之后,

e

修饰符已经被废弃,并且在 PHP 7.0.0+ 版本中,

preg_replace()

函数如果检测到

e

修饰符,会抛出

E_DEPRECATED

警告,并返回

NULL

。如果你需要动态地处理匹配到的内容,应该使用

preg_replace_callback()

,它接受一个回调函数来处理匹配项,这安全得多。

// 危险且已废弃的用法// $input = 'Hello world';// $output = preg_replace('/(world)/e', 'strtoupper("1")', $input);// 安全的替代方案$input = 'Hello world';$output = preg_replace_callback('/(world)/', function ($matches) {    return strtoupper($matches[1]);}, $input);echo $output . ""; // 输出: Hello WORLD

明确指定正则表达式分隔符:虽然斜杠

/

是最常用的分隔符,但你可以使用任何非字母数字、非反斜杠的字符作为分隔符。如果你需要在模式中匹配分隔符本身,记得转义它,或者选择一个模式中不包含的分隔符。例如,如果你的模式中包含很多斜杠,使用

#

作为分隔符会更清晰,避免大量反斜杠转义。

$url = "http://example.com/path/to/resource";// 使用 # 作为分隔符,避免转义内部的 /if (preg_match('#^https?://([a-z0-9.-]+)(/.*)?$#i', $url, $matches)) {    echo "匹配成功,域名是: " . $matches[1] . "";}

注意UTF-8编码问题:如果你的字符串是UTF-8编码,并且你的正则表达式需要处理多字节字符(例如中文、特殊符号),你必须在正则表达式模式的末尾加上

u

修饰符(

PCRE_UTF8

)。否则,PCRE引擎可能会将多字节字符当作多个单字节字符处理,导致匹配错误或意外行为。

$text = "你好世界";// 没有 'u' 修饰符,可能无法正确匹配多字节字符if (preg_match('/^.字/', $text)) {    echo "匹配成功 (无u)"; // 可能会失败或行为异常,取决于PCRE版本和配置}// 使用 'u' 修饰符,确保正确处理UTF-8if (preg_match('/^.字/u', $text)) {    echo "匹配成功 (有u)"; // 正确匹配}

性能考虑:避免不必要的回溯和贪婪匹配:正则表达式的性能是一个复杂的话题。尽量使用非贪婪量词(例如

*?

+?

)来代替贪婪量词(

*

+

),尤其是在匹配长字符串时,可以减少不必要的回溯。同时,避免使用过于宽泛的通配符(如

.*

)在长字符串中,如果可以,尽量具体化你的匹配模式。

$longString = "a_very_long_string_with_many_underscores_and_then_a_target_word";// 贪婪匹配,可能会回溯很多// preg_match('/_.*_target/', $longString);// 非贪婪匹配,更高效preg_match('/_.*?_target/', $longString);

我个人觉得,写正则表达式就像写代码,清晰、简洁、高效是目标,但安全是底线。这些实践虽然看起来琐碎,但它们是构建健壮、安全PHP应用的重要组成部分。

以上就是PHP怎么过滤正则表达式_PHP正则表达式安全使用指南的详细内容,更多请关注php中文网其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1320590.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月12日 06:56:17
下一篇 2025年12月12日 06:56:27

相关推荐

  • Bear 博客上的浅色/深色模式分步指南

    我最近使用偏好颜色方案媒体功能与 light-dark() 颜色函数相结合,在我的 bear 博客上实现了亮/暗模式切换。 我是这样做的。 第 1 步:设置 css css 在过去几年中获得了一些很酷的新功能,包括 light-dark() 颜色函数。此功能可让您为任何元素指定两种颜色 &#8211…

    2025年12月24日
    100
  • 网页设计css样式代码大全,快来收藏吧!

    减少很多不必要的代码,html+css可以很方便的进行网页的排版布局。小伙伴们收藏好哦~ 一.文本设置    1、font-size: 字号参数  2、font-style: 字体格式 3、font-weight: 字体粗细 4、颜色属性 立即学习“前端免费学习笔记(深入)”; color: 参数 …

    2025年12月24日
    000
  • css中id选择器和class选择器有何不同

    之前的文章《什么是CSS语法?详细介绍使用方法及规则》中带了解CSS语法使用方法及规则。下面本篇文章来带大家了解一下CSS中的id选择器与class选择器,介绍一下它们的区别,快来一起学习吧!! id选择器和class选择器介绍 CSS中对html元素的样式进行控制是通过CSS选择器来完成的,最常用…

    2025年12月24日
    000
  • css怎么设置文件编码

    在css中,可以使用“@charset”规则来设置编码,语法格式“@charset “字符编码类型”;”。“@charset”规则可以指定样式表中使用的字符编码,它必须是样式表中的第一个元素,并且不能以任何字符开头。 本教程操作环境:windows7系统、CSS3&&…

    2025年12月24日
    000
  • 利用CSS3编写类似iOS中的复选框及带开关的按钮的代码

    这篇文章主要介绍了使用css3编写类似ios中的复选框及带开关的按钮,需要的朋友可以参考下 checkbox多选 最近写了一个适合移动端的checkbox,如图: ps:中间的勾勾是iconfont,iOS风格的。 具体的HTML: 立即学习“前端免费学习笔记(深入)”; 默认未选中 默认选中 橘黄…

    2025年12月24日
    000
  • php约瑟夫问题如何解决

    “约瑟夫环”是一个数学的应用问题:一群猴子排成一圈,按1,2,…,n依次编号。然后从第1只开始数,数到第m只,把它踢出圈,从它后面再开始数, 再数到第m只,在把它踢出去…,如此不停的进行下去, 直到最后只剩下一只猴子为止,那只猴子就叫做大王。要求编程模拟此过程,输入m、n, 输出最后那个大王的编号。…

    好文分享 2025年12月24日
    000
  • CSS的Word中的列表详解

    在word中,列表也是使用频率非常高的元素。在css中,列表和列表项都是块级元素。也就是说,一个列表会形成一个块框,其中的每个列表项也会形成一个独立的块框。所以,盒模型中块框的所有属性,都适用于列表和列表项。 除此之外,列表还有 3 个特有的属性 list-style-type、list-style…

    2025年12月24日
    000
  • CSS新手整理的有关CSS使用技巧

    [导读]  1、不要使用过小的图片做背景平铺。这就是为何很多人都不用 1px 的原因,这才知晓。宽高 1px 的图片平铺出一个宽高 200px 的区域,需要 200*200=40, 000 次,占用资源。  2、无边框。推荐的写法是     1、不要使用过小的图片做背景平铺。这就是为何很多人都不用 …

    好文分享 2025年12月23日
    000
  • CSS中实现图片垂直居中方法详解

    [导读] 在曾经的 淘宝ued 招聘 中有这样一道题目:“使用纯css实现未知尺寸的图片(但高宽都小于200px)在200px的正方形容器中水平和垂直居中。”当然出题并不是随意,而是有其现实的原因,垂直居中是 淘宝 工作中最 在曾经的 淘宝UED 招聘 中有这样一道题目: “使用纯CSS实现未知尺寸…

    好文分享 2025年12月23日
    000
  • CSS派生选择器

    [导读] 派生选择器通过依据元素在其位置的上下文关系来定义样式,你可以使标记更加简洁。在 css1 中,通过这种方式来应用规则的选择器被称为上下文选择器 (contextual selectors),这是由于它们依赖于上下文关系来应 派生选择器 通过依据元素在其位置的上下文关系来定义样式,你可以使标…

    好文分享 2025年12月23日
    000
  • CSS 基础语法

    [导读] css 语法 css 规则由两个主要的部分构成:选择器,以及一条或多条声明。selector {declaration1; declaration2;     declarationn }选择器通常是您需要改变样式的 html 元素。每条声明由一个属性和一个 CSS 语法 CSS 规则由两…

    2025年12月23日
    300
  • CSS 高级语法

    [导读] 选择器的分组你可以对选择器进行分组,这样,被分组的选择器就可以分享相同的声明。用逗号将需要分组的选择器分开。在下面的例子中,我们对所有的标题元素进行了分组。所有的标题元素都是绿色的。h1,h2,h3,h4,h5 选择器的分组 你可以对选择器进行分组,这样,被分组的选择器就可以分享相同的声明…

    好文分享 2025年12月23日
    000
  • CSS id 选择器

    [导读] id 选择器id 选择器可以为标有特定 id 的 html 元素指定特定的样式。id 选择器以 ” ” 来定义。下面的两个 id 选择器,第一个可以定义元素的颜色为红色,第二个定义元素的颜色为绿色: red {color:re id 选择器 id 选择器可以为标有特…

    好文分享 2025年12月23日
    000
  • 有关css的绝对定位

    [导读] 定位(左边和顶部) css定位属性将是网虫们打开幸福之门的钥匙: h4 { position: absolute; left: 100px; top: 43px }这项css规则让浏览器将 的起始位置精 确地定在距离浏览器左边100象素,距离其 定位(左边和顶部) css定位属性将是网虫们…

    好文分享 2025年12月23日
    000
  • 响应式HTML5按钮适配不同屏幕方法【方法】

    实现响应式HTML5按钮需五种方法:一、CSS媒体查询按max-width断点调整样式;二、用rem/vw等相对单位替代px;三、Flexbox控制容器与按钮伸缩;四、CSS变量配合requestAnimationFrame优化的JS动态适配;五、Tailwind等框架的响应式工具类。 如果您希望H…

    2025年12月23日
    000
  • html5能否禁用搜索框自动填充_html5autocomplete关闭方法【教程】

    禁用HTML5搜索框自动填充有五种方法:一、设autocomplete=”off”;二、随机化name/id值;三、用无效autocomplete值如”nope”;四、JS动态设置autocomplete;五、设autocomplete=”…

    2025年12月23日
    000
  • html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

    HTML5无法直接导出video标签内容,需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制;FFmpeg.wasm支持MP4等格式及精细编码控制;服务端方案适合高负载场景。 如果您希望在网页…

    2025年12月23日
    300
  • html5怎么加php_html5用Ajax与PHP后端交互实现数据传递【交互】

    HTML5不能直接运行PHP,需通过Ajax与PHP通信:前端用fetch发送请求,PHP接收处理并返回JSON,前端解析响应更新DOM;注意跨域、编码、CSRF防护和输入过滤。 HTML5 本身是前端标记语言,不能直接运行 PHP 代码,但可以通过 Ajax(异步 JavaScript)与 PHP…

    2025年12月23日
    300
  • HTML5怎么制作广告_HTML5用动画与交互制横幅或弹窗广告吸引点击【制作】

    可利用HTML5结合CSS3动画、Canvas、Web Animations API、Intersection Observer和video标签制作互动广告:一用@keyframes实现横幅入场动画;二用Canvas绘制并响应悬停;三用Web Animations API控制弹窗时序;四用Inter…

    2025年12月23日
    000
  • 手机端怎么运行html文件_手机端运行html文件方法【教程】

    可通过手机浏览器、代码编辑器、本地服务器或在线工具四种方式预览HTML文件:一、用文件管理器打开HTML并选择浏览器即可渲染页面;二、使用Acode等编辑器导入文件后点击预览功能实时查看;三、对复杂项目可用KSWEB搭建本地服务器,将文件放入指定目录后通过http://127.0.0.1:8080访…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信