使用PHP正则表达式安全解析自定义Liquid风格标签

使用PHP正则表达式安全解析自定义Liquid风格标签

本文将指导您如何使用PHP正则表达式安全地解析和转换自定义的{%github user/repo %} Liquid风格标签,将其转换为标准的GitHub链接。通过采用精确的正则表达式和preg_match_all函数,可以有效避免贪婪匹配问题,并确保提取的数据格式正确且安全,从而构建一个健壮的标签解析机制。

在内容管理系统或模板引擎中,我们经常需要解析自定义的标签,例如将{%github user/repo %}这样的标记转换为标准的html链接repo。然而,在实现这一功能时,如果正则表达式构造不当,可能会导致安全漏洞或不准确的解析结果。

初始尝试与常见陷阱

一个常见的错误是使用过于宽泛的正则表达式,例如利用.*?(非贪婪匹配)来捕获标签内容。考虑以下代码片段:

function parseliquid($string){    $regexp = '/{%github (.*?)%}/'; // 这里的(.*?)是问题所在    preg_match($regexp, $string, $matches);    return $matches;}var_dump(parseliquid("## Hello {%github isn't/safe {%github repo/user %} %}"));

当输入字符串为## Hello {%github isn’t/safe {%github repo/user %} %}时,我们期望提取的是repo/user,但实际输出却是:

array(2) {  [0]=> string(41) "{%github isn't/safe {%github repo/user %}"  [1]=> string(30) "isn't/safe {%github repo/user "}

问题在于.*?虽然是非贪婪的,但它会匹配从第一个{%github到第一个%}之间的所有字符。在存在嵌套或多个相似模式时,它无法智能地识别出我们真正想要捕获的特定格式内容。更重要的是,.*?允许匹配任何字符,这可能导致注入不安全的内容,从而带来潜在的安全风险。

构建健壮且安全的解析函数

为了解决上述问题,我们需要一个更精确的正则表达式,它不仅能正确捕获目标内容,还能通过模式匹配对内容进行初步的格式验证,从而提高安全性。

立即学习“PHP免费学习笔记(深入)”;

以下是一个推荐的解决方案,它使用preg_match_all函数和更严格的正则表达式:

<?php/** * 从字符串中提取所有GitHub仓库名称并转换为完整的GitHub URL。 * * @param string $value 包含自定义GitHub标签的输入字符串。 * @return array 包含GitHub URL的数组,如果未找到则返回空数组。 */function getRepositoryNames(string $value): array{    // 定义精确的正则表达式来匹配GitHub仓库格式    // {%githubs : 匹配字面量 {%github 和一个空格    // (?...) : 命名捕获组,名为 'repo'    // [a-z0-9-_]+ : 匹配一个或多个小写字母、数字、连字符或下划线 (用于用户名或仓库名)    // / : 匹配字面量斜杠    // [a-z0-9-_]+ : 匹配一个或多个小写字母、数字、连字符或下划线 (用于仓库名)    // s+} : 匹配一个或多个空格和字面量 %}    preg_match_all('/{%githubs(?[a-z0-9-_]+/[a-z0-9-_]+)s+}/', $value, $matched);    // 检查是否成功捕获到 'repo' 命名组    if (!isset($matched['repo'])) {        return [];    }    // 使用 array_map 将捕获到的仓库名称转换为完整的GitHub URL    return array_map(static fn ($item) => 'https://github.com/'.$item, $matched['repo']);}// 示例用法$inputString = '{%github isnt/safe %} {%github repo/user1-test %} This is another tag {%github my-org/my-project %}';var_dump(getRepositoryNames($inputString));

代码解析:

preg_match_all: 这个函数用于在字符串中查找所有匹配正则表达式的子串,而不是只找第一个。这对于处理多个自定义标签的场景至关重要。正则表达式 /{%githubs(?[a-z0-9-_]+/[a-z0-9-_]+)s+}/:{%githubs: 精确匹配字面量{%github后跟一个空格。用于转义特殊字符{和%。(?…): 这是一个命名捕获组。它将匹配到的内容存储在一个名为repo的数组键下,方便后续访问。[a-z0-9-_]+/[a-z0-9-_]+: 这是整个正则表达式中最关键的部分。它定义了GitHub仓库名称的预期格式。[a-z0-9-_]+: 匹配一个或多个小写字母、数字、连字符或下划线。这通常是GitHub用户名或仓库名的有效字符集。/: 匹配字面量斜杠/,用于分隔用户名和仓库名。[a-z0-9-_]+: 再次匹配一个或多个有效字符,用于仓库名。s+}: 匹配一个或多个空格后跟字面量%}。$matched[‘repo’]: preg_match_all会将所有命名捕获组的内容存储在 $matched 数组中,键名即为捕获组的名称。array_map: 这个函数将 $matched[‘repo’] 数组中的每个仓库名称作为参数,传递给一个匿名函数。匿名函数负责将每个仓库名称前加上 https://github.com/,从而生成完整的GitHub URL。

示例输出:

array(3) {  [0]=> string(28) "https://github.com/isnt/safe"  [1]=> string(34) "https://github.com/repo/user1-test"  [2]=> string(36) "https://github.com/my-org/my-project"}

注意事项与总结

安全性提升: 通过限制捕获组(?[a-z0-9-_]+/[a-z0-9-_]+)的匹配模式,我们确保了只有符合特定格式(即有效的GitHub user/repo格式)的字符串才会被提取。这大大降低了恶意注入或意外解析错误数据的风险。精确匹配: 该方法避免了.*?可能导致的贪婪匹配问题,确保了在复杂字符串中也能准确提取所需内容。灵活性: preg_match_all可以轻松处理字符串中出现的多个自定义标签。扩展性: 如果需要支持其他类型的Liquid风格标签(例如{%youtube video_id %}),可以根据需要修改或添加新的正则表达式。输出编码: 如果将解析后的URL直接嵌入到HTML中,请务必使用htmlspecialchars()等函数对URL进行适当的HTML实体编码,以防止跨站脚本(XSS)攻击。

通过采用这种结合了精确正则表达式和preg_match_all的策略,我们可以构建一个既安全又高效的PHP函数,用于解析和转换自定义的Liquid风格标签。

以上就是使用PHP正则表达式安全解析自定义Liquid风格标签的详细内容,更多请关注php中文网其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1322918.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月12日 09:02:06
下一篇 2025年12月12日 09:02:24

相关推荐

  • Laravel 数组在 Blade 视图中显示异常及调试指南

    本文旨在解决 Laravel 项目中 Blade 视图渲染数组时出现的意外内容,特别是数组末尾多出的元素或数字“1”。通过分析控制器中数组操作的细节和 Blade 模板中调试函数的潜在副作用,提供了精确控制数组结构和安全调试的最佳实践,帮助开发者避免此类问题并有效排查。 问题现象:Blade 视图中…

    2025年12月12日
    000
  • PHP方法中快速调试所有参数的实用技巧

    本文介绍了在PHP方法中无需逐一指定参数名,即可一次性调试并输出所有传入参数的实用技巧。通过利用内置函数get_defined_vars(),开发者可以高效地检查函数内部所有局部变量,从而简化调试流程,提升开发效率。 调试痛点:传统参数输出的局限性 在PHP开发中,我们经常需要在函数或方法内部调试传…

    2025年12月12日
    000
  • PHP教程:高效处理未定义数组索引与空值,告别Notice通知

    本教程旨在解决PHP开发中常见的“Undefined index”和“Trying to access array offset on value of type null”通知问题。通过介绍PHP的Null合并运算符(??)和结构化数据处理策略,本文将指导开发者如何优雅、高效地处理来自表单等不确定…

    2025年12月12日
    000
  • 通过Windows认证php连接mssql_设置php连接mssql的认证方法

    要实现PHP通过Windows身份验证连接SQL Server,需使用sqlsrv扩展并配置Web服务器以有权限的域账户运行,连接时省略用户名密码,利用系统安全上下文完成认证。 在Windows环境下使用PHP连接SQL Server时,如果希望避免使用用户名和密码,可以通过Windows身份验证(…

    2025年12月12日
    000
  • 使用Laravel和JavaScript实现动态下拉选择联动更新页面元素

    本文详细介绍了如何在Laravel应用中,利用Blade模板和JavaScript(包括纯客户端显示/隐藏和AJAX异步请求)实现动态下拉选择框联动更新页面上其他div内容和input字段值的教程。我们将探讨两种主要方法,并提供相应的代码示例和注意事项,以帮助开发者构建响应式用户界面。 动态下拉选择…

    2025年12月12日
    000
  • PHP函数中数据库连接对象作用域问题解析与最佳实践

    本文深入探讨了PHP函数中访问数据库连接对象(如$conn)时常见的变量作用域问题,并提供了三种解决方案:使用global关键字、通过函数参数传递以及采用面向对象设计模式。通过详细的代码示例和最佳实践建议,旨在帮助开发者理解和解决函数内部无法访问外部定义变量的困境,提升代码的健壮性和可维护性。 在p…

    2025年12月12日
    000
  • PHP继承怎么实现_PHP继承机制与使用方法实例说明

    PHP继承通过extends实现子类复用父类非私有成员,支持方法重写与parent::调用父类方法,结合public、protected、private控制访问权限,并可通过final限制继承或重写,抽象类定义规范强制子类实现,适用于“is-a”关系;而接口用于“can-do”场景,实现多态与松散耦…

    2025年12月12日
    000
  • PHP foreach 循环中条件语句未按预期处理多条记录的常见原因与解决方案

    在PHP的foreach循环中,当条件语句未能处理客户的全部订单时,问题往往不在于循环或条件本身,而是数据存储结构导致的数据覆盖。将非唯一标识符(如customer_id)用作关联数组的键,会导致具有相同键的后续数据覆盖先前数据。正确的做法是使用唯一标识符(如order_id)作为数组键,并将cus…

    2025年12月12日
    000
  • Laravel数组处理:解决Blade视图中意外输出的“1”和多余元素问题

    本文深入探讨了Laravel应用中在控制器处理数组并传递给Blade视图时可能遇到的常见问题:数组末尾出现意外的“1”以及多余的数组元素。通过分析其根源——控制器中不当的数组操作,特别是循环外的array_push调用和隐式输出,文章提供了详细的解决方案和最佳实践,包括优化数据库查询、结构化数组构建…

    2025年12月12日
    000
  • PHP方法参数的通用调试技巧:使用get_defined_vars()

    本教程介绍在PHP方法中无需逐一指定即可调试所有参数的通用技巧。通过利用get_defined_vars()函数,开发者可以方便地获取当前作用域内所有已定义变量的关联数组,从而实现对函数参数的批量快速检查,极大提高调试效率。 在php开发过程中,对函数或方法传入的参数进行调试是常见的操作。传统的方法…

    2025年12月12日
    000
  • PHP数据处理:优雅规避未定义数组索引与空值警告

    本文旨在解决PHP开发中常见的未定义数组索引或空值访问导致的通知问题。通过介绍Null合并运算符(??)和结构化赋值等高效方法,指导开发者如何在不抑制所有PHP通知的前提下,优雅地处理来自表单或外部数据源中可能缺失的字段,确保代码的健壮性与日志的清洁。 在php开发中,我们经常需要处理来自用户输入(…

    2025年12月12日
    000
  • 使用PHP SimpleXML修改XML节点内容:精确查找与赋值教程

    本教程详细介绍了如何使用PHP的SimpleXML扩展来修改XML文件中特定节点的文本内容。通过强大的XPath表达式,我们可以精准定位到目标节点,然后直接对其进行赋值操作,从而高效地更新XML数据。文章将提供清晰的代码示例,并强调保存修改以及处理潜在问题的关键点,帮助开发者掌握XML数据操作的核心…

    2025年12月12日
    000
  • PHP中优雅处理未定义数组索引和空值通知的策略

    本文探讨PHP中处理未定义数组索引和空值引发的通知(Notices)的有效策略。通过引入空值合并运算符(??)及其赋值形式(??=),以及结合循环和预初始化等方法,指导开发者如何以简洁、健壮的方式避免这些常见问题,从而提升代码质量并减少日志干扰,无需全局抑制错误。 在php开发中,尤其是在处理用户提…

    2025年12月12日
    000
  • Symfony Twig 模板中带变量翻译的正确姿势与常见陷阱

    本文旨在解决 Symfony 应用中 Twig 模板变量翻译失效的问题。当使用 translation:update 命令更新翻译文件后,原先在 Twig 中通过 {% trans with {‘%name%’: ‘value’} %} 或 |tran…

    2025年12月12日
    000
  • PHP Foreach 循环中条件语句未多次执行:数据结构与多对一关系处理

    本教程探讨了PHP foreach 循环中条件语句未能如预期多次执行的问题,尤其是在处理一对多关系数据时。核心原因通常是数组键的误用导致数据覆盖。文章将详细解释如何正确构建数据结构,确保每个实体(如订单)拥有唯一标识,并通过内部属性关联到其他实体(如客户),从而实现循环中所有匹配项的正确处理和输出。…

    2025年12月12日
    000
  • PHP字符串编码检测怎么实现_PHP自动检测字符串编码类型的方法

    使用mb_detect_encoding结合iconv验证可较准确检测PHP字符串编码。首先用mb_detect_encoding按优先级检测UTF-8、GBK等编码,启用严格模式减少误判;再通过iconv尝试转码并配合mb_check_encoding校验结果,确保转换前后一致且编码合法。由于短字…

    2025年12月12日
    000
  • PHP微服务框架如何实现健康检查_PHP微服务框架健康检查机制与实现

    答案:PHP微服务通过轻量级HTTP接口实现健康检查,可集成数据库、Redis等依赖检测,并与Kubernetes探针结合,需注意性能、安全与日志控制。 在微服务架构中,健康检查是保障系统稳定运行的重要机制。PHP微服务框架虽然不像Go或Java生态那样原生支持复杂的服务治理,但通过合理设计依然可以…

    2025年12月12日
    000
  • HTML 元素禁用指南:实现下拉框只读效果

    本教程旨在解决HTML下拉选择框()无法通过readonly属性实现只读的问题。核心内容是阐明readonly属性对标签无效,并指导读者正确使用disabled属性于标签本身,以完全禁用下拉框,使其不可交互且呈现灰色视觉效果,从而有效实现只读功能。 理解 readonly 与 的局限性 在html表…

    2025年12月12日
    000
  • PHP foreach 循环中条件语句未多次执行的根源与解决方案

    本文旨在解决PHP foreach 循环中条件语句未能如预期多次执行的问题,特别是当处理关联数据(如客户订单)时。核心问题在于数组键的重复使用导致数据被意外覆盖,使得只有最后一条匹配记录得以显示。文章将深入剖析这一常见错误,并提供正确的数据结构设计与过滤方法,确保所有符合条件的记录都能被准确检索和展…

    2025年12月12日
    000
  • PHP函数中数据库连接对象作用域问题及解决方案

    本文旨在解决PHP函数中因变量作用域限制导致数据库连接对象($conn)无法访问的问题。我们将深入探讨PHP变量作用域机制,并提供两种主要解决方案:使用global关键字实现全局访问,以及通过参数传递或采用单例/依赖注入模式实现更健壮、可维护的数据库连接管理。 在PHP开发中,尤其是在处理数据库操作…

    2025年12月12日
    000

发表回复

登录后才能评论
关注微信