使用PHP DOM和正则表达式清理HTML样式,仅保留font-family

使用PHP DOM和正则表达式清理HTML样式,仅保留font-family

本教程详细介绍了如何在php中安全有效地清理html元素的`style`属性,仅保留`font-family`样式。通过结合使用`domdocument`解析html结构和精确的正则表达式,我们可以遍历所有元素,提取并替换其`style`属性值,从而实现对html样式的精细控制和标准化,避免直接对html字符串进行正则操作的风险。

在网页内容处理和HTML净化场景中,经常需要对HTML元素的内联样式(style属性)进行精细控制。例如,我们可能希望移除所有自定义样式,只保留字体族(font-family)信息,以确保内容在不同环境下的视觉一致性,或符合特定的设计规范。直接使用正则表达式处理复杂的HTML字符串是危险且不可靠的,因为它无法正确处理嵌套结构和各种HTML语法变体。因此,推荐使用PHP内置的DOMDocument类来解析和操作HTML,结合正则表达式来处理style属性的字符串内容。

为什么不直接使用正则表达式处理HTML?

直接对整个HTML字符串使用正则表达式来修改或删除属性是极度不推荐的做法。HTML是一种复杂的结构化语言,正则表达式在处理其嵌套、属性值中的特殊字符、注释以及不同标签的上下文时,极易出错并导致不可预期的结果,甚至破坏HTML结构。正确的做法是先将HTML解析成DOM树,然后通过DOM API进行操作。

使用DOMDocument解析和操作HTML

DOMDocument是PHP处理XML和HTML的强大工具。它能够将HTML字符串解析成一个可遍历和操作的对象模型。通过遍历DOM树中的每一个元素,我们可以检查并修改其style属性。

1. 加载HTML到DOMDocument

首先,我们需要将待处理的HTML内容加载到DOMDocument对象中。为了避免DOMDocument自动添加、

、等标签,以及默认的DTD声明,我们可以使用LIBXML_HTML_NOIMPLIED和LIBXML_HTML_NODEFDTD这两个libxml选项。

立即学习“PHP免费学习笔记(深入)”;

$data = <<<DATA

Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum.


DATA;$dom = new DOMDocument();// 使用LIBXML_HTML_NOIMPLIED和LIBXML_HTML_NODEFDTD避免自动添加HTML/BODY标签和默认DTD$dom->loadHTML($data, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

2. 遍历元素并处理style属性

加载HTML后,我们可以使用getElementsByTagName(‘*’)获取文档中的所有元素。对于每个元素,我们检查它是否包含style属性。如果存在,则提取其值,并使用正则表达式进行处理。

3. 精确的正则表达式提取font-family

关键在于如何从style属性的字符串中精确地提取font-family属性及其值,同时丢弃其他所有样式。这里使用的正则表达式是:

.*?b(font-[^;]+;?).*|.*

让我们详细解析这个正则表达式:

.*?:非贪婪匹配任意字符(0次或多次)。这确保我们从字符串的开头开始匹配。b(:b是一个单词边界,确保我们匹配的是一个完整的属性名(例如,font-family而不是my-font-family的一部分)。(开始一个捕获组。font-[^;]+;?:这是捕获组的核心。font-:匹配字面字符串font-。[^;]+:匹配一个或多个非分号字符。这会捕获font-family: “Open Sans”, Arial, sans-serif中的值部分。;?:匹配一个可选的分号。因为style属性的最后一个样式可能没有分号。):结束捕获组1。.*:匹配捕获组1之后的任意剩余字符。|:这是一个“或”操作符。.*:如果前面的模式(包含font-family的模式)不匹配,则匹配整个字符串。

当使用preg_replace时,我们将替换字符串设置为$1。这意味着:

如果找到了font-family,则整个匹配的字符串会被捕获组1(即font-family及其值)替换。如果未找到font-family,则会匹配整个style字符串(通过|.*),然后被替换为捕获组1(此时为空),从而有效地清空style属性。

4. 替换和更新style属性

在循环中,我们对每个元素的style属性值应用preg_replace。如果替换后的style值非空,则更新元素的style属性;否则,如果style属性值为空(即没有font-family或font-family被移除),则直接移除该属性。

foreach($dom->getElementsByTagName('*') as $element ){    if ($element->hasAttribute('style')) {        $style = $element->getAttribute('style');        // 使用正则表达式提取font-family        $replacement = preg_replace("/.*?b(font-[^;]+;?).*|.*/", "$1", $style);        // 如果替换后的样式字符串不为空,则更新属性        if (trim($replacement) !== "") {            $element->setAttribute('style', $replacement);        } else {            // 如果替换后的样式为空,则移除整个style属性            $element->removeAttribute('style');        }    }}

5. 输出修改后的HTML

处理完所有元素后,使用saveHTML()方法将修改后的DOM树重新输出为HTML字符串。

echo $dom->saveHTML();

完整示例代码

将上述步骤整合,形成完整的PHP脚本:

<?php$data = <<<DATA

Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum.


DATA;$dom = new DOMDocument();// 加载HTML,并使用选项避免自动添加额外的HTML结构$dom->loadHTML($data, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);// 遍历所有元素foreach($dom->getElementsByTagName('*') as $element ){ // 检查元素是否包含style属性 if ($element->hasAttribute('style')) { $style = $element->getAttribute('style'); // 使用正则表达式提取font-family属性及其值 // 模式解释: // .*? - 非贪婪匹配任意字符直到找到下一个模式 // b( - 单词边界,开始捕获组1 // font-[^;]+;? - 匹配 "font-" 后跟一个或多个非分号字符,可选的分号 // ) - 结束捕获组1 // .* - 匹配捕获组1之后的任意剩余字符 // | - 或 // .* - 如果前面模式不匹配(即没有font-family),则匹配整个字符串 $replacement = preg_replace("/.*?b(font-[^;]+;?).*|.*/", "$1", $style); // 如果替换后的样式字符串不为空(即成功提取到font-family),则更新属性 if (trim($replacement) !== "") { $element->setAttribute('style', $replacement); } else { // 如果替换后的样式为空(没有font-family或被移除),则移除整个style属性 $element->removeAttribute('style'); } }}// 输出修改后的HTMLecho $dom->saveHTML();?>

预期输出:

Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum.


注意事项和总结

HTML解析的健壮性:DOMDocument在处理不规范的HTML时可能会有一些限制。对于极端不规范的HTML,可能需要结合其他HTML净化库(如HTML Purifier)以确保最佳效果。正则表达式的局限性:虽然这里将正则表达式应用于单个属性字符串是相对安全的,但仍需确保其精确性。如果font-family的格式有多种变体(例如,包含!important),则正则表达式可能需要进一步调整。性能考量:对于非常大的HTML文档,遍历所有元素并进行字符串替换可能会有性能开销。在实际应用中,如果性能是关键因素,可能需要进行基准测试和优化。安全性:此方法主要用于样式清理。如果涉及到用户输入并需要防止XSS攻击,仅清理style属性是不够的,还需要进行全面的HTML净化。

通过结合DOMDocument的结构化解析能力和正则表达式的模式匹配优势,我们可以高效且安全地实现对HTML内联样式的精细控制,仅保留font-family属性,从而满足特定的内容处理需求。这种方法比直接对HTML字符串进行正则替换更加健壮和可靠。

以上就是使用PHP DOM和正则表达式清理HTML样式,仅保留font-family的详细内容,更多请关注php中文网其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1325940.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
将SSRS生成的PDF版本设置为1.3
上一篇 2025年12月12日 12:27:03
使用CSS调整HTML按钮字体大小及添加点击事件
下一篇 2025年12月12日 12:27:14

相关推荐

  • composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

    require用于声明项目运行必需的依赖,如框架、数据库组件和第三方SDK,这些包会随项目部署到生产环境;2. require-dev用于声明仅在开发和测试阶段需要的工具,如PHPUnit、PHPStan、Faker等,不会默认部署到生产环境;3. 安装时composer install根据环境决定…

    2026年5月10日
    900
  • 修复Django电商项目中AJAX过滤产品列表图片不显示问题

    在Django电商项目中,当使用AJAX动态加载过滤后的产品列表时,常遇到图片无法正常显示的问题。这通常是由于前端模板中图片加载方式(如data-setbg属性结合JavaScript库)与AJAX动态内容更新机制不兼容所致。解决方案是直接在AJAX返回的HTML中使用标准的标签来渲染图片,确保浏览…

    2026年5月10日
    000
  • 开源免费PHP工具 PHP开发效率提升利器

    推荐开源免费PHP开发工具以提升效率:VS Code、Sublime Text轻量高效,PhpStorm专业强大;调试用Xdebug、Kint、Ray;依赖管理选Composer;代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer;数据库管理可用%ignore_a_1%MyA…

    2026年5月10日
    000
  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 利用海象运算符简化条件赋值:Python教程与最佳实践

    本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…

    2026年5月10日
    000
  • Debian syslog性能优化技巧有哪些

    提升Debian系统syslog (通常基于rsyslog)性能,关键在于精简配置和高效处理日志。以下策略能有效优化日志管理,提升系统整体性能: 精简配置,高效加载: 在rsyslog配置文件中,仅加载必要的输入、输出和解析模块。 使用全局指令设置日志级别和格式,避免不必要的处理。 自定义模板: 创…

    2026年5月10日
    000
  • 怎么在PHP代码中实现图片上传功能_PHP图片上传功能实现与安全处理教程

    首先创建含enctype的HTML表单,再用PHP接收文件,检查目录、移动临时文件,验证类型与大小,生成唯一文件名,并调整php.ini限制以确保上传成功。 如果您尝试在PHP项目中添加图片上传功能,但服务器无法正确接收或保存文件,则可能是由于表单配置、文件处理逻辑或安全限制的问题。以下是实现该功能…

    2026年5月10日
    100
  • 获取日期中的周数:CodeIgniter 教程

    本教程旨在帮助开发者在 CodeIgniter 框架中,从日期字符串中准确提取周数。我们将使用 PHP 内置的 DateTime 类,并提供详细的代码示例和注意事项,确保您能够轻松地在项目中实现此功能。 使用 DateTime 类获取周数 PHP 的 DateTime 类提供了一种便捷的方式来处理日…

    2026年5月10日
    000
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

    SFINAE 是“替换失败不是错误”的原则,指模板实例化时若参数替换导致错误,只要存在其他合法候选,编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景,如通过 decltype 或 enable_if 控制函数重载,实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

    2026年5月10日
    000
  • HTML如何隐藏滚动条或去除滚动条

    滚动条可以存在也可以不存在,本文主要介绍了html 隐藏滚动条和去除滚动条的方法的相关资料,大家一起来学习一下html隐藏滚动条或去除滚动条的方法吧。 1. html 标签加属性 XML/HTML Code复制内容到剪贴板 2.body中加入以下代码 立即学习“前端免费学习笔记(深入)”; html…

    用户投稿 2026年5月10日
    000
  • Go语言mgo查询构建:深入理解bson.M与日期范围查询的正确实践

    本文旨在解决go语言mgo库中构建复杂查询时,特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性,解释为何直接索引`interface{}`会导致“invalid operation”错误,并提供一种推荐的、结构清晰的代码重构方案,以确保查询条件能够正确…

    2026年5月10日
    100
  • vscode上怎么运行html_vscode上运行html步骤【指南】

    首先保存文件为.html格式,再通过浏览器或Live Server插件打开预览;推荐安装Live Server实现本地服务器运行与实时刷新,提升开发体验。 在 VS Code 上运行 HTML 文件并不需要复杂的配置,只需几个简单步骤即可预览页面效果。VS Code 本身是一个代码编辑器,不直接运行…

    2026年5月10日
    100
  • 修复点击时按钮抖动:CSS垂直对齐实践

    本文探讨了在Web开发中,交互式按钮(如播放/暂停按钮)在点击时发生意外垂直位移的问题。通过分析CSS样式变化对元素布局的影响,我们发现这是由于按钮不同状态下的边框样式和内边距改变,以及默认的垂直对齐行为共同作用所致。核心解决方案是利用CSS的vertical-align属性,将其设置为middle…

    2026年5月10日
    000
  • 理解编程指令:当结果正确,但实现方式不符要求时

    本文探讨了在编程实践中,即使程序输出了正确的结果,但若其实现方式未能严格遵循既定指令,仍可能被视为“不正确”的问题。我们将通过具体示例,对比直接求和与累加求和两种实现策略,强调理解和遵守编程规范的重要性,以确保代码的健壮性、可维护性及符合项目要求。 在软件开发过程中,我们经常会遇到这样的情况:编写的…

    2026年5月10日
    000
  • Golang goroutine与channel调试技巧

    使用go run -race检测数据竞争,结合runtime.NumGoroutine监控协程数量,通过pprof分析阻塞调用栈,利用select超时避免永久阻塞,有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心,但它们也带来了调试上…

    2026年5月10日
    000
  • 页面中文本域的值怎么设置

    标签定义多行的文本输入控件。 文本区中可容纳无限数量的文本,其中的文本的默认字体是等宽字体(通常是 Courier)。 可以通过 cols 和 rows 属性来规定 textarea 的尺寸,不过更好的办法是使用 CSS 的 height 和 width 属性。 注释:在文本输入区内的文本行间,用 …

    2026年5月10日
    000
  • 《魔兽世界》将于6月11日开启国服回归技术测试

    《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试

    《%ign%ignore_a_1%re_a_1%》官方宣布,将于6月11日开启国服回归技术测试,时间为7天,并称可以在6月内正式开服,玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端,技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情 以上就是《…

    2026年5月10日 用户投稿
    200
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • php常量怎么用_PHP常量(define/const)定义与使用方法

    PHP中可通过define函数和const关键字定义常量,用于存储不可变值。define适用于全局作用域,支持动态名称和条件定义,如define(‘SITE_NAME’, ‘MyWebsite’);const在编译时生效,语法简洁但限制多,只能在类或全…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信