XPath的substring()函数如何提取子字符串？

程序猿 • 2025年12月17日 03:36:33 • 好文分享 • 阅读 0

substring()函数用于从字符串中提取指定位置的子串，索引从1开始，常与substring-before()、substring-after()结合处理固定格式文本，适用于结构化字符串提取，而正则表达式更适合复杂模式匹配。

XPath的

substring()

函数，简单来说，就是用来从一个字符串里“剪”出你想要的那一部分。有时候，我们从XML或HTML里抓取到的文本，往往不是我们想要的全部，可能只是一段日期、一个ID号，或者某个特定字段。这时候，

substring()

函数就派上用场了，它能让你精确地定位并提取出目标子串。

解决方案

substring()

函数的基本语法是

substring(string, start, length)

。

string

：这是你想要操作的原始字符串。它可以是一个直接的字符串字面量，也可以是XPath表达式返回的节点文本内容（比如

text()

或某个元素的路径）。

start

：这是你想要开始提取子字符串的位置。注意，XPath的索引是从1开始的，而不是像很多编程语言那样从0开始。 这是一个常见的“坑”，很容易让人混淆。

length

：这是你想要提取的子字符串的长度。这个参数是可选的。如果你省略了它，

substring()

会从

start

位置开始，一直提取到字符串的末尾。

一些例子：

提取从某个位置开始到结尾的子串：假设我们有一个字符串 “Hello World!”，我们想提取 “World!”。

substring("Hello World!", 7)

结果是：”World!”

这里，’H’是第1位，’e’是第2位，以此类推，空格是第6位，’W’是第7位。所以从第7位开始提取，一直到字符串末尾。

提取指定长度的子串：从 “Hello World!” 中提取 “Hello”。

substring("Hello World!", 1, 5)

结果是：”Hello”

从第1位开始，提取5个字符。

结合节点文本提取：假设XML中有一个

2023-10-26

节点，我们只想提取年份 “2023”。

substring(/data/text(), 1, 4)

结果是：”2023″

或者，如果只想提取月份 “10”：

substring(/data/text(), 6, 2)

结果是：”10″

我的经验是，当你需要处理的字符串结构相对固定，或者可以通过简单的位置计算就能确定要截取的部分时，

substring()

简直是神器，直接了当。

substring()

函数在实际应用中常见的“坑”有哪些？

说实话，用

substring()

函数，最容易让人头疼的，就是那个1-based索引。我们写代码习惯了0-based，一到XPath这里就得手动加1，或者在心里默默转换一下。我就经常因为这个，第一次尝试的时候结果总是差一位。比如，我想从“ABCD”里取“BC”，如果我习惯性地写

substring("ABCD", 1, 2)

（以为A是0），结果会是“AB”。正确的应该是

substring("ABCD", 2, 2)

。这种小细节，在调试复杂XPath表达式的时候，能让你抓狂半天。

另一个需要注意的点是，如果你的

start

位置超出了字符串的长度，或者

length

参数导致提取范围超出了字符串末尾，

substring()

并不会报错。它会“尽力而为”。比如，

substring("Hello", 10)

会返回一个空字符串，因为第10位根本不存在。而

substring("Hello", 3, 10)

，虽然我们想提取10个字符，但从第3位(‘l’)开始，后面只有3个字符了，它就会返回“llo”，不会因为长度不够而抛出异常。这种“静默失败”有时候反而更麻烦，因为你可能不知道自己是不是取到了一个不完整的字符串。所以，在使用前，最好能对字符串的长度有个大致的预判，或者结合

string-length()

函数做一些边界检查。

如何利用

substring()

结合其他XPath函数实现更复杂的文本提取？

substring()

本身很直接，但它的威力在于能和XPath里其他字符串函数“组合拳”。比如，当你需要提取一个不固定位置但有明确前后标志的文本时，

substring-before()

和

substring-after()

就是它的好搭档。

举个例子，假设我们有这样的文本：

订单号: ORD-1234567890 状态: 已完成

，我们想提取订单号

ORD-1234567890

。直接用

substring()

有点难，因为订单号的长度不固定。但我们可以这样：

先用

substring-after(., '订单号: ')

得到

ORD-1234567890 状态: 已完成

。再对这个结果用

substring-before(., ' 状态:')

得到

ORD-1234567890

。

所以，完整的XPath表达式可能是：

substring-before(substring-after(/some/node/text(), '订单号: '), ' 状态:')

这看起来有点绕，但确实是解决这类问题的常用手段。再比如，如果你想从一个URL中提取域名，而这个URL的格式不总是那么规整，但你知道它总是在

//

之后，可能在第一个

之前。

substring-before(substring-after(., '//'), '/')

就可以尝试提取出

www.example.com

之类的部分。当然，这只是一个简化版，实际的URL解析会复杂得多。

关键在于，

substring()

提供的是一种基于位置的裁剪能力，而

substring-before()

和

substring-after()

提供的是基于内容的裁剪能力。它们结合起来，就能处理很多看起来有点棘手的文本提取任务。我个人觉得，这种链式调用，就像是在一步步地“剥洋葱”，每次都剥掉一层不需要的，直到露出核心。

substring()

函数与正则表达式相比，各自的优势和适用场景是什么？

这是一个很有意思的对比。从我的经验来看，

substring()

和正则表达式（Regex）在处理字符串方面，就像是两把不同的工具，各有各的锋利之处。

substring()

的优势与适用场景：

简洁直观： 当你需要从字符串的固定位置或已知长度处提取内容时，

substring()

无疑是最直接、最易读的方案。比如，从一个固定格式的日期字符串“YYYYMMDD”中提取年份，

substring(., 1, 4)

，一目了然。性能开销小： 相比于复杂的正则表达式引擎，

substring()

的操作通常更轻量，性能开销更小。对于大量字符串处理的场景，如果

substring()

能满足需求，它通常是更优的选择。XPath 1.0的唯一选择： 值得注意的是，XPath 1.0标准本身并不支持正则表达式。在很多老旧系统或某些特定环境中，你可能只能使用XPath 1.0。在这种情况下，

substring()

以及

substring-before()

、

substring-after()

就成了你进行字符串操作的“全部家当”。这确实是一种限制，但也迫使你更巧妙地利用这些基础函数。

正则表达式的优势与适用场景：

强大的模式匹配： 正则表达式的真正强大之处在于其模式匹配能力。当字符串的结构不固定，或者你需要根据复杂的规则（如包含数字、字母、特定符号的组合，或者可变长度的序列）来提取内容时，正则表达式是不可替代的。比如，提取所有符合邮箱格式的字符串，或者从混杂的文本中识别出电话号码。灵活性高： 正则表达式可以处理各种复杂的边界条件、重复模式，甚至可以通过捕获组（capturing groups）一次性提取出多个感兴趣的部分。XPath 2.0+支持： 幸运的是，从XPath 2.0开始，引入了对正则表达式的支持，通过

matches()

replace()

tokenize()

等函数，极大地扩展了XPath在字符串处理上的能力。这意味着在支持XPath 2.0及更高版本的环境中，你可以根据实际需求，灵活选择

substring()

或正则表达式。

总结来说：

如果你面对的是结构化、位置固定、长度可预测的字符串，或者只需要基于简单的分隔符进行截取，那么

substring()

是你的首选，它足够简单高效。

但如果你的字符串是半结构化、模式复杂、长度可变，或者需要进行复杂的校验和提取，那么正则表达式的强大功能就显得不可或缺了。在XPath 2.0+的环境下，这两种工具可以相辅相成，共同解决更广泛的字符串处理问题。我的看法是，没有绝对的好坏，只有是否适合当前任务。能用简单的方法解决，就别把问题复杂化；但遇到复杂问题，也别害怕引入更强大的工具。

以上就是XPath的substring()函数如何提取子字符串？的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1430414.html

xpath yy 工具邮箱

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

XPath的QName()函数处理什么类型？

上一篇 2025年12月17日 03:36:31

XPath的..语法如何选择父节点？

下一篇 2025年12月17日 03:36:43

好文分享

在 JavaScript 中移动 TodoList 中的“正在进行”任务如何解决？

javascript 中使用 dom 更新 todolist 在您的问题中，您遇到了在使用 javascript 通过 dom 更新 todolist 时遇到困难的问题。具体来说，您无法将“正在进行”的任务移动到“已完成”部分。问题原因在您提供的 javascript 代码中，拼写错误导致“正在…

程序猿
2025年12月24日
0000
好文分享

在使用 JavaScript 实现的 TodoList 中，如何正确判断 Checkbox 点击事件，从而归类任务？

使用 javascript 实现 todolist，点击 checkbox 后无法正确归类任务问题描述：在使用 javascript 实现的 todolist 中，点击“正在进行”任务中的 checkbox，无法将任务自动归类到“已完成”任务列表。原因分析：在提供的代码中，发现有一个单词拼写错误…

程序猿
2025年12月24日
4000
好文分享

响应式HTML5按钮适配不同屏幕方法【方法】

实现响应式HTML5按钮需五种方法：一、CSS媒体查询按max-width断点调整样式；二、用rem/vw等相对单位替代px；三、Flexbox控制容器与按钮伸缩；四、CSS变量配合requestAnimationFrame优化的JS动态适配；五、Tailwind等框架的响应式工具类。如果您希望H…

程序猿
2025年12月23日
1000
好文分享

jimdo如何添加html5表单_jimdo表单html5代码嵌入与字段设置【实操】

可通过嵌入HTML5表单代码、启用字段验证属性、添加CSS样式反馈及替换提交按钮并绑定JS事件四种方式在Jimdo实现自定义表单行为。如果您在 Jimdo 网站中需要自定义表单行为或字段逻辑，而内置表单编辑器无法满足需求，则可通过嵌入 HTML5 表单代码实现更灵活的控制。以下是具体操作步骤：一…

程序猿
2025年12月23日
1000
好文分享

node.js怎么运行html_node.js运行html步骤【指南】

答案是使用Node.js内置http模块、Express框架或第三方工具serve可快速搭建服务器预览HTML文件。首先通过http模块创建服务器并读取index.html返回响应；其次用Express初始化项目并配置静态文件服务；最后利用serve工具全局安装后一键启动服务器，三种方式均在浏览器访…

程序猿
2025年12月23日
4000
好文分享

html5游戏怎么修改_HT5改JS逻辑或资源文件调整游戏玩法效果【修改】

需直接编辑核心JavaScript代码或替换图片、音频等资源文件；先用浏览器开发者工具的Sources面板定位含game、main等关键词的.js文件，再搜索score++、if (health等逻辑片段进行修改。如果您下载了某个HTML5游戏的本地文件，希望调整其玩法逻辑或替换资源以改变视觉效果…

程序猿
2025年12月23日
1000
好文分享

html5怎么重叠图片_html5用position:absolute或z-index让图片重叠【重叠】

在HTML5中实现图片重叠需结合CSS定位与层叠控制：一、用position:absolute+top/left精确定位，父容器设position:relative；二、用z-index设定堆叠顺序（需已定位）；三、用transform:translate()实现无文档流干扰的偏移重叠；四、用CSS…

程序猿
2025年12月23日
3000
好文分享

html5怎么设置月份_HTML5用input type=”month”让用户选择年月月份【设置】

HTML5的input type=”month”提供原生年月选择器，格式为“YYYY-MM”，支持value默认值、min/max范围限制、name表单提交，并需JavaScript降级兼容旧浏览器。如果您希望在网页中提供一个简洁的年月选择控件，HTML5 的 input …

程序猿
2025年12月23日
3000
好文分享

html5如何建立站点_HTML5站点建立步骤与网站搭建技巧【指南】

HTML5网站搭建需五步：一、建my-website目录及css/js/images子目录，含index.html；二、写标准HTML5骨架，含DOCTYPE、lang、meta、语义化标签；三、外链CSS与defer/async脚本；四、用http-server启本地服务；五、用email/num…

程序猿
2025年12月23日
0000
好文分享

jimdo怎么插入html5时间轴_jimdo时间轴html5代码与节点样式【实操】

Jimdo网站需用自定义HTML5代码实现时间轴：一、内联HTML+CSS轻量嵌入；二、外链CSS+语义化HTML便于复用；三、调用timeline-js-lite库支持交互；四、纯CSS方案零依赖高性能。如果您希望在 Jimdo 网站中呈现可视化的时间发展脉络，但默认编辑器不支持原生时间轴组件，…

程序猿
2025年12月23日
0000
好文分享

html5怎么设置黑体_html5用CSS font-family设黑体或font-weight加粗【设置】

在HTML5中实现黑体及加粗需用CSS的font-family和font-weight：一、font-family按优先级列“SimHei”,“Microsoft YaHei”,“Heiti SC”,sans-serif；二、font-weight用700或bold；三、组合声明并注意继承；四、可用…

程序猿
2025年12月23日
1000
好文分享

html5怎么去除黑点_html5用list-style:none去除ul/ol列表黑点【去除】

可通过 CSS 的 list-style 属性隐藏列表标记：一、list-style: none 最常用；二、list-style-type: none 精准移除符号；三、重置 list-style 全部子属性应对样式干扰；四、display: inline-block 配合 list-style:…

程序猿
2025年12月23日
1000
好文分享

html5怎么调日期_HTML5用input type=”date”让用户选择或JS调日期【调整】

HTML5原生input type=”date”提供日期选择功能，支持min/max/value属性限制范围，JavaScript可设置/读取YYYY-MM-DD格式值，showPicker()可尝试唤起选择器，不支持时降级为带pattern验证的文本输入。如果您希望在网页…

程序猿
2025年12月23日
0000
好文分享

html如何学好_学好HTML的关键点与练习【关键】

学好HTML需掌握基础语法结构、熟记语义化标签、通过真实项目练习、验证代码规范性并拆解优质网页源码。具体包括：标准HTML5骨架、正确使用header/nav/main等标签、构建个人页与新闻页、W3C校验及阅读mozilla.org源码。如果您希望掌握HTML语言并能熟练构建网页结构，则需要聚焦…

程序猿
2025年12月23日
1000
好文分享

html5怎么交css_html5用link外链或style内嵌引入css样式生效【引入】

CSS样式未生效时，应依次检查link外链路径与MIME类型、style内嵌位置与语法、行内style属性格式，并通过开发者工具的Elements、Styles和Computed面板验证加载与优先级。如果您在HTML5文档中尝试引入CSS样式但页面未按预期渲染，则可能是由于CSS引入方式不正确或路…

程序猿
2025年12月23日
0000
好文分享

html5鼠标怎么变样_HTML5用CSS cursor设鼠标指针为pointer/hand等【设置】

可通过CSS cursor属性更改HTML5网页鼠标样式，包括预定义关键字、自定义图像、伪类动态控制，并需兼顾触摸设备适配与跨浏览器兼容性。如果您希望在HTML5网页中更改鼠标指针的样式，例如将默认箭头变为手型、等待状态或自定义图像，则可以通过CSS的cursor属性实现。以下是设置不同鼠标样式的…

程序猿
2025年12月23日
5000
好文分享

html5怎么找颜色_html5用取色器或CSS命名如red快速找对应颜色【查找】

可通过浏览器开发者工具取色、CSS命名颜色对照表、在线十六进制颜色查找工具及CSS自定义属性验证四种方法快速定位颜色值对应的实际色彩效果。如果您在HTML5开发中需要快速定位某个颜色值对应的实际色彩效果，可以通过取色器工具或CSS预定义颜色名称来识别。以下是查找颜色的具体操作方法：一、使用浏览器…

程序猿
2025年12月23日
1000
好文分享

html5如何清除缓存_HTML5缓存清除步骤与清理浏览器缓存方法【教程】

HTML5网页应用异常通常由浏览器缓存旧资源导致，需依次清除常规缓存、强制刷新、清理AppCache、注销Service Worker并清空其缓存、或用无痕模式验证。如果您在使用HTML5网页应用时遇到内容未更新、页面显示异常或资源加载错误等问题，可能是由于浏览器缓存了旧版本的HTML、CSS、J…

程序猿
2025年12月23日
0000
好文分享

html5怎么删除缓存_html5用JS清除localStorage/sessionStorage或清浏览器缓存【清除】

清除HTML5网页缓存需分五步：一、用localStorage.clear()清本地存储；二、用sessionStorage.clear()清会话存储；三、用location.reload(true)强制刷新；四、在head中添加三行meta禁用页面缓存；五、手动清除浏览器HTTP缓存。如果您在使…

程序猿
2025年12月23日
0000
好文分享

flash怎么变为html5_用Swiffy或CreateJS将Flash动画转HTML5【转换】

可采用四种方法迁移Flash动画至HTML5：一、用Swiffy转换SWF为Canvas/JS；二、用CreateJS从Animate导出HTML5 Canvas；三、用Lottie+Bodymovin将AE版动画转JSON播放；四、用Ruffle模拟器直接运行原SWF。如果您希望将现有的Flas…

程序猿
2025年12月23日
1000