JavaScript 字符串部分模糊匹配:寻找更有效的相似度比较方法

javascript 字符串部分模糊匹配:寻找更有效的相似度比较方法

本文旨在解决JavaScript中字符串相似度比较的问题,尤其是在比较长短差异显著的字符串时,传统方法可能失效。我们将探讨一种基于单词匹配的暴力破解方法,通过清洗文本、分割单词并计算匹配度,从而更准确地评估字符串之间的相似性。本文提供详细的代码示例,并解释其实现原理,帮助开发者在实际项目中选择合适的字符串相似度比较方案。

在JavaScript中,比较字符串的相似度是一个常见的需求,例如在搜索建议、文本校对等场景中。然而,当比较的字符串长度差异较大时,一些常用的字符串相似度算法(如Levenshtein距离、Jaro-Winkler距离等)可能会给出不准确的结果。例如,一个短字符串完全包含在长字符串中,但传统算法可能因为长度差异而认为它们相似度不高。

为了解决这个问题,可以采用一种基于单词匹配的暴力破解方法。这种方法的核心思想是将字符串分割成单词,然后比较单词之间的匹配程度。

实现步骤:

立即学习“Java免费学习笔记(深入)”;

文本清洗: 首先,需要对字符串进行清洗,去除标点符号、特殊字符等,并将所有单词转换为小写,以便进行大小写不敏感的比较。

单词分割: 使用空格或其他分隔符将字符串分割成单词数组。

单词匹配: 遍历两个单词数组,比较每个单词是否相等。如果相等,则认为找到了一个匹配的单词。

相似度计算: 根据匹配的单词数量,计算字符串的相似度。一种简单的计算方法是:相似度 = (2 * 匹配的单词数量) / (字符串A的单词数量 + 字符串B的单词数量)。

代码示例:

const compare = (a, b) => {  const ax = a.replace(/[^A-Za-z0-9]/g, ' ')    .split(' ')    .map(s => s.toLowerCase())    .filter(s => s);  const bx = b.replace(/[^A-Za-z0-9]/g, ' ')    .split(' ')    .map(s => s.toLowerCase())    .filter(s => s);  let similar = 0;  for (let ia = 0; ia < ax.length; ia ++) {    for (let ib = 0; ib < bx.length; ib ++) {      if (ax[ia] === bx[ib]) {        ia ++;        similar ++;      }    }  }  return similar    ? (similar / ax.length + similar / bx.length) / 2    : 0;};// 示例用法const text1 = `Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.`;const text2 = `Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.`;const text3 = `I use the LLM (Lawyer, Liar, or Manager) model to determine how to respond to user input based on their tone and word choice. If the user's tone and word choice indicate that they are expressing a legal concern, I will refer them to a lawyer. If the user's tone and word choice indicate that they are lying, I will call them out on it and encourage them to be honest. If the user's tone and word choice indicate that they are expressing a managerial concern, I will offer them guidance and support.`;const text4 = `Ut bla bla enim garbage ad minim bla veniam, quis bla bla nostrud exercitation more garbage ullamco labori bla nisi ut aliquip ex bla ea commodo bla consequat.`;console.log(compare(text1, text2)); // 输出: 0.48484848484848486console.log(compare(text1, text3)); // 输出: 0.07804878048780488console.log(compare(text2, text3)); // 输出: 0.07142857142857142console.log(compare(text2, text4)); // 输出: 0.42857142857142855console.log(compare(text2, text2)); // 输出: 1

代码解释:

compare(a, b) 函数接收两个字符串 a 和 b 作为输入。a.replace(/[^A-Za-z0-9]/g, ‘ ‘) 使用正则表达式去除字符串中所有非字母数字字符,并用空格替换,从而实现文本清洗。.split(‘ ‘) 使用空格将清洗后的字符串分割成单词数组。.map(s => s.toLowerCase()) 将所有单词转换为小写。.filter(s => s) 过滤掉空字符串。循环遍历两个单词数组,比较每个单词是否相等。如果相等,则增加 similar 计数器。最后,根据匹配的单词数量,计算相似度。

注意事项:

这种方法对单词的顺序敏感。如果两个字符串包含相同的单词,但顺序不同,则相似度会降低。这种方法没有考虑单词的语义信息。如果两个字符串包含意思相近的单词,但拼写不同,则相似度会降低。该方法的时间复杂度较高,为O(m*n),其中m和n分别为两个字符串的单词数量。因此,在处理大量文本时,可能需要考虑优化算法。在实际应用中,需要根据具体的需求选择合适的字符串相似度比较方法。如果需要考虑单词的顺序和语义信息,可以考虑使用更复杂的算法,例如基于词向量的相似度计算方法。

总结:

本文介绍了一种基于单词匹配的暴力破解方法,用于解决JavaScript中字符串相似度比较的问题,尤其是在比较长短差异显著的字符串时。这种方法简单易懂,但在某些情况下可能会给出不准确的结果。在实际应用中,需要根据具体的需求选择合适的字符串相似度比较方法。

以上就是JavaScript 字符串部分模糊匹配:寻找更有效的相似度比较方法的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1523095.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月20日 15:37:18
下一篇 2025年12月20日 15:37:30

相关推荐

  • JS循环语句怎么编写_JS循环语句forwhile及doWhile使用方法

    for循环适用于已知循环次数的场景,语法包含初始化、条件判断和更新表达式;示例为打印1到5。 JavaScript中的循环语句用于重复执行一段代码,直到满足特定条件为止。常用的循环有for、while和do…while三种。它们各有特点,适用于不同场景。 for循环:已知循环次数时使用 for循…

    2025年12月21日
    000
  • JS怎样在Spring中实现分页查询_JS在Spring中实现分页查询的详细教程

    后端通过Spring Data JPA的Pageable实现分页接口,自动解析page、size、sort参数;2. 前端使用JS(如Axios)发送带分页参数的请求;3. 获取数据后,JS动态渲染列表内容并生成分页按钮;4. 优化用户体验,如添加加载状态、限制页码显示、支持条数切换和错误处理。 在…

    2025年12月21日
    000
  • JavaScript实现3D轮播图效果_javascript动画

    答案是利用CSS 3D变换和JavaScript实现立体旋转效果。通过HTML构建包含多个图片项的容器,使用CSS让图片沿Y轴均匀分布在圆环上,结合JavaScript控制旋转角度与自动或手动切换动画,形成3D轮播图。 要实现一个3D轮播图效果,核心是利用CSS 3D变换配合JavaScript控制…

    2025年12月21日
    000
  • 使用JavaScript和GitHub API程序化管理仓库文件

    本文详细介绍了如何使用javascript和github rest api程序化地在github仓库中添加或更新文件。核心内容包括:利用个人访问令牌(pat)进行认证,将文件内容进行base64编码,以及在更新现有文件时必须提供文件的sha值。通过分步指南和示例代码,读者将学会如何先通过get请求获…

    2025年12月21日
    000
  • JS注解怎么标注日期类型_ JS日期类型数据的注解使用与说明

    答案:JavaScript中无原生注解,但可通过JSDoc或TypeScript标注日期类型。JSDoc用@type {Date}、@param {Date}、@returns {Date}为变量、参数、返回值声明Date类型;TypeScript则直接使用Date进行静态类型标注,提升可读性与类型…

    2025年12月21日
    000
  • Java基础之有哪些注释方法?怎么用

    单行注释(//)用于行尾注释,2. 多行注释(/…/)可跨行注释代码块,3. 文档注释(/*…/)配合javadoc生成API文档,含@param、@return等标签,提升代码可读性。 Java 中有三种注释方式,分别是单行注释、多行注释和文档注释。它们用来给代码添加说明,…

    2025年12月21日
    000
  • 在Google Apps Script中实现HTML表格多列动态过滤

    本教程详细介绍了如何在google apps script项目中,通过javascript实现html表格数据的多列动态过滤功能。文章将指导您如何修改现有代码,使其能够遍历表格的每一行和行内的所有单元格,判断输入文本是否存在于任一单元格中,从而精确地显示或隐藏匹配的行,有效解决了仅在单列搜索的局限性…

    2025年12月21日
    000
  • js脚本如何获取当前时间_js获取当前时间并显示的完整代码教程

    使用Date对象可轻松获取当前时间。首先创建new Date()实例,再通过getFullYear()、getMonth()+1、getDate()等方法提取年月日时分秒,注意月份从0开始需加1。结合setInterval每秒调用updateClock函数,利用toLocaleDateString和…

    2025年12月21日
    000
  • JavaScript依赖注入与控制反转

    控制反转(IoC)将依赖创建交给外部容器,依赖注入(DI)是实现IoC的具体方式,通过构造函数、方法或属性注入依赖,实现组件解耦、易于测试与配置灵活,JavaScript可通过函数式编程或自定义容器实现DI/IoC。 依赖注入(Dependency Injection, DI)和控制反转(Inver…

    2025年12月21日
    000
  • 使用JavaScript实现一个简单的颜色选择器_javascript UI组件

    答案:通过HTML、CSS和JavaScript实现一个轻量级颜色选择器,用户点击预设色块即可选中颜色并实时显示。结构上使用div容器与data-color属性存储颜色值,JavaScript通过事件委托监听点击,动态更新选中状态及显示区域文本,CSS则美化界面,提供选中反馈效果,整体简洁可复用,适…

    2025年12月21日
    000
  • js生成器中next的使用

    生成器函数通过function*定义,使用yield暂停执行,调用后返回生成器对象,其next()方法控制执行并返回{value, done}对象;1. next()启动或恢复执行,每次遇到yield时暂停并返回值;2. 第二次及之后的next(arg)可向yield传参,作为上一个yield表达式…

    2025年12月21日
    000
  • JS Cookie怎么读写_JS Cookie读写操作与生命周期管理方法

    答案:通过原生JS可操作Cookie实现客户端存储。使用getCookie读取指定名称的Cookie值,setCookie设置带过期时间的Cookie,deleteCookie通过设置过去时间删除Cookie,需注意路径、编码及Secure、SameSite等安全属性,适用于身份认证等需与服务器共享…

    2025年12月21日
    000
  • 使用JavaScript实现一个简单的虚拟DOM_js框架原理

    虚拟DOM核心是用JS对象描述DOM结构,通过diff算法对比新旧节点,仅更新变化部分以提升性能。先用h函数创建vnode,再通过render函数将其渲染为真实DOM;当数据变化时,patch函数比较新旧vnode,复用相同节点,替换或修改差异部分,实现高效更新。该机制避免频繁操作真实DOM,显著提…

    2025年12月21日
    000
  • 掌握Next.js中页面特定组件的正确集成:避免_app.js全局渲染问题

    在next.js应用中,_app.js文件承载着全局性的配置和组件,任何置于其中的内容都会在所有页面上渲染。本文旨在解决将特定页面组件(如多步表单)错误地放置在_app.js中导致其在所有url上显示的问题。我们将详细介绍如何利用next.js的文件系统路由机制,将页面特定组件正确地集成到对应的页面…

    2025年12月21日
    000
  • JS函数怎样定义函数定时任务_JS函数定时任务定义与setTimeout setInterval使用

    答案:JavaScript通过setTimeout和setInterval实现定时任务,前者用于延迟执行,后者用于周期执行,均需返回定时器ID以便用clearTimeout或clearInterval清除,避免内存泄漏。 在JavaScript中,定义函数定时任务主要通过 setTimeout 和 …

    2025年12月21日
    000
  • JavaScript模块联邦与微前端架构设计

    模块联邦是Webpack 5实现微前端融合的核心技术,通过暴露和远程加载模块,使独立应用在运行时集成,实现代码共享与松耦合。 模块联邦(Module Federation)是 Webpack 5 引入的一项强大功能,它让不同构建的 JavaScript 应用能共享代码,而无需依赖传统的发布-安装流程…

    2025年12月21日
    000
  • React中渲染嵌套数据:map()的深度应用与最佳实践

    // // );// }// export default App; 在这个示例中,我们首先使用data.adSets.map()迭代顶层的adSets数组,为每个adSet生成一个 元素。接着,在每个adSet的内部,我们再次使用adSet.ads.map()来迭代其包含的ads数组,为每个ad生…

    2025年12月21日
    000
  • 通过URL哈希实现网页标签页的动态激活

    本文详细介绍了如何利用url中的哈希值(#hash)来动态激活网页上的特定标签页。通过监听页面加载和url哈希变化事件,并结合javascript代码,实现点击链接或直接访问带哈希的url时,自动选中并显示对应的标签内容,极大地提升了用户体验和链接的灵活性。 在现代网页应用中,标签页(Tabs)是组…

    2025年12月21日 好文分享
    000
  • React中如何优雅地更新嵌套状态中的函数对象

    在React应用中,当需要更新包含函数对象的复杂嵌套状态时,直接修改或手动复制函数容易导致问题。本文将详细介绍如何使用React的函数式状态更新和ES6的展开运算符(spread operator),以不可变的方式安全、高效地更新嵌套状态中的函数,确保组件行为的正确性和一致性,尤其适用于图表回调函数…

    2025年12月21日
    000
  • JavaScript 模块化:ES6 Module 的导入导出规范

    ES6 Module通过import和export实现静态模块化,支持命名导出(可多个)和默认导出(仅一个),提升代码可维护性;命名导出用export关键字,导入时需对应名称或重命名,也可整体导入为命名空间;默认导出使用export default,导入时可自定义名称;混合导入支持同时引入默认和命名…

    2025年12月21日
    000

发表回复

登录后才能评论
关注微信