JS如何实现关键字过滤

程序猿 • 2025年12月20日 10:16:53 • 好文分享 • 阅读 0

js实现关键字过滤的核心方法有四种：1. 循环替换，简单但性能差；2. 正则表达式一次性替换，效率较高但正则过长会影响性能；3. trie树，适合大词库，查找高效但实现复杂；4. aho-corasick算法，性能最优但实现最复杂；动态更新词库可通过ajax定时拉取或websocket实时推送，需注意数据一致性与错误处理；复杂策略包括模糊匹配、语义分析、拼写纠错和繁简转换，可提升精度但增加成本；前端过滤应结合延迟执行、分批处理、web worker、缓存和用户反馈，在保证性能的同时提升用户体验，避免过度过滤。

JS实现关键字过滤，核心在于构建一个敏感词库，然后高效地检测并替换文本中的敏感词。方法有很多，效率和精度各有差异。

解决方案

简单粗暴的循环替换： 这是最直接的方法，但效率也最低。将敏感词库存储为一个数组，然后遍历数组，对文本进行逐个替换。

function filterKeywords(text, keywords) {  let filteredText = text;  for (const keyword of keywords) {    const regex = new RegExp(keyword, 'gi'); // 'gi' 标志表示全局匹配和忽略大小写    filteredText = filteredText.replace(regex, '***'); // 替换为星号  }  return filteredText;}const keywords = ['敏感词1', '敏感词2', '敏感词3'];const text = '这是一段包含敏感词1和敏感词2的文本。';const filteredText = filterKeywords(text, keywords);console.log(filteredText); // 输出: 这是一段包含***和***的文本。

这种方法简单易懂，但当敏感词库很大或者文本很长时，性能会急剧下降。

RegExp

对象的创建和

replace

操作都是比较耗时的。

使用正则表达式一次性替换： 将所有敏感词用

连接起来，构建一个大的正则表达式，然后一次性替换。

function filterKeywordsRegex(text, keywords) {  const regex = new RegExp(keywords.join('|'), 'gi');  return text.replace(regex, '***');}const keywords = ['敏感词1', '敏感词2', '敏感词3'];const text = '这是一段包含敏感词1和敏感词2的文本。';const filteredText = filterKeywordsRegex(text, keywords);console.log(filteredText); // 输出: 这是一段包含***和***的文本。

这种方法相比第一种，效率有所提升，因为减少了

RegExp

对象的创建次数。但是，如果敏感词库非常大，构建超长的正则表达式可能会导致性能问题，甚至超出正则表达式引擎的限制。

使用Trie树（前缀树）： Trie树是一种专门用于处理字符串匹配的数据结构。它可以高效地查找文本中是否包含敏感词。

class TrieNode {  constructor() {    this.children = {};    this.isEndOfWord = false;  }}class Trie {  constructor() {    this.root = new TrieNode();  }  insert(word) {    let node = this.root;    for (const char of word) {      if (!node.children[char]) {        node.children[char] = new TrieNode();      }      node = node.children[char];    }    node.isEndOfWord = true;  }  search(text) {    let filteredText = '';    for (let i = 0; i < text.length; i++) {      let node = this.root;      let j = i;      let found = false;      while (j < text.length && node.children[text[j]]) {        node = node.children[text[j]];        if (node.isEndOfWord) {          found = true;          break;        }        j++;      }      if (found) {        filteredText += '***';        i = j - 1; // 跳过已匹配的敏感词      } else {        filteredText += text[i];      }    }    return filteredText;  }}const trie = new Trie();const keywords = ['敏感词1', '敏感词2', '敏感词3'];for (const keyword of keywords) {  trie.insert(keyword);}const text = '这是一段包含敏感词1和敏感词2的文本。';const filteredText = trie.search(text);console.log(filteredText); // 输出: 这是一段包含***和***的文本。

Trie树的优点是查找效率高，尤其是在敏感词库很大的情况下。它的缺点是实现起来相对复杂，并且需要额外的空间来存储树结构。

Aho-Corasick算法： Aho-Corasick算法是基于Trie树的多模式匹配算法。它在Trie树的基础上增加了失败指针，可以进一步提高匹配效率。实现起来比较复杂，但性能优秀，适合对性能要求很高的场景。

如何选择合适的关键字过滤方法？

选择哪种方法取决于具体的应用场景。

如果敏感词库很小，文本也很短，那么简单粗暴的循环替换或者正则表达式一次性替换就足够了。如果敏感词库很大，或者文本很长，那么Trie树或者Aho-Corasick算法是更好的选择。如果对性能要求很高，那么Aho-Corasick算法是最佳选择。

副标题1

如何动态更新JS中的敏感词库，而无需重新加载页面？

动态更新敏感词库是一个常见的需求，尤其是在内容审核等场景下。最简单的方法是使用 AJAX 定期从服务器拉取最新的敏感词列表。

function updateKeywords() {  fetch('/api/keywords') // 假设服务器提供一个API接口返回敏感词列表    .then(response => response.json())    .then(data => {      keywords = data; // 更新全局的敏感词库      console.log('敏感词库已更新:', keywords);    })    .catch(error => {      console.error('更新敏感词库失败:', error);    });}// 定期更新敏感词库，例如每隔10分钟setInterval(updateKeywords, 600000);// 初始加载时更新一次updateKeywords();

另一种方法是使用 WebSocket，服务器主动推送更新后的敏感词列表。这种方法可以实现实时更新，但需要服务器端的支持。

无论使用哪种方法，都需要注意以下几点：

线程安全： 如果有多个线程同时访问敏感词库，需要采取线程安全措施，例如使用锁。但JS是单线程的，所以通常不需要考虑线程安全问题。数据一致性： 确保在更新敏感词库时，不会出现数据不一致的情况。例如，可以先创建一个新的敏感词库，然后将旧的敏感词库替换为新的敏感词库。错误处理： 处理更新敏感词库失败的情况，例如记录日志、重试等。

副标题2

除了简单的替换，如何实现更复杂的关键字过滤策略，例如模糊匹配或语义分析？

除了简单的替换，还可以使用一些更复杂的关键字过滤策略，例如：

模糊匹配： 使用正则表达式进行模糊匹配。例如，可以使用

[sS]*

匹配任意字符，可以使用

匹配零个或一个字符。

const keywords = ['敏感词[sS]*1', '敏感词?2'];const text = '这是一段包含敏感词中间有很多字符1和敏感词2的文本。';const regex = new RegExp(keywords.join('|'), 'gi');const filteredText = text.replace(regex, '***');console.log(filteredText); // 输出: 这是一段包含***和***的文本。

语义分析： 使用自然语言处理（NLP）技术进行语义分析。例如，可以使用词向量来计算文本与敏感词之间的相似度。如果相似度超过某个阈值，则认为文本包含敏感词。这需要引入额外的NLP库，例如

natural

或者使用在线的NLP API。

拼写纠错： 对文本进行拼写纠错，然后再进行关键字过滤。这可以防止用户通过拼写错误来绕过关键字过滤。可以使用现成的拼写纠错库，例如

spellchecker-js

。

繁简体转换： 将文本转换为简体或繁体，然后再进行关键字过滤。这可以防止用户通过使用繁体字或简体字来绕过关键字过滤。可以使用现成的繁简体转换库，例如

opencc

。

这些更复杂的策略可以提高关键字过滤的精度，但也会增加实现的复杂度和计算成本。

副标题3

如何在前端进行关键字过滤的同时，兼顾性能和用户体验？

在前端进行关键字过滤，需要特别注意性能和用户体验。以下是一些建议：

延迟执行： 不要在用户每次输入时都进行关键字过滤。可以设置一个延迟时间（例如 300 毫秒），在用户停止输入一段时间后才进行关键字过滤。可以使用

setTimeout

函数来实现延迟执行。

分批处理： 如果文本很长，可以将其分成多个小块，然后分批进行关键字过滤。可以使用

requestAnimationFrame

函数来避免阻塞UI线程。

Web Worker： 将关键字过滤放在 Web Worker 中执行，避免阻塞UI线程。 Web Worker 是一个独立的线程，可以执行 JavaScript 代码，而不会影响UI线程的响应。

缓存结果： 如果文本没有发生变化，可以直接使用缓存的结果，而无需重新进行关键字过滤。

优化算法： 选择合适的关键字过滤算法，例如 Trie树或Aho-Corasick算法。

用户反馈： 在进行关键字过滤时，给用户提供明确的反馈。例如，可以高亮显示敏感词，或者提示用户修改文本。避免直接阻止用户提交，应该引导用户修改内容。

避免过度过滤： 不要过度过滤，以免误伤正常内容。可以设置一个阈值，只有当文本中包含的敏感词数量超过阈值时，才进行过滤。

总而言之，前端关键字过滤需要在性能、精度和用户体验之间进行权衡。没有银弹，需要根据具体的应用场景选择合适的策略。重要的是要进行充分的测试，并根据测试结果进行优化。

以上就是JS如何实现关键字过滤的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1516743.html

asic red

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

JS如何实现代理模式

上一篇 2025年12月20日 10:16:45

Web Workers怎么使用

下一篇 2025年12月20日 10:17:03

好文分享

html5怎么设置单选_html5用input type=”radio”加name设单选按钮组【设置】

HTML5 使用 type=”radio” 实现单选功能，需统一 name 值构成互斥组；通过 checked 设默认项；可用 CSS 隐藏原生控件并自定义样式；推荐用 fieldset/legend 增强语义；required 可实现必填验证。如果您希望在网页中创建一组互…

程序猿
2025年12月23日
2000
好文分享

如何操作html_操作HTML元素的常用方法【常用】

必须掌握操作HTML元素的五种核心方法：一、通过ID精准获取并修改单个元素；二、通过类名批量操作多个元素；三、用querySelector系列灵活选择任意CSS匹配元素；四、动态创建并插入新元素；五、安全移除或替换现有元素。如果您需要动态修改网页内容或响应用户交互，则必须掌握操作HTML元素的核心…

程序猿
2025年12月23日
2000
好文分享

怎么设置边框html5_html5用CSS border设元素边框粗细颜色样式【设置】

可通过CSS的border属性为HTML5元素添加边框，包括简写设置、分项控制、单侧边框、圆角效果及图片边框五种方法，需注意兼容性、元素尺寸与属性完整性。如果您希望为HTML5中的某个元素添加边框，可以通过CSS的border属性控制其粗细、颜色和样式。以下是实现该效果的具体方法：一、使用单条b…

程序猿
2025年12月23日
0000
好文分享

带文字描边的HTML5按钮样式写法【方法】

可通过text-shadow、-webkit-text-stroke、SVG文本或CSS自定义属性实现HTML5按钮文字描边：text-shadow兼容性好但需多向阴影；-webkit-text-stroke简洁可控但仅限WebKit浏览器；SVG提供高精度描边；CSS变量支持动态主题切换。如果您…

程序猿
2025年12月23日
0000
好文分享

html5怎么换颜色_HT5用JS改CSS color或background-color切换颜色【更换】

可通过操作DOM元素的style属性动态修改文本或背景颜色，方法包括：一、直接修改内联样式；二、切换预定义CSS类；三、修改CSS自定义属性；四、用getComputedStyle读取并智能计算新颜色；五、通过setAttribute设置style字符串。如果您希望在HTML5页面中通过JavaS…

程序猿
2025年12月23日
0000
好文分享

如何html背景_设置HTML页面背景颜色或图片【颜色】

可通过五种CSS方法设置HTML背景：一、内联style设纯色；二、内部样式表设背景图并控制平铺定位；三、外部CSS文件设线性或径向渐变；四、CSS类名定制容器背景；五、data属性配合JS动态切换背景。如果您希望为HTML页面设置背景颜色或背景图片，可以通过CSS样式实现。以下是几种常用且有效的…

程序猿
2025年12月23日
0000
好文分享

php如何html_在PHP代码中输出HTML内容【输出】

必须确保PHP正确解析并输出原始HTML字符串而非转义文本；可通过echo/print直接输出、heredoc语法处理多行含变量HTML，或用PHP结束标签切换至纯HTML模式。如果您在PHP脚本中需要将HTML代码作为响应内容发送给浏览器，则必须确保PHP正确解析并输出原始HTML字符串，而非将…

程序猿
2025年12月23日
0000
好文分享

html如何登录_使用HTML表单制作登录页面【登录】

需构建语义清晰、可访问性强的HTML登录表单：用method=”post”的form包裹username/password输入框与submit按钮，配label绑定、required验证、placeholder提示，action指向处理地址，并用div+style控制垂直布局…

程序猿
2025年12月23日
0000
好文分享

HTML如何虚化文字效果_CSS滤镜应用教程【指南】

可通过CSS filter属性实现文字虚化：一、blur()基础虚化；二、blur+opacity模拟景深；三、backdrop-filter虚化背景；四、SVG滤镜实现方向性虚化；五、伪元素叠加双层虚化。如果您希望在网页中实现文字虚化效果，可以通过CSS滤镜（filter）属性来完成。以下是几种…

程序猿
2025年12月23日
0000
好文分享

html5怎样实现表单验证_html5表单验证属性与提示设置【攻略】

HTML5原生表单验证可通过required、type、min/max/step、minlength/maxlength等属性实现基础校验；用title或setCustomValidity()自定义提示；利用:valid/:invalid伪类控制样式；通过novalidate+checkValidi…

程序猿
2025年12月23日
0000
好文分享

html如何对接html_实现两个HTML页面的数据对接【两个】

跨页面通信有四种方法：一、URL参数传递少量字符串数据；二、localStorage实现同源双向持久化共享；三、postMessage支持跨窗口安全异步通信；四、BroadcastChannel实现同源多页面广播通信。如果您希望在两个独立的 HTML 页面之间实现数据传递与共享，则需要借助浏览器提…

程序猿
2025年12月23日
0000
html5 svg怎么使用_HTML5用标签画矢量图或用JS控制SVG动画【使用】

HTML5通过SVG标签原生支持可缩放不失真矢量图形，支持静态绘制、CSS样式控制、JavaScript动态修改、requestAnimationFrame驱动动画及声明式动画五种方式。 <img src="https://img.php.cn/upload/article/001/…

程序猿
好文分享 2025年12月23日
0000
好文分享

html5怎么写样式_html5用style内嵌或外部css文件写元素样式【写法】

HTML5样式设置有三种方式：一、内联style属性，仅作用于当前元素；二、标签内嵌CSS，作用于整个文档；三、引入外部CSS文件，实现结构与样式分离；优先级为内联>内嵌/外部，后加载覆盖先加载。如果您希望为HTML5文档中的元素设置样式，可以通过内嵌style属性或引入外部CSS文件来实现…

程序猿
2025年12月23日
0000
好文分享

HTML如何规范书写代码_语义化标签使用规则【解析】

HTML语义化书写需遵循五项规则：一、用替代div/span；二、h1–h6层级连续且唯一；三、img必设alt，音视频配track与aria-label；四、表单控件须用label显式关联并声明required/aria-invalid；五、ul/ol/dl严格区分类型且闭合嵌套。如果您在编写H…

程序猿
2025年12月23日
0000
好文分享

html5能否设置搜索框输入类型限制_html5type属性与输入验证【方法】

可通过HTML5原生属性与JavaScript结合约束搜索框输入：一、用type=”email”/”tel”/”url”触发格式校验与键盘优化；二、pattern配合正则限定字符范围并自定义提示；三、inputmode控制虚拟键…

程序猿
2025年12月23日
0000
好文分享

html5如何加框线_为HTML5元素添加边框线样式【边框】

可通过CSS的border属性为HTML5元素添加可见边框，包括内联style、内部style标签、CSS类名、单侧边框及box-sizing控制五种方式。如果您希望为HTML5元素添加可见的边框线，可通过CSS的border属性实现。以下是几种常用且兼容性良好的设置方式：一、使用内联style…

程序猿
2025年12月23日
0000
好文分享

html5怎么设置实线_html5用CSS border-style:solid设元素实线边框【设置】

在HTML5中为元素添加实线边框需用CSS的border-style:solid；可采用内联样式、内部style标签、外部CSS文件、单侧边框属性或分别设置border-width/border-color/border-style五种方法实现。如果您希望在HTML5中为某个元素添加实线边框，则需…

程序猿
2025年12月23日
0000
好文分享

HTML如何实现数值相加_JavaScript计算功能开发【教程】

可通过五种JavaScript方法实现网页中多数值实时相加：一、内联事件+ID获取；二、表单submit+preventDefault；三、input事件实时计算；四、ES6箭头函数与解构；五、data属性批量处理多组。如果您在网页中需要实现两个或多个数值的相加运算，并将结果实时显示，可以通过嵌入…

程序猿
2025年12月23日
0000
好文分享

html5如何绘制文本_HTML5文本绘制方法与Canvas文字绘制技巧【教程】

HTML5 Canvas文本绘制需调用2D上下文方法：一、fillText绘制实心文本，需设置font、fillStyle及坐标；二、strokeText绘制描边文本，需配置strokeStyle和lineWidth；三、textAlignment和textBaseline控制对齐与基线；四、mea…

程序猿
2025年12月23日
0000
好文分享

html5怎么设计代码_html5按结构语义分层写标签CSS JS保持代码整洁【设计】

应按语义化层级组织HTML5结构：一、用header/nav/main/article/section/aside/footer替代div；二、HTML/CSS/JS物理分离；三、class名遵循BEM规范且语义化；四、用data-*属性解耦交互；五、CSS变量与JS同步状态。如果您正在编写 HT…

程序猿
2025年12月23日
0000

发表回复

登录后才能评论

JS如何实现关键字过滤

关于作者

相关推荐

发表回复