什么是编辑距离?动态规划计算编辑距离

编辑距离是衡量两字符串差异的最小操作数,通过动态规划构建矩阵计算,广泛应用于拼写检查、DNA比对等领域,可采用空间优化、剪枝等方法提升性能,其与莱文斯坦距离为同一概念。

什么是编辑距离?动态规划计算编辑距离

编辑距离,简单来说,就是衡量两个字符串差异程度的一种方法。它告诉你,要把字符串A变成字符串B,最少需要多少次“增、删、改”操作。而动态规划,则是计算编辑距离最常用的方法之一,因为它能避免重复计算,效率更高。

动态规划计算编辑距离

动态规划的核心思想是将一个大问题分解成若干个小问题,然后从小问题的解逐步推导出大问题的解。在计算编辑距离时,我们可以构建一个二维矩阵,矩阵的行和列分别代表两个字符串的字符,矩阵中的每个元素表示对应字符串子串的编辑距离。

假设字符串A为 “kitten”,字符串B为 “sitting”。我们创建一个 (len(A)+1) x (len(B)+1) 的矩阵

dp

初始化矩阵:

dp[i][0] = i

(将空字符串转换成A的前i个字符,需要i次插入)

dp[0][j] = j

(将空字符串转换成B的前j个字符,需要j次插入)

填充矩阵: 对于

dp[i][j]

,有三种情况:

如果

A[i-1] == B[j-1]

,则

dp[i][j] = dp[i-1][j-1]

(不需要操作)否则,

dp[i][j] = min(dp[i-1][j] + 1, dp[i][j-1] + 1, dp[i-1][j-1] + 1)
dp[i-1][j] + 1

: 删除A[i-1]

dp[i][j-1] + 1

: 插入B[j-1]到A

dp[i-1][j-1] + 1

: 将A[i-1]替换为B[j-1]

最终,

dp[len(A)][len(B)]

就是字符串A到字符串B的编辑距离。

举个例子,以下是用Python实现的计算编辑距离的动态规划代码:

def edit_distance(str1, str2):    len1 = len(str1)    len2 = len(str2)    dp = [[0 for _ in range(len2 + 1)] for _ in range(len1 + 1)]    for i in range(len1 + 1):        dp[i][0] = i    for j in range(len2 + 1):        dp[0][j] = j    for i in range(1, len1 + 1):        for j in range(1, len2 + 1):            if str1[i-1] == str2[j-1]:                dp[i][j] = dp[i-1][j-1]            else:                dp[i][j] = min(dp[i-1][j] + 1,  # 删除                               dp[i][j-1] + 1,  # 插入                               dp[i-1][j-1] + 1) # 替换    return dp[len1][len2]# 示例string1 = "kitten"string2 = "sitting"distance = edit_distance(string1, string2)print(f"字符串 '{string1}' 到字符串 '{string2}' 的编辑距离为: {distance}") # 输出:3

编辑距离的应用场景有哪些?

编辑距离的应用非常广泛。比如,在拼写检查中,它可以用来找出与用户输入最相似的正确单词。在DNA序列比对中,它可以用来衡量两个DNA序列的相似度。在信息检索中,它可以用来评估搜索结果与查询的相关性。甚至在语音识别领域,也可以用来评估识别结果的准确性。

如何优化编辑距离算法的性能?

虽然动态规划已经比暴力搜索快很多,但对于非常长的字符串,计算编辑距离仍然可能很耗时。一些优化方法包括:

空间优化: 动态规划算法中,我们只需要保存上一行的状态,因此可以使用滚动数组来减少空间复杂度,从O(mn)降低到O(min(m, n))。剪枝优化: 在某些情况下,我们可以根据已计算的部分结果,提前终止计算,从而减少计算量。例如,如果我们已经知道编辑距离超过某个阈值,就可以停止计算。并行计算: 对于大规模数据,可以将计算任务分解成多个子任务,并行执行,从而提高计算速度。

编辑距离与莱文斯坦距离有什么区别

实际上,编辑距离和莱文斯坦距离(Levenshtein distance)通常被认为是同一个概念。莱文斯坦距离是由苏联科学家Vladimir Levenshtein在1965年提出的,它定义了两个字符串之间,由单个字符编辑(插入、删除或替换)所需的最少次数。因此,你可以认为编辑距离是莱文斯坦距离的通俗叫法。

以上就是什么是编辑距离?动态规划计算编辑距离的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1517228.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月20日 10:37:48
下一篇 2025年12月17日 03:41:25

相关推荐

  • js如何操作地理定位

    首先,javascript通过浏览器的geolocation api获取用户经纬度,前提是用户授权;1. 检查浏览器是否支持地理定位:使用”geolocation” in navigator判断,不支持则提示用户;2. 调用navigator.geolocation.getc…

    2025年12月20日 好文分享
    000
  • js 如何移除数组的某个元素

    移除 javascript 数组中的某个元素,核心方法有两种:1. 使用 splice() 方法可直接修改原数组,适用于已知索引且需在原数组上操作的场景;2. 使用 filter() 方法可创建新数组,适用于根据条件移除元素或需保持原数组不变的场景。若要移除所有指定值的元素,推荐使用 filter(…

    2025年12月20日
    000
  • js怎么遍历对象的原型链

    遍历javascript原型链的核心方法是使用object.getprototypeof()从对象开始逐级获取原型,直到null为止;2. 实际应用包括调试继承关系、检查对象能力、实现高级框架功能;3. object.getprototypeof()是标准api,__proto__是非标准且不推荐使…

    2025年12月20日 好文分享
    000
  • JS中如何实现字典结构?字典的常见操作

    JavaScript中实现字典结构主要用对象和Map,对象适合字符串键和简单场景,Map支持任意类型键、保持插入顺序且性能更优,遍历时对象常用Object.entries(),Map推荐for…of,选择取决于键类型、顺序需求及性能要求。 在JavaScript里,实现字典结构的核心思路…

    2025年12月20日
    000
  • js 怎样用debounce创建防抖函数

    防抖函数的作用是确保事件在停止触发一段时间后才执行回调,避免频繁触发导致性能问题,1. 通过延迟执行并重新计时来减少函数调用次数;2. 适用于输入搜索、窗口调整等场景;3. 与节流的区别在于防抖只在停止触发后执行一次,而节流固定频率执行;4. 可通过添加leading和trailing选项优化;5.…

    2025年12月20日
    000
  • 什么是CommonJS?模块化的规范

    CommonJS在Node.js中扮演了基石角色,它通过require和module.exports实现了服务器端JavaScript的模块化,解决了命名空间污染和依赖管理问题,促进了npm生态的繁荣;其同步加载机制适合本地文件系统,使代码组织更清晰、可维护,而与ES Modules相比,Commo…

    2025年12月20日
    000
  • js 如何用pluck提取对象数组的某个属性

    使用原生javascript的map方法是提取对象数组属性最推荐的方式,它通过遍历数组并对每个元素执行回调函数来生成新数组,代码简洁且符合函数式编程理念;2. lodash库的_.map方法也可实现该功能,尤其在已使用lodash的项目中可提升可读性和链式调用便利性,但需注意_.pluck已被弃用;…

    2025年12月20日
    000
  • js 如何用last获取数组的最后一个元素

    javascript数组没有内置last()方法,最常用获取最后一个元素的方法是通过索引myarray[myarray.length – 1];2. es2022引入的at(-1)方法提供更直观的负索引访问,语法更简洁且可读性更强;3. array[array.length &#8211…

    2025年12月20日
    000
  • 最长公共子序列是什么?LCS的求解方法

    最长公共子序列(LCS)通过动态规划求解,利用dpi表示两字符串前i和前j个字符的LCS长度,当字符匹配时dpi=1+dpi-1,否则dpi=max(dpi-1, dpi),最终dpm即为所求长度,该方法避免重复计算,时间复杂度O(mn),适用于diff工具、生物信息学序列比对等场景,且可通过回溯d…

    2025年12月20日
    000
  • 如何理解递归?递归在数据结构中的应用

    递归通过函数调用自身将问题分解为更小的子问题,直至达到可直接求解的基本情况。核心包含两部分:基本情况(Base Case)确保递归终止,防止无限循环;递归步骤(Recursive Step)将原问题拆解为更小的同类子问题。以阶乘为例,n == 0 为基本情况,n * factorial(n-1) 为…

    2025年12月20日
    000
  • JS定时器怎么使用

    JS定时器通过setTimeout和setInterval实现,前者延迟执行一次,后者周期性重复执行,需用clearTimeout和clearInterval清除,避免内存泄漏和回调堆积。 JS定时器主要用于在指定的时间间隔后执行一段代码,或者重复执行一段代码。 setTimeout 和 setIn…

    2025年12月20日
    000
  • JavaScript事件循环中哪些操作会产生微任务

    微任务主要由promise回调、mutationobserver和queuemicrotask产生。1.promise的.then()、.catch()、.finally()会在状态变化后将回调放入微任务队列;2.mutationobserver用于监听dom变化,其回调作为微任务批量处理以优化性能…

    2025年12月20日 好文分享
    000
  • Promise的基本用法是什么

    Promise 是异步操作的解决方案,提供 Pending、Fulfilled、Rejected 三种状态,通过 resolve 和 reject 控制结果,使用 then、catch、finally 处理状态,支持链式调用,结合 async/await 可写同步风格代码,相比回调函数避免了回调地狱…

    2025年12月20日
    000
  • JS如何实现Promise?Promise的原理

    promise有三种状态:pending(进行中)、fulfilled(已成功)和rejected(已失败),状态只能从pending变为fulfilled或rejected,且一旦改变不可逆转;当调用resolve时,状态由pending转为fulfilled,调用reject时转为rejecte…

    2025年12月20日
    000
  • js 怎么深拷贝一个对象

    json.parse(json.stringify(obj)) 不能深拷贝一切,它会丢失或转换函数、undefined、symbol、regexp、date等类型,且不支持循环引用;2. 实现真正深拷贝的推荐方法是使用 structuredclone(),它能处理大多数内置对象和循环引用,但不支持函…

    2025年12月20日
    000
  • 什么是尾调用优化?尾调用的条件

    尾调用优化通过复用栈帧避免递归导致的栈溢出,其核心是函数最后一步调用另一函数且无额外操作,满足条件时编译器将当前栈帧直接替换为被调用函数的执行上下文,从而实现常数空间复杂度。 尾调用优化(Tail Call Optimization,简称TCO)是一种编译器或解释器层面的优化技术,它主要针对函数调用…

    2025年12月20日
    000
  • js如何判断两个对象原型相同

    判断两个javascript对象是否拥有相同原型的最直接且推荐方式是使用 object.getprototypeof(obj1) === object.getprototypeof(obj2);2. 该方法通过获取对象的内部[[prototype]]引用并进行严格相等比较,确保结果准确可靠;3. o…

    2025年12月20日 好文分享
    000
  • 什么是插值查找?插值查找的适用场景

    插值查找在数据分布均匀的有序数组中表现最佳,它通过按比例估算目标位置,平均时间复杂度为O(log log n),优于二分查找,但在分布不均时可能退化到O(n)。 插值查找是一种在有序数组中寻找特定元素的算法,它本质上是二分查找的一种优化版本。它通过估计目标值在数组中的大概位置来缩小搜索范围,而不是简…

    2025年12月20日
    000
  • 什么是混入模式?混入的实现方法

    混入模式是一种代码复用策略,通过将功能模块“混合”到类或对象中扩展其能力,避免继承链复杂化。它支持对象属性拷贝(如Object.assign)、函数式混入(高阶类)和装饰器等方式实现,适用于解决类爆炸、语言不支持多重继承及横切关注点等问题。相比继承的“is-a”和组合的“has-a”,混入体现“ad…

    2025年12月20日
    000
  • js 如何用pullAll移除数组中的多个值

    lodash的pullall方法可高效移除数组中多个特定值,它直接修改原数组,接受一个待操作数组和一个包含需移除值的数组作为参数,例如_.pullall(fruits, [‘apple’, ‘banana’])会从fruits中移除所有匹配项;与pul…

    2025年12月20日
    000

发表回复

登录后才能评论
关注微信