解决经典多维尺度分析(CMDS)中距离矩阵包含无穷值(inf)的问题

解决经典多维尺度分析(cmds)中距离矩阵包含无穷值(inf)的问题

经典多维尺度分析(CMDS)是一种降维技术,旨在将高维数据投影到低维空间,同时尽可能保留数据点之间的距离关系。然而,在实际应用中,当输入数据为距离矩阵时,可能会遇到矩阵中包含无穷值(inf)的情况。这种情况通常发生在图中存在不连通的点时,这些点之间的距离被设置为无穷大。原始的CMDS算法在处理包含无穷值的距离矩阵时会报错,因为后续的计算(例如,计算中心矩阵和特征值分解)无法处理无穷值。

为了解决这个问题,我们需要在CMDS算法中添加一个预处理步骤,将距离矩阵中的无穷值替换为一个足够大的有限值。这样做可以保证后续的计算能够正常进行,并且不会对最终的降维结果产生显著的影响。

下面是修改后的CMDS算法的Python代码:

import numpy as npfrom sklearn.metrics import euclidean_distancesdef cmds(X, n_dim, input_type='raw'):    """    Classical(linear) multidimensional scaling (MDS)    Parameters    ----------    X: (d, n) array or (n,n) array        input data. The data are placed in column-major order.         That is, samples are placed in the matrix (X) as column vectors        d: dimension of points        n: number of points    n_dim: dimension of target space    input_type: it indicates whether data are raw or distance        - raw: raw data. (n,d) array.         - distance: precomputed distances between the data. (n,n) array.    Returns    -------    Y: (n_dim, n) array. projected embeddings.    evals: (n_dim) eigen values    evecs: corresponding eigen vectors in column vectors    """    if input_type == 'distance':        D = X    elif input_type == 'raw':        Xt = X.T        D = euclidean_distances(Xt,Xt)    # Check for inf values in the distance matrix    if np.any(np.isinf(D)):        # Replace inf values with a large but finite value        D[np.isinf(D)] = np.finfo(D.dtype).max    # Centering matrix    H = np.eye(D.shape[0]) - np.ones(D.shape) / D.shape[0]    # Double-center the distance matrix    B = -0.5 * H @ D**2 @ H    # Eigen decomposition    evals, evecs = np.linalg.eigh(B)    # Sorting eigenvalues and eigenvectors in decreasing order    sort_indices = np.argsort(evals)[::-1]    evals = evals[sort_indices]    evecs = evecs[:, sort_indices]    # Selecting top n_dim eigenvectors    evecs = evecs[:, :n_dim]    # Projecting data to the new space    Y = np.sqrt(np.diag(evals[:n_dim])) @ evecs.T    return Y, evals, evecs

代码解释:

导入必要的库: numpy 用于数值计算,sklearn.metrics.euclidean_distances 用于计算欧氏距离(如果输入类型为原始数据)。cmds 函数: 该函数实现了CMDS算法。输入参数:X: 输入数据,可以是原始数据矩阵 (d, n) 或距离矩阵 (n, n)。n_dim: 目标空间的维度。input_type: 指示输入数据类型,可以是 ‘raw’(原始数据)或 ‘distance’(距离矩阵)。数据预处理:如果 input_type 为 ‘raw’,则计算原始数据的欧氏距离矩阵。关键修改: 检查距离矩阵 D 中是否存在无穷值 (np.isinf(D))。如果存在,则将这些无穷值替换为当前数据类型能表示的最大有限值 (np.finfo(D.dtype).max)。 np.finfo(D.dtype).max 会根据 D 的数据类型(例如 float64)返回该类型可以表示的最大值。计算中心矩阵: H = np.eye(D.shape[0]) – np.ones(D.shape) / D.shape[0]。双重中心化距离矩阵: B = -0.5 * H @ D**2 @ H。特征值分解: evals, evecs = np.linalg.eigh(B。排序特征值和特征向量: 按照特征值降序排列选择前 n_dim 个特征向量: 用于投影数据。投影数据到新空间: Y = np.sqrt(np.diag(evals[:n_dim])) @ evecs.T。返回结果: 投影后的嵌入 Y,特征值 evals,和特征向量 evecs。

使用示例:

import numpy as np# 创建一个包含无穷值的距离矩阵D = np.array([[0, 1, np.inf],              [1, 0, 2],              [np.inf, 2, 0]])# 设置目标维度n_dim = 2# 使用修改后的CMDS算法进行降维Y, evals, evecs = cmds(D, n_dim, input_type='distance')# 打印结果print("Projected embeddings:n", Y)print("Eigenvalues:n", evals)print("Eigenvectors:n", evecs)

注意事项:

将无穷值替换为一个足够大的有限值可能会对降维结果产生一定的影响,尤其是在图中存在大量不连通的点时。因此,在实际应用中,需要根据具体情况选择合适的替换值。一种更高级的策略是使用图论方法来处理不连通的图,例如,将不连通的图分解成多个连通的子图,然后分别对每个子图进行降维。该代码使用了numpy和scikit-learn库。请确保已经安装了这些库。

总结:

通过在CMDS算法中添加一个预处理步骤,将距离矩阵中的无穷值替换为一个足够大的有限值,可以有效地解决CMDS算法在处理包含无穷值的距离矩阵时遇到的问题。这种方法简单易行,并且可以保证算法的正常运行。在实际应用中,需要根据具体情况选择合适的替换值,以获得最佳的降维效果。

以上就是解决经典多维尺度分析(CMDS)中距离矩阵包含无穷值(inf)的问题的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1372199.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 12:07:47
下一篇 2025年12月14日 12:08:02

相关推荐

  • 探索系统级编程语言的本质

    系统级编程语言旨在开发底层软件和编程工具,而非面向终端用户的业务应用。它们通常用于操作系统内核、设备驱动、编译器等领域。这类语言常具备直接编译为机器码、允许低级内存访问和灵活的类型操作等特性,使得开发者能更精细地控制硬件资源,如C、C++和Go等。与此相对的是Java、C#等主要用于业务应用开发的语…

    2025年12月15日
    000
  • 使用SWIG将C/C++ GUI框架移植到Go:可行性、挑战与实践考量

    使用SWIG将C/C++ GUI框架(如GTK)移植到Go语言在技术上是可行的,但面临多重挑战。当前SWIG对Go的支持有限,且直接生成的接口会暴露底层C/C++的复杂细节。为了实现Go语言的惯用行为,尤其是在垃圾回收和接口设计方面,必须在SWIG生成的绑定之上构建一个额外的Go层。这使得移植工作远…

    2025年12月15日
    000
  • 怎样用Golang构建可观测性平台 集成Metrics/Tracing/Logging方案

    要构建一个基于golang的可观测性平台,核心在于整合metrics、tracing和logging三大支柱。1. 指标采集与暴露:使用prometheus go客户端库定义并暴露http请求总量、延迟等指标,通过/metrics端点供prometheus抓取;2. 分布式追踪实现:采用opente…

    2025年12月15日 好文分享
    000
  • Golang中的装饰器模式如何实现 解析函数包装与中间件技术

    装饰器模式是一种设计模式,允许在不修改原有对象的前提下动态添加新功能,在go语言中通过函数包装和中间件技术实现。1. 函数包装是核心方式,利用go的函数作为一等公民特性,将函数作为参数或返回值进行封装,例如通过withlogging函数为sayhello添加日志功能而不改动其内部逻辑;2. 中间件技…

    2025年12月15日 好文分享
    000
  • 深入理解“系统级语言”:定义、特性与应用场景

    系统级语言(Systems Language)是一种主要用于开发底层软件和工具的编程语言,如操作系统内核、设备驱动、编译器等。与面向特定业务领域的应用编程语言不同,系统级语言更侧重于计算机领域本身的编程,常具备直接编译为原生代码、灵活的类型系统和手动内存管理等特性。Go语言的出现背景也提及了对新一代…

    2025年12月15日
    000
  • 系统编程语言:核心概念与特性解析

    系统编程语言是专为开发底层软件和工具而设计的语言,例如操作系统内核、设备驱动、编译器等。它们通常具备直接操作硬件、高效管理内存以及生成原生二进制代码的能力,与面向业务应用开发的语言形成鲜明对比,旨在为计算领域本身提供强大的编程工具。 什么是系统编程语言? “系统编程语言”并非一个严格的学术定义,而更…

    2025年12月15日
    000
  • 为什么Golang成为云原生Wasm运行时首选 对比wasmtime与wasmer性能

    golang成为云原生wasm运行时首选的原因有三:1.其并发模型(goroutines和channels)适合高并发场景,结合wasm的轻量级特性可构建高性能应用;2.golang标准库和第三方库丰富,便于快速开发wasm应用;3.静态编译特性使wasm应用可打包为独立可执行文件,易于部署。在wa…

    2025年12月15日 好文分享
    000
  • Golang在DevOps流水线中的测试自动化 分享Mock框架与集成测试方案

    golang在测试自动化中的独特优势包括编译速度快、执行效率高、并发模型优秀、语法简洁、标准库强大、静态类型安全和跨平台能力。这些特性使其在devops流水线中能高效支撑单元测试、集成测试和mocking,加速反馈循环并提升测试稳定性。1. go的并发模型(goroutines和channels)让…

    2025年12月15日 好文分享
    000
  • Golang如何支持量子计算模拟 安装QEMU和量子算法库环境

    golang可通过第三方工具和接口支持量子计算模拟。1.可尝试使用定制版qemu进行量子模拟,但需下载源码、编译启用插件并配置虚拟机环境;2.更主流方式是用go调用量子云服务api,如ibm、rigetti等平台,通过http请求上传电路数据并处理结果;3.可安装实验性go量子库如qcgpu-go,…

    2025年12月15日 好文分享
    000
  • 使用 SWIG 将 GUI 函数移植到 Go 的可能性

    SWIG (Simplified Wrapper and Interface Generator) 是一种软件开发工具,用于连接用 C 和 C++ 等语言编写的程序与各种高级编程语言,如 Python、Java、Go 等。 理论上,使用 SWIG 将 GTK 等 GUI 框架移植到 Go 是可行的。…

    2025年12月15日
    000
  • 使用SWIG将C/C++ GUI库封装到Go语言:技术可行性与实践考量

    本文探讨了使用SWIG将C/C++ GUI框架(如GTK)移植到Go语言的技术可行性。尽管理论上可行,但SWIG对Go的支持目前仍有限。核心挑战在于,直接的SWIG封装会暴露底层细节,生成的Go接口不够Go语言化,尤其是在垃圾回收和接口处理方面。因此,为了提供符合Go语言习惯的API,需要在SWIG…

    2025年12月15日
    000
  • Golang环境如何集成机器学习库 配置Gorgonia和GoML支持

    golang集成机器学习能力可通过gorgonia和goml实现。1. gorgonia适合构建计算图和深度学习模型,使用go get安装后可编写线性回归等模型并进行自动微分和张量运算;2. goml专注于传统机器学习算法,安装后可快速实现线性回归、决策树等功能;3. 注意依赖版本冲突、性能考量及生…

    2025年12月15日 好文分享
    000
  • Go语言中集成C/C++信号处理库的策略

    本文探讨了在Go语言中进行音频信号处理时,如何克服原生库缺失的挑战。针对Go语言缺乏成熟的信号处理包的现状,文章详细介绍了两种主要的解决方案:利用SWIG#%#$#%@%@%$#%$#%#%#$%@_20dc++e2c6fa909a5cd62526615fe2788a集成C++库,以及通过cgo手动…

    2025年12月15日
    000
  • Go语言中通过字符串名称获取reflect.Type的策略与实践

    在Go语言中,直接通过字符串名称在运行时查找并获取reflect.Type并非标准功能,这主要受限于Go的编译和链接机制。本文将探讨为何此操作不直接可行,并提供一种常用且实用的解决方案:通过预先注册类型映射来模拟实现此功能,同时提供示例代码和注意事项,帮助开发者在特定场景下有效管理和使用类型信息。 …

    2025年12月15日
    000
  • Golang在DevOps流水线中的角色 分析编译速度与部署效率优势

    golang在devops流水线中广泛应用,主要因其能高效解决实际问题。1. 快速编译:go几乎“秒级”完成编译,显著减少ci流程中的构建等待时间;2. 静态类型与简洁语法设计提升编译效率;3. go modules优化依赖管理,减少网络请求;4. 单文件输出简化链接过程,加快流水线响应;5. 静态…

    2025年12月15日 好文分享
    000
  • Go 语言中的 Map(映射):关联数组的实现

    Go 语言中的 Map 是一种强大的数据结构,它提供了键值对存储的功能,类似于 Python 中的字典或关联数组。本文将深入探讨 Go Map 的使用方法、特性和注意事项,帮助你理解如何在 Go 语言中高效地使用 Map 来解决实际问题。 Map 的基本概念 Go 语言中的 map 是一种内置的哈希…

    2025年12月15日
    000
  • Go语言中的关联数组:Map的全面指南

    Go语言中用于实现关联数组功能的map数据结构,是一种键值对存储结构,类似于Python中的字典。本文将深入探讨map的初始化、元素访问、迭代、键值存在性检查、删除操作以及如何使用空接口存储任意类型的数据,并提供代码示例和注意事项。 Map 的定义与初始化 Go语言中的 map 是一种哈希表,用于存…

    2025年12月15日
    000
  • Go语言中的关联数组:深度解析Map类型及其应用

    Go语言中的map类型提供了强大的关联数组(哈希表)功能,类似于Python的字典。本文详细介绍了Go map的声明、初始化、元素的增删改查、遍历,以及如何处理不同类型的值和键。通过示例代码,您将掌握map的实际应用技巧,包括键存在性检查、类型断言和优化策略,助您高效管理键值对数据。 1. Map类…

    2025年12月15日
    000
  • Go 语言中的 Panic/Recover 机制与 Try/Catch 的差异

    本文旨在深入探讨 Go 语言中 panic 和 recover 机制,并将其与传统语言(如 Java、Python 和 C#)中的 try/catch 异常处理进行对比。通过分析其作用域、设计理念以及推荐使用方式,帮助开发者更好地理解和运用 Go 语言的错误处理机制,避免误用,提升代码的健壮性和可维…

    2025年12月15日
    000
  • Go语言中的Panic/Recover机制与Try/Catch的对比

    Go语言的错误处理方式与其他主流编程语言存在显著差异,其中最核心的区别在于panic/recover机制与try/catch机制。理解这些差异对于编写健壮且易于维护的Go程序至关重要。 Panic/Recover 的函数作用域 在Go语言中,panic用于表示程序遇到了无法继续执行的严重错误。与许多…

    2025年12月15日
    000

发表回复

登录后才能评论
关注微信