九种聚类算法，探索无监督机器学习

程序猿 • 2025年11月8日 00:41:42 • 用户投稿 • 阅读 7

今天，我想和大家分享一下机器学习中常见的无监督学习聚类方法

在无监督学习中，我们的数据并不带有任何标签，因此在无监督学习中要做的就是将这一系列无标签的数据输入到算法中，然后让算法找到一些隐含在数据中的结构，通过下图中的数据，可以找到的一个结构就是数据集中的点可以分成两组分开的点集（簇），能够圈出这些簇（cluster）的算法，就叫做聚类算法（clustering algorithm）。

九歌

九歌–人工智能诗歌写作系统

93 查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

聚类算法的应用

市场分割：将数据库中客户的信息根据市场进行不同的分组，从而实现对其分别销售或者根据不同的市场进行服务改进。社交网络分析：通过邮件最频繁联系的人及其最频繁联系的人来找到一个关系密切的群体。组织计算机集群：在数据中心里，计算机集群经常一起协同工作，可以用它来重新组织资源、重新布局网络、优化数据中心以及通信数据。了解银河系的构成：利用这些信息来了解一些天文学的知识。

聚类分析的目标是将观测值划分为组（“簇”），以便分配到同一簇的观测值之间的成对差异往往小于不同簇中的观测值之间的差异。聚类算法分为三种不同的类型：组合算法、混合建模和模式搜索。

常见的几种聚类算法有：

K-Means ClusteringHierarchical ClusteringAgglomerative ClusteringAffinity PropagationMean Shift ClusteringBisecting K-MeansDBSCANOPTICSBIRCH

K-means

K-means 算法是目前最流行的聚类方法之一。

K-means 是由贝尔实验室的 Stuart Lloyd 在 1957 年提出来的，最开始是用于脉冲编码调制，直到 1982 年才将该算法对外公布。1965 年，Edward W.Forgy 发布了相同的算法，因此 K-Means 有时被称为 Lloyd-Forgy。

聚类问题通常需要处理一组未经标记的数据集，并且需要一个算法来自动将这些数据分成有紧密关系的子集或簇。目前，最流行和广泛应用的聚类算法是K均值算法

直观理解 K 均值算法：

假如有一个无标签的数据集（上图左），并且我们想要将其分为两个簇，现在执行 K 均值算法，具体操作如下：

第一步，随机生成两个点（因为想要将数据聚成两类）（上图右），这两个点叫做聚类中心（cluster centroids）。第二步，进行 K 均值算法的内循环。K 均值算法是一个迭代算法，它会做两件事情，第一个是簇分配（cluster assignment），第二个是移动聚类中心（move centroid）。

内循环的第一步是要进行簇分配，也就是说，遍历每一个样本，再根据每一个点到聚类中心距离的远近将其分配给不同的聚类中心（离谁近分配给谁），对于本例而言，就是遍历数据集，将每个点染成红色或蓝色。

内循环的第二步是将聚类中心移动，使得红色和蓝色的聚类中心分别移动到它们所属点的平均位置

将所有的点根据与新的聚类中心距离的远近进行新的簇分配，并且不断循环此过程，直到聚类中心的位置不再随着迭代而改变，同时点的颜色也不再发生改变。这时可以说K均值已经完成了聚合。这个算法在找出数据中的两个簇方面表现相当出色

K-Means算法的优点：

简单易懂，计算速度较快，适用于大规模数据集。

缺点：

例如对于非球形簇的处理能力较差，容易受到初始簇心的选择影响，需要预先指定簇的数量K等。此外，当数据点之间存在噪声或者离群点时，K-Means算法可能会将它们分配到错误的簇中。

Hierarchical Clustering

层次聚类是按照某个层次对样本集进行聚类的操作。这里的层次指的实际上是某种距离的定义

聚类的最终目的是减少分类的数量，因此在行为上类似于从叶子节点向根节点逐步靠近的树状图过程，这种行为也被称为“自下而上”

更通俗的，层次聚类是将初始化的多个类簇看做树节点，每一步迭代，都是将两两相近的类簇合并成一个新的大类簇，如此反复，直至最终只剩一个类簇（根节点）。

层次聚类策略分为两种基本范式：聚集型(自下而上)和分裂型(自上而下)。

与层次聚类相反的是分裂聚类，也称为DIANA(Divise Analysis)，其行为过程为“自上而下”

K-means算法的结果取决于选择搜索的聚类数量和起始配置的分配。而相反，层次聚类方法则不需要这样的规范。相反，它们要求用户根据两组观察值之间的成对差异性来指定（不相交）观察组之间的差异性度量。顾名思义，层次聚类方法产生一个层次结构表示，其中每个层次的集群都是通过合并下一个较低级别的集群而创建的。在最低级别，每个集群包含一个观察值。在最高级别，只有一个集群包含所有的数据

优点：

距离和规则的相似度容易定义，限制少；不需要预先制定聚类数；可以发现类的层次关系；可以聚类成其它形状。

缺点：

计算复杂度太高；奇异值也能产生很大影响；算法很可能聚类成链状。

Agglomerative Clustering

重写后的内容为：凝聚层次聚类（Agglomerative Clustering）是一种自底向上的聚类算法，它将每个数据点看作一个初始簇，并逐步合并它们以形成更大的簇，直到满足停止条件。在该算法中，每个数据点最初被视为一个单独的簇，然后逐步合并簇，直到所有数据点合并为一个大簇

优点：

适用于不同形状和大小的簇，且不需要事先指定聚类数目。该算法也可以输出聚类层次结构，便于分析和可视化。

缺点：

计算复杂度较高，尤其是在处理大规模数据集时，需要消耗大量的计算资源和存储空间。该算法对初始簇的选择也比较敏感，可能会导致不同的聚类结果。

Affinity Propagation

修改后的内容：亲和传播算法（AP）通常被翻译为亲和力传播算法或者邻近传播算法

Affinity Propagation 是一种基于图论的聚类算法，旨在识别数据中的”exemplars”(代表点)和”clusters”(簇)。与 K-Means 等传统聚类算法不同，Affinity Propagation 不需要事先指定聚类数目，也不需要随机初始化簇心，而是通过计算数据点之间的相似性得出最终的聚类结果。

优点：

不需要制定最终聚类族的个数已有的数据点作为最终的聚类中心，而不是新生成一个簇中心。模型对数据的初始值不敏感。对初始相似度矩阵数据的对称性没有要求。相比与 k-centers 聚类方法，其结果的平方差误差较小。

缺点：

该算法的计算复杂度较高，需要大量的存储空间和计算资源；对于噪声点和离群点的处理能力较弱。

Mean Shift Clustering

平移聚类是一种基于密度的非参数聚类算法，其基本思想是通过寻找数据点密度最大的位置（称为“局部最大值”或“高峰”），来识别数据中的群集。该算法的核心在于对每个数据点进行局部密度估计，并将密度估计结果用于计算数据点移动的方向和距离

优点：

不需要指定簇的数目，且对于形状复杂的簇也有很好的效果。算法还能够有效地处理噪声数据。

缺点：

计算复杂度较高，尤其是在处理大规模数据集时，需要消耗大量的计算资源和存储空间；该算法还对初始参数的选择比较敏感，需要进行参数调整和优化。

Bisecting K-Means

Bisecting K-Means 是一种基于 K-Means 算法的层次聚类算法，其基本思想是将所有数据点划分为一个簇，然后将该簇分成两个子簇，并对每个子簇分别应用 K-Means 算法，重复执行这个过程，直到达到预定的聚类数目为止。

算法首先将所有数据点视为一个初始簇，然后对该簇应用K-Means算法，将该簇分成两个子簇，并计算每个子簇的误差平方和（SSE）。然后，选择误差平方和最大的子簇，并将其再次分成两个子簇，重复执行这个过程，直到达到预定的聚类数目为止。

优点：

具有较高的准确性和稳定性，能够有效地处理大规模数据集，并且不需要指定初始聚类数目。该算法还能够输出聚类层次结构，便于分析和可视化。

缺点：

计算复杂度较高，尤其是在处理大规模数据集时，需要消耗大量的计算资源和存储空间。此外该算法对初始簇的选择也比较敏感，可能会导致不同的聚类结果。

DBSCAN

基于密度的空间聚类算法DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种典型的具有噪声的聚类方法

密度的方法具有不依赖于距离的特点，而是依赖于密度。因此，它能够克服基于距离的算法只能发现“球形”聚簇的缺点

DBSCAN算法的核心思想是：对于一个给定的数据点，如果它的密度达到一定的阈值，则它属于一个簇中；否则，它被视为噪声点。

优点：

这类算法能克服基于距离的算法只能发现“类圆形”(凸)的聚类的缺点；可发现任意形状的聚类，且对噪声数据不敏感；不需要指定类的数目 cluster；算法中只有两个参数，扫描半径 (eps)和最小包含点数(min_samples)。

缺点：

计算复杂度，不进行任何优化时，算法的时间复杂度是O(N^{2})，通常可利用R-tree，k-d tree, ball；tree索引来加速计算，将算法的时间复杂度降为O(Nlog(N))；受eps影响较大。在类中的数据分布密度不均匀时，eps较小时，密度小的cluster会被划分成多个性质相似的cluster；eps较大时，会使得距离较近且密度较大的cluster被合并成一个cluster。在高维数据时，因为维数灾难问题，eps的选取比较困难；依赖距离公式的选取，由于维度灾害，距离的度量标准不重要；不适合数据集集中密度差异很大的，因为eps和metric选取很困难。

OPTICS

OPTICS（Ordering Points To Identify the Clustering Structure）是一种基于密度的聚类算法，它能够自动确定簇的数量，同时也能够发现任意形状的簇，并且能够处理噪声数据

OPTICS 算法的核心思想是根据给定数据点计算其与其他点之间的距离，以确定其在密度上的可达性，并构建一个基于密度的距离图。然后，通过扫描该距离图，自动确定簇的数量，并对每个簇进行划分

优点：

能够自动确定簇的数量，并能够处理任意形状的簇，并能够有效地处理噪声数据。该算法还能够输出聚类层次结构，便于分析和可视化。

缺点：

计算复杂度较高，尤其是在处理大规模数据集时，需要消耗大量的计算资源和存储空间。该算法对于密度差异较大的数据集，可能会导致聚类效果不佳。

BIRCH

BIRCH（平衡迭代降低和层次聚类）是一种基于层次聚类的聚类算法，它能够高效地处理大规模数据集，并且对于任何形状的簇都能够取得良好的效果

BIRCH算法的核心思想是：透過對數據集進行分層聚類，逐步減小數據規模，最終得到簇結構。BIRCH算法採用一種類似於B樹的結構，稱為CF樹，它可以快速地插入和刪除子簇，並且可以自動平衡，從而確保簇的質量和效率

优点：

能够快速处理大规模数据集，并且对于任意形状的簇都有较好的效果。该算法对于噪声数据和离群点也有较好的容错性。

缺点：

对于密度差异较大的数据集，可能会导致聚类效果不佳；对于高维数据集的效果也不如其他算法。

以上就是九种聚类算法，探索无监督机器学习的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/454163.html

无监督学习机器学习

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Win11输入法切换卡顿怎么办？多语言输入优化方案

上一篇 2025年11月8日 00:41:41

如何为VSCode配置一个自定义的类型定义提供程序？

下一篇 2025年11月8日 00:41:44

用户投稿

使用C++构建机器学习模型：初学者入门指南

使用 c++++ 构建机器学习模型的初学者指南。首先安装编译器和线性代数库，创建数据集，建立线性回归模型，优化模型权重以训练模型，然后使用模型预测目标值。实战案例演示了使用房屋面积和价格数据集预测房屋价格。使用 C++ 构建机器学习模型：初学者入门指南简介利用机器学习构建强大的预测模型对于解决…

程序猿
2026年5月10日
0000
用户投稿

使用C++实现机器学习算法：常见挑战及解决方案

c++++ 中机器学习算法面临的常见挑战包括内存管理、多线程、性能优化和可维护性。解决方案包括使用智能指针、现代线程库、simd 指令和第三方库，并遵循代码风格指南和使用自动化工具。实践案例展示了如何利用 eigen 库实现线性回归算法，有效地管理内存和使用高性能矩阵操作。 C++ 机器学习算法：常…

程序猿
2026年5月10日
0000
用户投稿

HTML数据如何用于机器学习 HTML数据预处理的特征工程方法

首先解析HTML提取文本与元信息，再从结构、文本、样式三方面构建特征：1. 用BeautifulSoup等工具解析HTML，提取标题、正文、链接及属性；2. 统计标签频率、DOM深度、路径模式等结构特征；3. 清洗文本并采用TF-IDF或词嵌入向量化；4. 提取class、id、样式、脚本等交互与视…

程序猿
2025年12月23日
0000
用户投稿

标题标签：你想知道的一切

html，用于构建网页的语言，严重依赖于标头标签。它们用于排列和组织网页内容，使其更易于阅读和理解。标题标签范围从 h1 到 h6。 h1 是最重要的标题标签，而 h6 是最不重要的。这些标题标签有助于组织页面的内容，使其更易于阅读和导航。它们还用于告知用户和搜索引擎有关页面内容的信息，这对于 se…

程序猿
2025年12月21日
0000
用户投稿

如何用机器学习算法优化前端用户交互体验？

通过机器学习分析用户行为数据，可实现前端交互的个性化与自适应优化。1. 利用LSTM、XGBoost等模型预测用户操作，实现智能补全与实时推荐；2. 借助强化学习与聚类算法动态调整UI布局，提升操作效率；3. 使用孤立森林等无监督方法检测异常交互，优化流程设计；4. 通过时序模型预测页面跳转，结合S…

程序猿
2025年12月20日
0000
用户投稿

C++机器学习入门线性回归实现示例

首先实现线性回归模型，通过梯度下降最小化均方误差，代码包含数据准备、训练和预测，最终参数接近真实关系，适用于高性能场景。想用C++实现线性回归，其实并不复杂。虽然Python在机器学习领域更常见，但C++凭借其高性能，在对效率要求高的场景中非常适用。下面是一个简单的线性回归实现示例，帮助你入门C+…

程序猿
2025年12月18日
0000
C++中如何构建机器学习框架_张量运算实现

要构建高效的c++++机器学习框架张量运算模块，需遵循以下核心步骤：1. 设计支持泛型的tensor类，包含内存管理与基础接口；2. 实现运算符重载以简化加减乘除操作；3. 采用simd、多线程及缓存优化提升性能；4. 使用openmp实现并行化加法；5. 利用strassen或winograd算法…

程序猿
2025年12月18日 • 用户投稿
1000
怎样在C++中实现决策树_机器学习算法实现

决策树在c++++中的实现核心在于通过递归构建树节点，使用“如果…那么…”逻辑进行数据分裂，最终实现分类或预测。1. 数据结构方面，定义包含特征索引、分裂阈值、左右子节点、叶子节点值及是否为叶子的treenode结构；2. 分裂准则包括信息增益（id3）、信息增益率（c4.5）和基尼指数（cart）…

程序猿
2025年12月18日 • 用户投稿
0000
用户投稿

C++ lambda 表达式与闭包在机器学习中的应用

在机器学习中，lambda 表达式和闭包用于数据预处理、特征工程、模型构建和闭包。具体应用包括：数据规范化等数据预处理操作。创建新特征或转换现有特征。向模型添加自定义的损失函数、激活函数等组件。利用闭包访问外部变量，用于计算特定特征的平均值等目的。 C++ Lambda 表达式与闭包在机器学习中的应…

程序猿
2025年12月18日
0000
用户投稿

如何将C++框架与机器学习集成

如何将 c++++ 框架与机器学习集成？选择 c++ 框架： eigen、armadillo、blitz++集成机器学习库： tensorflow、pytorch、scikit-learn实战案例：使用 eigen 和 tensorflow 构建线性回归模型如何将 C++ 框架与机器学习集成引言…

程序猿
2025年12月18日
5000
用户投稿

如何将 C++ 框架与机器学习技术集成？

集成 c++++ 框架和机器学习技术，以提高应用程序性能和功能：准备数据和模型：收集数据，训练模型并将其保存为 tensorflow lite 格式。集成 tensorflow lite：在 c++ 项目中包含 tensorflow lite 头文件和库。加载模型：从文件加载 tensorflow …

程序猿
2025年12月18日
0000
用户投稿

如何将 C++ 框架与机器学习算法集成？

在 c++++ 框架中集成机器学习算法的步骤： 1. 选择合适的 c++ 框架，如 armadillo 或 tensorflow。 2. 获取机器学习算法库，如 scikit-learn 或 xgboost。 3. 通过构建工具将算法库集成到框架中。 4. 从算法库加载算法。 5. 利用框架工具训练…

程序猿
2025年12月18日
3000
用户投稿

如何将C++框架与机器学习库集成？

将c++++框架与机器学习库集成可提供强大的开发基础。步骤如下：选择c++框架（如qt、mfc、boost）选择机器学习库（如tensorflow、pytorch、scikit-learn）创建c++项目集成机器学习库（按照库说明）使用框架和库编写c++代码编译、运行并测试应用程序如何将 C++ …

程序猿
2025年12月18日
0000
用户投稿

C++框架在机器学习领域的应用

c++++框架在机器学习中得到广泛应用，提供预构建组件和工具。流行框架包括：tensorflow c++ api：google开发，提供广泛的算子、层和架构。pytorch：facebook开发，支持动态图计算和易用的python界面。c++ builder：embarcadero开发，集成开发环境…

程序猿
2025年12月18日
0000
用户投稿

支持人工智能和机器学习的C++框架

c++++ 中的人工智能和机器学习框架包括：深度学习框架：tensorflow：谷歌开发，用于大型神经网络pytorch：facebook 开发，用于创建灵活的可读模型机器学习库：armadillo：高性能线性代数和统计计算nlp 工具包：natural language toolkit (nltk…

程序猿
2025年12月18日
0000
用户投稿

如何将C++框架与机器学习工具集成？

如何将 c++++ 框架与机器学习工具集成？设置 tensorflow 和 boost。编写接口，将 tensorflow 对象公开给 boost 代码。使用 boost.python 导出接口，允许从 python 代码调用 tensorflow 方法。在实战案例中，集成 boost c++ 扩展…

程序猿
2025年12月18日
0000
用户投稿

C++框架与机器学习和人工智能的契合度？

c++++框架与机器学习和人工智能高度契合，提供高性能、效率和灵活性。tensorflow：一个开源端到端ml/ai框架，提供构建、训练和部署ml模型的工具，如计算图。pytorch：一个基于python的框架，支持动态计算图。xgboost：专注于梯度增强树的框架。cntk：一个微软开发的框架，用…

程序猿
2025年12月18日
0000
用户投稿

开始使用 C++ 机器学习框架需要具备哪些技能？

掌握 c++++ 机器学习框架需要以下核心技能：1. c++ 基础；2. 线性代数和统计的数学基础；3. 机器学习算法和模型；4. 选择并熟悉 c++ ml 框架。例如，使用 eigen 计算协方差矩阵：它创建了一个数据矩阵，计算协方差矩阵，并将其打印到控制台。踏入 C++ 机器学习框架之旅的必备…

程序猿
2025年12月18日
0000
用户投稿

C++ 框架在人工智能和机器学习中的应用有什么前景？

c++++ 框架在 ai/ml 中前景广阔，由于其高性能、内存效率和跨平台兼容性。流行的 c++ 框架包括 tensorflow lite、caffe2 和 scikit-learn。在实战案例中，tensorflow lite 用于图像分类，加载模型、创建解释器、预处理图像、执行推理和获取结果。 …

程序猿
2025年12月18日
1000
用户投稿

哪种C++框架最适合用于机器学习和数据科学？

对于机器学习和数据科学，最流行的 c++++ 框架包括：tensorflow：用于构建和训练机器学习模型pytorch：用于原型化和调试新模型xgboost：用于基于树的机器学习算法opencv：用于计算机视觉任务探索用于机器学习和数据科学的顶级 C++ 框架 C++ 以其速度、效率和对复杂项目的…

程序猿
2025年12月18日
0000