从PAM到BanditPAM：一文读懂k-Medoids算法家族的演进与高效实现

张

张建站

2026/5/20 21:30:38

10分钟阅读

从PAM到BanditPAM：一文读懂k-Medoids算法家族的演进与高效实现

从PAM到BanditPAMk-Medoids算法家族的效率革命与数学之美在数据科学领域聚类算法如同夜空中的星座为无标签数据提供结构化的导航。当k-Means以其简洁高效成为北极星般的存在时k-Medoids算法家族则如同北斗七星在特定场景下展现出更稳健的特性。本文将带您深入探索这个算法家族的进化历程——从1987年诞生的经典PAM算法到2020年提出的BanditPAM揭示数学家们如何用精妙的思路不断突破计算效率的边界。1. 核心思想为什么需要k-Medoidsk-Medoids与k-Means最本质的区别在于中心点的选择。k-Means使用簇内点的均值作为中心而k-Medoids则选择实际存在的样本点作为代表medoid。这种差异带来了三个关键优势鲁棒性对异常值不敏感因为中心点是实际存在的样本灵活性适用于任何距离度量不限于欧式空间可解释性中心点是真实数据便于业务理解数学上寻找最优medoid可表述为medoid(C) : argmin_{x_i ∈ C} Σ_{x_j ∈ C} d(x_i, x_j)其中d(·,·)是距离函数。整个优化目标是最小化所有点到其所属medoid的距离之和。提示在零售客户分群中medoid代表真实的典型客户而k-Means的中心可能是虚构的平均客户这就是为什么业务分析更偏好k-Medoids。2. 经典PAM优雅但昂贵的基准Partitioning Around Medoids (PAM)算法由Kaufman和Rousseeuw于1987年提出至今仍是评估其他变种的黄金标准。其核心分为两个阶段2.1 BUILD阶段贪婪初始化随机选择一个初始medoid迭代添加能使总距离下降最多的点重复直到选出k个medoids时间复杂度O(n²k)2.2 SWAP阶段精细化调整while not converged: for each medoid m_i: for each non-medoid x_o: 计算将m_i替换为x_o的成本变化执行最佳交换若有改进每次迭代复杂度O(k(n-k)²)尽管后续有FasterPAM等优化但本质上仍是O(n²)的计算量难以应对大数据场景。3. 采样革命CLARA与CLARANS3.1 CLARA小样本的智慧Clustering LARge Applications (CLARA)的核心策略是多次从全量数据中采样子集在每个子集上运行PAM选择表现最好的medoids组合优势将计算复杂度从数据量N降至样本量s局限medoid选择被限制在采样样本中3.2 CLARANS随机游走的艺术CLARANS将整个搜索过程建模为图节点k个medoids的集合边替换一个medoid的邻接关系算法流程随机选择一个节点medoids集合随机游走到相邻节点单点替换保留更优解直到局部最优多次重启避免陷入不良局部最优创新点在于不局限于固定样本通过随机搜索降低计算量4. 理论突破Trimed的几何剪枝2017年提出的Trimed算法带来了理论上的飞跃。它利用距离度量的三角不等式性质实现了智能剪枝对于候选点x_j其真实成本E(j)满足 E(j) ≥ |E(i) - d(x_i,x_j)|基于此算法可以维护当前最优解的上界对每个新点快速计算下界当下界超过上界时立即剪枝在低维数据下复杂度从O(n²)降至O(n√n)。下表对比了几种算法的理论性能算法时间复杂度适用场景PAMO(n²)小规模精确解CLARAO(s² × 采样次数)大规模近似CLARANSO(迭代次数×k(n-k))中等规模TrimedO(n√n)O(n²)低维数据5. BanditPAM多臂老虎机的启示2020年的BanditPAM将强化学习中的Multi-Armed Bandit思想引入聚类创造了O(nlogn)的突破。其核心创新在于5.1 问题重构将medoid选择转化为bandit问题每个候选点是老虎机拉杆回报是距离减少量目标是用最少尝试找出最佳arm5.2 UCB策略应用while 候选集不空: 1. 采样一批参考点 2. 为每个候选x更新 - 平均收益μ_x - 置信区间C_x 3. 淘汰满足μ_x - C_x min(μ_y C_y)的候选这种自适应采样使得计算量从精确计算的O(n²)降至O(nlogn)同时保证高概率正确性。6. 实战对比算法选择指南在实际项目中如何选择以下是根据不同场景的建议小数据集n1万优先使用PAM获取精确解考虑Trimed加速当维度20中等数据1万n100万BanditPAM是首选次选CLARANS当需要并行化时超大规模数据CLARA配合分布式计算两阶段策略CLARA初始化PAM微调关键参数设置经验CLARA采样量s402kCLARANS的maxneighbor0.01×nBanditPAM置信参数δ1/n7. 进阶话题非对称距离与并行化当距离度量d(x,y)≠d(y,x)时如客户转化率分析可采用双中心策略v_i argmin Σd(x_k, z_j) # 入中心 w_i argmin Σd(y_j, x_k) # 出中心组合距离定义为αd(x,v_i)(1-α)d(w_i,x)。对于超大规模数据可考虑PAMAE并行PAM与采样结合基于Spark的分布式实现GPU加速的距离矩阵计算在真实电商用户分群项目中BanditPAM将原本需要8小时的PAM计算缩短到15分钟同时保持了98%的medoid一致性。这种效率提升使得实时动态聚类成为可能比如根据用户实时行为调整推荐策略。

【Cheat Engine 7.5】逆向实战：攻克单双精度浮点数内存修改

1. 浮点数逆向修改的核心挑战第一次接触游戏逆向修改时，遇到浮点数就像撞上了一堵隐形的墙。明明按照整数扫描的方法操作，却总是找不到正确的内存地址。这其实是因为浮点数在内存中的存储方式与整数完全不同。单精度浮点数（float&#xff0…...

2026/5/20 21:30:16 阅读更多 →

对比直接采购与通过Taotoken使用大模型的成本体感

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度对比直接采购与通过Taotoken使用大模型的成本体感 1. 引言：个人开发者的模型使用成本考量对于独立开发者或小型团队而…...

2026/5/20 21:30:02 阅读更多 →

Captain AI助力Ozon商家避开红海、挖掘蓝海商机

选品是Ozon运营的核心，选对产品能让商家少走弯路、快速盈利，而选品失误则会导致库存积压、资金浪费、店铺权重下降，甚至直接淘汰出局。当前Ozon平台红海品类竞争激烈，新手盲目跟风选品、资深商家难以挖掘蓝海商机，成为…...

2026/5/20 21:30:02 阅读更多 →

app扫描wifi的时候需要打开GPS定位----否则扫不到

这是很奇怪的一个事情，wifi和定位有什么关系？但是就是要打开。...

2026/5/18 6:22:28 阅读更多 →

AMD Ryzen调试神器SMUDebugTool：免费开源工具让你的处理器性能飞起来！

AMD Ryzen调试神器SMUDebugTool：免费开源工具让你的处理器性能飞起来！ 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tab…...

2026/5/19 8:13:30 阅读更多 →

Midjourney抽象表现主义风格迁移全链路（从梵高笔触到AI熵增美学的底层逻辑解密）

更多请点击： https://intelliparadigm.com 第一章：Midjourney抽象表现主义风格迁移全链路（从梵高笔触到AI熵增美学的底层逻辑解密） 抽象表现主义并非仅关乎色彩与笔触的失控，而是神经感知系统在高维特征空间中对抗坍缩…...

2026/5/19 8:47:40 阅读更多 →

2026届毕业生推荐的AI科研方案实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 处在学术研究的起始阶段，开题报告的撰写常常令好多研究生以及青年学者觉得麻烦&…...

2026/5/18 10:49:06 阅读更多 →