K-Means聚类实战：用Java处理真实数据集（鸢尾花/客户分群）

张

张建站

2026/4/30 12:33:14

10分钟阅读

K-Means聚类实战用Java处理真实数据集鸢尾花/客户分群当我们需要从海量数据中发现隐藏的模式时聚类分析就像一盏探照灯照亮数据的内在结构。作为最经典的聚类算法之一K-Means以其简洁高效著称特别适合处理数值型数据集。本文将带您用Java实现一个完整的K-Means解决方案从数据加载到结果分析手把手教您将算法应用于实际业务场景。1. 环境准备与数据加载1.1 项目依赖配置现代Java项目通常使用Maven或Gradle管理依赖。对于数据处理任务我们推荐添加以下依赖到pom.xmldependencies dependency groupIdorg.apache.commons/groupId artifactIdcommons-csv/artifactId version1.9.0/version /dependency dependency groupIdorg.knowm.xchart/groupId artifactIdxchart/artifactId version3.8.2/version /dependency /dependenciescommons-csv用于高效读取CSV格式的数据文件xchart则提供了简单易用的数据可视化功能。1.2 数据加载实战以经典的鸢尾花数据集为例我们首先需要将其加载到内存中。创建一个DataLoader类专门处理数据加载public class DataLoader { public static Listdouble[] loadCSV(String filePath, boolean hasHeader) { Listdouble[] data new ArrayList(); try (Reader reader Files.newBufferedReader(Paths.get(filePath)); CSVParser csvParser new CSVParser(reader, CSVFormat.DEFAULT)) { boolean firstLine hasHeader; for (CSVRecord record : csvParser) { if (firstLine) { firstLine false; continue; } double[] features new double[record.size() - 1]; // 假设最后一列是标签 for (int i 0; i features.length; i) { features[i] Double.parseDouble(record.get(i)); } data.add(features); } } catch (IOException e) { System.err.println(Error loading CSV file: e.getMessage()); } return data; } }提示实际项目中应考虑添加数据校验逻辑确保数据质量。对于包含非数值特征的数据集需要先进行特征编码。2. K-Means核心算法实现2.1 算法参数初始化K-Means需要预先确定聚类数量K我们可以通过以下方式初始化public class KMeans { private int k; // 聚类数量 private int maxIterations; // 最大迭代次数 private Listdouble[] centroids; // 聚类中心 private ListListdouble[] clusters; // 聚类结果 public KMeans(int k, int maxIterations) { if (k 0) throw new IllegalArgumentException(K must be positive); this.k k; this.maxIterations maxIterations; } // 随机初始化聚类中心 private void initCentroids(Listdouble[] data) { centroids new ArrayList(); Random random new Random(); // 使用K-Means改进初始化 centroids.add(data.get(random.nextInt(data.size()))); for (int i 1; i k; i) { double[] distances new double[data.size()]; double sum 0; for (int j 0; j data.size(); j) { double minDist Double.MAX_VALUE; for (double[] centroid : centroids) { double dist euclideanDistance(data.get(j), centroid); if (dist minDist) minDist dist; } distances[j] minDist; sum minDist; } // 轮盘赌选择下一个中心点 double threshold random.nextDouble() * sum; double accum 0; for (int j 0; j distances.length; j) { accum distances[j]; if (accum threshold) { centroids.add(data.get(j)); break; } } } } }2.2 核心迭代过程K-Means的核心是不断迭代更新聚类中心直到收敛public void fit(Listdouble[] data) { initCentroids(data); clusters new ArrayList(); for (int i 0; i k; i) { clusters.add(new ArrayList()); } int iteration 0; double prevSSE Double.MAX_VALUE; double currentSSE; while (iteration maxIterations) { // 清空当前聚类 for (Listdouble[] cluster : clusters) { cluster.clear(); } // 分配点到最近的聚类中心 for (double[] point : data) { int closest findClosestCentroid(point); clusters.get(closest).add(point); } // 更新聚类中心 for (int i 0; i k; i) { if (!clusters.get(i).isEmpty()) { centroids.set(i, calculateMean(clusters.get(i))); } } // 计算SSE判断收敛 currentSSE calculateSSE(); if (Math.abs(prevSSE - currentSSE) 1e-6) { break; } prevSSE currentSSE; iteration; } } private double calculateSSE() { double sse 0; for (int i 0; i k; i) { for (double[] point : clusters.get(i)) { sse Math.pow(euclideanDistance(point, centroids.get(i)), 2); } } return sse; }3. 确定最佳K值K-Means需要预先指定聚类数量K如何选择合适的K值至关重要。以下是几种常用方法3.1 肘部法则实现肘部法则通过观察SSE随K值变化的拐点来确定最佳Kpublic static int findBestK(Listdouble[] data, int maxK) { double[] sses new double[maxK]; for (int k 1; k maxK; k) { KMeans kmeans new KMeans(k, 100); kmeans.fit(data); sses[k-1] kmeans.calculateSSE(); } // 计算二阶导数寻找拐点 int bestK 1; double maxCurvature Double.NEGATIVE_INFINITY; for (int k 2; k maxK; k) { double curvature (sses[k-2] - sses[k-1]) - (sses[k-1] - sses[k]); if (curvature maxCurvature) { maxCurvature curvature; bestK k; } } return bestK; }3.2 轮廓系数评估轮廓系数结合了聚类的凝聚度和分离度是更全面的评估指标public double silhouetteScore() { double total 0; int count 0; for (int i 0; i k; i) { for (double[] point : clusters.get(i)) { // 计算a(i): 同一簇内平均距离 double a averageDistance(point, clusters.get(i)); // 计算b(i): 最近其他簇的平均距离 double b Double.MAX_VALUE; for (int j 0; j k; j) { if (j ! i !clusters.get(j).isEmpty()) { double dist averageDistance(point, clusters.get(j)); if (dist b) b dist; } } total (b - a) / Math.max(a, b); count; } } return total / count; }4. 结果分析与可视化4.1 聚类结果统计完成聚类后我们需要分析各个簇的特征public void analyzeClusters() { System.out.println(Cluster Analysis:); System.out.println(----------------); for (int i 0; i k; i) { Listdouble[] cluster clusters.get(i); if (cluster.isEmpty()) continue; int dimensions cluster.get(0).length; double[] means new double[dimensions]; double[] variances new double[dimensions]; // 计算各维度均值 for (double[] point : cluster) { for (int d 0; d dimensions; d) { means[d] point[d]; } } for (int d 0; d dimensions; d) { means[d] / cluster.size(); } // 计算各维度方差 for (double[] point : cluster) { for (int d 0; d dimensions; d) { variances[d] Math.pow(point[d] - means[d], 2); } } for (int d 0; d dimensions; d) { variances[d] / cluster.size(); } System.out.printf(Cluster %d (%d points):%n, i1, cluster.size()); for (int d 0; d dimensions; d) { System.out.printf( Dim %d: mean%.2f, var%.2f%n, d1, means[d], variances[d]); } } }4.2 可视化展示使用XChart库生成聚类结果的可视化图表public void visualizeClusters(String title) { // 创建图表 XYChart chart new XYChartBuilder() .width(800).height(600) .title(title) .xAxisTitle(Dimension 1) .yAxisTitle(Dimension 2) .build(); // 添加各簇数据点 for (int i 0; i k; i) { Listdouble[] cluster clusters.get(i); if (cluster.isEmpty()) continue; double[] xData new double[cluster.size()]; double[] yData new double[cluster.size()]; for (int j 0; j cluster.size(); j) { xData[j] cluster.get(j)[0]; // 第一维作为x轴 yData[j] cluster.get(j)[1]; // 第二维作为y轴 } chart.addSeries(Cluster (i1), xData, yData) .setMarker(SeriesMarkers.CIRCLE) .setMarkerColor(ChartColor.getColor(i)); } // 添加聚类中心 double[] centerX new double[centroids.size()]; double[] centerY new double[centroids.size()]; for (int i 0; i centroids.size(); i) { centerX[i] centroids.get(i)[0]; centerY[i] centroids.get(i)[1]; } chart.addSeries(Centroids, centerX, centerY) .setMarker(SeriesMarkers.CROSS) .setMarkerColor(ChartColor.BLACK); // 显示图表 new SwingWrapper(chart).displayChart(); }5. 电商客户分群实战案例让我们将K-Means应用于一个电商客户分群场景。假设我们有以下客户特征最近一次购买时间天购买频率次/月平均订单价值元累计消费金额元public class CustomerSegmentation { public static void main(String[] args) { // 加载客户数据 Listdouble[] customers DataLoader.loadCSV(customer_data.csv, true); // 数据标准化 StandardScaler scaler new StandardScaler(); scaler.fit(customers); Listdouble[] scaledData scaler.transform(customers); // 确定最佳K值 int bestK KMeansOptimizer.findBestK(scaledData, 10); System.out.println(Optimal number of clusters: bestK); // 训练K-Means模型 KMeans kmeans new KMeans(bestK, 100); kmeans.fit(scaledData); // 分析结果 kmeans.analyzeClusters(); System.out.printf(Silhouette Score: %.3f%n, kmeans.silhouetteScore()); // 可视化前两个维度 kmeans.visualizeClusters(Customer Segmentation); // 将分群结果映射回原始数据 MapInteger, Listdouble[] customerSegments new HashMap(); for (int i 0; i bestK; i) { customerSegments.put(i, new ArrayList()); } for (double[] customer : customers) { double[] scaled scaler.transform(customer); int cluster kmeans.predict(scaled); customerSegments.get(cluster).add(customer); } // 输出各分群的业务特征 for (int i 0; i bestK; i) { Listdouble[] segment customerSegments.get(i); System.out.printf(%nSegment %d (%d customers):%n, i1, segment.size()); double[] totals new double[4]; for (double[] customer : segment) { for (int j 0; j 4; j) { totals[j] customer[j]; } } System.out.printf( Avg Recency: %.1f days%n, totals[0]/segment.size()); System.out.printf( Avg Frequency: %.1f times/month%n, totals[1]/segment.size()); System.out.printf( Avg Order Value: ¥%.2f%n, totals[2]/segment.size()); System.out.printf( Avg Total Spend: ¥%.2f%n, totals[3]/segment.size()); } } }在实际项目中这种客户分群可以帮助市场团队制定精准的营销策略。例如高价值低频率客户可能需要唤醒活动而高频率低价值客户则适合交叉销售。

别再为SoC低功耗验证发愁了！手把手教你搞懂ARM PPU的电源模式与操作模式

深入解析ARM PPU：低功耗SoC验证工程师的实战指南第一次接触PPU时，我正负责一个物联网芯片的低功耗验证项目。当系统进入深度睡眠模式后，某个关键模块总是无法正常唤醒，调试两周毫无进展。直到我偶然发现PPU配置中一个被忽略的操…...

2026/4/30 12:32:43 阅读更多 →

从MS5611到定高：手把手教你用STM32F407+CubeMX配置气压计IIC驱动与高度解算

STM32F407与MS5611气压计实战：从IIC驱动到高度解算全解析四轴飞行器的定高控制离不开精确的高度测量，而气压计正是实现这一功能的核心传感器之一。MS5611作为一款高精度数字气压传感器，凭借其10厘米的理论分辨率和稳定的性能，成…...

2026/4/30 12:31:53 阅读更多 →

从零构建工业级RAG系统：模块化架构、核心技术与实战避坑指南

1. 项目概述：从零构建一个工业级RAG系统如果你正在为如何让大语言模型（LLM）准确回答你私有文档里的问题而头疼，比如让模型基于一份上百页的技术手册、公司内部规章制度或者你的个人知识库来生成答案，那么RAG&#xff…...

2026/4/30 12:31:42 阅读更多 →

如何在7分钟内搭建专业级仓库管理系统：从零到生产就绪的完整指南

如何在7分钟内搭建专业级仓库管理系统：从零到生产就绪的完整指南【免费下载链接】GreaterWMS This Inventory management system is the currently Ford Asia Pacific after-sales logistics warehousing supply chain process . After I leave Ford , I start thi…...

2026/4/28 6:15:44 阅读更多 →

星露谷物语模组加载器SMAPI：轻松打造个性化农场体验的终极指南

星露谷物语模组加载器SMAPI：轻松打造个性化农场体验的终极指南【免费下载链接】SMAPI The modding API for Stardew Valley. 项目地址: https://gitcode.com/gh_mirrors/smap/SMAPI 想要为《星露谷物语》添加无限乐趣，却担心模组安装复杂、游戏崩…...

2026/4/26 0:01:52 阅读更多 →

终极指南：4步构建专业级浏览器资源捕获与管理工作流

终极指南：4步构建专业级浏览器资源捕获与管理工作流【免费下载链接】cat-catch 猫抓浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓（cat-catch&#x…...

2026/4/26 0:04:21 阅读更多 →