聚类分析

地图帮2026-03-02

聚类分析

200 家门店，到底该分成几组来管？

你手里有一份门店经营数据 —— 日均销售额、客单价、客流量、面积……老板说："帮我把这些店分分类，标杆店是哪些、哪些店需要优化。"

你盯着 Excel 看了半天，200 行数据，七八个指标，靠眼睛分？分不出来。

聚类分析就是帮你做这件事的：把一堆数据按"相似度"自动分成几组。你不需要事先告诉它哪个是好店哪个是差店 —— 算法会根据数据自己找规律。

这个工具提供了三种主流算法，还能自动帮你推荐最佳分组数、生成评估报告和可视化图表。完全免费，数据行数不限。

你需要准备什么

一份 Excel 或 CSV 文件，每行代表一个样本（门店、客户、区域……都行）
至少包含 2 个数值列 作为分组依据（比如销售额、客流量）
样本数量建议 不少于 20 条，太少的话分组没有统计意义

四种业务场景，选一个就好

打开聚类分析后，你会看到四个入口，对应四种典型场景：

门店分群分析 —— 把门店按经营指标自动分成"标杆店 / 普通店 / 待优化店"，每组还会给出管理建议。

客户分群分析 —— 把客户按消费行为分成"高价值 / 潜力 / 沉默 / 流失"四类，方便你做差异化运营。

区域分类分析 —— 把区县或城市按经济指标分类，识别发达区域和欠发达区域，结果还能在地图上可视化。

通用聚类分析 —— 不限定场景，导入任意数据集，自由选择特征和算法。适合科研或探索性分析。

不知道选哪个？先用「通用聚类分析」，它最灵活。

跟着走

第一步：导入数据

点进任意一个场景后，顶部会看到一个步骤条：「导入数据 → 参数设置 → 分析结果」。

在第一步页面，把你的 Excel 或 CSV 文件拖进去，或者点击导入按钮选择文件。数据加载完成后，右侧会出现字段列表和数据预览表格 —— 看一眼确认数据没问题。

💡 如果你只是想先试试这个工具，页面下方有一个蓝色的「加载示例数据」链接 —— 点一下就会自动填入一份现成的数据，直接往下走。

到这里，你的屏幕上应该能看到数据预览表格，列名和行数都显示出来了。

第二步：选择特征和算法

点击「下一步」进入参数页。这一步要做两件事：

选分组特征 —— 从你的数据列中勾选哪些列参与分组。比如你想按"日均销售额"和"客流量"来分门店，就勾选这两列。只有数值类型的列才能选。

选算法和参数 —— 系统默认用 K-Means，分 3 组，大多数情况下直接用默认值就够了。如果你想调，这里简单说一下三种算法的区别：

K-Means —— 最常用，速度快，适合大部分数据。你需要告诉它分几组（K 值）
层次聚类 —— 适合小数据集（几百条以内），能生成树状图，直观看到分组层次
DBSCAN —— 不需要你指定分几组，它自己发现。还能识别"噪声点"（不属于任何组的异常数据）

⚠️ 这里很多人会犯一个错：把文本列（比如"门店名称""地址"）也勾上了。算法只认数字，文本列勾上去会报错。只勾数值列就对了。

不知道该分几组？ 点击右下角的「自动推荐最佳 K 值」按钮。系统会自动扫描 K=2 到 K=10，用轮廓系数帮你找到最优的分组数，然后自动填进去。还会在浏览器里打开一张肘部图，让你直观看到拐点在哪里。

到这里，你应该已经选好了特征列，算法参数也设好了（或者用了默认值）。

第三步：查看结果

点击「下一步」，系统开始运算。通常几秒钟就能出结果。

结果页分成左右两列：

左列 —— 分组结论和统计表

顶部是一句话结论，告诉你分了几组、每组多少个样本
下面是一张簇特征统计表，每组在各个特征上的平均值一目了然 —— 哪组销售额最高、哪组客流量最低，直接看表就行
如果你用的是门店/客户/区域场景，还会附带每组的标签名和管理建议

右列 —— 评估指标和可视化图表

轮廓系数 —— 越接近 1 越好，0.5 以上就算不错了。系统会自动给你一句话解读
DBI 指数 —— 越小越好，表示各组之间分得越开
CH 指数 —— 越大越好，表示组内紧凑、组间分离
ANOVA 检验 —— 告诉你每个特征在各组之间的差异是否显著（p<0.05 就是显著的）
点击「在浏览器中查看图表」按钮 —— 会打开一组 ECharts 交互式图表：PCA 散点图、簇分布柱状图、雷达图等，缩放点击都可以

💡 不用记这些指标名词。你只需要看系统给的那句话解读 —— 如果写着"聚类效果较好"，那结果就可以用了。

到这里，你的屏幕上应该是左边有统计表、右边有评估指标和图表按钮。

导出结果

点击右列底部的「导出结果数据」按钮，会跳转到标准导出页面。导出的 Excel 里，原始数据的每一行都多了一列「簇标签」，告诉你这个样本被分到了哪一组。拿着这份数据，你就可以做后续的分组管理了。

数据预处理，系统帮你做了

在参数页的高级选项里，你可以调这几项（默认值通常够用，不改也行）：

缺失值处理 —— 删除、均值填充、中位数填充（默认删除）
异常值处理 —— 保留全部或 IQR 方法剔除（默认保留）
标准化 —— Z-Score（推荐）、Min-Max、不标准化

⚠️ 如果你的特征量纲差别很大（比如"销售额"是几万、"评分"是 1-5），一定要做标准化。不然销售额这种大数值会"压倒"评分，分组结果全被销售额主导了。默认的 Z-Score 标准化就能解决这个问题，不用改。

做完了，检查一下

如果你看到了分组统计表、评估指标显示"聚类效果较好"、图表也能正常打开——说明聚类分析已经完成了。

接下来，你可以试试把结果导出为 Excel，按簇标签筛选，看看每组的具体成员是谁。或者去门店绘把分组结果画到地图上 —— 用"簇标签"列做分类着色，一眼看出各组门店的地理分布。

聚类分析

聚类分析

200 家门店，到底该分成几组来管？

你需要准备什么

四种业务场景，选一个就好

跟着走

数据预处理，系统帮你做了

做完了，检查一下

内容目录