聚类分析
聚类分析
200 家门店,到底该分成几组来管?
你手里有一份门店经营数据 —— 日均销售额、客单价、客流量、面积……老板说:"帮我把这些店分分类,标杆店是哪些、哪些店需要优化。"
你盯着 Excel 看了半天,200 行数据,七八个指标,靠眼睛分?分不出来。
聚类分析就是帮你做这件事的:把一堆数据按"相似度"自动分成几组。你不需要事先告诉它哪个是好店哪个是差店 —— 算法会根据数据自己找规律。
这个工具提供了三种主流算法,还能自动帮你推荐最佳分组数、生成评估报告和可视化图表。完全免费,数据行数不限。
你需要准备什么
- 一份 Excel 或 CSV 文件,每行代表一个样本(门店、客户、区域……都行)
- 至少包含 2 个数值列 作为分组依据(比如销售额、客流量)
- 样本数量建议 不少于 20 条,太少的话分组没有统计意义
四种业务场景,选一个就好
打开聚类分析后,你会看到四个入口,对应四种典型场景:
门店分群分析 —— 把门店按经营指标自动分成"标杆店 / 普通店 / 待优化店",每组还会给出管理建议。
客户分群分析 —— 把客户按消费行为分成"高价值 / 潜力 / 沉默 / 流失"四类,方便你做差异化运营。
区域分类分析 —— 把区县或城市按经济指标分类,识别发达区域和欠发达区域,结果还能在地图上可视化。
通用聚类分析 —— 不限定场景,导入任意数据集,自由选择特征和算法。适合科研或探索性分析。
不知道选哪个?先用「通用聚类分析」,它最灵活。
跟着走
第一步:导入数据
点进任意一个场景后,顶部会看到一个步骤条:「导入数据 → 参数设置 → 分析结果」。
在第一步页面,把你的 Excel 或 CSV 文件拖进去,或者点击导入按钮选择文件。数据加载完成后,右侧会出现字段列表和数据预览表格 —— 看一眼确认数据没问题。
💡 如果你只是想先试试这个工具,页面下方有一个蓝色的「加载示例数据」链接 —— 点一下就会自动填入一份现成的数据,直接往下走。
到这里,你的屏幕上应该能看到数据预览表格,列名和行数都显示出来了。
第二步:选择特征和算法
点击「下一步」进入参数页。这一步要做两件事:
选分组特征 —— 从你的数据列中勾选哪些列参与分组。比如你想按"日均销售额"和"客流量"来分门店,就勾选这两列。只有数值类型的列才能选。
选算法和参数 —— 系统默认用 K-Means,分 3 组,大多数情况下直接用默认值就够了。如果你想调,这里简单说一下三种算法的区别:
- K-Means —— 最常用,速度快,适合大部分数据。你需要告诉它分几组(K 值)
- 层次聚类 —— 适合小数据集(几百条以内),能生成树状图,直观看到分组层次
- DBSCAN —— 不需要你指定分几组,它自己发现。还能识别"噪声点"(不属于任何组的异常数据)
⚠️ 这里很多人会犯一个错:把文本列(比如"门店名称""地址")也勾上了。算法只认数字,文本列勾上去会报错。只勾数值列就对了。
不知道该分几组? 点击右下角的「自动推荐最佳 K 值」按钮。系统会自动扫描 K=2 到 K=10,用轮廓系数帮你找到最优的分组数,然后自动填进去。还会在浏览器里打开一张肘部图,让你直观看到拐点在哪里。
到这里,你应该已经选好了特征列,算法参数也设好了(或者用了默认值)。
第三步:查看结果
点击「下一步」,系统开始运算。通常几秒钟就能出结果。
结果页分成左右两列:
左列 —— 分组结论和统计表
- 顶部是一句话结论,告诉你分了几组、每组多少个样本
- 下面是一张簇特征统计表,每组在各个特征上的平均值一目了然 —— 哪组销售额最高、哪组客流量最低,直接看表就行
- 如果你用的是门店/客户/区域场景,还会附带每组的标签名和管理建议
右列 —— 评估指标和可视化图表
- 轮廓系数 —— 越接近 1 越好,0.5 以上就算不错了。系统会自动给你一句话解读
- DBI 指数 —— 越小越好,表示各组之间分得越开
- CH 指数 —— 越大越好,表示组内紧凑、组间分离
- ANOVA 检验 —— 告诉你每个特征在各组之间的差异是否显著(p<0.05 就是显著的)
- 点击「在浏览器中查看图表」按钮 —— 会打开一组 ECharts 交互式图表:PCA 散点图、簇分布柱状图、雷达图等,缩放点击都可以
💡 不用记这些指标名词。你只需要看系统给的那句话解读 —— 如果写着"聚类效果较好",那结果就可以用了。
到这里,你的屏幕上应该是左边有统计表、右边有评估指标和图表按钮。
导出结果
点击右列底部的「导出结果数据」按钮,会跳转到标准导出页面。导出的 Excel 里,原始数据的每一行都多了一列「簇标签」,告诉你这个样本被分到了哪一组。拿着这份数据,你就可以做后续的分组管理了。
数据预处理,系统帮你做了
在参数页的高级选项里,你可以调这几项(默认值通常够用,不改也行):
- 缺失值处理 —— 删除、均值填充、中位数填充(默认删除)
- 异常值处理 —— 保留全部 或 IQR 方法剔除(默认保留)
- 标准化 —— Z-Score(推荐)、Min-Max、不标准化
⚠️ 如果你的特征量纲差别很大(比如"销售额"是几万、"评分"是 1-5),一定要做标准化。不然销售额这种大数值会"压倒"评分,分组结果全被销售额主导了。默认的 Z-Score 标准化就能解决这个问题,不用改。
做完了,检查一下
如果你看到了分组统计表、评估指标显示"聚类效果较好"、图表也能正常打开——说明聚类分析已经完成了。
接下来,你可以试试把结果导出为 Excel,按簇标签筛选,看看每组的具体成员是谁。或者去 门店绘 把分组结果画到地图上 —— 用"簇标签"列做分类着色,一眼看出各组门店的地理分布。
