聚类分析

地图帮2026-03-02

聚类分析

200 家门店,到底该分成几组来管?

你手里有一份门店经营数据 —— 日均销售额、客单价、客流量、面积……老板说:"帮我把这些店分分类,标杆店是哪些、哪些店需要优化。"

你盯着 Excel 看了半天,200 行数据,七八个指标,靠眼睛分?分不出来。

聚类分析就是帮你做这件事的:把一堆数据按"相似度"自动分成几组。你不需要事先告诉它哪个是好店哪个是差店 —— 算法会根据数据自己找规律。

这个工具提供了三种主流算法,还能自动帮你推荐最佳分组数、生成评估报告和可视化图表。完全免费,数据行数不限。


你需要准备什么

  • 一份 Excel 或 CSV 文件,每行代表一个样本(门店、客户、区域……都行)
  • 至少包含 2 个数值列 作为分组依据(比如销售额、客流量)
  • 样本数量建议 不少于 20 条,太少的话分组没有统计意义

四种业务场景,选一个就好

打开聚类分析后,你会看到四个入口,对应四种典型场景:

门店分群分析 —— 把门店按经营指标自动分成"标杆店 / 普通店 / 待优化店",每组还会给出管理建议。

客户分群分析 —— 把客户按消费行为分成"高价值 / 潜力 / 沉默 / 流失"四类,方便你做差异化运营。

区域分类分析 —— 把区县或城市按经济指标分类,识别发达区域和欠发达区域,结果还能在地图上可视化。

通用聚类分析 —— 不限定场景,导入任意数据集,自由选择特征和算法。适合科研或探索性分析。

不知道选哪个?先用「通用聚类分析」,它最灵活。


跟着走

第一步:导入数据

点进任意一个场景后,顶部会看到一个步骤条:「导入数据 → 参数设置 → 分析结果」。

在第一步页面,把你的 Excel 或 CSV 文件拖进去,或者点击导入按钮选择文件。数据加载完成后,右侧会出现字段列表和数据预览表格 —— 看一眼确认数据没问题。

💡 如果你只是想先试试这个工具,页面下方有一个蓝色的「加载示例数据」链接 —— 点一下就会自动填入一份现成的数据,直接往下走。

到这里,你的屏幕上应该能看到数据预览表格,列名和行数都显示出来了。


第二步:选择特征和算法

点击「下一步」进入参数页。这一步要做两件事:

选分组特征 —— 从你的数据列中勾选哪些列参与分组。比如你想按"日均销售额"和"客流量"来分门店,就勾选这两列。只有数值类型的列才能选。

选算法和参数 —— 系统默认用 K-Means,分 3 组,大多数情况下直接用默认值就够了。如果你想调,这里简单说一下三种算法的区别:

  • K-Means —— 最常用,速度快,适合大部分数据。你需要告诉它分几组(K 值)
  • 层次聚类 —— 适合小数据集(几百条以内),能生成树状图,直观看到分组层次
  • DBSCAN —— 不需要你指定分几组,它自己发现。还能识别"噪声点"(不属于任何组的异常数据)

⚠️ 这里很多人会犯一个错:把文本列(比如"门店名称""地址")也勾上了。算法只认数字,文本列勾上去会报错。只勾数值列就对了。

不知道该分几组? 点击右下角的「自动推荐最佳 K 值」按钮。系统会自动扫描 K=2 到 K=10,用轮廓系数帮你找到最优的分组数,然后自动填进去。还会在浏览器里打开一张肘部图,让你直观看到拐点在哪里。

到这里,你应该已经选好了特征列,算法参数也设好了(或者用了默认值)。


第三步:查看结果

点击「下一步」,系统开始运算。通常几秒钟就能出结果。

结果页分成左右两列:

左列 —— 分组结论和统计表

  • 顶部是一句话结论,告诉你分了几组、每组多少个样本
  • 下面是一张簇特征统计表,每组在各个特征上的平均值一目了然 —— 哪组销售额最高、哪组客流量最低,直接看表就行
  • 如果你用的是门店/客户/区域场景,还会附带每组的标签名和管理建议

右列 —— 评估指标和可视化图表

  • 轮廓系数 —— 越接近 1 越好,0.5 以上就算不错了。系统会自动给你一句话解读
  • DBI 指数 —— 越小越好,表示各组之间分得越开
  • CH 指数 —— 越大越好,表示组内紧凑、组间分离
  • ANOVA 检验 —— 告诉你每个特征在各组之间的差异是否显著(p<0.05 就是显著的)
  • 点击「在浏览器中查看图表」按钮 —— 会打开一组 ECharts 交互式图表:PCA 散点图、簇分布柱状图、雷达图等,缩放点击都可以

💡 不用记这些指标名词。你只需要看系统给的那句话解读 —— 如果写着"聚类效果较好",那结果就可以用了。

到这里,你的屏幕上应该是左边有统计表、右边有评估指标和图表按钮。


导出结果

点击右列底部的「导出结果数据」按钮,会跳转到标准导出页面。导出的 Excel 里,原始数据的每一行都多了一列「簇标签」,告诉你这个样本被分到了哪一组。拿着这份数据,你就可以做后续的分组管理了。


数据预处理,系统帮你做了

在参数页的高级选项里,你可以调这几项(默认值通常够用,不改也行):

  • 缺失值处理 —— 删除、均值填充、中位数填充(默认删除)
  • 异常值处理 —— 保留全部 或 IQR 方法剔除(默认保留)
  • 标准化 —— Z-Score(推荐)、Min-Max、不标准化

⚠️ 如果你的特征量纲差别很大(比如"销售额"是几万、"评分"是 1-5),一定要做标准化。不然销售额这种大数值会"压倒"评分,分组结果全被销售额主导了。默认的 Z-Score 标准化就能解决这个问题,不用改。


做完了,检查一下

如果你看到了分组统计表、评估指标显示"聚类效果较好"、图表也能正常打开——说明聚类分析已经完成了。

接下来,你可以试试把结果导出为 Excel,按簇标签筛选,看看每组的具体成员是谁。或者去 门店绘 把分组结果画到地图上 —— 用"簇标签"列做分类着色,一眼看出各组门店的地理分布。

最后更新时间 3/21/2026, 1:45:47 PM