异常值检测助手

地图帮2026-03-10

异常值检测助手

数据里有几行数值特别离谱,是录入错误还是真实的?

你在看一份销售数据,大部分订单金额在 100-500 元之间,但有几行突然蹦出个 99999。是录入错误?还是真的有一笔大单?你需要先找出这些"异常值",再决定怎么处理。

异常值检测助手帮你自动识别数据中的异常值。选择检测方法和阈值,系统会标记出每一列的异常行,并告诉你异常率是多少。你可以选择导出标记版数据、只导出异常行、或者只导出清洗后的干净数据。


你需要准备什么

  • 一份 Excel 或 CSV 文件,至少包含 1 列数值数据

跟着走

第一步:导入数据

打开数据魔方,点击顶部「数据分析」标签页,找到「异常值检测助手」卡片,点进去。

导入你的数据文件。系统会自动识别数值列。

第二步:选择检测方法和参数

在参数面板里:

  • 选择数值列 —— 勾选你想检测的列,可以多选
  • 检测方法 —— 有三种:
方法原理(用人话说)默认阈值
IQR算出数据的"正常范围"(25% 分位到 75% 分位),超出这个范围太多的就是异常。最常用,对大多数数据都好使1.5
Z-score算出每个值偏离平均值多少个标准差。偏得太远的就是异常。适合数据大致对称的情况3.0
Modified Z-score和 Z-score 类似,但用中位数代替均值,不容易被极端值干扰。数据偏态严重的时候用它3.5

不知道选哪个?选 IQR,阈值保持 1.5,大多数情况够用了。

这里解释一下 IQR 的阈值:1.5 是统计学里的经典取值。调大一点(比如 3.0),检测会更宽松,只有特别离谱的才算异常;调小一点(比如 1.0),检测会更严格,更多的值会被标记为异常。不用记住这个公式,知道"越大越宽松"就行。

⚠️ 这里很多人会犯一个错:选了好几列做检测,结果发现异常率特别高(比如 30%)。别急着觉得数据有问题 —— 先看看是不是阈值设得太严了。把阈值从 1.5 调到 2.0 或 3.0 试试,异常率会明显下降。

第三步:查看结果

点击「开始分析」按钮。结果分两部分:

各列异常率摘要:

列名异常数总行数异常占比下界上界
销售额2350000.46%-150.00850.00
成本850000.16%10.00320.00

"下界"和"上界"是系统算出的正常范围 —— 低于下界或高于上界的值就被标记为异常。

三种导出选项:

  • 标记版 —— 原始数据多了几列标记(_is_outlier 为 1 表示这行有异常,_outlier_销售额 为 1 表示这列是异常)
  • 异常行子集 —— 只包含被标记为异常的那些行
  • 清洗后数据 —— 去掉异常行后的干净数据

第四步:导出结果

根据你的需求选择导出哪一种。点击对应的「导出」按钮即可。


做完了,检查一下

如果你看到了各列的异常摘要,异常率合理、下界上界也对得上你对数据的认知——说明异常检测已经完成了。

接下来,你可以试试 描述性统计助手 看看清洗后数据的全貌,或者用 频率分布助手 看看数值的分布形态。

最后更新时间 3/21/2026, 1:45:47 PM