数据快速预览助手
数据快速预览助手
拿到一份数据,打开之前先"体检"一下
你刚收到同事发来的一份 Excel,说里面有 5 万行门店数据。打开之前你想知道:一共多少列?有没有空值?数值列大概什么范围?哪些列是文本、哪些是数字?
数据快速预览助手就是干这个的。把文件丢进去,它帮你秒开预览,还能一键生成一份"数据体检报告" —— 每一列的类型、缺失率、均值、高频值,一张表全看完。
你需要准备什么
- 一份数据文件(支持 Excel / CSV / SHP / GeoJSON / KML / GPKG)
- 不需要坐标,也不需要 API Key —— 纯表格就行
跟着走
第一步:导入数据
打开数据魔方,点击顶部「数据预览」标签页,找到「数据快速预览助手」卡片,点进去。
页面上方有一个导入区域 —— 点击它,或者直接把文件从文件夹拖进来。如果是 CSV 文件,系统会自动检测编码,你不用手动选。
导入完成后,下方会立刻出现你的数据表格,能看到每一行每一列的内容。左上角还会显示行数和列数 —— 看到这些数字,说明导入成功了。
第二步:切换到"数据体检报告"
页面中间有两个小标签:「数据预览」和「数据体检报告」。点击「数据体检报告」。
系统会在后台自动跑一遍 Profiling 分析 —— 你会看到顶部出现一个进度条,等它跑完,报告就出来了。
到这里,你的屏幕应该是这样的:上方显示"分析完成",下方出现一张详细的体检报告表格。
⚠️ 这里很多人会犯一个错:文件里有几十万行数据,导入后等了很久体检报告还没出来,以为卡死了。其实不是 —— 数据量大的时候 Profiling 确实需要几秒到十几秒,耐心等进度条走完就好。如果真的等了一分钟还没出来,检查一下文件是不是有问题(比如某列全是乱码)。
第三步:看懂体检报告
体检报告按列展示,每一列会告诉你这些信息:
| 信息 | 说明 |
|---|---|
| 类型 | 这列是数值、文本还是日期 |
| 非空数 / 缺失数 | 有多少行有值、多少行是空的 |
| 缺失率 | 空值占比,超过 30% 就要留意了 |
| 唯一值数 | 这列有多少种不同的值 |
如果是 数值列,还会多几项:
| 信息 | 说明 |
|---|---|
| 均值 | 所有数值的平均值 |
| 中位数 | 排在中间位置的值 —— 比均值更能反映"正常水平",不容易被极端值带偏 |
| 标准差 | 数据波动大不大。标准差越大,说明数据越分散 |
| Q25 / Q75 | 25% 分位数和 75% 分位数 —— 大部分数据落在 Q25 到 Q75 之间 |
| 最小值 / 最大值 | 这列的极端值 |
如果是 文本列,你会看到:
| 信息 | 说明 |
|---|---|
| 平均长度 / 最大长度 | 文本有多长 |
| 高频值 Top5 | 出现最多的 5 个值和占比 |
如果是 日期列,你会看到:
| 信息 | 说明 |
|---|---|
| 最早 / 最晚 | 时间范围的两端 |
| 时间跨度 | 从最早到最晚隔了多久 |
💡 说到这里要特别提醒你:「中位数」和「均值」差距特别大的时候,说明数据里可能有极端值。比如均值 10 万、中位数 3 万,那八成是有几行特别大的数值把均值拉高了。
第四步:导出报告
页面底部有一个「导出报告数据」按钮。点击它,体检报告会被发送到标准导出界面,你可以选择保存为 Excel 或 CSV。
做完了,检查一下
如果你看到了数据预览表格,体检报告里每列都有类型、缺失率、统计值——说明数据已经摸清了。
接下来,你可以试试 数据合并助手 把多个文件合成一张大表,或者用 海量表格数据处理助手 对数据做清洗和加工。
