数据探查|快速掌握数据情报的关键手段

数据探查|快速掌握数据情报的关键手段

一、什么是数据探查?

数据探查是数据质量保障非常重要的一步,它是数据开发的基础,如果没有数据探查,数据类项目就会频繁反复,对项目开发,运维带来很大困难,大幅延长项目周期。

数据探查是通过自动化的手段了解数据内容、背景、结构、路径等内容,检查数据成分、数据关系及数据格式等问题。数据探查旨在了解来源数据的数据形态,结合业务场景,帮助分析和判断需求实现的可行性以及找出潜在的数据问题和风险。

二、数据探查能解决什么问题?

日常数据处理工作中,业务分析师和数据分析师经常会面对表格中一堆凌乱的数据,对数据质量一无所知……

◉数据是否完整?是否有空白或空值?

◉数据是否唯一?有多少个不同的值?数据是否重复?

◉数据是否存在异常格式?数据格式的分布是什么?是您期望的格式吗?

◉数据存在哪些值范围,它们是预期值吗?给定数据的最大值,最小值和平均值是多少?是您期望的范围吗?

◉针对这票数据,您后续应该做怎样的处理,才能让他们发挥最大的价值?

三、数据探查如何实现?

数据探查主要是对源数据做字级段和表级别的分析和诊断:

1、字段级探查分析

①· 从数据维度的角度进行分析诊断:例如枚举值格式、内容和长度异常、空值率、编码是否统一等数据异常问题的诊断;

②· 从数据度量角度进行分析诊断:最大值、最小值、平均值、汇总值、方差、中位数等整体概况,另外像数据单位是否统一,数值范围是否异常,数值精度是否异常等问题诊断;

字段级数据探查脚本示例

展开全文

①· Null值统计

Select count(*) 总记录数 round(sum(decode(A,null,1,0)) /count(*) * 100,2) from t

②· 主键ID长度的统计

Select distinct (length(A)) from t

2、表级别探查分析

从全表或跨表角度进行分析,探查记录数等数据整体分布情况、是否存在重复、交叉表数据是否异常等问题诊断;

表级数据探查脚本示例:

①· 源表数据量的统计:

select count(*) as 总记录数 from t

②· 源表字段空值的统计

select round(sum(decode(A,null,1,0)) /count(*) * 100,2) from t

3、数据探查需求分析清单示例

四、结论

数据探查是数据质量和数据决策分析非常重要的一个环节,也是决定最后数据正确性非常关键的一步!精确的数据探查,可以帮助您更好地了解源数据的局限性、更好地进行数据清洗、更好地掌控开发时间表,能真正把控数据来源,减少返工。

返回搜狐,查看更多

相关文章

注册送365 如何提高用户注册量

如何提高用户注册量

🗓️ 06-28 👁️ 2267
best365手机官方 猪八戒为何不能成佛?并非他取经意志不坚定,孙悟空看破不说破
注册送365 如何提高用户注册量

如何提高用户注册量

🗓️ 06-28 👁️ 2267
注册送365 6.25足球竞彩蓷鉴:一口气看完四场世俱杯比赛预测
365bet返水多少 怎么给韩国打电话

怎么给韩国打电话

🗓️ 06-27 👁️ 7287
注册送365 【周末渔趣】同样是鱼,为什么腥味差那么大,鱼的土腥味从哪儿来?