在翻看自己文档时看到22年关于数据分析的报告。记录一下数据分析的过程。
数据背景
因为在富士康物联网场景中,有大量的异常数据出现,导致设备能效以及用电用水用能等等能耗数据都非常大,一直比较困扰,给管理者带来了不好的错误判断。
分析目的
需要解决异常大数的问题,让数据正常准确。
分析过程
分析思路
获取数据
从平台获取所有设备数据,将出现异常异常大数的数据全部归总。获取所有设备以及是什么属性。
得到基础数据就可以进行设备归类情况。
将数据全部一一下载下来,下载完成后一一通过 Excel 打开,样本统计量 6w 数据。
每一组数据都通过正太分布进行异常离群分析。
将每组数据通过excel函数计算分别得到平均值、标准差。得到后进行计算正态分布,将大于3倍的数据全部剔除出来,在进行校对是否全部是异常值。
假设以下为光伏发电能耗数据:
平均值 | 标准差 | 高斯分布1σ | 高斯分布2σ | 高斯分布3σ | |||
最小值 | 最大值 | 最小值 | 最大值 | 最小值 | 最大值 | ||
20.13034868 | 28.16824523 | -65 | 105 | -149 | 190 | -234 | 274 |
假设新数据在1σ范围之内,属于正常数据。
假设新数据在1σ-2σ范围之间,属于普通异常数据。
假设新数据在2σ-3σ范围之间,属于中度异常数据。
假设新数据在3σ范围之外,则属于严重异常数据。
根据实际数据表现,可以肯定的异常数据就是在3σ范围之外。
在高斯分布的分析方法数据波动大幅度原因比较复杂,但是在常规有规律的能耗数据下,有大幅度波动一定存在某些原因,将这些原因找出来,说不动也能找到提升效益点,也可能是能够找出优化问题的方法。
所有数据分析完成后,汇总成表格
得到分析结果
得到结果后,与现场人员进行沟通比对,可能的原因。
根据以上异常数表现,主要集中在 三相电表、流量计、计量设备、液位。
三相电表的大量数据表现特征:平稳、具有规律、波动在一定范围内
流量计的大量数据表现特征:波动较大、但在一定时间内平稳
数据一部分均在一个正常范围里面进行波动,这一部分数据可以通过正常范围规则进行识别
得到分析结果在输出分析报告,分析结束。
其他的结果就不写了
解题异常数不影响计算结果
设计数据质量规则功能,数据识别可通过设定正常范围值、正负范围、正态分布等等进行自动化识别,识别后可根据历史数据表现自动对数据进行填充。
通过上面的方法识别异常数后,系统可自动对异常数进行校对,可以取历史数据的平均数、众数等等进行填充后在参与计算,这样可以进行规避,对于能耗数据,出现异常数后自动获取下一个正常数后在进行重算,重算后在参与结果计算。这样也能得到正确的结果的表现。
当然对于所出现的所有异常数全部进行标记,数据标记完成后,在对异常数发生原因进行分析可能的结果,将结果进行经验存档。
上线数据质量规则后
上线后需要对数据进行持续观察,基本上异常大数据发生频率从 90% 下降到 10% 以内,计算结果误差率直线降低。
异常数的问题暂时解决。
数据背后的可能性
识别后需要进一步判单这些异常数的可用性,比如现场人员调试得到的异常数据,这种数据就没有太大的分析参考意义。
在异常数中需要取到设备自身的异常数,观察数据趋势变化,分析不同异常的变化原因并进行标注。
标注完成后,可进行经验存档,存档完成就可以做 AI 的分析,当数据出现问题自动提出数据异常原因。
比如信号中断、离线造成的数据异常,就可直接通过自动分析得到结果,明确了问题就可进行自动异常值修复。
有了数据质量的保证,那么就可以进行能耗预测,后面有时间在写关于能耗预测问题。
得到大量标注数据后,还可以做预测性维护场景。