设备异常数数据分析 | shmaur

shmaur
2024-06-15
-
-

在翻看自己文档时看到22年关于数据分析的报告。记录一下数据分析的过程。

数据背景

因为在富士康物联网场景中,有大量的异常数据出现,导致设备能效以及用电用水用能等等能耗数据都非常大,一直比较困扰,给管理者带来了不好的错误判断。

 

分析目的

需要解决异常大数的问题,让数据正常准确。

 

分析过程

分析思路

图片来自 shmaur

 

获取数据

从平台获取所有设备数据,将出现异常异常大数的数据全部归总。获取所有设备以及是什么属性。

得到基础数据就可以进行设备归类情况。

数据通过 Echart 可视化呈现

 

将数据全部一一下载下来,下载完成后一一通过 Excel 打开,样本统计量 6w 数据。

每一组数据都通过正太分布进行异常离群分析。

将每组数据通过excel函数计算分别得到平均值、标准差。得到后进行计算正态分布,将大于3倍的数据全部剔除出来,在进行校对是否全部是异常值。

假设以下为光伏发电能耗数据:

结果比对

 

平均值标准差高斯分布1σ高斯分布2σ高斯分布3σ
最小值最大值最小值最大值最小值最大值
20.1303486828.16824523-65105-149190-234274

 

假设新数据在1σ范围之内,属于正常数据

假设新数据在1σ-2σ范围之间,属于普通异常数据

假设新数据在2σ-3σ范围之间,属于中度异常数据

假设新数据在3σ范围之外,则属于严重异常数据

根据实际数据表现,可以肯定的异常数据就是在3σ范围之外。

在高斯分布的分析方法数据波动大幅度原因比较复杂,但是在常规有规律的能耗数据下,有大幅度波动一定存在某些原因,将这些原因找出来,说不动也能找到提升效益点,也可能是能够找出优化问题的方法。

 

所有数据分析完成后,汇总成表格

根据分析结果形成数据报表

 

得到分析结果

得到结果后,与现场人员进行沟通比对,可能的原因。

根据以上异常数表现,主要集中在 三相电表、流量计、计量设备、液位。

三相电表的大量数据表现特征:平稳、具有规律、波动在一定范围内

流量计的大量数据表现特征:波动较大、但在一定时间内平稳

数据一部分均在一个正常范围里面进行波动,这一部分数据可以通过正常范围规则进行识别

得到分析结果在输出分析报告,分析结束。

其他的结果就不写了

 

解题异常数不影响计算结果

设计数据质量规则功能,数据识别可通过设定正常范围值、正负范围、正态分布等等进行自动化识别,识别后可根据历史数据表现自动对数据进行填充。

通过上面的方法识别异常数后,系统可自动对异常数进行校对,可以取历史数据的平均数、众数等等进行填充后在参与计算,这样可以进行规避,对于能耗数据,出现异常数后自动获取下一个正常数后在进行重算,重算后在参与结果计算。这样也能得到正确的结果的表现。

当然对于所出现的所有异常数全部进行标记,数据标记完成后,在对异常数发生原因进行分析可能的结果,将结果进行经验存档。

 

上线数据质量规则后

上线后需要对数据进行持续观察,基本上异常大数据发生频率从 90% 下降到 10% 以内,计算结果误差率直线降低。

异常数的问题暂时解决。

 

数据背后的可能性

识别后需要进一步判单这些异常数的可用性,比如现场人员调试得到的异常数据,这种数据就没有太大的分析参考意义。

在异常数中需要取到设备自身的异常数,观察数据趋势变化,分析不同异常的变化原因并进行标注。

标注完成后,可进行经验存档,存档完成就可以做 AI 的分析,当数据出现问题自动提出数据异常原因。

比如信号中断、离线造成的数据异常,就可直接通过自动分析得到结果,明确了问题就可进行自动异常值修复。

有了数据质量的保证,那么就可以进行能耗预测,后面有时间在写关于能耗预测问题。

得到大量标注数据后,还可以做预测性维护场景。

 

 

“您的支持是我持续分享的动力”

微信收款码
微信
支付宝收款码
支付宝

目录关闭