提高数据质量的“三个关键点”数据是数字化、网络化、智能化的基础,是推动社会经济发展的新型生产要素。作为数字经济的重要组成部分,数据在推动社会生产力发展中的作用日趋显著,已深度融入生产、分配、流通、消费和社会服务管理等各个环节。中共中央、国务院印发的《数字中国建设整体布局规划》提出了“数据资源规模和质量加快提升,数据要素价值有效释放”的目标,强调要夯实数字中国建设基础,全面赋能经济社会发展。数据质量是数据管理和数据分析的基础,决定了各行业的运营效率、服务品质以及决策能力等。高质量数据有助于优化业务流程、提升服务品质、提高决策精准度,对于推动信息化和智能化进程,实现数据驱动的创新发展具有深远意义。然而,在工业数据采集过程中,数据质量往往受多种因素影响:由于传感器故障或读数误差、操作人员失误、环境变化等原因,致使数据存在离群值和缺失值;由于环境干扰或设备老化等原因,造成数据包含噪声、干扰等信息;由于设备不同步、采集频率差异、数据延迟或传输错误等原因,导致数据存在时间不一致性等。低质量数据的产生不仅直接影响数据的可用性,同时会导致员工操作失误、决策偏差,企业运营效率降低和大量资源浪费等。2022年12月印发的《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》,2024年9月印发的《中共中央办公厅国务院办公厅关于加快公共数据资源开发利用的意见》,提出加强数据管理和利用的具体措施,包括建立健全数据质量管理体系、推动数据标准化、加强数据安全保护等。工信部发布的《“十四五”大数据产业发展规划》也明确了大数据产业的发展方向,强调优化数据资源配置,激发数据要素潜能,推动大数据产业高质量发展。国家系列文件的发布,为数据质量管理明确了发展方向与发展路径。选择可靠有效的数据处理方法系统化的数据质量提升流程是维护和提高数据质量的坚固防线。获取准确性高、一致性强的高质量数据,首先要有一套行之有效的数据处理方法,主要包括:异常数据检测、数据去噪以及数据同步对齐等。异常数据检测是确保数据准确性的首要环节。及时、准确识别异常数据是数据分析中的关键一环。通过对异常数据的检测可以增强数据集的完整性与可靠性,为后续数据分析和模型建立提供坚实的数据基础,是维护整个决策链准确性的重要措施。异常数据通常分为偏差数据、离群值和缺失值等。其中,离群值的产生是由于测量误差或设备故障引起。比如,以特定的距离函数计算数据对象之间的距离来确定离群点,一般认为离其他数据更远的数据点可能是离群点。该方法可以简单直观地检测出异常数据,但需谨慎选择合适的距离度量标准。再比如,通过数据驱动方式学习数据中的模式或结构来区分正常数据或异常数据,该方法能够适应复杂的数据分布。异常数据还包括在监测过程中出现的数据缺失,通常通过直接空值法、统计分析法和时间序列法等检测来辨识异常数据。直接空值法通过简单操作就能够发现明显的数据缺失。统计分析法是通过分析数据的分布特征实现数据的缺失值检测,该方法有标准的流程,易于操作和复制。时间序列法是通过数据在时间维度上的连续性和趋势性的分析来检测数据的缺失值。数据去噪处理是提升数据质量的关键环节。数据去噪处理是确保数据质量的核心步骤,能够有效提升数据集的纯净度和可信度,为后续数据分析和模型建立提供稳定的数据平台,是保障决策链精确性的重要基石。数据去噪的方法分为基于滤波器的数据去噪方法、基于频域分析的数据去噪方法、基于机器学习的数据去噪方法等。比如,通过建立特定的滤波器来滤除数据中的高频或低频噪声,保留有用的信号,确保数据的平滑性和准确性。还有通过将数据转换到频率域,利用信号在频率特征的差异来消除噪声。此外,通过训练模型来学习数据的内在模式和特征,能够处理更加复杂的数据结构和噪声类型。数据同步对齐是提升数据质量的关键步骤。数据同步对齐对保障数据的质量具有决定性作用,提升数据集的一致性,为后续数据分析和模型建立搭建稳定的数据框架。动态时间规整法通过计算两个时间序列之间最佳规整路径实现数据的非线性对齐,适用于不同速率...