数据质量是数据挖掘的基石,而缺失值则是影响数据质量的一大隐患。

缺失值,指的是数据集中部分记录或字段信息的缺失,可能源于信息获取成本过高、人为疏忽、设备故障或传输错误等。

信息获取成本高昂或暂时无法获取,以及人为疏忽,包括认为信息不重要、忘记填写、对数据理解有误等,都可能导致信息缺失。此外,数据采集、存储、传输环节出现的设备故障或介质损坏,也可能造成数据缺失。