脏数据分类:

- 数据缺失:部分记录因系统或人为因素缺失,可判断是否纳入分析或进行补值。

- 数据不一致:不同来源数据记录不一致,需核实修正或选择最可信的数据。

- 数据类型不匹配:数据类型与预期不符,如将数字存为文本或日期。

- 数据范围异常:数据超出预期范围,如负值或超出正常界限。

- 重复数据:存在重复记录,需通过去重操作保留唯一记录。