数据集成与模式集成

数据集成是指将来自多个数据源的数据整合到一个统一的存储中,而模式集成则是整合不同数据源的元数据,为数据集成提供基础。

实体识别与数据冲突

实体识别是指匹配来自不同数据源的现实世界实体,例如将数据源A中的“cust-id”与数据源B中的“customer_no”匹配。

在数据集成过程中,需要检测并解决数据值的冲突。同一实体在不同数据源中的属性值可能存在差异,其原因可能是不同的数据表示方式或度量标准等。