KDDCup2019 AutoML Track 挑战与经验
本次比赛的难点主要体现在以下几个方面:
- 特征挖掘的挑战: 与传统数据挖掘竞赛不同,AutoML 竞赛中数据含义未知,仅提供数据类型,这使得特征工程难度加大,如何挖掘有效的通用特征成为关键。
- 时序相关数据的处理: 时序相关数据的挖掘本身就具有挑战性,需要专家经验才能从中提取有效信息。即使是专家,也需要不断尝试才能构建有价值的时序特征,并利用多表关联提升模型性能。
- 多表数据的处理: 赛题数据以多表形式给出,要求参赛者构建能够处理复杂多表连接关系的自动化机器学习系统。这无疑对系统的稳定性提出了更高要求,稍有不慎就可能导致数据过大,造成超时或内存溢出,最终无法得到有效成绩。
- 严格的时间和内存限制: 比赛代码运行环境资源有限,参赛者需要在有限的资源条件下完成数据处理和模型训练。
总结
KDDCup2019 AutoML Track 比赛对参赛者提出了多方面的挑战,包括特征工程、时序数据处理、多表数据处理以及有限的计算资源。