IJCAI-18阿里妈妈搜索广告转化预测总结
比赛概述
- 比赛目标是通过人工智能技术构建模型,预测阿里平台用户的购买意向。给定广告点击相关信息(用户、广告商品、检索词、上下文内容、商店),预测广告的转化概率(pCVR),即:
$$pCVR = P(\text{conversion} = 1 | \text{query, user, ad, context, shop})$$
赛题挑战
1. 日常转化率预测
2. 特殊日期的转化率预测
评估指标
- 使用转化率的预测准确度(0.13966),最终获得了第53名(共5204名)。
数据挖掘流程
- 数据探索与特征设计:从业务逻辑和特征覆盖率角度出发,采样构造以下几类特征:
- 基础特征:包括用户和广告的基本属性。
- 平稳特征:考察稳定的历史数据指标。
- 动态特征:针对实时数据的变化特征。
- 高阶特征:综合多个基础特征计算出的衍生特征。
- 文本特征:从用户检索词和广告内容中提取的词向量特征。
-
偏好特征:用户的历史偏好,基于其过往行为。
-
数据采样和过滤:
-
样本采样及过滤,通过特征方案筛选出相关样本,剔除异常数据。
-
模型构建与验证:构建预测模型并不断调整特征组合,提升准确率。
结论
- 本次比赛通过多层次特征设计和有效的数据处理,构建了精准的转化预测模型,有效适应了阿里妈妈广告业务的需求。