4.4 系统服务器需求评估
本系统每月采集数据约为 59 TB。服务器计算需求详见表3,计算结果表明系统共需 18台服务器。
4.5 系统拓扑结构
本系统采用 吉比特网络 接入 Hadoop 平台,各节点配置 4端口吉比特,接入到两台冗余的交换机,以 网卡聚合 提升网络安全性和稳定性。多台应用服务器的负载均衡由 DCN 接入层 的负载均衡器提供支持,拓扑结构如图2所示。
5 用户行为分析模型设计与应用
5.1 用户行为分析模型设计思路
本系统将原用于计费的数据深度挖掘,提取用户行为属性,构建包含以下六类的用户行为模式:
-
规律性
- 平均通话间隔(average inter-call time):统计用户每次通话的平均时间间隔,以秒计量。
- 平均短信间隔(average inter-text time):统计用户收发短信的平均时间间隔。
- 平均上网间隔(average inter-internet time):统计用户上网的平均时间间隔,包括 2G、3G 和 Wi-Fi。
-
多元性、空间行为、活动行为、使用行为 及 关联性 等六类关键行为指标,通过这些数据指标构建完整的用户行为模式。