4.4 系统服务器需求评估

本系统每月采集数据约为 59 TB。服务器计算需求详见表3,计算结果表明系统共需 18台服务器

4.5 系统拓扑结构

本系统采用 吉比特网络 接入 Hadoop 平台,各节点配置 4端口吉比特,接入到两台冗余的交换机,以 网卡聚合 提升网络安全性和稳定性。多台应用服务器的负载均衡由 DCN 接入层 的负载均衡器提供支持,拓扑结构如图2所示。

5 用户行为分析模型设计与应用

5.1 用户行为分析模型设计思路

本系统将原用于计费的数据深度挖掘,提取用户行为属性,构建包含以下六类的用户行为模式:

  • 规律性

    • 平均通话间隔(average inter-call time):统计用户每次通话的平均时间间隔,以秒计量。
    • 平均短信间隔(average inter-text time):统计用户收发短信的平均时间间隔。
    • 平均上网间隔(average inter-internet time):统计用户上网的平均时间间隔,包括 2G、3G 和 Wi-Fi。
  • 多元性空间行为活动行为使用行为关联性 等六类关键行为指标,通过这些数据指标构建完整的用户行为模式。