近年来,异质信息网络的研究受到全球广泛关注,涉及聚类、分类、推荐等多个领域。异质信息网络由不同类型的节点和边构成,具有复杂的结构和丰富的语义信息,能够全面反映系统中的组成对象及其关系。节点相似性度量是实现聚类、推荐等任务的基础。目前,国内外提出多种解决方法,HeteSim算法是典型代表。该算法基于双向随机游走,传统的单节点计算已无法满足其快速计算需求,因此开发适用于集群环境的并行化算法成为重要课题。基于Spark分布式计算框架,研究并实现了HeteSim的并行化算法,主要改进在于基于矩阵乘法的并行化策略,以解决传统算法的内存消耗、网络开销和执行时间长的问题。