关键词:
社交网络
虚拟身份
用户属性
映射
决策树
摘要:
随着社交网络的兴起与普及,社交网络与人们的生活联系愈发紧密,与社交网络相关的各类研究也在不断的扩展和深化。社交网络的多样化和差异化使得单一社交网络已无法满足人们需求,为享受不同社交平台提供的个性化服务,越来越多的用户开始在不同平台注册账号,在互联网上拥有多个虚拟身份。但由于不同社交网络间的信息并不互通,虚拟身份之间缺乏有效关联,在单一社交网络中只能获取片面的信息,无法形成数据的汇聚融合,因此亟需要一种能够在不同虚拟身份间建立“沟通桥梁”的科学方法。准确的虚拟身份映射可以为诸多科学研究提供支持,如刻画完整的用户画像、实现精准的好友推荐等。综上所述,虚拟身份映射研究具有广泛的研究价值,是一项十分有意义的课题。目前虚拟身份映射方面的研究主要是针对虚拟身份的属性,即用户在注册账号或完善个人资料时所填写的个人信息。但由于社交平台之间存在差异,不同平台间的用户属性鲜有交叉重叠,基于多用户属性的映射方法往往局限于少数社交平台。另一方面,基于的单一属性的映射方法,由于仅针对多数平台共存的单一属性进行研究,往往具有较好的适用性。但由于单一属性特征对用户的识别能力有限,算法在提升应用扩展性的同时牺牲了识别的准确度。本文针对社交网络中虚拟身份属性的“准度”与“广度”问题,对社交网络中的虚拟身份属性进行分类研究,分别计算各类属性的相似程度,并针对社交网络中半结构化属性的相似度计算问题,提出了一种基于排序的实体元组相似度算法,有效地提高了计算效率。本文将各类属性的相似度计算结果应用于逻辑回归、支持向量机、决策树和随机森林四种分类模型中,通过模型对比实验最终选择决策树作为识别虚拟身份的分类模型。最后,通过与两种映射算法的对比实验证明了所提出算法的有效性。