关键词:
Web表
图数据
映射
知识图谱
映射规则
摘要:
随着计算机和网络技术的快速发展,Web网中的数据呈现爆炸性增长趋势。因为缺乏必要的语义描述,现有的网页更侧重于向人们展示信息,页面数据很难被机器理解。计算机无法对传统网页数据进行自动推理,传统的搜索技术只能返回若干个与给定关键字相关的页面,人们需要经过多次阅读并进行手工过滤。Web数据的持续增长加剧了人们获得数据的难度。语义技术特别是知识图谱的提出,为Web页面数据的语义化表示和页面数据的智能处理提供了可行性方案。因此,如何从Web页面获取高质量的数据,构建为计算机易于查询推理的图数据模型如知识图谱,成为业界关注的热点。本文重点研究从Web中文表数据构建知识图谱面临的两个关键的问题。首先,研究大规模Web中文表数据的获取问题。为了直观的展示页面数据,目前的Web中包含了大量表格数据。在这些表形式的数据中,除了少部分用于控制页面布局之外,大多数的表格包含了高质量的结构化关系数据,这些表数据是图数据模型构建的重要来源。在对Web页面表数据的特征进行深入分析的基础上,基于Amazon S3模型,提出了中文表数据的抽取框架,利用该框架从Web中抽取中文表数据,构建了中文表数据集CWTs并从多个维度对该数据集进行量化分析。该数据集总共包含了1,339,939个关系表,其中水平表为1,233,751,约占92.08%,垂直表为106,188个,约占7.92%。其次,研究关系数据库到RDF图数据的映射转换问题。在对直接映射进行形式化分析的基础上,总结了直接映射导致语义丢失的问题表现及其内在原因,并对其进行分类。针对直接映射存在的不足,提出了一种基于关系模式和完整性约束的分层映射规则。通过四个引理和十一个规则,克服直接映射中存在的语义丢失和错误映射的问题。实验结果表明,该分层映射规则能够减少错误的映射结果,达到生成更为紧密的三元组的目的,同时提高映射完整性和可靠性,使映射时达到语义保持。本文的研究,在数据获取特别是Web中文表数据的获取,以及从关系表数据到图数据的映射等方面,对知识图谱构建提供了必要的理论和实践支持,对进一步提高Web数据处理的智能化水平,都具有较为重要的理论意义和实践价值。