关键词:
专利文献
研发活动
事件表示
语义词典
知识抽取
摘要:
当前世界范围内科技竞争愈演愈烈,自主研发是提升国家科技实力和创新能力的关键途径。专利是科技研发成果的集中体现,是新知识、新技术的传播载体,专利文献中蕴含巨大的信息价值。通过专利信息表示、分析与利用,可以得到时效性的理论知识和创新性的技术资源,对提升研发效率、推动科技创新具有重要意义。已有研究对专利知识的表示与组织主要基于句法和关键词进行,所揭示的都是静态知识,未能建立知识层次上的语义关联,缺乏对专利文献中动态的过程性知识的深入揭示。
因此,本文以事件为基本单元,从语义层面对专利研发活动进行知识表示与知识抽取,具体研究内容如下:首先介绍专利信息挖掘研究现状和研究中存在的问题,调查研发活动、知识图谱、事件抽取相关研究成果;其次,对研发活动进行事件表示,并结合框架语义理论构建研发活动事件语义分类词典和事件知识表示模型,由此对研发活动技术过程知识和事件要素进行分类和概括;然后,基于事件语义词典及文本的语义角色标注相关技术构建事件知识的抽取流程,并以手术机器人领域的4000条发明专利摘要为样本实现研发活动事件知识抽取,将专利文本转化为结构化的数据形式,验证了相关方法的有效性;最后,利用Neo4j工具将抽取到的事件知识存入图数据库中完成研发活动知识图谱的构建和可视化展示,并结合具体实例进行查询应用。
本文结合框架语义的理论方法与词典资源及语义角色标注相关技术,从事件语义视角抽取专利文本中的动态过程性知识,表明相关理论方法可有效应用于专利信息的分析与挖掘中。而基于上述模型和知识所构建的知识图谱,对于企业和科研机构的技术创新具有参考价值,助推专利精准检索、知识推理等工作。