关键词:
自然语言处理
文本分类
深度学习
藏文
词
音节
摘要:
文本分类是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中基础的重要研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有广泛的应用价值。随着信息技术的迅速发展和互联网普及与应用,对文本分类技术的要求也越来越高,越来越多的电子文档依靠文本自动分类来处理和管理。由于数据资源匮乏和技术水平欠佳等原因,藏文文本分类的研究还未取得重大突破。现阶段藏文文本分类主要采用以词为基元的传统机器学习方法,该方法既受藏文分词技术的制约,又需要繁杂的人工特征工程。为了解决此方法的缺陷,本文针对藏文文本分类技术从数据集构建、特征基元选择、分类方法等方面研究了藏文文本分类的相关技术。(1)藏文分类文本数据集构建方面针对藏文分类文本数据集稀缺问题,本文结合藏文文本的特征和分类文本数据集的基本要求,提出了藏文分类文本数据集预处理方法,包括音节级藏文分类文本数据集预处理模型、音节校正算法和文本归一化算法TC_CTCN,实验数据表明算法达到了预期效果,并构建了规模为104.8M的藏文分类文本数据集,为藏文文本分类的技术研究奠定了基础。(2)藏文文本分类特征基元选择方面由于受藏文分词技术制约,以词作为藏文文本分类特征基元,分类性能有较大的影响。本文在分析文本分类流程及藏文文本结构的基础上,提出了一种融合词和音节的特征基元选择方法,实验数据表明在目前的技术条件下该方法的文本分类性能最佳。(3)藏文文本分类方法方面在分析藏语自然语言处理技术的基础上,研究了深度学习的藏文文本分类方法,提出了一种基于TWC_CNN藏文文本分类方法。TWC_CNN以融合词和音节的双基元作为特征基元,采用CNN构建分类器,经实验验证其性能优于基线模型,并提到了三个结论:(1)针对藏文文本分类,以融合词和音节的双基元文本分类性能优于词或音节单基元的文本分类性能;(2)在深度学习模型的藏文文本分类方法中,采用CNN模型构建的分类器优于其它模型构建的分类器;(3)基于TWC_CNN的藏文文本分类的精度、召回率、F1值都有了较大的提高,文本分类性能优于其它基线模型。