本发明公开了一种基于MeanShift的融合词性和句子信息的词表示方法,包括步骤:1)对语料进行分词和词性标注;2)使用skim?gram、CROW方法训练得到字词联合向量;3)通过使用skim?gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量;4)用Attention机制和词性向量生成句子向量,进行主分析主成分PCA;5)对上下文矩阵进行MeanShift聚类,对Top?K聚类中心进行加权求和后得到上下文向量;6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。本发明实现的词表示方法,融合了词性信息和句子信息,利用了已有的词性标注信息和去噪后的上下文向量,不依赖于特定领域和语料,具有较低的成本和较强的实用性。
咨询热线:020-38033421
传真号码:020-38061201
电子邮箱:jm@jiaquanip.cn
Copyright © 嘉权专利商标事务所 All Rights Reserved. 粤ICP备2023151901号