首页 > 专利商城 > 专利交易
一种基于seq2seq模型的中文分词方法
交易价格:面谈
所属类型
发明专利
所属行业
G06-计算技术
所属国家
所属地域
PCT项
交易方式
  • 专利详情
  • 专利摘要
  • 主权利要求
  • 优先权项
  • PCT项
CN2018100947512
2018-01-31
发明专利
一种基于seq2seq模型的中文分词方法
华南理工大学
已授权

本发明公开了一种基于seq2seq模型的中文分词方法,包括:步骤1、对文本语料进行预处理,把输入的每一个句子中的文字按照字频高低转为汉字数字序列,并按照字在词中的位置,转化为对应的标签序列;步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中,输出字向量矩阵;步骤3、将步骤2得到的字向量矩阵采用mini?batch进行分块,输入到采用注意力机制的seq2seq模型中,得到预测标签序列;步骤4、序列后处理,将步骤3中的预测标签序列与原始文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子,按空格分隔开。所述方法采用seq2seq深度学习框架,结合注意力机制用于中文分词任务当中,有效提高了分词的准确率。

联系方式

咨询热线:020-38033421

传真号码:020-38061201

电子邮箱:jm@jiaquanip.cn

关注嘉权专利商标事务所

Copyright © 嘉权专利商标事务所 All Rights Reserved.    粤ICP备2023151901号