一种基于seq2seq模型的中文分词方法--专利交易--嘉权专利商标事务所

申请号：CN2018100947512

申请日：2018-01-31

公开号：

公开日：

授权日：

授权公告日：

所属类型：发明专利

国别省市：

发明名称：一种基于seq2seq模型的中文分词方法

国际分类号：

范畴分类号：

发明人：华南理工大学

法律状态：已授权

交易方式：

本发明公开了一种基于seq2seq模型的中文分词方法，包括：步骤1、对文本语料进行预处理，把输入的每一个句子中的文字按照字频高低转为汉字数字序列，并按照字在词中的位置，转化为对应的标签序列；步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中，输出字向量矩阵；步骤3、将步骤2得到的字向量矩阵采用mini?batch进行分块，输入到采用注意力机制的seq2seq模型中，得到预测标签序列；步骤4、序列后处理，将步骤3中的预测标签序列与原始文本语料的标签序列进行比对，按每个标签的含义合成最终分词后的句子，按空格分隔开。所述方法采用seq2seq深度学习框架，结合注意力机制用于中文分词任务当中，有效提高了分词的准确率。

4000-268-228