本发明公开一种基于有向有权图发现新词的方法,本发明通过分词开源工具对语料进行分词,对分词的结果进行停用词过滤;根据分词结果建立词之间的关联关系以及权重,生成有向有权图;采用边权重门限阀值对有向有权图的边进行筛选,保留语料中同现频率比较高的词项搭配;筛选有向权重图中的孤立点以及自环,生成子图;根据子图中相邻节点间的边权重以及节点强度建立假设检验模型,从子图中筛选出可能的新词;根据词性标注规则对可能的新词进行筛选,生成最终的新词。本发明能够从语料库中准确地发现新词,减少了人工维护新词库的工作量,具有很好的可用性。
咨询热线:020-38033421
传真号码:020-38061201
电子邮箱:jm@jiaquanip.cn
Copyright © 嘉权专利商标事务所 All Rights Reserved. 粤ICP备2023151901号