本发明公开基于文本聚类的线上课堂讨论短文本即时分组方法及系统。该方法包括:对文本数据进行分词预处理和停用词预处理;获取各文本项关键词,统计存储于关键词表keyTable;对预处理后的文本集,进行频繁项集挖掘,过滤各子项准频繁项集,结合关键词表定义准频繁项集相似度计算规则,粗归簇;将各簇最靠近簇心的点逆映射到文本集,计算各簇内文本词集TF?IDF值,按距离迭代更新质心至最优;将获取的K个簇,即时分组推送。本发明采用的结合关键词表定义准频繁项集相似度计算规则有效提高线上讨论短文本聚类准确度;采用准频繁项集过滤策略有效提高归簇效率,加速聚类方法;把线上课堂讨论过的文本信息内容,自动归纳成多个主题,并把文本内容按主题分组。
咨询热线:020-38033421
传真号码:020-38061201
电子邮箱:jm@jiaquanip.cn
Copyright © 嘉权专利商标事务所 All Rights Reserved. 粤ICP备2023151901号