本发明公开了一种基于随机聚类森林的全基因组蛋白质功能预测方法。该方法将已注释功能的蛋白质按功能分别进行聚类,将具有同一种功能的蛋白质划分为若干个簇,并计算每个簇的中心;所有的簇中心组成蛋白质新的特征向量,使用蛋白质原有的多组特征向量将每个蛋白质转换为只具有一组特征向量的对象;将完成特征转换的蛋白质作为数据集,使用已注释功能的蛋白质训练多棵随机聚类树,构建随机聚类森林作为全基因组蛋白质的功能预测模型,并使用该模型预测未注释的全基因组蛋白质的功能。本发明提高了蛋白质预测的效率,也提高了蛋白质功能的注释准确率。
咨询热线:020-38033421
传真号码:020-38061201
电子邮箱:jm@jiaquanip.cn
Copyright © 嘉权专利商标事务所 All Rights Reserved. 粤ICP备2023151901号