本发明公开的一种基于分布式内存计算的数据去重方法,包含以下顺序的步骤:创建文件分块指纹集并缓存到分布式内存中;按照最优的文件块划分策略对文件进行分块,并完成分块指纹计算,同内存中缓存的指纹集对比,找到匹配的分块,为其添加对应引用;分块指纹集的存储采用多级缓存策略,权值大的缓存到内存中,权值小的缓存到磁盘上;内存分为多个区域,存储不同类型的指纹信息,以对文件进行不同的指纹对比操作。本发明的数据去重方法,提高海量数据去重的效率,从而节省主机空间和网络带宽,为服务商降低数据运维的成本。
咨询热线:020-38033421
传真号码:020-38061201
电子邮箱:jm@jiaquanip.cn
Copyright © 嘉权专利商标事务所 All Rights Reserved. 粤ICP备2023151901号