首页 > 专利商城 > 专利交易
一种基于重做日志的分布式商品信息爬虫方法
交易价格:面谈
所属类型
发明专利
所属行业
G06-计算技术
所属国家
所属地域
PCT项
交易方式
  • 专利详情
  • 专利摘要
  • 主权利要求
  • 优先权项
  • PCT项
CN2016104720481
2016-06-23
发明专利
一种基于重做日志的分布式商品信息爬虫方法
华南理工大学
已授权

本发明公开了一种基于重做日志的分布式商品信息爬虫方法,包括:从数据库中读取配置来生成爬虫任务,定义三种爬虫的重做日志记录格式,执行商品搜索爬虫,在电商网站的搜索结果页中提取商品列表并生成商品信息任务和商品评论任务;把商品信息任务和商品评论任务再分配到各个服务器上,执行商品信息爬虫采集并保存商品的各种属性数据,执行商品评论爬虫采集并保存商品的评论数据;重做日志会记录采集失败的任务和状态;定时从重做日志中取出日志,反序列化为爬虫任务进行重新爬取。本发明的基于重做日志的分布式商品信息爬虫方法,能够针对电商网站的商品数据和评论数据的爬取,有效地提高数据采集的效率和完善性。

联系方式

咨询热线:020-38033421

传真号码:020-38061201

电子邮箱:jm@jiaquanip.cn

关注嘉权专利商标事务所

Copyright © 嘉权专利商标事务所 All Rights Reserved.    粤ICP备2023151901号