您的位置:网站首页 > 《中文科技期刊数据库》 > 工程技术 > 自动化计算机 > 计算机应用 > 摘要

增量更新并行Web爬虫系统

《计算机应用》2009年 第4期 | 徐文杰 陈庆奎   上海理工大学计算机与电气工程学院 上海200093
★ 收藏 | 分享
  • 第1页
  • 第2页
  • 第3页
  • 第4页
论文服务:
摘 要:介绍了并行Web爬虫系统的总体结构,引入了增量更新爬虫策略,在提高Web海量数据更新效率的同时,考虑到机群中各个爬虫的能力不一,为了使机群中爬虫的能力得到充分应用,又提出了向量度量技术,解决了抓取任务和爬虫能力匹配的问题。对抓取任务向量、爬虫向量进行了定义,并在此基础上给出了相关的并行算法。实践表明,系统具有良好的分配适应性,并可以在此基础上渐增式地提高网页库新鲜度。
【分 类】【工业技术】 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工)
【关键词】 Web数据抓取 并行爬虫 增量更新策略 余弦向量法
【出 处】 《计算机应用》2009年 第4期 1117-1119页 共4页
【收 录】 中文科技期刊数据库