您的位置:网站首页 > 《中文科技期刊数据库》 > 工程技术 > 自动化计算机 > 计算机技术理论 > 摘要

基于Python的Web信息获取方法研究

《软件导刊》2018年 第1期 | 魏冬梅 何忠秀 唐建梅   西华大学计算机与软件工程学院 四川成都610039
在线阅读 ★ 收藏 | 分享
  • 第1页
  • 第2页
  • 第3页
论文服务:
摘 要:随着大数据和云计算等新一代互联网技术的迅速发展,Web信息量逐日海量递增。从海量数据中提取有效信息,挖掘有潜在价值的关系成为当前的研究热点,这对揭示已知规律、预测未知结果有极大的辅助作用。对当前Web信息获取方法、原理和关键技术进行研究分析,重点阐述了数据采集相关技术中网络爬虫算法的分类与应用。提出一种以Python和相关库为主要工具,结合模块化方法,构建Web文本信息获取系统框架与流程的策略。案例中通过定义采集函数,实现对给定的维基百科词条,快速搜索与该词条相关信息,对词条内链接和外链接进行有效爬取。结果表明,Python在数据采集方面具有较高的有效性和可扩展性。
【分 类】【工业技术】 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法
【关键词】 PYTHON 信息获取 网络爬虫 正则表达式
【出 处】 《软件导刊》2018年 第1期 41-43页 共3页
【收 录】 中文科技期刊数据库