《计算机应用研究》|Application Research of Computers

主题爬虫技术研究综述

Survey on research of themed crawling technique

免费全文下载 (已被下载 次)  
获取PDF全文
作者 潘晓英,陈柳,余慧敏,赵逸喆,肖康泞
机构 西安邮电大学 计算机学院;西安邮电大学 陕西省网络数据智能处理重点实验室
统计 摘要被查看 次,已被下载
摘要 随着移动互联网的普及,网络信息指数增长,如何有效地提取和利用这些信息面临巨大挑战。首先介绍了主题爬虫的工作原理、分类;然后回顾了近年来国内外关于主题爬虫的研究状况,分析了各种主题相似度的方法以及搜索策略,得出相比于普通的爬虫系统基于网页内容和基于链接分析的爬虫系统,查准率、查全率都大幅度的提升;最后分析比较了主题网络爬虫两种动态搜索策略及未来研究方向。
关键词 网络爬虫;主题爬虫;相似度;网页内容;链接分析
基金项目 国家自然科学基金资助项目(61373116)
本文URL http://www.arocmag.com/article/02-2020-05-002.html
收稿日期
修回日期
页码 -
中图分类号 TP393
文献标志码