《计算机应用研究》|Application Research of Computers

面向增量同生主题的维吾尔文爬虫的研究

Research for Uyghur crawler face to incremental contemporaneous topic

免费全文下载 (已被下载 次)  
获取PDF全文
作者 赵永霄,哈力旦·阿布都热依木,张振东
机构 新疆大学 电气工程学院,乌鲁木齐 830047
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2014)11-3269-04
DOI 10.3969/j.issn.1001-3695.2014.11.017
摘要 针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的维吾尔文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。
关键词 网络爬虫;网页分类;IC主题模型;锚文本;维吾尔文
基金项目 国家自然科学基金资助项目(61163026,60865001)
本文URL http://www.arocmag.com/article/01-2014-11-017.html
英文标题 Research for Uyghur crawler face to incremental contemporaneous topic
作者英文名 ZHAO Yong-xiao, Halidan Abudureyimu, ZHANG Zhen-dong
机构英文名 College of Electrical Engineering, Xinjiang University, Urumqi 830047, China
英文摘要 According to the traditional topic crawler lacks of processing and understanding to Web information in the knowledge level, this paper proposed a Uyghur crawler face to incremental contemporaneous topic. It set up an incremental topic words library to improve the topic model, to describe the application scenarios and context of the
英文关键词 Web crawler; pages classification; IC topic model; anchor text; Uyghur
参考文献 查看稿件参考文献
  [1] 黄仁, 王良伟. 基于主题相关概念和网页分块的主题爬虫研究[J] . 计算机应用研究, 2013, 30(8):2377-2380, 2409.
[2] BAYKAN E, HENZINGER M R, MARIAN L, et al. Purely URL-based topic classification[C] // Proc of the 18th International World Wide Web Conference. New York:ACM Press, 2009:1109-1110.
[3] 熊忠阳, 史艳, 张玉芳. 基于维基百科和网页分块的主题爬行策略[J] . 计算机应用, 2011, 31(12):3264-3267.
[4] PANT G, SRINIVASAN P, MENCZER F. Exploration versus exploitation in topic driven crawlers[C] // Proc of the 2nd International Workshop on Web Dynamics. New York:ACM Press, 2002:88-97.
[5] 郑健珍, 林坤辉, 周昌乐, 等. 基于本体语义的定题爬虫[J] . 山东大学学报, 2006, 41(3):106-110.
[6] 王辉, 左万利, 王晖昱, 等. 基于质心向量的增量式主题爬行[J] . 计算机研究与发展, 2009, 46(2):217-224.
[7] 张裕钦, 李振坤, 吴永杰. 基于规则模型的网页主题文本提取方法[J] . 计算机工程与设计, 2009, 30(20):4665-4667.
[8] BIRD S, KLEIN E, LOPER E. Natural language processing with python[M] . [S. l. ] :O’Reilly Media Inc, 2009.
[9] 王钟斐, 王彪. 基于锚文本相似度的PageRank改进算法[J] . 计算机工程, 2010, 36(24):258-260.
[10] 阿力木江·艾沙, 吐尔根·依布拉音, 艾山·吾买尔, 等. 基于机器学习的维吾尔文文本分类研究[J] . 计算机工程与应用, 2011, 48(5):110-112.
收稿日期 2013/11/4
修回日期 2013/12/28
页码 3269-3272
中图分类号 TP393
文献标志码 A