《计算机应用研究》|Application Research of Computers

面向分类的网页主题特征提取

Web-page topical feature extraction for Web-page classification

免费全文下载 (已被下载 次)  
获取PDF全文
作者 刘建,孙鹏,倪宏
机构 1.中国科学院研究生院,北京 100049;2.中国科学院 声学研究所 国家网络新媒体工程技术研究中心,北京 100190
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2010)09-3399-04
DOI 10.3969/j.issn.1001-3695.2010.09.053
摘要 提出一种基于页面空间特征、视觉特征和内容特征的主题相关性判别方法,通过主题相关度大小量化描述不同内容的重要性,并采用混合加权方法从主题相关节点中提取网页的主题特征。分类实验结果表明,相比传统的FullDoc全文分类,基于此方法提取的主题特征具有更好的分类效果。
关键词 网页分类;主题特征;主题相关性
基金项目 国家科技支撑计划课题(2008BAH28B04)
本文URL http://www.arocmag.com/article/1001-3695(2010)09-3399-04.html
英文标题 Web-page topical feature extraction for Web-page classification
作者英文名 LIU Jian, SUN Peng, NI Hong
机构英文名 1. Graduate University of Chinese Academy of Sciences, Beijing 100049, China; 2. National Network New Media Engineering Research Center, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China
英文摘要 This paper presented a method that identifies the topical correlativity of one node based on the spatial features, vi-sual features and content features of the page, quantitatively described the different degree of importance of the content, and extracted the topical features through the hybrid weighting method. Experimental results show that Web-page classification based on the extracted page features has better effect compared to the traditional FullDoc text classification.
英文关键词 Webpage classification; topical features; topical correlativity
参考文献 查看稿件参考文献
 
收稿日期
修回日期
页码 3399-3402
中图分类号
文献标志码 A