《计算机应用研究》|Application Research of Computers

基于动态阈值和命名实体的双重过滤话题追踪

Double filtering based on dynamic threshold and named entity of topic tracking

免费全文下载 (已被下载 次)  
获取PDF全文
作者 魏景璇,鲁燃,张艳辉
机构 1.山东师范大学 信息科学与工程学院,济南 250014;2.山东省分布式计算机软件新技术重点实验室,济南 250014
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2015)04-0982-04
DOI 10.3969/j.issn.1001-3695.2015.04.005
摘要 针对话题追踪静态阈值的缺点和虚假相关报道问题,提出一种基于动态阈值和命名实体双重过滤的话题追踪方法。该方法中,研究了KL距离计算初始阈值,并筛选出候选报道;然后,根据报道时间特点研究了动态阈值方法;最后,抽取追踪话题和测试报道中命名实体,计算命名实体间的相似度以及命名实体相同的个数来选出相关报道,完成话题追踪。通过实验证明该方法的可行性,实验结果表明基于动态阈值和命名实体双重过滤方法能有效地改善话题追踪的性能,并有效降低了话题追踪的误报率和漏报率。
关键词 动态阈值;命名实体;双重过滤;KL距离;话题追踪
基金项目 国家社科基金资助项目(12BXW040)
国家自然科学基金资助项目(61373148)
山东省自然科学基金资助项目(ZR2011FM030
ZR2012FM038)
山东省优秀中青年科学家奖励基金资助项目(BS2013DX033)
本文URL http://www.arocmag.com/article/01-2015-04-005.html
英文标题 Double filtering based on dynamic threshold and named entity of topic tracking
作者英文名 WEI Jing-xuan, LU Ran, ZHANG Yan-hui
机构英文名 1. School of Information Science & Engineering, Shandong Normal University, Jinan 250014, China; 2. Shandong Provincial Key Laboratory for Normal Distributed Computer Software Technology, Jinan 250014, China
英文摘要 In order to overcome the shortcoming of the static threshold and the problem of the false reports, this paper put forward double filtering based on dynamic threshold and named entity of topic tracking. This method used the KL divergence to obtain the initial threshold and the candidate reports. Then, according to the time characteristics of reports, it studied dynamic threshold method. Finally, it extracted named entities of the reports to calculate similarity of named entities and the same number of named entities, which completed topic tracking. The experiment proves the feasibility of the algorithm and improves the efficiency of the topic tracking to a certain extent. In addition, it reduces the rate of false positives and non-response rates.
英文关键词 dynamic threshold; named entity; double filtering; KL divergence; topic tracking
参考文献 查看稿件参考文献
  [1] 洪宇, 张宇, 刘挺, 等. 话题检测与跟踪的评测及研究综述[J] . 中文信息学报, 2007, 21(6):71-87.
[2] 张晓艳, 王挺, 梁晓波. LDA 模型在话题追踪中的应用[J] . 计算机科学, 2011, 38(B10):136-139.
[3] BLEI D M, JORDAN M I. Modeling annotated data[C] //Proc of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM Press, 2003:127-134.
[4] LI Jun, LI Juan-zi. A subtopic division in news special[C] //Proc of the 4th National Information Retrieval and Content Safety Academic Conference. 2008:442-451.
[5] 姚志均, 刘俊涛, 周瑜, 等. 基于对称 KL 距离的相似性度量方法[J] . 华中科技大学学报:自然科学版, 2012, 39(11):1-4.
[6] 许震, 沙朝锋, 王晓玲. 基于 KL 距离的非平衡数据半监督学习算法[J] . 计算机研究与发展, 2010, 47(1):81-87.
[7] 冯奇, 田凤占, 黄厚宽. 基于 KL 距离的 TAN 分类器判别性学习方法[J] . 模式识别与人工智能, 2009, 21(6):806-811.
[8] 赵华, 赵铁军, 赵霞. 时间信息在话题检测中的应用研究[J] . 计算机科学, 2008, 35(1):221-223.
[9] 宋丹, 王卫东, 陈英. 基于改进向量空间模型的话题识别与跟踪[J] . 计算机技术与发展, 2006, 16(9):62-64.
[10] 贾自艳, 何清, 张海俊. 一种基于动态进化模型的事件探测和追踪算法[J] . 计算机研究与发展, 2004, 41(7):1273-1280.
[11] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J] . Journal of Machine Learning Research, 2003, 3(4-5):993-1022.
[12] GRIFFITHS T L, STEYVERS M. Finding scientific topics[J] . Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(S1):5228-5235.
[13] STEYVERS M, GRIFFITHS T. Probabilistic topic models[J] . Handbook of Latent Semantic Analysis, 2007, 427(7):424-440.
[14] 俞鸿魁, 张华平, 刘群, 等. 基于层叠隐马尔可夫模型的中文命名实体识别[J] . 通信学报, 2006, 27(2):87-94.
[15] 陈友, 程学旗, 杨森. 面向网络论坛的突发话题发现[J] . 中文信息学报, 2010, 24(3):29-36.
[16] 郑燕, 鲁燃, 赵爱华. 基于反馈报道的话题模型动态修正方法[J] . 计算机应用, 2012, 32(5):1343-1346.
收稿日期 2014/3/7
修回日期 2014/4/14
页码 982-985
中图分类号 TP391.4
文献标志码 A